DP 100

Machine Translated by Google
DP-100
Número: DP-100
Puntaje de aprobación: 800
Límite de tiempo: 120 minutos
Versión del archivo: 1
DP-100
https://www.gratisexam.com/
885CB989129A5F974833949052CFB2F2
Definir y preparar el entorno de desarrollo.
Conjunto de preguntas 1
PREGUNTA 1
Está desarrollando un taller práctico para presentar Docker para Windows a los asistentes.
Debe asegurarse de que los asistentes al taller puedan instalar Docker en sus dispositivos.
¿Qué dos componentes de requisitos previos deben instalar los asistentes en los dispositivos? Cada respuesta correcta presenta parte de la solución.
NOTA: Cada selección correcta vale un punto.
A. Herramienta de detección de virtualización asistida por hardware de Microsoft

B. Kitemática
C. Virtualización habilitada para BIOS
D. Caja virtual
E. Windows 10 Profesional de 64 bits
Respuesta correcta: CE
Sección: (ninguna)
Explicación
Explicación/Referencia:
Explicación: C: Asegúrese de
que su sistema Windows sea compatible con la tecnología de virtualización de hardware y que la virtualización esté habilitada.
Asegúrese de que el soporte de virtualización de hardware esté activado en la configuración del BIOS. Por ejemplo:
885CB989129A5F974833949052CFB2F2
E: Para ejecutar Docker, su máquina debe tener un sistema operativo de 64 bits con Windows 7 o superior.
Referencia:
https://docs.docker.com/toolbox/toolbox_install_windows/
https://blogs.technet.microsoft.com/canitpro/2015/09/08/step-by-step-habilitating-hyper-v-for-use-on-windows-10/
PREGUNTA 2
Planea crear un entorno de ciencia de datos en equipo. Los datos para los modelos de entrenamiento en canalizaciones de aprendizaje automático tendrán un tamaño de más de 20 GB.
Tienes los siguientes requisitos:
Los modelos deben construirse utilizando los marcos Caffe2 o Chainer.

Los científicos de datos deben poder utilizar un entorno de ciencia de datos para construir canalizaciones de aprendizaje automático y entrenar modelos en sus dispositivos personales,
tanto en entornos de red conectados como desconectados.
Los dispositivos personales deben admitir la actualización de canalizaciones de aprendizaje automático cuando se conectan a una red.
Debe seleccionar un entorno de ciencia de datos.
¿Qué entorno debe usar?
A. Servicio de aprendizaje automático de Azure

B. Estudio de aprendizaje automático de Azure
885CB989129A5F974833949052CFB2F2
C. Azure Databricks
D. Servicio Azure Kubernetes (AKS)
Respuesta correcta: A
Sección: (ninguna)
Explicación
Explicación: La máquina virtual
de ciencia de datos (DSVM) es una imagen de máquina virtual personalizada en la nube Azure de Microsoft creada específicamente para hacer ciencia de datos. Caffe2 y Chainer son compatibles con
DSVM.
DSVM se integra con Azure Machine Learning.
Respuestas incorrectas:
B: utilice Machine Learning Studio cuando desee experimentar con modelos de aprendizaje automático de forma rápida y sencilla, y los algoritmos de aprendizaje automático integrados son suficientes
para sus soluciones.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/data-science-virtual-machine/overview
PREGUNTA 3
Está implementando un modelo de aprendizaje automático para predecir los precios de las acciones.
El modelo utiliza una base de datos PostgreSQL y requiere procesamiento de GPU.
Debe crear una máquina virtual que esté preconfigurada con las herramientas necesarias.
¿Qué debes hacer?
A. Cree una edición de Windows de Máquina virtual de ciencia de datos (DSVM).

B. Cree una edición de Windows de la máquina virtual de ciencia de datos Geo Al (Geo-DSVM).
C. Cree una edición Linux de máquina virtual de aprendizaje profundo (DLVM).
D. Cree una edición de Windows de máquina virtual de aprendizaje profundo (DLVM).
Sección: (ninguna)
Explicación
Explicación: En DSVM, sus
modelos de entrenamiento pueden usar algoritmos de aprendizaje profundo en hardware basado en unidades de procesamiento de gráficos (GPU).
885CB989129A5F974833949052CFB2F2
PostgreSQL está disponible para los siguientes sistemas operativos: Linux (todas las distribuciones recientes), instaladores de 64 bits disponibles para macOS (OS X) versión 10.6 y posteriores – Windows
(con instaladores disponibles para la versión de 64 bits; probado en las últimas versiones y de vuelta a Windows 2012 R2.
B: Azure Geo AI Data Science VM (Geo-DSVM) ofrece capacidades de análisis geoespacial de Data Science VM de Microsoft. Específicamente, esta máquina virtual amplía los kits de herramientas de inteligencia
artificial y ciencia de datos en la máquina virtual de ciencia de datos al agregar el sistema de información geográfica ArcGIS Pro líder en el mercado de ESRI.
C, D: DLVM es una plantilla sobre la imagen de DSVM. En cuanto a los paquetes, los controladores de GPU, etc., están todos en la imagen de DSVM. Principalmente, es por conveniencia durante la creación,
donde solo permitimos que se cree DLVM en instancias de VM de GPU en Azure.
Referencia:
PREGUNTA 4
Está desarrollando modelos de aprendizaje profundo para analizar tipos de datos semiestructurados, no estructurados y estructurados.
Tiene los siguientes datos disponibles para la construcción del modelo:
Grabaciones en video de eventos deportivos.

Transcripciones de comentarios de radio sobre eventos.
Registros de feeds de redes sociales relacionados capturados durante eventos deportivos
Debe seleccionar un entorno para crear el modelo.
¿Qué entorno debe usar?
A. Azure Cognitive Services B.

Azure Data Lake Analytics C. Azure
HDInsight con Spark MLib D. Azure Machine
Learning Studio
Sección: (ninguna)
Explicación
Explicación:
Azure Cognitive Services amplía la cartera en evolución de API de aprendizaje automático de Microsoft y permite a los desarrolladores agregar fácilmente funciones cognitivas, como
885CB989129A5F974833949052CFB2F2
detección de emociones y video; reconocimiento facial, del habla y de la vista; y la comprensión del habla y el lenguaje – en sus aplicaciones. El objetivo de Azure Cognitive Services es ayudar a los
desarrolladores a crear aplicaciones que puedan ver, oír, hablar, comprender e incluso comenzar a razonar. El catálogo de servicios dentro de Azure Cognitive Services se puede categorizar en cinco
pilares principales: Visión, Habla, Idioma, Búsqueda y Conocimiento.
Referencia:
https://docs.microsoft.com/en-us/azure/cognitive-services/welcome
PREGUNTA 5
Debe almacenar datos en Azure Blob Storage para admitir Azure Machine Learning.
Debe transferir los datos a Azure Blob Storage.
¿Cuáles son las tres formas posibles de lograr el objetivo? Cada respuesta correcta presenta una solución completa.
A. Consulta SQL de inserción

masiva B. AzCopy C. Script de
Python D. Azure Storage
Explorer E. Programa de copia
masiva (BCP)
Respuesta correcta: BCD

Sección: (ninguno)
Explicación
Explicación:
Puede mover datos hacia y desde Azure Blob Storage mediante diferentes tecnologías:
Explorador de Azure Storage

AzCopiar
Pitón
SSIS
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/team-data-science-process/move-azure-blob
PREGUNTA 6
Está moviendo un gran conjunto de datos de Azure Machine Learning Studio a un entorno Weka.
885CB989129A5F974833949052CFB2F2
Debe formatear los datos para el entorno Weka.
¿Qué módulo debería usar?
A. Convertir a CSV
B. Convertir a conjunto de datos
C. Convertir a ARFF D.
Convertir a SVMLight
Respuesta correcta: C
Sección: (ninguno)
Explicación
Explicación: Use el módulo
Convertir a ARFF en Azure Machine Learning Studio para convertir conjuntos de datos y resultados en Azure Machine Learning al formato de archivo de relación de atributos que usa el conjunto de herramientas de
Weka. Este formato se conoce como ARFF.
La especificación de datos ARFF para Weka admite múltiples tareas de aprendizaje automático, incluido el preprocesamiento de datos, la clasificación y la selección de funciones. En este formato, los datos están
organizados por entidades y sus atributos, y están contenidos en un solo archivo de texto.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/convert-to-arff
PREGUNTA 7
Planea crear un modelo de aprendizaje profundo de reconocimiento de voz.
El modelo debe ser compatible con la última versión de Python.
Debe recomendar un marco de aprendizaje profundo para que el reconocimiento de voz se incluya en la máquina virtual de ciencia de datos (DSVM).
¿Qué deberías recomendar?
A. Sonajero
B. TensorFlow
C. semana
D. Scikit-aprender
Respuesta correcta: B
Sección: (ninguno)
885CB989129A5F974833949052CFB2F2
Explicación
Explicación: TensorFlow es una
biblioteca de código abierto para computación numérica y aprendizaje automático a gran escala. Utiliza Python para proporcionar una API front-end conveniente para crear aplicaciones con el marco TensorFlow
puede entrenar y ejecutar redes neuronales profundas para la clasificación de dígitos escritos a mano, reconocimiento de imágenes, incrustaciones de palabras, redes neuronales recurrentes, modelos de
secuencia a secuencia para traducción automática, natural procesamiento de lenguaje y simulaciones basadas en PDE (ecuación diferencial parcial).
R: Rattle es la herramienta analítica de R que lo ayuda a comenzar con el análisis de datos y el aprendizaje automático.
C: Weka se utiliza para software de aprendizaje automático y minería de datos visuales en Java.
D: Scikit-learn es una de las bibliotecas más útiles para el aprendizaje automático en Python. Está en NumPy, SciPy y matplotlib, esta biblioteca contiene muchas herramientas eficientes para el aprendizaje
automático y el modelado estadístico, incluida la clasificación, la regresión, la agrupación y la reducción de la dimensionalidad.
Referencia:
https://www.infoworld.com/article/3278008/what-is-tensorflow-the-machine-learning-library-explained.html
PREGUNTA 8
Tiene previsto utilizar una máquina virtual de ciencia de datos (DSVM) con los marcos de aprendizaje profundo de código abierto Caffe2 y PyTorch.
Debe seleccionar una DSVM preconfigurada para admitir los marcos.
¿Qué deberías crear?
A. Máquina virtual de ciencia de datos para Windows 2012 B.

Máquina virtual de ciencia de datos para Linux (CentOS)
C. Máquina virtual de ciencia de datos Geo AI con ArcGIS
D. Máquina virtual de ciencia de datos para Windows 2016
E. Máquina virtual de ciencia de datos para Linux (Ubuntu)
Respuesta correcta: E
Sección: (ninguno)
Explicación
Explicación: Caffe2 y PyTorch
son compatibles con Data Science Virtual Machine para Linux.
Microsoft ofrece ediciones Linux de DSVM en Ubuntu 16.04 LTS y CentOS 7.4.
Solo el DSVM en Ubuntu está preconfigurado para Caffe2 y PyTorch.
885CB989129A5F974833949052CFB2F2
D: Caffe2 y PytOCH solo son compatibles con la máquina virtual de ciencia de datos para Linux.
Referencias:
PREGUNTA 9
Está desarrollando un área de trabajo de ciencia de datos que usa un servicio Azure Machine Learning.
Debe seleccionar un destino de proceso para implementar el espacio de trabajo.
¿Qué debes usar?
A. Azure Data Lake Analytics B. Azure

Databricks
C. Servicio de contenedor de Azure
D. Apache Spark para HDInsight
Sección: (ninguno)
Explicación
Explicación: Azure Container
Instances se puede usar como destino de proceso para pruebas o desarrollo. Utilícelo para cargas de trabajo basadas en CPU de baja escala que requieran menos de 48 GB de RAM.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/service/how-to-deploy-and-where
PREGUNTA 10
Estás resolviendo una tarea de clasificación.
El conjunto de datos está desequilibrado.
Debe seleccionar un módulo de Azure Machine Learning Studio para mejorar la precisión de la clasificación.
A. Importancia de la característica de permutación

B. Selección de características basada en filtros
885CB989129A5F974833949052CFB2F2
C. Análisis discriminante lineal de Fisher D.

Técnica de sobremuestreo minoritario sintético (SMOTE)
Respuesta correcta: D
Sección: (ninguna)
Explicación
Explicación: use el módulo
SMOTE en Azure Machine Learning Studio (clásico) para aumentar la cantidad de casos subrepresentados en un conjunto de datos que se usa para el aprendizaje automático.
SMOTE es una mejor manera de aumentar el número de casos raros que simplemente duplicar los casos existentes.
Conecta el módulo SMOTE a un conjunto de datos que está desequilibrado. Hay muchas razones por las que un conjunto de datos puede estar desequilibrado: la categoría a la que se dirige puede ser
muy rara en la población, o los datos pueden ser simplemente difíciles de recopilar. Por lo general, usa SMOTE cuando la clase que desea analizar está subrepresentada.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/smote
PREGUNTA 11
Está analizando un conjunto de datos que contiene datos históricos de una empresa de taxis local. Estás desarrollando un modelo de regresión.
Debe predecir la tarifa de un viaje en taxi.
Debe seleccionar métricas de rendimiento para evaluar correctamente el modelo de regresión.
¿Qué dos métricas puedes usar? ¿Cada respuesta correcta presenta una solución completa?
A. un valor de error cuadrático medio que es bajo B. un

valor R-Squared cercano a 0 C. una puntuación F1 que
es baja
D. un valor R-Squared cercano a 1 E.
una puntuación F1 alta F. un valor de
error cuadrático medio alto
Respuesta correcta: AD
Sección: (ninguna)
Explicación
885CB989129A5F974833949052CFB2F2
Explicación: RMSE y R2 son
métricas para modelos de regresión.
R: El error cuadrático medio (RMSE) crea un valor único que resume el error en el modelo. Al elevar al cuadrado la diferencia, la métrica ignora la diferencia entre la predicción excesiva y la predicción
insuficiente.
D: el coeficiente de determinación, a menudo denominado R2, representa el poder predictivo del modelo como un valor entre 0 y 1. Cero significa que el modelo es aleatorio (no explica nada); 1 significa
que hay un ajuste perfecto. Sin embargo, se debe tener precaución al interpretar los valores de R2, ya que los valores bajos pueden ser completamente normales y los valores altos pueden ser sospechosos.
C, E: la puntuación F se usa para modelos de clasificación, no para modelos de regresión.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/evaluate-model
PREGUNTA 12
Nota: Esta pregunta es parte de una serie de preguntas que presentan el mismo escenario. Cada pregunta de la serie contiene una solución única que podría cumplir con los objetivos
establecidos. Algunos conjuntos de preguntas pueden tener más de una solución correcta, mientras que otros pueden no tener una solución correcta.
Después de responder una pregunta en esta sección, NO podrá regresar a ella. Como resultado, estas preguntas no aparecerán en la pantalla de revisión.
Utiliza Azure Machine Learning para ejecutar un experimento que entrena un modelo de clasificación.
Desea usar Hyperdrive para encontrar parámetros que optimicen la métrica AUC para el modelo. Configure un HyperDriveConfig para el experimento ejecutando el siguiente código:
Planea usar esta configuración para ejecutar un script que entrena un modelo de bosque aleatorio y luego lo prueba con datos de validación. Los valores de etiqueta para los datos de validación se
almacenan en una variable denominada y_test variable, y las probabilidades pronosticadas del modelo se almacenan en una variable denominada y_predicted.
Debe agregar el registro al script para permitir que Hyperdrive optimice los hiperparámetros para la métrica AUC.
885CB989129A5F974833949052CFB2F2
Solución: Ejecute el siguiente código:
¿La solución cumple con el objetivo?
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: ejemplo de
impresión/registro de Python:
logging.info(mensaje)
Destino: registros del controlador, diseñador de Azure Machine Learning
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-debug-pipelines
PREGUNTA 13
885CB989129A5F974833949052CFB2F2
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación Use una solución
con logging.info (mensaje) en su lugar.
Nota: ejemplo de impresión/registro de Python:

logging.info(message)
885CB989129A5F974833949052CFB2F2
Referencia:
PREGUNTA 14
R. Sí
885CB989129A5F974833949052CFB2F2
B No
Sección: (ninguna)
Explicación
Explicación Use una solución
con logging.info (mensaje) en su lugar.
Nota: ejemplo de impresión/registro de Python:

logging.info(message)
Referencia:
PREGUNTA 15
Tiene previsto aprovisionar un espacio de trabajo de la edición básica de Azure Machine Learning para un proyecto de ciencia de datos.
Debe identificar las tareas que podrá realizar en el espacio de trabajo.
¿Qué tres tareas serás capaz de realizar? Cada respuesta correcta presenta una solución completa.
A. Cree una instancia informática y utilícela para ejecutar código en cuadernos de Jupyter.
B. Cree un clúster de inferencia de Azure Kubernetes Service (AKS).
C. Utilice el diseñador para entrenar un modelo arrastrando y soltando módulos predefinidos.
D. Cree un conjunto de datos tabulares que admita el control de versiones.
E. Use la interfaz de usuario de aprendizaje automático automatizado para entrenar un modelo.
Respuesta correcta: ABD

Sección: (ninguna)
Explicación
Respuestas incorrectas: C, E:
La interfaz de usuario se incluye solo en la edición Enterprise.
885CB989129A5F974833949052CFB2F2
Referencia:
https://azure.microsoft.com/en-us/pricing/details/machine-learning/
PREGUNTA 16 Un
conjunto de archivos CSV contiene registros de ventas. Todos los archivos CSV tienen el mismo esquema de datos.
Cada archivo CSV contiene el registro de ventas de un mes en particular y tiene el nombre de archivo sales.csv. Cada archivo se almacena en una carpeta que indica el mes y el año en que se registraron los datos.
Las carpetas están en un contenedor de blobs de Azure para el que se ha definido un almacén de datos en un área de trabajo de Azure Machine Learning. Las carpetas están organizadas en una carpeta principal
denominada ventas para crear la siguiente estructura jerárquica:
Al final de cada mes, se agrega una nueva carpeta con el archivo de ventas de ese mes a la carpeta de ventas .
Planea usar los datos de ventas para entrenar un modelo de aprendizaje automático basado en los siguientes requisitos:
Debe definir un conjunto de datos que cargue todos los datos de ventas hasta la fecha en una estructura que se pueda convertir fácilmente en un marco de datos.
Debe poder crear experimentos que utilicen solo los datos que se crearon antes de un mes anterior específico, ignorando los datos que se agregaron después de ese mes.
Debe registrar el mínimo número de conjuntos de datos posible.
Debe registrar los datos de ventas como un conjunto de datos en el área de trabajo del servicio Azure Machine Learning.
¿Qué debes hacer?
A. Cree un conjunto de datos tabulares que haga referencia al almacén de datos y especifique explícitamente cada archivo 'sales/mm-yyyy/sales.csv' cada mes. Registre el conjunto de datos con el
nombre sales_dataset cada mes, reemplazando el conjunto de datos existente y especificando una etiqueta llamada mes que indica el mes y el año en que se registró. Utilice este conjunto de datos para
todos los experimentos.
B. Cree un conjunto de datos tabular que haga referencia al almacén de datos y especifique la ruta 'sales/*/sales.csv', registre el conjunto de datos con el nombre sales_dataset y una etiqueta denominada
mes que indique el mes y el año en que se registró, y use este conjunto de datos para todos los experimentos.
C. Cree un nuevo conjunto de datos tabulares que haga referencia al almacén de datos y especifique explícitamente cada archivo 'sales/mm-yyyy/sales.csv' cada mes. Registre el conjunto de datos con el nombre
sales_dataset_MM-YYYY cada mes con los valores MM y YYYY apropiados para el mes y el año. Use el conjunto de datos específico del mes adecuado para los experimentos.
885CB989129A5F974833949052CFB2F2
D. Cree un conjunto de datos tabulares que haga referencia al almacén de datos y especifique explícitamente cada archivo 'sales/mm-yyyy/sales.csv'. Registre el conjunto de datos con el nombre
sales_dataset cada mes como una nueva versión y con una etiqueta llamada mes que indica el mes y el año en que se registró. Use este conjunto de datos para todos los experimentos, identificando la versión
que se usará en función de la etiqueta del mes , según sea necesario.
Sección: (ninguna)
Explicación
Explicación: Especifique la ruta.
Ejemplo: el
siguiente código obtiene el espacio de trabajo existente y el almacén de datos deseado por nombre. Y luego pasa el almacén de datos y las ubicaciones del archivo al parámetro de ruta para crear un nuevo
TabularDataset, weather_ds.
desde azureml.core importar espacio de trabajo, almacén de datos, conjunto de datos
datastore_name = 'su nombre de almacén de datos'
# obtener espacio de trabajo

existente espacio de trabajo = Workspace.from_config()
# recuperar un almacén de datos existente en el espacio de trabajo por

nombre datastore = Datastore.get(workspace, datastore_name)
# crear un TabularDataset a partir de 3 rutas de archivos en el almacén

de datos datastore_paths = [(almacén de datos, 'tiempo/2018/11.csv'),
(almacén de datos, 'tiempo/2018/12.csv'), (almacén de
datos, 'tiempo/2019/* .csv')]
weather_ds = Dataset.Tabular.from_delimited_files(path=datastore_paths)
PREGUNTA 17
Utilice el siguiente código para ejecutar un script como un experimento en Azure Machine Learning:
885CB989129A5F974833949052CFB2F2
Debe identificar los archivos de salida generados por la ejecución del experimento.
Debe agregar código para recuperar los nombres de los archivos de salida.
¿Qué segmento de código debe agregar al script?
A. archivos = ejecutar.get_properties()
B. archivos= ejecutar.get_file_names()
C. archivos = ejecutar.obtener_detalles_con_registros()
D. archivos = ejecutar.get_metrics()
E. archivos = ejecutar.get_detalles()
Sección: (ninguna)
Explicación
Explicación: Puede enumerar
todos los archivos que están asociados con este registro de ejecución llamando a run.get_file_names()
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-track-experiments
PREGUNTA 18
Usted escribe cinco secuencias de comandos de Python que deben procesarse en el orden especificado en el Anexo A, lo que permite que los mismos módulos se ejecuten en paralelo, pero esperará
módulos con dependencias.
Debe crear una canalización de Azure Machine Learning con el SDK de Python, porque desea generar un script para crear la canalización para realizar un seguimiento en su sistema de control de
versiones. Ha creado cinco PythonScriptSteps y ha nombrado las variables para que coincidan con los nombres de los módulos.
885CB989129A5F974833949052CFB2F2
Debe crear la canalización que se muestra. Suponga que se han realizado todas las importaciones pertinentes.
¿Qué segmento de código de Python debería usar?
UNA.
B.
C.
D.
885CB989129A5F974833949052CFB2F2
Sección: (ninguna)
Explicación
Explicación: El parámetro de
pasos es una matriz de pasos. Para crear canalizaciones que tengan varios pasos, coloque los pasos en orden en esta matriz.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-use-parallel-run-step
PREGUNTA 19
Crea un almacén de datos denominado training_data que hace referencia a un contenedor de blobs en una cuenta de Azure Storage. El contenedor de blobs contiene una carpeta denominada csv_files
en la que se almacenan varios archivos de valores separados por comas (CSV).
Tiene un script llamado train.py en una carpeta local llamada ./script que planea ejecutar como un experimento usando un estimador. El script incluye el siguiente código para leer datos de la carpeta
csv_files:
Tienes el siguiente script.
885CB989129A5F974833949052CFB2F2
Debe configurar el estimador para el experimento para que la secuencia de comandos pueda leer los datos de una referencia de datos llamada data_ref que hace referencia a la carpeta csv_files
en el almacén de datos training_data.
¿Qué código debe usar para configurar el estimador?
UNA.
B.
C.
D.
885CB989129A5F974833949052CFB2F2
Y.
Sección: (ninguna)
Explicación
Explicación: Además de pasar
el conjunto de datos a través del parámetro de entrada en el estimador, también puede pasar el conjunto de datos a través de script_params y obtener la ruta de datos (punto de montaje) en su script de
entrenamiento a través de argumentos. De esta forma, puede mantener su script de entrenamiento independiente de azureml-sdk. En otras palabras, podrá usar el mismo script de capacitación para la
depuración local y la capacitación remota en cualquier plataforma en la nube.
Ejemplo:
from azureml.train.sklearn import SKLearn
script_params = {
# montar el conjunto de datos en el cómputo remoto y pasar la ruta montada como argumento al script de entrenamiento '--data-folder':
mnist_ds.as_named_input('mnist').as_mount(), '--regularization': 0.5
est = SKLearn(source_directory=script_folder,
script_params=script_params,
compute_target=compute_target,
environment_definition=env,
entry_script='train_mnist.py')
# Ejecute el experimento
run = experiment.submit(est)
run.wait_for_completion(show_output=True)
A: Pandas DataFrame no se usa.
Referencia:
https://docs.microsoft.com/es-es/azure/machine-learning/how-to-train-with-datasets
PREGUNTA 20
Usted crea un modelo de aprendizaje profundo para el reconocimiento de imágenes en el servicio Azure Machine Learning mediante el entrenamiento basado en GPU.
885CB989129A5F974833949052CFB2F2
Debe implementar el modelo en un contexto que permita la inferencia basada en GPU en tiempo real.
Debe configurar los recursos informáticos para la inferencia de modelos.
¿Qué tipo de cómputo debe usar?
A. Instancia de contenedor de Azure

B. Azure Kubernetes Service C.
Arreglo de puerta programable de campo
D. Cómputo de aprendizaje automático
Sección: (ninguna)
Explicación
Explicación: puede usar Azure
Machine Learning para implementar un modelo habilitado para GPU como un servicio web. La implementación de un modelo en Azure Kubernetes Service (AKS) es una opción. El clúster de AKS
proporciona un recurso de GPU que el modelo usa para la inferencia.
La inferencia, o puntuación del modelo, es la fase en la que se utiliza el modelo desplegado para hacer predicciones. El uso de GPU en lugar de CPU ofrece ventajas de rendimiento en computación
altamente paralelizable.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-deploy-inferencing-gpus
PREGUNTA 21
Crea una canalización de inferencia por lotes mediante el SDK de Azure ML. La canalización se ejecuta con el siguiente código:
from azureml.pipeline.core import Pipeline from azureml.core.experiment

import Experimento
pipeline = Pipeline(workspace=ws, steps=[parallelrun_step]) pipeline_run = Experiment(ws,

'batch_pipeline').submit(pipeline)
Debe monitorear el progreso de la ejecución de la canalización.
¿Cuáles son las dos maneras posibles de lograr esta meta? Cada respuesta correcta presenta una solución completa.
885CB989129A5F974833949052CFB2F2
A. Ejecute el siguiente código en un cuaderno:
B. Use la pestaña Clústeres de inferencia en Machine Learning Studio.

C. Use el registro de actividad en Azure Portal para el área de trabajo de Machine Learning.
D. Ejecute el siguiente código en un cuaderno:
E. Ejecute el siguiente código y controle la salida de la consola desde el objeto PipelineRun:
Respuesta correcta: DE
Sección: (ninguna)
Explicación
Explicación: Un trabajo de
inferencia por lotes puede tardar mucho tiempo en finalizar. Este ejemplo supervisa el progreso mediante el uso de un widget de Jupyter. También puede administrar el progreso del trabajo usando:
Estudio de aprendizaje automático de Azure.
Salida de consola del objeto PipelineRun.
desde azureml.widgets import RunDetails

RunDetails(pipeline_run).show()
pipeline_run.wait_for_completion(show_output=True)
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-use-parallel-run-step#monitor-the-parallel-run-job
PREGUNTA 22
Usted crea un modelo de aprendizaje profundo de clasificación de imágenes de varias clases.
El modelo se entrena con PyTorch versión 1.2.
Debe asegurarse de que se pueda identificar la versión correcta de PyTorch para el entorno de inferencia cuando se implemente el modelo.
885CB989129A5F974833949052CFB2F2
¿Qué debes hacer?
A. Guarde el modelo localmente como un archivo.pt e implemente el modelo como un servicio web local.
B. Implemente el modelo en un equipo que esté configurado para usar el entorno de conda predeterminado de Azure Machine Learning.
C. Registre el modelo con una extensión de archivo .pt y la propiedad de versión predeterminada .
D. Registrar el modelo, especificando las propiedades model_framework y model_framework_version .
Sección: (ninguna)
Explicación
Explicación: framework_version:
La versión de PyTorch que se usará para ejecutar el código de entrenamiento.
Referencia:
https://docs.microsoft.com/en-us/python/api/azureml-train-core/azureml.train.dnn.pytorch?view=azure-ml-py
PREGUNTA 23
Un departamento de TI crea los siguientes grupos de recursos y recursos de Azure:
El departamento de TI crea un destino de proceso de inferencia basado en Azure Kubernetes Service (AKS) denominado aks-cluster en el área de trabajo de Azure Machine Learning.
Tiene una computadora Microsoft Surface Book con una GPU. Python 3.6 y Visual Studio Code están instalados.
885CB989129A5F974833949052CFB2F2
Debe ejecutar un script que entrene un modelo de red neuronal profunda (DNN) y registre las métricas de pérdida y precisión.
Solución: Instale el SDK de Azure ML en Surface Book. Ejecute el código de Python para conectarse al espacio de trabajo y luego ejecute el script de entrenamiento como un experimento en la computación
local.
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: es necesario
adjuntar la máquina virtual mlvm como destino de proceso en el área de trabajo de Azure Machine Learning.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/concept-compute-target
PREGUNTA 24
Crea un espacio de trabajo de Azure Machine Learning.
Debe crear un rol personalizado llamado DataScientist que cumpla con los siguientes requisitos:
Los miembros del rol no deben poder eliminar el espacio de trabajo.

Los miembros del rol no deben poder crear, actualizar ni eliminar recursos informáticos en el área de trabajo.
Los miembros del rol no deben poder agregar nuevos usuarios al espacio de trabajo.
Debe crear un archivo JSON para el rol DataScientist en el área de trabajo de Azure Machine Learning.
El rol personalizado debe hacer cumplir las restricciones especificadas por el equipo de operaciones de TI.
¿Qué segmento de código JSON debe usar?
885CB989129A5F974833949052CFB2F2
UNA.
B.
C.
885CB989129A5F974833949052CFB2F2
D.
Sección: (ninguna)
Explicación
Explicación: El siguiente rol
personalizado puede hacer todo en el espacio de trabajo excepto las siguientes acciones: No puede crear ni
actualizar un recurso informático.
No puede eliminar un recurso informático.
No puede agregar, eliminar ni modificar asignaciones de funciones.
No puede eliminar el espacio de trabajo.
Para crear un rol personalizado, primero cree un archivo JSON de definición de roles que especifique el permiso y el alcance del rol. El siguiente ejemplo define un rol personalizado denominado
"Científico de datos personalizado" en el ámbito de un nivel de espacio de trabajo específico:
data_scientist_custom_role.json: {
"Nombre": "Científico de datos

personalizado", "IsCustom": verdadero,
"Descripción": "Puede ejecutar un experimento pero no puede crear ni eliminar un
cálculo", "Acciones": ["*"], "NotActions": [ "Microsoft.MachineLearningServices/workspaces/
*/delete", "Microsoft.MachineLearningServices/workspaces/write",
"Microsoft.MachineLearningServices/workspaces/computes/*/write",
"Microsoft.MachineLearningServices/workspaces/computes/*/delete",
"Microsoft.Autorización/*/escribir"
],
"Ámbitos asignables": [
"/subscriptions/<subscription_id>/resourceGroups/<resource_group_name>/providers/Microsoft.MachineLearningServices/workspaces/<workspace_name>"
]
885CB989129A5F974833949052CFB2F2
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-assign-roles
PREGUNTA 25
Entrena un modelo de aprendizaje automático.
Debe implementar el modelo como un servicio de inferencia en tiempo real para realizar pruebas. El servicio requiere un uso bajo de la CPU y menos de 48 MB de RAM. El destino de cómputo para el servicio
implementado debe inicializarse automáticamente mientras se minimizan los costos y la sobrecarga administrativa.
¿Qué destino de proceso debe usar?
A. Instancia de contenedor de Azure (ACI)

B. clúster de Azure Databricks adjunto
C. Clúster de inferencia de Azure Kubernetes Service (AKS) D.

Clúster de proceso de Azure Machine Learning
Sección: (ninguna)
Explicación
Explicación: Azure Container
Instances (ACI) solo es adecuado para modelos pequeños de menos de 1 GB de tamaño.
Úselo para cargas de trabajo basadas en CPU de baja escala que requieran menos de 48 GB de RAM.
Nota: Microsoft recomienda usar clústeres de Azure Kubernetes Service (AKS) de un solo nodo para la prueba de desarrollo de modelos más grandes.
Referencia:
https://docs.microsoft.com/id-id/azure/machine-learning/how-to-deploy-and-where
PREGUNTA 26
Registra un modelo que planea usar en una canalización de inferencia por lotes.
La canalización de inferencia por lotes debe usar un paso ParallelRunStep para procesar archivos en un conjunto de datos de archivo. El script tiene las ejecuciones del paso ParallelRunStep que deben procesar seis
archivos de entrada cada vez que se llama a la función de inferencia.
Necesita configurar la canalización.
¿Qué opción de configuración debe especificar en el objeto ParallelRunConfig para el paso PrallelRunStep?
885CB989129A5F974833949052CFB2F2
A. process_count_per_node= "6"
B. node_count = "6"
C. mini_batch_size= "6"
D. error_umbral= "6"
Sección: (ninguna)
Explicación
Explicación: node_count es la
cantidad de nodos en el destino de cómputo que se usa para ejecutar ParallelRunStep.
A: process_count_per_node
Número de procesos ejecutados en cada nodo. (opcional, el valor predeterminado es el número de núcleos en el nodo).
C: mini_batch_size Para
la entrada de FileDataset, este campo es el número de archivos que el script de usuario puede procesar en una llamada run(). Para la entrada TabularDataset, este campo es el tamaño aproximado de los datos que la
secuencia de comandos del usuario puede procesar en una llamada run(). Los valores de ejemplo son 1024, 1024 KB, 10 MB y 1 GB.
D: error_threshold La
cantidad de fallas de registro para TabularDataset y fallas de archivo para FileDataset que deben ignorarse durante el procesamiento. Si el recuento de errores supera este valor, el trabajo se cancelará.
Referencia:
https://docs.microsoft.com/en-us/python/api/azureml-contrib-pipeline-steps/azureml.contrib.pipeline.steps.parallelrunconfig?view=azure-ml-py
PREGUNTA 27
Implementa un servicio de inferencia en tiempo real para un modelo entrenado.
El modelo implementado es compatible con una aplicación crítica para el negocio y es importante poder monitorear los datos enviados al servicio web y las predicciones que generan los datos.
Debe implementar una solución de supervisión para el modelo implementado con un esfuerzo administrativo mínimo.
¿Qué debes hacer?
A. Ver las explicaciones del modelo registrado en Azure ML Studio.

B. Habilite Azure Application Insights para el punto de conexión de servicio y vea los datos registrados en Azure Portal.
885CB989129A5F974833949052CFB2F2
C. Ver los archivos de registro generados por el experimento utilizado para entrenar el modelo.
D. Cree un URI de seguimiento de ML Flow que haga referencia al extremo y vea los datos registrados por ML Flow.
Sección: (ninguna)
Explicación
Explicación: Configure el registro
con Azure Machine Learning Studio. También puede habilitar Azure
Application Insights desde Azure Machine Learning Studio. Cuando esté listo para implementar su modelo como un servicio web, siga los siguientes pasos para habilitar Application Insights:
1. Inicie sesión en Studio en https://ml.azure.com.

2. Vaya a Modelos y seleccione el modelo que desea implementar.
3. Seleccione +Implementar.
4. Complete el formulario Implementar modelo.
5. Expanda el menú Avanzado.
6. Seleccione Habilitar el diagnóstico y la recopilación de datos de Application Insights.
885CB989129A5F974833949052CFB2F2
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-enable-app-insights
PREGUNTA 28
Usted crea un espacio de trabajo de Azure Machine Learning. Está preparando un entorno de Python local en una computadora portátil. Desea usar la computadora portátil para conectarse
al espacio de trabajo y realizar experimentos.
Cree el siguiente archivo config.json.
Debe usar el SDK de Azure Machine Learning para interactuar con datos y experimentos en el área de trabajo.
Debe configurar el archivo config.json para conectarse al espacio de trabajo desde el entorno de Python.
885CB989129A5F974833949052CFB2F2
¿Qué dos parámetros adicionales debe agregar al archivo config.json para conectarse al espacio de trabajo? Cada respuesta correcta presenta parte de la solución.
A. inicio de
sesión B. grupo_de_recursos
C. id_suscripción D. clave
región este
Respuesta correcta: BC
Sección: (ninguna)
Explicación
Explicación: Para utilizar el
mismo espacio de trabajo en varios entornos, cree un archivo de configuración JSON. El archivo de configuración guarda su suscripción (subscription_id), recurso (resource_group) y el nombre del espacio
de trabajo para que pueda cargarse fácilmente.
El siguiente ejemplo muestra cómo crear un espacio de trabajo. desde

azureml.core import Workspace ws = Workspace.create(name='myworkspace',
id_suscripción='<id-suscripción-azure>',
resource_group='myresourcegroup',
create_resource_group=True, location='eastus2' )
Referencia:
https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace
PREGUNTA 29
Usted crea un recurso informático de Azure Machine Learning para entrenar modelos. El recurso informático está configurado de la siguiente manera:
Nodos mínimos: 2
Nodos máximos: 4
Debe disminuir el número mínimo de nodos y aumentar el número máximo de nodos a los siguientes valores:
Nodos mínimos: 0
885CB989129A5F974833949052CFB2F2
Nodos máximos: 8
Debe volver a configurar el recurso informático.
¿Cuáles son las tres formas posibles de lograr este objetivo? Cada respuesta correcta presenta una solución completa.
A. Use el estudio Azure Machine Learning.

B. Ejecute el método de actualización de la clase AmlCompute en el SDK de Python.
C. Usar el portal de Azure.
D. Usar el diseñador de Azure Machine Learning.
E. Ejecute el método refresh_state() de la clase BatchCompute en el SDK de Python.
Respuesta correcta: ABC

Sección: (ninguna)
Explicación
Explicación: A: Puede
administrar activos y recursos en el estudio Azure Machine Learning.
B: La actualización (min_nodes=None, max_nodes=None, idle_seconds_before_scaledown=None) de la clase AmlCompute actualiza ScaleSettings para este objetivo de AmlCompute.
C: para cambiar los nodos del clúster, use la interfaz de usuario de su clúster en Azure Portal.
Referencia:
https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.compute.amlcompute(clase)
PREGUNTA 30
Una organización crea e implementa un modelo de aprendizaje profundo de clasificación de imágenes de varias clases que utiliza un conjunto de fotografías etiquetadas.
El equipo de ingeniería de software informa que hay una gran carga de inferencias para los servicios web de predicción durante el verano. El servicio web de producción para el modelo no cumple con la
demanda a pesar de tener un clúster de cómputo completamente utilizado donde se implementa el servicio web.
Debe mejorar el rendimiento del servicio web de clasificación de imágenes con un tiempo de inactividad mínimo y un esfuerzo administrativo mínimo.
¿Qué debe aconsejar al equipo de operaciones de TI que haga?
A. Cree un nuevo clúster de cómputo utilizando tamaños de máquina virtual más grandes para los nodos, vuelva a implementar el servicio web en ese clúster y actualice el registro de DNS para el servicio.
885CB989129A5F974833949052CFB2F2
endpoint para apuntar al nuevo clúster.

B. Aumente el recuento de nodos del clúster de cómputo donde se implementa el servicio web.
C. Aumente el recuento mínimo de nodos del clúster de cómputo donde se implementa el servicio web.
D. Aumentar el tamaño de la máquina virtual de los nodos en el clúster de cómputo donde se implementa el servicio web.
Sección: (ninguna)
Explicación
Explicación: el SDK de Azure
Machine Learning no admite el escalado de un clúster de AKS. Para escalar los nodos en el clúster, use la interfaz de usuario de su clúster de AKS en el estudio Azure Machine Learning. Solo puede cambiar el
número de nodos, no el tamaño de la máquina virtual del clúster.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-create-attach-kubernetes
PREGUNTA 31
Crea una canalización de inferencia por lotes mediante el SDK de Azure ML. Configure los parámetros de canalización ejecutando el siguiente código:
Debe obtener el resultado de la ejecución de la canalización.
¿Dónde encontrará la salida?
A. el script digit_identification.py B. el registro

de depuración C. el registro de actividad en
Azure Portal para el área de trabajo de Machine Learning
885CB989129A5F974833949052CFB2F2
D. la pestaña Clústeres de inferencia en Machine Learning Studio E.

un archivo llamado paralelo_ejecutar_paso.txt ubicado en la carpeta de salida
Sección: (ninguna)
Explicación
Explicación: acción_salida
(str): Cómo se organizará la salida. Los valores admitidos actualmente son 'append_row' y 'summary_only'. 'append_row': todos los valores generados
por las invocaciones del método run() se agregarán en un archivo único llamado paralelo_run_step.txt que se crea en la ubicación de salida. 'solo_resumen'
Referencia:
https://docs.microsoft.com/en-us/python/api/azureml-contrib-pipeline-steps/azureml.contrib.pipeline.steps.parallelrunconfig
PREGUNTA 32
Utiliza el diseñador de Azure Machine Learning para crear un punto final de servicio en tiempo real. Tiene un único recurso informático del servicio Azure Machine Learning.
Entrena el modelo y prepara la canalización en tiempo real para la implementación.
Debe publicar la canalización de inferencia como un servicio web.
¿Qué tipo de cómputo debe usar?
A. un nuevo recurso informático de aprendizaje automático

B. Azure Kubernetes Services
C. HDInsight D.
el recurso informático de aprendizaje automático existente E.
Azure Databricks
Sección: (ninguna)
Explicación
Explicación: Azure Kubernetes
Service (AKS) se puede usar para la inferencia en tiempo real.
885CB989129A5F974833949052CFB2F2
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/concept-compute-target
PREGUNTA 33
Planea ejecutar una secuencia de comandos como un experimento utilizando una configuración de ejecución de secuencias de comandos. El script usa módulos de la biblioteca scipy, así como varios paquetes de
Python que normalmente no se instalan en un entorno conda predeterminado.
Planea ejecutar el experimento en su estación de trabajo local para conjuntos de datos pequeños y escalar el experimento ejecutándolo en clústeres informáticos remotos más potentes para conjuntos de datos
más grandes.
Debe asegurarse de que el experimento se ejecute correctamente en computación local y remota con el menor esfuerzo administrativo.
¿Qué debes hacer?
R. No especifique un entorno en la configuración de ejecución del experimento. Ejecute el experimento utilizando el entorno predeterminado.
B. Cree una máquina virtual (VM) con la configuración de Python requerida y adjunte la VM como destino de proceso. Utilice este objetivo de proceso para todas las ejecuciones de experimentos.
C. Crear y registrar un Ambiente que incluya los paquetes requeridos. Utilice este entorno para todas las ejecuciones de experimentos.
D. Cree un archivo config.yaml que defina los paquetes conda que se requieren y guarde el archivo en la carpeta del experimento.
E. Ejecute siempre el experimento con un Estimador utilizando los paquetes predeterminados.
Sección: (ninguna)
Explicación
Explicación: si tiene un entorno
Conda existente en su computadora local, puede usar el servicio para crear un objeto de entorno. Al usar esta estrategia, puede reutilizar su entorno interactivo local en ejecuciones remotas.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-use-environments
PREGUNTA 34
Usted escribe un script de Python que procesa datos en un archivo de valores separados por comas (CSV).
Planea ejecutar este script como un experimento de Azure Machine Learning.
El script carga los datos y determina el número de filas que contiene usando el siguiente código:
885CB989129A5F974833949052CFB2F2
Debe registrar el recuento de filas como una métrica denominada row_count que se puede devolver mediante el método get_metrics del objeto Run una vez que se completa la ejecución del experimento.
¿Qué código debes usar?
A. ejecutar.upload_file('row_count', './data.csv')
B. ejecutar.log('row_count', filas)
C. ejecutar.etiqueta('row_count', filas)
D. ejecutar.log_table('row_count', filas)
E. ejecutar.log_row('row_count', filas)
Sección: (ninguna)
Explicación
Explicación: Registre un valor
numérico o de cadena en la ejecución con el nombre proporcionado mediante log(name, value, description=''). El registro de una métrica en una ejecución hace que esa métrica se almacene en el registro de
ejecución del experimento. Puede registrar la misma métrica varias veces dentro de una ejecución, y el resultado se considera un vector de esa métrica.
Ejemplo: run.log("precisión", 0,95)
E: Usar log_row(name, description=None, **kwargs) crea una métrica con varias columnas como se describe en kwargs. Cada parámetro con nombre genera una columna con el valor especificado. log_row se
puede llamar una vez para registrar una tupla arbitraria, o varias veces en un bucle para generar una tabla completa.
Ejemplo: run.log_row("Y sobre X", x=1, y=0.4)
Referencia:
https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.run
885CB989129A5F974833949052CFB2F2
PREGUNTA 35
Entrenas y registras un modelo de aprendizaje automático.
Planea implementar el modelo como un servicio web en tiempo real. Las aplicaciones deben usar la autenticación basada en claves para usar el modelo.
Debe implementar el servicio web.
Solución:
Cree una instancia de AciWebservice.

Establezca el valor de la propiedad ssl_enabled en True.
Implemente el modelo en el servicio.
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación:
En su lugar, use solo auth_enabled = TRUE
Nota: Autenticación basada en claves.

Los servicios web implementados en AKS tienen la autenticación basada en claves habilitada de forma predeterminada. Los servicios implementados por ACI tienen la autenticación basada en claves deshabilitada de forma
predeterminada, pero puede habilitarla configurando auth_enabled = TRUE al crear el servicio web de ACI. El siguiente es un ejemplo de cómo crear una configuración de implementación de ACI con la autenticación basada en
claves habilitada.
deployment_config <- aci_webservice_deployment_config(cpu_cores = 1, memory_gb = 1,

auth_enabled = TRUE)
Referencia:
https://azure.github.io/azureml-sdk-for-r/articles/deploying-models.html
885CB989129A5F974833949052CFB2F2
PREGUNTA 36
Solución:
Cree una instancia de AksWebservice.

Establezca el valor de la propiedad auth_enabled en True.
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: Autenticación
basada en claves.
claves habilitada.

Referencia:
885CB989129A5F974833949052CFB2F2
PREGUNTA 37
Solución:
Cree una instancia de AksWebservice.

Establezca el valor de la propiedad auth_enabled en False.
Establezca el valor de la propiedad token_auth_enabled en True.
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación:
En su lugar, use solo auth_enabled = TRUE
Nota: Autenticación basada en claves.

claves habilitada.

Referencia:
885CB989129A5F974833949052CFB2F2
PREGUNTA 38
Utiliza el SDK de Python de Azure Machine Learning para definir una canalización que consta de varios pasos.
Cuando ejecuta la canalización, observa que algunos pasos no se ejecutan. En su lugar, se utiliza la salida almacenada en caché de una ejecución anterior.
Debe asegurarse de que se ejecute cada paso de la canalización, incluso si los parámetros y el contenido del directorio de origen no han cambiado desde la ejecución anterior.
A. Utilice un objeto PipelineData que haga referencia a un almacén de datos que no sea el almacén de datos predeterminado.
B. Establezca la propiedad regenerate_outputs de la canalización en True.
C. Establezca la propiedad allow_reuse de cada paso de la canalización en False.
D. Reinicie el clúster de cómputo donde el experimento de canalización está configurado para ejecutarse.
E. Establezca la propiedad de salida de cada paso de la canalización en True.
Sección: (ninguna)
Explicación
Explicación: B: Si
regenerate_outputs se establece en True, un nuevo envío siempre forzará la generación de todas las salidas de paso y no permitirá la reutilización de datos para cualquier paso de esta ejecución. Sin embargo, una vez que
se completa esta ejecución, las ejecuciones posteriores pueden reutilizar los resultados de esta ejecución.
C: tenga en cuenta lo siguiente cuando trabaje con pasos de canalización, datos de entrada/salida y reutilización de pasos.
Si los datos usados en un paso están en un almacén de datos y allow_reuse es True, no se detectarán los cambios en el cambio de datos. Si los datos se cargan como parte de la instantánea (bajo el
source_directory del paso), aunque no se recomienda, el hash cambiará y activará una nueva ejecución.
Referencia:
https://docs.microsoft.com/en-us/python/api/azureml-pipeline-core/azureml.pipeline.core.pipelinestep
https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-getting starter.ipynb
885CB989129A5F974833949052CFB2F2
Preparar datos para el modelado
Testlet 1
Caso de estudio
Visión general
Eres un científico de datos en una empresa que proporciona ciencia de datos para eventos deportivos profesionales. Los modelos utilizarán datos del mercado global y local para cumplir con los siguientes objetivos comerciales:
Comprenda el sentimiento de los usuarios de dispositivos móviles en eventos deportivos en función del audio de las reacciones de la multitud.
Evaluar la tendencia de un usuario a responder a un anuncio.
Personalice los estilos de los anuncios publicados en dispositivos móviles.
Usar video para detectar eventos de penalización
Entorno actual
Los dispositivos de los consumidores proporcionarán los medios utilizados para la detección de eventos de penalización. Los medios pueden incluir imágenes y videos capturados durante el evento deportivo y compartidos a
través de las redes sociales. Las imágenes y videos tendrán diferentes tamaños y formatos.
Los datos disponibles para la construcción de modelos se componen de siete años de medios de eventos deportivos. Los medios de eventos deportivos incluyen; transcripciones de videos grabados o comentarios de radio, y
registros de fuentes de redes sociales relacionadas capturadas durante los eventos deportivos.
El sentimiento de la multitud incluirá grabaciones de audio enviadas por los asistentes al evento en formatos mono y estéreo.
Detección y sentimiento de penalización
Los científicos de datos deben crear una solución inteligente mediante el uso de múltiples modelos de aprendizaje automático para la detección de eventos de penalización.
Los científicos de datos deben crear cuadernos en un entorno local mediante la ingeniería automática de funciones y la creación de modelos en canalizaciones de aprendizaje automático.
Los cuadernos deben implementarse para volver a capacitarse mediante el uso de instancias de Spark con asignación dinámica de trabajadores.
Los cuadernos deben ejecutarse con el mismo código en las nuevas instancias de Spark para recodificar solo la fuente de los datos.
Los modelos de detección de penalización global deben entrenarse mediante el cálculo de gráficos de tiempo de ejecución dinámicos durante el entrenamiento.
Los modelos de detección de penalizaciones locales deben escribirse mediante BrainScript.
Los experimentos para los modelos de opinión de la multitud local deben combinar los datos de detección de penalizaciones locales.
Los modelos de opinión de la multitud deben identificar sonidos conocidos, como aplausos y eslóganes conocidos. Los modelos individuales de sentimiento de la multitud detectarán sonidos similares.
Todas las características compartidas para los modelos locales son variables continuas.
Las características compartidas deben usar doble precisión. Las capas subsiguientes deben tener disponibles métricas de media móvil y desviación estándar agregadas.
anuncios
Durante las primeras semanas de producción, se observó lo siguiente:
Calificación de respuesta del anuncio rechazada.
885CB989129A5F974833949052CFB2F2
Las caídas no fueron consistentes entre los estilos de anuncios.

La distribución de funciones entre los datos de entrenamiento y producción no es consistente
El análisis muestra que, de las 100 funciones numéricas sobre la ubicación y el comportamiento del usuario, las 47 funciones que provienen de fuentes de ubicación se utilizan como funciones sin procesar. Un experimento sugerido para remediar el
problema del sesgo y la varianza es diseñar 10 características linealmente no correlacionadas.
El descubrimiento de datos inicial muestra una amplia gama de densidades de estados objetivo en los datos de entrenamiento utilizados para los modelos de opinión de la multitud.
Todos los modelos de detección de penalización muestran que las fases de inferencia que utilizan un descenso de gradiente estocástico (SGD) se ejecutan demasiado lentamente.
Las muestras de audio muestran que la longitud de un eslogan varía entre un 25ÿ% y un 47ÿ% según la región. El rendimiento de los modelos de detección
de penalizaciones globales muestra una varianza más baja pero un sesgo más alto cuando se comparan los conjuntos de entrenamiento y validación. Antes de implementar cualquier cambio de función, debe confirmar el sesgo y la varianza
utilizando todos los casos de capacitación y validación.
Los modelos de respuesta de anuncios deben entrenarse al comienzo de cada evento y aplicarse durante el evento deportivo.
Los modelos de segmentación del mercado deben optimizarse para un historial de respuesta de anuncios similar.
El muestreo debe garantizar el mutuo y colectivo exclusivamente entre modelos de segmentación local y global que comparten las mismas características.
Se aplicarán modelos de segmentación del mercado local antes de determinar la propensión de un usuario a responder a un anuncio.
Los modelos de respuesta de anuncios deben admitir límites no lineales de características.
El modelo de propensión publicitaria utiliza un umbral de corte de 0,45 y se vuelven a entrenar si el Kappa ponderado se desvía de 0,1 +/- 5 %.
El modelo de propensión publicitaria utiliza los factores de costo que se muestran en el siguiente diagrama:
El modelo de propensión publicitaria utiliza los factores de costo propuestos que se muestran en el siguiente diagrama:
885CB989129A5F974833949052CFB2F2
Las curvas de desempeño de los escenarios de factor de costo actual y propuesto se muestran en el siguiente diagrama:
PREGUNTA 1
Debe implementar una estrategia de escalado para los datos de detección de penalizaciones locales.
¿Qué tipo de normalización debería usar?
A. Transmisión
B. Peso C. Lote
D. Coseno
Sección: (ninguna)
Explicación
885CB989129A5F974833949052CFB2F2
Explicación: las estadísticas de
normalización por lotes posteriores (PBN) son la versión de Microsoft Cognitive Toolkit (CNTK) de cómo evaluar la media de la población y la varianza de la normalización por lotes que podría usarse en
la inferencia del artículo original.
En CNTK, las redes personalizadas se definen mediante BrainScriptNetworkBuilder y se describen en el lenguaje de descripción de red de CNTK "BrainScript".
Escenario:
los modelos de detección de penalizaciones locales deben escribirse mediante BrainScript.
Referencias:
https://docs.microsoft.com/en-us/cognitive-toolkit/post-batch-normalization-statistics
885CB989129A5F974833949052CFB2F2
Testlet 2
Caso de estudio
Este es un caso de estudio. Los estudios de casos no se cronometran por separado. Puede usar tanto tiempo de examen como desee para completar cada caso. Sin embargo, puede haber estudios de casos y
secciones adicionales en este examen. Debe administrar su tiempo para asegurarse de poder completar todas las preguntas incluidas en este examen en el tiempo previsto.
Para responder a las preguntas incluidas en un estudio de caso, deberá hacer referencia a la información que se proporciona en el estudio de caso. Los estudios de caso pueden contener exhibiciones y otros recursos
que brindan más información sobre el escenario que se describe en el estudio de caso. Cada pregunta es independiente de las otras preguntas en este estudio de caso.
Al final de este estudio de caso, aparecerá una pantalla de revisión. Esta pantalla le permite revisar sus respuestas y hacer cambios antes de pasar a la siguiente sección del examen. Después de comenzar una nueva
sección, no puede volver a esta sección.
Para iniciar el estudio de caso

Para mostrar la primera pregunta en este estudio de caso, haga clic en el botón Siguiente. Utilice los botones del panel izquierdo para explorar el contenido del estudio de caso antes de responder las preguntas. Al hacer
clic en estos botones, se muestra información como los requisitos comerciales, el entorno existente y las declaraciones de problemas. Si el estudio de caso tiene una pestaña Toda la información, tenga en cuenta que la
información que se muestra es idéntica a la información que se muestra en las pestañas siguientes. Cuando esté listo para responder una pregunta, haga clic en el botón Pregunta para volver a la pregunta.
Visión general
Eres un científico de datos de Fabrikam Residences, una empresa especializada en propiedades privadas y comerciales de calidad en los Estados Unidos. Fabrikam Residences está considerando expandirse a Europa
y le ha pedido que investigue los precios de las residencias privadas en las principales ciudades europeas.
Utiliza Azure Machine Learning Studio para medir el valor medio de las propiedades. Usted produce un modelo de regresión para predecir los precios de las propiedades utilizando los módulos Regresión lineal y
Regresión lineal bayesiana.
conjuntos de datos
Hay dos conjuntos de datos en formato CSV que contienen detalles de propiedades para dos ciudades, Londres y París. Agregue ambos archivos a Azure Machine Learning Studio como conjuntos de datos
separados al punto de partida de un experimento. Ambos conjuntos de datos contienen las siguientes columnas:
885CB989129A5F974833949052CFB2F2
Una investigación inicial muestra que los conjuntos de datos son idénticos en estructura aparte de la columna MedianValue. El conjunto de datos más pequeño de París contiene el MedianValue en
formato de texto, mientras que el conjunto de datos más grande de Londres contiene el MedianValue en formato numérico.
Problemas de datos
Valores faltantes
La columna AccessibilityToHighway en ambos conjuntos de datos contiene valores faltantes. Los datos faltantes deben reemplazarse con datos nuevos para que se modelen condicionalmente usando
las otras variables en los datos antes de completar los valores faltantes.
Las columnas de cada conjunto de datos contienen valores faltantes y nulos. Los conjuntos de datos también contienen muchos valores atípicos. La columna Edad tiene una alta proporción de valores
atípicos. Debe eliminar las filas que tienen valores atípicos en la columna Edad. Las columnas MedianValue y AvgRoomsInHouse contienen datos en formato numérico. Debe seleccionar un algoritmo
de selección de características para analizar la relación entre las dos columnas con más detalle.
Ajuste del modelo
El modelo muestra signos de sobreajuste. Necesita producir un modelo de regresión más refinado que reduzca el sobreajuste.
Requisitos del experimento
Debe configurar el experimento para validar de forma cruzada los módulos Regresión lineal y Regresión lineal bayesiana para evaluar el rendimiento. En cada caso, el predictor del conjunto de
datos es la columna denominada MedianValue. Debe asegurarse de que el tipo de datos de la columna MedianValue del conjunto de datos de París coincida con la estructura del conjunto de datos
de Londres.
885CB989129A5F974833949052CFB2F2
Debe priorizar las columnas de datos para predecir el resultado. Debe usar estadísticas no paramétricas para medir las relaciones.
Debe usar un algoritmo de selección de características para analizar la relación entre las columnas MedianValue y AvgRoomsInHouse.
entrenamiento modelo
Importancia de la función de permutación
Dado un modelo entrenado y un conjunto de datos de prueba, debe calcular las puntuaciones de Importancia de características de permutación de las variables de características. Debe determinarse el ajuste
absoluto para el modelo.
Hiperparámetros
Debe configurar hiperparámetros en el proceso de aprendizaje del modelo para acelerar la fase de aprendizaje. Además, esta configuración debería cancelar las ejecuciones de menor rendimiento en cada
intervalo de evaluación, dirigiendo así el esfuerzo y los recursos hacia modelos que tienen más probabilidades de éxito.
Le preocupa que el modelo no use eficientemente los recursos informáticos en el ajuste de hiperparámetros. También le preocupa que el modelo pueda evitar un aumento en el tiempo de ajuste general. Por lo
tanto, debe implementar un criterio de finalización anticipada en los modelos que proporcione ahorros sin terminar los trabajos prometedores.
Pruebas
Debe producir varias particiones de un conjunto de datos en función del muestreo mediante el módulo Partición y muestra en Azure Machine Learning Studio.
Validación cruzada
Debe crear tres particiones iguales para la validación cruzada. También debe configurar el proceso de validación cruzada para que las filas en los conjuntos de datos de prueba y entrenamiento se dividan
uniformemente por propiedades que están cerca del río principal de cada ciudad. Debe completar esta tarea antes de que los datos pasen por el proceso de muestreo.
Módulo de regresión lineal
Cuando entrena un módulo de regresión lineal, debe determinar las mejores funciones para usar en un modelo. Puede elegir las métricas estándar proporcionadas para medir el rendimiento antes y
después de que se complete el proceso de importancia de la característica. La distribución de características en múltiples modelos de entrenamiento debe ser consistente.
Visualización de datos
Debe proporcionar los resultados de la prueba al equipo de Fabrikam Residences. Usted crea visualizaciones de datos para ayudar a presentar los resultados.
Debe producir una curva de características operativas del receptor (ROC) para realizar una evaluación de prueba de diagnóstico del modelo. Debe seleccionar los métodos apropiados para producir la curva
ROC en Azure Machine Learning Studio para comparar los módulos Two-Class Decision Forest y Two-Class Decision Jungle entre sí.
885CB989129A5F974833949052CFB2F2
PREGUNTA 1
Debe identificar visualmente si existen valores atípicos en la columna Edad y cuantificar los valores atípicos antes de eliminarlos.
¿Qué tres módulos de Azure Machine Learning Studio debe usar? Cada respuesta correcta presenta parte de la solución.
A. Crear diagrama de
dispersión B. Resumir datos
C. Recortar
valores D. Reemplazar valores
discretos E. Construir transformación de conteo
Respuesta correcta: ABC

Sección: (ninguna)
Explicación
Explicación: B: Para tener una
vista global, se puede usar el módulo de resumen de datos. Agregue el módulo y conéctelo al conjunto de datos que necesita visualizar.
R: Una forma de identificar rápidamente los valores atípicos visualmente es crear diagramas de dispersión.
C: la forma más fácil de tratar los valores atípicos en Azure ML es usar el módulo de valores de recorte. Puede identificar y, opcionalmente, reemplazar los valores de datos que están por encima o por debajo
de un umbral específico.
Puede usar el módulo Recortar valores en Azure Machine Learning Studio para identificar y, opcionalmente, reemplazar los valores de datos que están por encima o por debajo de un umbral específico.
Esto es útil cuando desea eliminar valores atípicos o reemplazarlos con una media, una constante u otro valor de sustitución.
Referencias:
https://blogs.msdn.microsoft.com/azuredev/2017/05/27/data-cleansing-tools-in-azure-machine-learning/
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/clip-values
885CB989129A5F974833949052CFB2F2
PREGUNTA 1
Utiliza Azure Machine Learning Studio para crear un experimento de aprendizaje automático.
Necesita dividir los datos en dos conjuntos de datos distintos.
A. Asignar datos a clústeres B.

Cargar modelo entrenado
C. Partición y muestra D.
Modelo de sintonización: hiperparámetros
Sección: (ninguna)
Explicación
Explicación: La partición y la
muestra con la opción de división estratificada genera múltiples conjuntos de datos, particionados usando las reglas que especificó.
Referencias:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/partition-and-sample
PREGUNTA 2
Nota: Esta pregunta es parte de una serie de preguntas que presentan el mismo escenario. Cada pregunta de la serie contiene una solución única que podría cumplir con los objetivos establecidos.
Algunos conjuntos de preguntas pueden tener más de una solución correcta, mientras que otros pueden no tener una solución correcta.
Utiliza Azure Machine Learning Studio para realizar la ingeniería de características en un conjunto de datos.
Debe normalizar los valores para producir una columna de características agrupada en contenedores.
Solución: aplique un modo de agrupación en intervalos de longitud de descripción mínima (MDL) de entropía.
885CB989129A5F974833949052CFB2F2
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: Modo de
agrupamiento MDL de entropía: este método requiere que seleccione la columna que desea predecir y la columna o columnas que desea agrupar en contenedores. Luego hace un pase sobre los datos e
intenta determinar el número de contenedores que minimiza la entropía. En otras palabras, elige una cantidad de contenedores que permite que la columna de datos prediga mejor la columna de destino.
Luego devuelve el número de contenedor asociado con cada fila de sus datos en una columna denominada <colname>quantized.
Referencias:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/group-data-into-bins
PREGUNTA 3
Es un científico de datos que usa Azure Machine Learning Studio.
Debe normalizar los valores para producir una columna de salida en contenedores para predecir una columna de destino.
Solución: aplique una normalización de Quantiles con una normalización de QuantileIndex.
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: Use el modo de
categorización Entropy MDL que tiene una columna de destino.
885CB989129A5F974833949052CFB2F2
Referencias:
PREGUNTA 4
Está creando un nuevo experimento en Azure Machine Learning Studio.
Una clase tiene un número mucho menor de observaciones que las otras clases en el conjunto de entrenamiento.
Debe seleccionar una estrategia de muestreo de datos adecuada para compensar el desequilibrio de clases.
Solución: utiliza el modo de muestreo Scale and Reduce.
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: En su lugar, utilice
el modo de muestreo Técnica de sobremuestreo de minorías sintéticas (SMOTE).
Nota: SMOTE se usa para aumentar la cantidad de casos subrepresentados en un conjunto de datos que se usa para el aprendizaje automático. SMOTE es una mejor manera de aumentar el número de
casos raros que simplemente duplicar los casos existentes.
Referencias:
PREGUNTA 5
885CB989129A5F974833949052CFB2F2
Solución: utiliza el modo de muestreo de la técnica de sobremuestreo de minorías sintéticas (SMOTE).
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: SMOTE se usa
para aumentar la cantidad de casos subrepresentados en un conjunto de datos que se usa para el aprendizaje automático. SMOTE es una mejor manera de aumentar el número de casos raros que
simplemente duplicar los casos existentes.
Referencias:
PREGUNTA 6
Solución: utiliza la división estratificada para el modo de muestreo.
885CB989129A5F974833949052CFB2F2
R. Sí
B No
Sección: (ninguna)
Explicación
el modo de muestreo Técnica de sobremuestreo de minorías sintéticas (SMOTE).
Nota: SMOTE se usa para aumentar la cantidad de casos subrepresentados en un conjunto de datos que se usa para el aprendizaje automático. SMOTE es una mejor manera de aumentar el número de casos
raros que simplemente duplicar los casos existentes.
Referencias:
PREGUNTA 7
Está creando un modelo de aprendizaje automático.
Necesita identificar valores atípicos en los datos.
¿Qué dos visualizaciones puedes usar? Cada respuesta correcta presenta una solución completa.
A. Diagrama de Venn
B. Diagrama de caja
C. Curva ROC
D. Diagrama de bosque aleatorio E.

Diagrama de dispersión
Respuesta correcta: SER

Sección: (ninguna)
Explicación
Explicación: El algoritmo de
diagrama de caja se puede usar para mostrar valores atípicos.
885CB989129A5F974833949052CFB2F2
Otra forma de identificar rápidamente los valores atípicos visualmente es crear diagramas de dispersión.
Referencias:
https://blogs.msdn.microsoft.com/azuredev/2017/05/27/data-cleansing-tools-in-azure-machine-learning/
PREGUNTA 8
Está analizando un conjunto de datos mediante Azure Machine Learning Studio.
Debe generar un resumen estadístico que contenga el valor p y el recuento único para cada columna de características.
¿Qué dos módulos puedes usar? Cada respuesta correcta presenta una solución completa.
A. Correlación lineal por computadora B.

Exportar tabla de conteo C. Ejecutar
secuencia de comandos de Python D.
Convertir a valores de indicador
E. Resumir datos
Respuesta correcta: SER

Sección: (ninguna)
Explicación
Explicación: El módulo Exportar
tabla de conteo se proporciona para compatibilidad con versiones anteriores de experimentos que usan los módulos Construir tabla de conteo (obsoleto) y Contar características (obsoleto).
E: Las estadísticas de resumen de datos son útiles cuando desea comprender las características del conjunto de datos completo. Por ejemplo, es posible que necesite saber:
¿Cuántos valores faltantes hay en cada columna?

¿Cuántos valores únicos hay en una columna de características?
¿Cuál es la media y la desviación estándar de cada columna?
El módulo calcula las puntuaciones importantes para cada columna y devuelve una fila de estadísticas resumidas para cada variable (columna de datos) proporcionada como entrada.
A: El módulo Calcular correlación lineal en Azure Machine Learning Studio se usa para calcular un conjunto de coeficientes de correlación de Pearson para cada posible par de variables en el conjunto de
datos de entrada.
C: Con Python, puede realizar tareas que actualmente no son compatibles con los módulos de Studio existentes, como:
885CB989129A5F974833949052CFB2F2
Visualización de datos usando matplotlib

Uso de bibliotecas de Python para enumerar conjuntos de datos y modelos en su espacio de trabajo
Lectura, carga y manipulación de datos de fuentes no compatibles con el módulo Importar datos
D: El propósito del módulo Convertir en valores de indicadores es convertir columnas que contienen valores categóricos en una serie de columnas de indicadores binarios que se pueden usar más fácilmente
como características en un modelo de aprendizaje automático.
Referencias:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/export-count-table
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/summarize-data
PREGUNTA 9
Está evaluando un modelo de aprendizaje automático de clasificación binaria completo.
Debe utilizar la precisión como métrica de evaluación.
¿Qué visualización debería usar?
A. Diagrama de
violín B. Descenso de gradiente
C. Diagrama
de caja D. Matriz de confusión de clasificación binaria
Sección: (ninguna)
Explicación
Explicación: Respuestas incorrectas:
A: Un diagrama de violín es una
representación visual que tradicionalmente combina un diagrama de caja y un diagrama de densidad kernel.
B: El descenso de gradiente es un algoritmo de optimización iterativo de primer orden para encontrar el mínimo de una función. Para encontrar un mínimo local de una función mediante el descenso de
gradiente, se toman pasos proporcionales al negativo del gradiente (o gradiente aproximado) de la función en el punto actual.
C: un diagrama de caja le permite ver la información de distribución básica sobre sus datos, como la mediana, la media, el rango y los cuartiles, pero no le muestra cómo se ven sus datos en todo su rango.
Referencias:
https://machinelearningknowledge.ai/confusion-matrix-and-performance-metrics-machine-learning/
885CB989129A5F974833949052CFB2F2
PREGUNTA 10
Está analizando un conjunto de datos numéricos que contiene valores faltantes en varias columnas.
Debe limpiar los valores que faltan mediante una operación adecuada sin afectar la dimensionalidad del conjunto de características.
Debe analizar un conjunto de datos completo para incluir todos los valores.
Solución: utilice el método de la última observación realizada (LOCF) para imputar los puntos de datos que faltan.
R. Sí
B No
Sección: (ninguna)
Explicación
el método de imputación múltiple por ecuaciones encadenadas (MICE).
Reemplazar usando MICE: para cada valor faltante, esta opción asigna un nuevo valor, que se calcula usando un método descrito en la literatura estadística como "Imputación multivariante
usando ecuaciones encadenadas" o "Imputación múltiple por ecuaciones encadenadas". Con un método de imputación múltiple, cada variable con datos faltantes se modela condicionalmente
utilizando las otras variables en los datos antes de completar los valores faltantes.
Nota: La última observación realizada (LOCF) es un método para imputar datos faltantes en estudios longitudinales. Si una persona abandona un estudio antes de que finalice, su última puntuación
observada en la variable dependiente se utiliza para todos los puntos de observación posteriores (es decir, faltantes). LOCF se utiliza para mantener el tamaño de la muestra y reducir el sesgo causado
por la deserción de participantes en un estudio.
Referencias:
https://methods.sagepub.com/reference/encyc-of-research-design/n211.xml
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3074241/
PREGUNTA 11
885CB989129A5F974833949052CFB2F2
Está realizando una selección de características basada en filtros para un conjunto de datos para crear un clasificador de varias clases mediante Azure Machine Learning Studio.
El conjunto de datos contiene características categóricas que están altamente correlacionadas con la columna de etiqueta de salida.
Debe seleccionar el método estadístico de puntuación de características apropiado para identificar los predictores clave.
¿Qué método debe usar?
A. Correlación de Kendall
B. Correlación de Spearman C.
Chi-cuadrado D. Correlación de
Pearson
Sección: (ninguna)
Explicación
Explicación: La estadística de
correlación de Pearson, o el coeficiente de correlación de Pearson, también se conoce en los modelos estadísticos como el valor r. Para dos variables cualesquiera, devuelve un valor que indica la fuerza de la
correlación
El coeficiente de correlación de Pearson es el estadístico de prueba que mide la relación estadística, o asociación, entre dos variables continuas. Es conocido como el mejor método para medir la asociación entre
variables de interés porque se basa en el método de covarianza. Da información sobre la magnitud de la asociación, o correlación, así como la dirección de la relación.
C: La prueba de chi-cuadrado bidireccional es un método estadístico que mide qué tan cerca están los valores esperados de los resultados reales.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/filter-based-feature-selection
https://www.statisticssolutions.com/coeficiente-de-correlación-de-pearsons/
PREGUNTA 12
Planea impartir un taller práctico a varios estudiantes. El taller se centrará en la creación de visualizaciones de datos utilizando Python. Cada estudiante utilizará un dispositivo que tenga acceso a Internet.
Los dispositivos de los estudiantes no están configurados para el desarrollo de Python. Los estudiantes no tienen acceso de administrador para instalar software en sus dispositivos. Las suscripciones de Azure no
están disponibles para los estudiantes.
885CB989129A5F974833949052CFB2F2
Debe asegurarse de que los estudiantes puedan ejecutar código de visualización de datos basado en Python.
¿Qué herramienta de Azure debería usar?
A. Plataforma de ciencia de datos Anaconda

B. Azure BatchAl
C. Blocs de notas de Azure
D. Servicio de aprendizaje automático de Azure
Sección: (ninguna)
Explicación
Referencias: https://
notebooks.azure.com/
PREGUNTA 13
Solución: reemplace cada valor faltante utilizando el método de imputación múltiple por ecuaciones encadenadas (MICE).
R. Sí
B No
Sección: (ninguna)
Explicación
885CB989129A5F974833949052CFB2F2
Explicación:
Reemplazar usando MICE: para cada valor faltante, esta opción asigna un nuevo valor, que se calcula usando un método descrito en la literatura estadística como "Imputación multivariante
usando ecuaciones encadenadas" o "Imputación múltiple por ecuaciones encadenadas". Con un método de imputación múltiple, cada variable con datos faltantes se modela condicionalmente
utilizando las otras variables en los datos antes de completar los valores faltantes.
Nota: La imputación multivariada por ecuaciones encadenadas (MICE), a veces llamada "especificación totalmente condicional" o "imputación múltiple de regresión secuencial", ha surgido en la
literatura estadística como un método basado en principios para abordar los datos faltantes. La creación de imputaciones múltiples, en lugar de imputaciones únicas, explica la incertidumbre estadística
en las imputaciones. Además, el enfoque de ecuaciones encadenadas es muy flexible y puede manejar variables de distintos tipos (p. ej., continuas o binarias), así como complejidades como límites o
patrones de omisión de encuestas.
Referencias:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/clean-missing-data
PREGUNTA 14
Solución: elimine toda la columna que contiene el punto de datos que falta.
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: Utilice el método
de imputación múltiple por ecuaciones encadenadas (MICE).
885CB989129A5F974833949052CFB2F2
Referencias:
PREGUNTA 15
Está creando un nuevo experimento en Azure Machine Learning Studio. Tiene un conjunto de datos pequeño al que le faltan valores en muchas columnas. Los datos no requieren la aplicación de
predictores para cada columna. Planea usar Limpiar datos faltantes.
Debe seleccionar un método de limpieza de datos.
A. Reemplazar usando PCA probabilístico

B. Normalización
C. Técnica de sobremuestreo minoritario sintético (SMOTE)
D. Reemplazar usando MICE
Sección: (ninguna)
Explicación
Explicación: Reemplazar
usando PCA probabilístico: en comparación con otras opciones, como la Imputación múltiple usando ecuaciones encadenadas (MICE), esta opción tiene la ventaja de no requerir la aplicación de
predictores para cada columna. En su lugar, aproxima la covarianza del conjunto de datos completo. Por lo tanto, podría ofrecer un mejor rendimiento para conjuntos de datos que tienen valores
faltantes en muchas columnas.
Referencias:
PREGUNTA 16
Está evaluando un modelo de aprendizaje automático de clasificación binaria completo.
Debe utilizar la precisión como métrica de evaluación.
¿Qué visualización debería usar?
A. gráfico de
violín B. Descenso de gradiente
885CB989129A5F974833949052CFB2F2
C. Diagrama de
dispersión D. Curva característica operativa del receptor (ROC)
Sección: (ninguna)
Explicación
Explicación: La característica
operativa del receptor (o ROC) es un gráfico de las etiquetas clasificadas correctamente frente a las etiquetas clasificadas incorrectamente para un modelo en particular.
Respuestas incorrectas: A:
Un diagrama de violín es una representación visual que tradicionalmente combina un diagrama de caja y un diagrama de densidad kernel.
B: El descenso de gradiente es un algoritmo de optimización iterativo de primer orden para encontrar el mínimo de una función. Para encontrar un mínimo local de una función mediante el descenso
de gradiente, se toman pasos proporcionales al negativo del gradiente (o gradiente aproximado) de la función en el punto actual.
C: Un gráfico de dispersión representa gráficamente los valores reales de sus datos frente a los valores predichos por el modelo. El diagrama de dispersión muestra los valores reales a lo largo del eje X
y muestra los valores pronosticados a lo largo del eje Y. También muestra una línea que ilustra la predicción perfecta, donde el valor predicho coincide exactamente con el valor real.
Referencias:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-understand-automated-ml#confusion-matrix
PREGUNTA 17
Debe evaluar su modelo en una muestra de datos limitada mediante el uso de validación cruzada k-fold. Comienza configurando el parámetro ak como el número de divisiones.
Debe configurar el parámetro k para la validación cruzada.
¿Qué valor debe usar?
A k=1
Bk=10
Ck=0.5
Dk=0,9
Sección: (ninguna)
Explicación
885CB989129A5F974833949052CFB2F2
Explicación: Validación cruzada
Leave One Out (LOO) Establecer K = n (el número
de observaciones) produce n veces y se denomina validación cruzada Leave One Out (LOO), un caso especial de K- enfoque de pliegue.
LOO CV a veces es útil, pero normalmente no altera los datos lo suficiente. Las estimaciones de cada pliegue están altamente correlacionadas y, por lo tanto, su promedio puede tener una gran variación.
Esta es la razón por la que la elección habitual es K=5 o 10. Proporciona un buen compromiso para la compensación entre sesgo y varianza.
PREGUNTA 18
Utiliza Azure Machine Learning Studio para crear un experimento de aprendizaje automático.
Necesita dividir los datos en dos conjuntos de datos distintos.
A. Dividir datos
B. Cargar modelo entrenado
C. Asignar datos a clústeres D.

Agrupar datos en contenedores
Sección: (ninguna)
Explicación
Explicación: El módulo Agrupar
datos en contenedores admite múltiples opciones para clasificar datos. Puede personalizar cómo se configuran los bordes de los contenedores y cómo se reparten los valores en los contenedores.
Referencias:
PREGUNTA 19
Usted es un científico de datos líder en un proyecto que rastrea la salud y la migración de las aves. Usted crea un modelo de aprendizaje profundo de clasificación de imágenes de varias clases que utiliza un conjunto de
fotografías de aves etiquetadas recopiladas por expertos.
Tienes 100.000 fotografías de pájaros. Todas las fotografías utilizan el formato JPG y se almacenan en un contenedor de blobs de Azure en una suscripción de Azure.
Debe acceder a los archivos de fotografías de aves en el contenedor de blobs de Azure desde el área de trabajo del servicio Azure Machine Learning que se usará para el aprendizaje profundo.
885CB989129A5F974833949052CFB2F2
formación modelo. Debe minimizar el movimiento de datos.
¿Qué debes hacer?
A. Cree una tienda de Azure Data Lake y mueva las fotografías de aves a la tienda.
B. Cree una base de datos de Azure Cosmos DB y adjunte el Azure Blob que contiene el almacenamiento de fotografías de aves a la base de datos.
C. Cree y registre un conjunto de datos mediante la clase TabularDataset que hace referencia al almacenamiento de blobs de Azure que contiene fotografías de aves.
D. Registre el almacenamiento de blobs de Azure que contiene las fotografías de aves como un almacén de datos en el servicio Azure Machine Learning.
E. Copie las fotografías de aves en el almacén de datos de blobs que se creó con su área de trabajo del servicio Azure Machine Learning.
Sección: (ninguna)
Explicación
Explicación: se recomienda
crear un almacén de datos para un contenedor de blobs de Azure. Cuando crea un área de trabajo, un contenedor de blobs de Azure y un recurso compartido de archivos de Azure se registran automáticamente
en el área de trabajo.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-access-data
PREGUNTA 20
Registra un conjunto de datos de archivo llamado csv_folder que hace referencia a una carpeta. La carpeta incluye varios archivos de valores separados por comas (CSV) en un contenedor de blobs de Azure
Storage.
Planea usar el siguiente código para ejecutar un script que cargue datos del conjunto de datos del archivo. Usted crea e instancia las siguientes variables:
Tienes el siguiente código:
885CB989129A5F974833949052CFB2F2
Debe pasar el conjunto de datos para asegurarse de que el script pueda leer los archivos a los que hace referencia.
¿Qué segmento de código debe insertar para reemplazar el comentario de código?
A. entradas=[file_dataset.as_named_input('training_files')], B.
entradas=[file_dataset.as_named_input('training_files').as_mount()], C.
inputs=[file_dataset.as_named_input('training_files').to_pandas_dataframe( )], D. script_params={'--training_files': file_dataset},
Sección: (ninguna)
Explicación
Explicación: Ejemplo: from
azureml.train.estimator import
Estimator
script_params = { #
para montar archivos a los que hace referencia el
conjunto de datos mnist '--carpeta de datos': mnist_file_dataset.as_named_input('mnist_opendataset').as_mount(),
'--regularización': 0.5
}
est = Estimator(source_directory=script_folder,
environment_definition=env, entry_script='train.py')
Referencia:
885CB989129A5F974833949052CFB2F2
https://docs.microsoft.com/en-us/azure/machine-learning/tutorial-train-models-with-aml
PREGUNTA 21
Está creando una nueva canalización de Azure Machine Learning con el diseñador.
La canalización debe entrenar un modelo usando datos en un archivo de valores separados por comas (CSV) que se publica en un sitio web. No ha creado un conjunto de datos para este archivo.
Debe ingerir los datos del archivo CSV en la canalización del diseñador con el mínimo esfuerzo administrativo.
¿Qué módulo debe agregar a la canalización en Designer?
A. Convertir a CSV B.
Introducir datos manualmente

C. Importar datos D. Conjunto
de datos
Sección: (ninguna)
Explicación
Explicación: La forma preferida de
proporcionar datos a una canalización es un objeto de conjunto de datos. El objeto del conjunto de datos apunta a los datos que se encuentran en un almacén de datos o a los que se puede acceder desde una URL web.
La clase Dataset es abstracta, por lo que creará una instancia de FileDataset (que se refiere a uno o más archivos) o TabularDataset que se crea a partir de uno o más archivos con columnas de datos
delimitadas.
Ejemplo:
desde azureml.core import Dataset
iris_tabular_dataset = Conjunto de datos.Tabular.from_delimited_files([(def_blob_store, 'train-dataset/iris.csv')])
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-create-your-first-pipeline
PREGUNTA 22
Usted define un almacén de datos denominado ml-data para un contenedor de blobs de Azure Storage. En el contenedor, tiene una carpeta llamada tren que contiene un archivo llamado data.csv. Planea
usar el archivo para entrenar un modelo mediante el SDK de Azure Machine Learning.
Planea entrenar el modelo mediante el SDK de Azure Machine Learning para ejecutar un experimento en proceso local.
Defina un objeto DataReference ejecutando el siguiente código:
885CB989129A5F974833949052CFB2F2
Necesitas cargar los datos de entrenamiento.
¿Qué segmento de código se debe utilizar?
UNA.
B.
C.
D.
885CB989129A5F974833949052CFB2F2
Y.
Sección: (ninguna)
Explicación
Explicación:
Ejemplo:
data_folder = args.data_folder #
Cargar tren y datos de prueba
train_data = pd.read_csv(os.path.join(data_folder, 'data.csv'))
Referencia:
https://www.element61.be/en/resource/azure-machine-learning-services-complete-toolbox-ai
PREGUNTA 23
Cree un almacén de datos del servicio Azure Machine Learning en un área de trabajo. El almacén de datos contiene los siguientes archivos:
/data/2018/Q1.csv /
data/2018/Q2.csv /
data/2018/Q3.csv /
data/2018/Q4.csv /
data/2019/Q1.csv
Todos los archivos almacenan datos en el siguiente formato:
id,f1,f2,I
1,1,2,0
2,1,1,1
885CB989129A5F974833949052CFB2F2
3,2,1,0
4,2,2,1
Ejecutas el siguiente código:
Debe crear un conjunto de datos llamado training_data y cargar los datos de todos los archivos en un único marco de datos mediante el siguiente código:
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: Defina rutas con
dos rutas de archivo en su lugar.
Use Dataset.Tabular_from_delimeted ya que los datos no se limpian.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-create-register-datasets
PREGUNTA 24
885CB989129A5F974833949052CFB2F2
Nota: Esta pregunta es parte de una serie de preguntas que presentan el mismo escenario. Cada pregunta de la serie contiene una solución única que podría cumplir con los
objetivos establecidos. Algunos conjuntos de preguntas pueden tener más de una solución correcta, mientras que otros pueden no tener una solución correcta.
/data/2018/Q1.csv /
data/2018/Q2.csv /
data/2018/Q3.csv /
data/2018/Q4.csv /
data/2019/Q1.csv
id,f1,f2,I
1,1,2,0
2,1,1,1
3,2,1,0
4,2,2,1
885CB989129A5F974833949052CFB2F2
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: Use dos rutas de
archivo.
Use Dataset.Tabular_from_delimeted, en lugar de Dataset.File.from_files, ya que los datos no se limpian.
Nota:
Un FileDataset hace referencia a uno o varios archivos en sus almacenes de datos o direcciones URL públicas. Si sus datos ya están limpios y listos para usar en experimentos de entrenamiento, puede
descargar o montar los archivos en su computadora como un objeto FileDataset.
Un TabularDataset representa datos en un formato tabular analizando el archivo o la lista de archivos proporcionados. Esto le brinda la capacidad de materializar los datos en pandas o Spark DataFrame
para que pueda trabajar con bibliotecas de capacitación y preparación de datos familiares sin tener que salir de su computadora portátil. Puede crear un objeto TabularDataset a partir de
archivos .csv, .tsv, .parquet, .jsonl y de resultados de consultas SQL.
Referencia:
PREGUNTA 25
/data/2018/Q1.csv /
data/2018/Q2.csv /
data/2018/Q3.csv /
data/2018/Q4.csv /
data/2019/Q1.csv
id,f1,f2,I
1,1,2,0
885CB989129A5F974833949052CFB2F2
2,1,1,1
3,2,1,0
4,2,2,1
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: Use dos rutas de
archivo.
Use Dataset.Tabular_from_delimeted ya que los datos no se limpian.
Nota:
Un TabularDataset representa datos en un formato tabular analizando el archivo o la lista de archivos proporcionados. Esto le brinda la capacidad de materializar los datos en pandas o Spark DataFrame
para que pueda trabajar con bibliotecas de capacitación y preparación de datos familiares sin tener que salir de su computadora portátil. Puede crear un objeto TabularDataset a partir de
archivos .csv, .tsv, .parquet, .jsonl y de resultados de consultas SQL.
885CB989129A5F974833949052CFB2F2
Referencia:
PREGUNTA 26
Planea usar la función Hyperdrive de Azure Machine Learning para determinar los valores óptimos de hiperparámetro al entrenar un modelo.
Debe usar Hyperdrive para probar combinaciones de los siguientes valores de hiperparámetro:
learning_rate: cualquier valor entre 0,001 y 0,1 batch_size:

16, 32 o 64
Debe configurar el espacio de búsqueda para el experimento Hyperdrive.
¿Qué expresiones de dos parámetros debe usar? Cada respuesta correcta presenta parte de la solución.
A. una expresión de elección para tasa_de_aprendizaje

B. una expresión uniforme para tasa_de_aprendizaje
C. una expresión normal para tamaño_de_lote D. una
expresión de elección para tamaño_de_lote E. una
expresión uniforme para tamaño_de_lote
Respuesta correcta: BD
Sección: (ninguna)
Explicación
Explicación: B: Los
hiperparámetros continuos se especifican como una distribución sobre un rango continuo de valores. Las distribuciones admitidas incluyen:
uniform(low, high) - Devuelve un valor distribuido uniformemente entre bajo y alto
D: Los hiperparámetros discretos se especifican como una elección entre valores discretos. elección puede ser:
uno o más valores separados por comas un
objeto de rango cualquier objeto de lista arbitraria
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-tune-hyperparameters
885CB989129A5F974833949052CFB2F2
PREGUNTA 27
Solución: aplique un ancho igual con el modo de agrupamiento personalizado de inicio y detención.
R. Sí
B No
Sección: (ninguna)
Explicación
Referencias:
PREGUNTA 28
Solución: aplique un modo de binning de cuantiles con una normalización de PQuantile.
885CB989129A5F974833949052CFB2F2
R. Sí
B No
Sección: (ninguna)
Explicación
Referencias:
PREGUNTA 29
Planea usar un script de Python para ejecutar un experimento de Azure Machine Learning. El script crea una referencia al contexto de ejecución del experimento, carga datos desde un archivo, identifica
el conjunto de valores únicos para la columna de etiqueta y completa la ejecución del experimento:
desde azureml.core import Ejecute import

pandas as pd run = Run.get_context() data =
pd.read_csv('data.csv') label_vals =
data['label'].unique()
# Agregue código para registrar métricas aquí

run.complete()
El experimento debe registrar las etiquetas únicas en los datos como métricas para la ejecución que se pueden revisar más adelante.
Debe agregar código al script para registrar los valores de etiqueta únicos como métricas de ejecución en el punto indicado por el comentario.
Solución: reemplace el comentario con el siguiente código:
ejecutar.upload_file('salidas/etiquetas.csv', './datos.csv')
885CB989129A5F974833949052CFB2F2
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: label_vals tiene
etiquetas únicas (de la instrucción label_vals = data['label'].unique()), y debe registrarse.
Nota:
En su lugar, use la función run_log para registrar los contenidos en label_vals:
para label_val en label_vals:

run.log('Label Values', label_val)
Referencia:
PREGUNTA 30


run.complete()
885CB989129A5F974833949052CFB2F2
run.log_table('Valores de etiqueta', label_vals)
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación:
En su lugar, use la función run_log para registrar los contenidos en label_vals:

Referencia:
PREGUNTA 31


run.complete()
885CB989129A5F974833949052CFB2F2
para label_val en label_vals: run.log('Label

Values', label_val)
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación:
La función run_log se usa para registrar los contenidos en label_vals:

Referencia:
PREGUNTA 32
Debe evaluar su modelo en una muestra de datos limitada mediante el uso de validación cruzada k-fold. Comienza configurando el parámetro ak como el número de divisiones.
Debe configurar el parámetro k para la validación cruzada.
¿Qué valor debe usar?
A.k=0.5
B k = 0,01
Ck=5
D k=1
885CB989129A5F974833949052CFB2F2
Sección: (ninguna)
Explicación
Explicación: Validación
cruzada Leave One Out (LOO) Establecer
K = n (el número de observaciones) produce n veces y se denomina validación cruzada Leave One Out (LOO), un caso especial de K- enfoque de pliegue.
LOO CV a veces es útil, pero normalmente no altera los datos lo suficiente. Las estimaciones de cada pliegue están altamente correlacionadas y, por lo tanto, su promedio puede tener
una gran variación.
Esta es la razón por la que la elección habitual es K=5 o 10. Proporciona un buen compromiso para la compensación entre sesgo y varianza.
885CB989129A5F974833949052CFB2F2
Realizar ingeniería de funciones
Testlet 1
Caso de estudio
Visión general
Entorno actual
anuncios
885CB989129A5F974833949052CFB2F2

885CB989129A5F974833949052CFB2F2
PREGUNTA 1
Debe implementar una estrategia de ingeniería de características para los modelos locales de opinión de la multitud.
¿Qué debes hacer?
A. Aplicar un análisis de varianza (ANOVA).

B. Aplicar un coeficiente de correlación de Pearson.
C. Aplicar un coeficiente de correlación de Spearman.
D. Aplicar un análisis discriminante lineal.
Sección: (ninguna)
Explicación
885CB989129A5F974833949052CFB2F2
Explicación: El método de
análisis discriminante lineal funciona solo en variables continuas, no en variables categóricas u ordinales.
El análisis discriminante lineal es similar al análisis de varianza (ANOVA) en que funciona comparando las medias de las variables.
Escenario:
los científicos de datos deben crear cuadernos en un entorno local mediante la ingeniería automática de funciones y la creación de modelos en canalizaciones de aprendizaje automático.
B: El coeficiente de correlación de Pearson, a veces llamado prueba R de Pearson, es un valor estadístico que mide la relación lineal entre dos variables. Al examinar los valores de los coeficientes,
puede inferir algo sobre la fuerza de la relación entre las dos variables y si están correlacionadas positiva o negativamente.
C: El coeficiente de correlación de Spearman está diseñado para usarse con datos no paramétricos y sin distribución normal. El coeficiente de Spearman es una medida no paramétrica de la dependencia
estadística entre dos variables y, a veces, se denota con la letra griega rho. El coeficiente de Spearman expresa el grado en que dos variables están monótonamente relacionadas. También se llama correlación
de rango de Spearman, porque se puede usar con variables ordinales.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/fisher-linear-discriminant-analysis
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/compute-linear-correlation
885CB989129A5F974833949052CFB2F2
Testlet 2
Caso de estudio
Este es un caso de estudio. Los estudios de casos no se cronometran por separado. Puede usar tanto tiempo de examen como desee para completar cada caso. Sin embargo, puede haber estudios de casos y
secciones adicionales en este examen. Debe administrar su tiempo para asegurarse de poder completar todas las preguntas incluidas en este examen en el tiempo previsto.
Para responder a las preguntas incluidas en un estudio de caso, deberá hacer referencia a la información que se proporciona en el estudio de caso. Los estudios de caso pueden contener exhibiciones y otros recursos
que brindan más información sobre el escenario que se describe en el estudio de caso. Cada pregunta es independiente de las otras preguntas en este estudio de caso.
Al final de este estudio de caso, aparecerá una pantalla de revisión. Esta pantalla le permite revisar sus respuestas y hacer cambios antes de pasar a la siguiente sección del examen. Después de comenzar una nueva
sección, no puede volver a esta sección.
Para iniciar el estudio de caso

Para mostrar la primera pregunta en este estudio de caso, haga clic en el botón Siguiente. Utilice los botones del panel izquierdo para explorar el contenido del estudio de caso antes de responder las preguntas. Al hacer
clic en estos botones, se muestra información como los requisitos comerciales, el entorno existente y las declaraciones de problemas. Si el estudio de caso tiene una pestaña Toda la información, tenga en cuenta que la
información que se muestra es idéntica a la información que se muestra en las pestañas siguientes. Cuando esté listo para responder una pregunta, haga clic en el botón Pregunta para volver a la pregunta.
Visión general
Eres un científico de datos de Fabrikam Residences, una empresa especializada en propiedades privadas y comerciales de calidad en los Estados Unidos. Fabrikam Residences está considerando expandirse a Europa
y le ha pedido que investigue los precios de las residencias privadas en las principales ciudades europeas.
Utiliza Azure Machine Learning Studio para medir el valor medio de las propiedades. Usted produce un modelo de regresión para predecir los precios de las propiedades utilizando los módulos Regresión lineal y
Regresión lineal bayesiana.
conjuntos de datos
Hay dos conjuntos de datos en formato CSV que contienen detalles de propiedades para dos ciudades, Londres y París. Agregue ambos archivos a Azure Machine Learning Studio como conjuntos de datos
separados al punto de partida de un experimento. Ambos conjuntos de datos contienen las siguientes columnas:
885CB989129A5F974833949052CFB2F2
Una investigación inicial muestra que los conjuntos de datos son idénticos en estructura aparte de la columna MedianValue. El conjunto de datos más pequeño de París contiene el MedianValue en
formato de texto, mientras que el conjunto de datos más grande de Londres contiene el MedianValue en formato numérico.
Problemas de datos
Valores faltantes
La columna AccessibilityToHighway en ambos conjuntos de datos contiene valores faltantes. Los datos faltantes deben reemplazarse con datos nuevos para que se modelen condicionalmente usando
las otras variables en los datos antes de completar los valores faltantes.
Las columnas de cada conjunto de datos contienen valores faltantes y nulos. Los conjuntos de datos también contienen muchos valores atípicos. La columna Edad tiene una alta proporción de valores
atípicos. Debe eliminar las filas que tienen valores atípicos en la columna Edad. Las columnas MedianValue y AvgRoomsInHouse contienen datos en formato numérico. Debe seleccionar un algoritmo
de selección de características para analizar la relación entre las dos columnas con más detalle.
Ajuste del modelo
El modelo muestra signos de sobreajuste. Necesita producir un modelo de regresión más refinado que reduzca el sobreajuste.
Requisitos del experimento
Debe configurar el experimento para validar de forma cruzada los módulos Regresión lineal y Regresión lineal bayesiana para evaluar el rendimiento. En cada caso, el predictor del conjunto de
datos es la columna denominada MedianValue. Debe asegurarse de que el tipo de datos de la columna MedianValue del conjunto de datos de París coincida con la estructura del conjunto de datos
de Londres.
885CB989129A5F974833949052CFB2F2
Debe priorizar las columnas de datos para predecir el resultado. Debe usar estadísticas no paramétricas para medir las relaciones.
Debe usar un algoritmo de selección de características para analizar la relación entre las columnas MedianValue y AvgRoomsInHouse.
entrenamiento modelo
Importancia de la función de permutación
Dado un modelo entrenado y un conjunto de datos de prueba, debe calcular las puntuaciones de Importancia de características de permutación de las variables de características. Debe determinarse el ajuste
absoluto para el modelo.
Hiperparámetros
Debe configurar hiperparámetros en el proceso de aprendizaje del modelo para acelerar la fase de aprendizaje. Además, esta configuración debería cancelar las ejecuciones de menor rendimiento en cada
intervalo de evaluación, dirigiendo así el esfuerzo y los recursos hacia modelos que tienen más probabilidades de éxito.
Le preocupa que el modelo no use eficientemente los recursos informáticos en el ajuste de hiperparámetros. También le preocupa que el modelo pueda evitar un aumento en el tiempo de ajuste general. Por lo
tanto, debe implementar un criterio de finalización anticipada en los modelos que proporcione ahorros sin terminar los trabajos prometedores.
Pruebas
Debe producir varias particiones de un conjunto de datos en función del muestreo mediante el módulo Partición y muestra en Azure Machine Learning Studio.
Validación cruzada
Debe crear tres particiones iguales para la validación cruzada. También debe configurar el proceso de validación cruzada para que las filas en los conjuntos de datos de prueba y entrenamiento se dividan
uniformemente por propiedades que están cerca del río principal de cada ciudad. Debe completar esta tarea antes de que los datos pasen por el proceso de muestreo.
Módulo de regresión lineal
Cuando entrena un módulo de regresión lineal, debe determinar las mejores funciones para usar en un modelo. Puede elegir las métricas estándar proporcionadas para medir el rendimiento antes y
después de que se complete el proceso de importancia de la característica. La distribución de características en múltiples modelos de entrenamiento debe ser consistente.
Visualización de datos
Debe proporcionar los resultados de la prueba al equipo de Fabrikam Residences. Usted crea visualizaciones de datos para ayudar a presentar los resultados.
Debe producir una curva de características operativas del receptor (ROC) para realizar una evaluación de prueba de diagnóstico del modelo. Debe seleccionar los métodos apropiados para producir la curva
ROC en Azure Machine Learning Studio para comparar los módulos Two-Class Decision Forest y Two-Class Decision Jungle entre sí.
885CB989129A5F974833949052CFB2F2
PREGUNTA 1
Debe seleccionar un método de extracción de características.
A. Información mutua
B. Prueba de la mediana de Mood
C. Correlación de Kendall
D. Importancia de la función de permutación
Sección: (ninguna)
Explicación
Explicación: En estadística, el
coeficiente de correlación de rango de Kendall, comúnmente conocido como coeficiente tau de Kendall (después de la letra griega ÿ), es una estadística utilizada para medir la asociación ordinal entre
dos cantidades medidas.
Es un método compatible con la selección de características de Azure Machine Learning.
Nota: tanto el de Spearman como el de Kendall se pueden formular como casos especiales de un coeficiente de correlación más general, y ambos son apropiados en este escenario.
Escenario: las columnas MedianValue y AvgRoomsInHouse contienen datos en formato numérico. Debe seleccionar un algoritmo de selección de características para analizar la relación entre las dos
columnas con más detalle.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/feature-selection-modules
PREGUNTA 2
Debe seleccionar un método de extracción de características.
A. Información mutua
B. Correlación de Pearson
C. Correlación de Spearman
D. Análisis discriminante lineal de Fisher
Sección: (ninguna)
885CB989129A5F974833949052CFB2F2
Explicación
Explicación: El coeficiente
de correlación de rangos de Spearman evalúa qué tan bien se puede describir la relación entre dos variables usando una función monótona.
Nota: tanto el de Spearman como el de Kendall se pueden formular como casos especiales de un coeficiente de correlación más general, y ambos son apropiados en este escenario.
Escenario: las columnas MedianValue y AvgRoomsInHouse contienen datos en formato numérico. Debe seleccionar un algoritmo de selección de características para analizar la
relación entre las dos columnas con más detalle.
Respuestas
incorrectas: B: La correlación de Spearman entre dos variables es igual a la correlación de Pearson entre los valores de rango de esas dos variables; mientras que la correlación de
Pearson evalúa las relaciones lineales, la correlación de Spearman evalúa las relaciones monótonas (ya sean lineales o no).
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/feature-selection-modules
885CB989129A5F974833949052CFB2F2
PREGUNTA 1 Es
un científico de datos que trabaja para un banco y ha usado Azure ML para entrenar y registrar un modelo de aprendizaje automático que predice si es probable que un cliente pague un préstamo.
Desea comprender cómo su modelo realiza las selecciones y debe asegurarse de que el modelo no infrinja las normas gubernamentales, como la denegación de préstamos en función del lugar de residencia del solicitante.
Debe determinar en qué medida cada característica de los datos del cliente influye en las predicciones.
¿Qué debes hacer?
A. Habilite la supervisión de deriva de datos para el modelo y su conjunto de datos de entrenamiento.
B. Califique el modelo contra algunos datos de prueba con valores de etiqueta conocidos y use los resultados para calcular una matriz de confusión.
C. Use la biblioteca Hyperdrive para probar el modelo con múltiples valores de hiperparámetro.
D. Usar el paquete de interpretabilidad para generar un explicativo para el modelo.
E. Agregue etiquetas al registro del modelo que indiquen los nombres de las características en el conjunto de datos de entrenamiento.
Sección: (ninguna)
Explicación
Explicación: Cuando calcula
explicaciones de modelos y las visualiza, no está limitado a una explicación de modelo existente para un modelo de ML automatizado. También puede obtener una explicación para su modelo con diferentes datos de prueba.
Los pasos de esta sección le muestran cómo calcular y visualizar la importancia de las características diseñadas en función de sus datos de prueba.
A: En el contexto del aprendizaje automático, la deriva de datos es el cambio en los datos de entrada del modelo que conduce a la degradación del rendimiento del modelo. Es una de las principales razones por las que la
precisión del modelo se degrada con el tiempo, por lo que el control de la deriva de datos ayuda a detectar problemas de rendimiento del modelo.
B: Se utiliza una matriz de confusión para describir el rendimiento de un modelo de clasificación. Cada fila muestra las instancias de la clase verdadera o real en su conjunto de datos, y cada columna representa las instancias de
la clase que predijo el modelo.
C: Los hiperparámetros son parámetros ajustables que elige para el entrenamiento del modelo que guían el proceso de entrenamiento. El paquete HyperDrive lo ayuda a automatizar la elección de estos parámetros.
885CB989129A5F974833949052CFB2F2
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-machine-learning-interpretability-automl
PREGUNTA 2
Planea usar el aprendizaje automático automatizado para entrenar un modelo de regresión. Tiene datos que tienen características que tienen valores faltantes y características categóricas con pocos valores
distintos.
Debe configurar el aprendizaje automático automatizado para imputar automáticamente los valores faltantes y codificar características categóricas como parte de la tarea de entrenamiento.
¿Qué par de parámetros y valores debe usar en la clase AutoMLConfig?
A. caracterización = 'auto'
B. enable_voting_ensemble = Verdadero C. tarea =
'clasificación'
D. include_nan_labels = Verdadero E.
enable_tf = Verdadero
Sección: (ninguna)
Explicación
Explicación: Featurization str o
FeaturizationConfig Valores: 'auto' / 'off' /
FeaturizationConfig Indicador de si el paso de
caracterización se debe realizar automáticamente o no, o si se debe usar una caracterización personalizada.
El tipo de columna se detecta automáticamente. En función del tipo de columna detectado, el preprocesamiento/la caracterización se realiza de la siguiente manera:
Categórico: codificación de destino, una codificación en caliente, descartar categorías de alta cardinalidad, imputar valores faltantes.
Numérico: imputar valores faltantes, distancia de grupo, peso de la evidencia.
DateTime: varias características como día, segundos, minutos, horas, etc.
Texto: bolsa de palabras, incrustación de Word preentrenada, codificación de destino de texto.
Referencia:
https://docs.microsoft.com/en-us/python/api/azureml-train-automl-client/azureml.train.automl.automlconfig.automlconfig
PREGUNTA 3
885CB989129A5F974833949052CFB2F2
Un modelo de clasificación se entrena mediante un algoritmo de regresión logística.
Debe ser capaz de explicar las predicciones del modelo calculando la importancia de cada función, tanto como un valor de importancia relativa global general como una medida de importancia local
para un conjunto específico de predicciones.
Debe crear un explicador que pueda usar para recuperar los valores de importancia de características globales y locales requeridos.
Solución: Cree un MimicExplainer.
R. Sí
B No
Sección: (ninguna)
Explicación
el Explicador de importancia de características de permutación (PFI).
Nota 1: el explicador Mimic se basa en la idea de entrenar modelos sustitutos globales para imitar modelos de caja negra. Un modelo sustituto global es un modelo intrínsecamente interpretable que está
entrenado para aproximarse a las predicciones de cualquier modelo de caja negra con la mayor precisión posible. Los científicos de datos pueden interpretar el modelo sustituto para sacar conclusiones sobre
el modelo de caja negra.
Nota 2: Explicación de la importancia de la característica de permutación (PFI): La importancia de la característica de permutación es una técnica utilizada para explicar los modelos de clasificación y regresión.
En un nivel alto, la forma en que funciona es mezclando aleatoriamente los datos de una característica a la vez para todo el conjunto de datos y calculando cuánto cambia la métrica de rendimiento de interés.
Cuanto más grande es el cambio, más importante es esa característica. PFI puede explicar el comportamiento general de cualquier modelo subyacente, pero no explica las predicciones individuales.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-machine-learning-interpretability
PREGUNTA 4
885CB989129A5F974833949052CFB2F2
Un modelo de clasificación se entrena mediante un algoritmo de regresión logística.
Debe ser capaz de explicar las predicciones del modelo calculando la importancia de cada característica, tanto como un valor de importancia relativa global general como una medida de importancia
local para un conjunto específico de predicciones.
Debe crear un explicador que pueda usar para recuperar los valores de importancia de características globales y locales requeridos.
Solución: Cree un TabularExplainer.
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación/Referencia: En su
lugar, utilice el Explicador de importancia de características de permutación (PFI).
Nota 1:
885CB989129A5F974833949052CFB2F2
Nota 2: Explicación de la importancia de la característica de permutación (PFI): La importancia de la característica de permutación es una técnica utilizada para explicar los modelos de clasificación y
regresión. En un nivel alto, la forma en que funciona es mezclando aleatoriamente los datos de una característica a la vez para todo el conjunto de datos y calculando cuánto cambia la métrica de
rendimiento de interés. Cuanto más grande es el cambio, más importante es esa característica. PFI puede explicar el comportamiento general de cualquier modelo subyacente, pero no explica las
predicciones individuales.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-machine-learning-interpretability
PREGUNTA 5
Estás construyendo un modelo de regresión para estimar el número de llamadas durante un evento.
885CB989129A5F974833949052CFB2F2
Debe determinar si los valores de las características cumplen las condiciones para construir un modelo de regresión de Poisson.
¿Qué dos condiciones debe contener el conjunto de características? Cada respuesta correcta presenta parte de la solución.
A. Los datos de la etiqueta deben ser un valor negativo.

B. Los datos de la etiqueta deben ser números enteros.
C. Los datos de la etiqueta no deben ser discretos.
D. Los datos de la etiqueta deben ser un valor positivo.

E. Los datos de la etiqueta pueden ser positivos o negativos.
Sección: (ninguna)
Explicación
Explicación: la regresión de
Poisson está pensada para usarse en modelos de regresión que se usan para predecir valores numéricos, generalmente recuentos. Por lo tanto, debe usar este módulo para crear su modelo de regresión solo si
los valores que intenta predecir cumplen las siguientes condiciones:
La variable de respuesta tiene una distribución de Poisson.
Los recuentos no pueden ser negativos. El método fallará por completo si intenta usarlo con etiquetas negativas.
Una distribución de Poisson es una distribución discreta; por lo tanto, no tiene sentido utilizar este método con números no enteros.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/poisson-regression
PREGUNTA 6
Está realizando ingeniería de características en un conjunto de datos.
Debe agregar una característica llamada CityName y completar el valor de la columna con el texto London.
Debe agregar la nueva característica al conjunto de datos.
¿Qué módulo de Azure Machine Learning Studio debe usar?
A. Editar metadatos
B. Selección de funciones basada en filtros
C. Ejecutar script de Python
885CB989129A5F974833949052CFB2F2
D. Asignación latente de Dirichlet
Sección: (ninguna)
Explicación
Explicación: Los cambios típicos
de metadatos pueden incluir marcar columnas como características.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/edit-metadata
PREGUNTA 7
Está determinando si dos conjuntos de datos son significativamente diferentes entre sí mediante Azure Machine Learning Studio.
Los valores estimados en un conjunto de datos pueden ser mayores o menores que los valores de referencia en el otro conjunto de datos. Debe generar una distribución que tenga un error de tipo I constante
como función de la correlación.
Necesita producir la distribución.
¿Qué tipo de distribución debe producir?
A. Prueba t no pareada con opción de dos colas

B. Prueba t no pareada con opción de una cola C.
Prueba t pareada con opción de una cola D.
Prueba t pareada con opción de dos colas
Sección: (ninguna)
Explicación
Explicación: Elija una prueba de
una o dos colas. El valor predeterminado es una prueba de dos colas. Este es el tipo de prueba más común, en el que la distribución esperada es simétrica alrededor de cero.
Ejemplo: Error de tipo I de pruebas t de dos muestras no apareadas y apareadas en función de la correlación. Los números aleatorios simulados se originan a partir de una distribución normal bivariada con una
varianza de 1.
885CB989129A5F974833949052CFB2F2
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/test-hypothesis-using-t-test
https://en.wikipedia.org/wiki/Student%27s_t-test
PREGUNTA 8
Está realizando ingeniería de características en un conjunto de datos.
Debe agregar una característica llamada CityName y completar el valor de la columna con el texto London.
Debe agregar la nueva característica al conjunto de datos.
¿Qué módulo de Azure Machine Learning Studio debe usar?
A. Extraer características de N-Gram del texto

B. Editar metadatos
885CB989129A5F974833949052CFB2F2
C. Preprocesar texto D.
Aplicar transformación SQL
Sección: (ninguna)
Explicación
Explicación: Los cambios
típicos de metadatos pueden incluir marcar columnas como características.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/edit-metadata
PREGUNTA 9
Ejecuta un experimento de aprendizaje automático automatizado en un área de trabajo de Azure Machine Learning. La información sobre la ejecución se muestra en la siguiente tabla:
Debe escribir un script que use el SDK de Azure Machine Learning para recuperar la mejor iteración de la ejecución del experimento.
¿Qué segmento de código de Python debería usar?
UNA.
B.
885CB989129A5F974833949052CFB2F2
C.
D.
Y.
Sección: (ninguna)
Explicación
Explicación: El método
get_output en automl_classifier devuelve la mejor ejecución y el modelo ajustado para la última invocación. Las sobrecargas en get_output le permiten recuperar el mejor modelo ejecutado y ajustado para
cualquier métrica registrada o para una iteración particular.
En []:
mejor_ejecución, modelo_equipado = local_run.get_output()
Referencia:
https://notebooks.azure.com/azureml/projects/azureml-getting-started/html/how-to-use-azureml/automated-machine-learning/classification-with-deployment/auto-ml Classification-with -implementación.ipynb
PREGUNTA 10
Tiene un archivo de valores separados por comas (CSV) que contiene datos a partir de los cuales desea entrenar un modelo de clasificación.
Está utilizando la interfaz de aprendizaje automático automático en el estudio de aprendizaje automático de Azure para entrenar el modelo de clasificación. Establece el tipo de tarea en Clasificación.
Debe asegurarse de que el proceso de aprendizaje automático automatizado evalúe solo modelos lineales.
885CB989129A5F974833949052CFB2F2
¿Qué debes hacer?
A. Agregue todos los algoritmos que no sean lineales a la lista de algoritmos bloqueados.
B. Establezca la opción Criterio de salida en un umbral de puntuación métrica.
C. Borre la opción para realizar la caracterización automática.
D. Borre la opción para habilitar el aprendizaje profundo.
E. Establezca el tipo de tarea en Regresión.
Sección: (ninguna)
Explicación
Explicación: La caracterización
automática puede adaptarse a modelos no lineales.
Referencia:
https://econml.azurewebsites.net/spec/estimation/dml.html
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-use-automated-ml-for-ml-models
885CB989129A5F974833949052CFB2F2
Desarrollar modelos
Testlet 1
Caso de estudio
Visión general
Entorno actual
anuncios
885CB989129A5F974833949052CFB2F2

885CB989129A5F974833949052CFB2F2
PREGUNTA 1
Debe implementar un nuevo escenario de factor de costo para los modelos de respuesta de anuncios, como se ilustra en la exhibición de la curva de rendimiento.
¿Qué técnica debes usar?
A. Establezca el umbral en 0,5 y vuelva a entrenar si el Kappa ponderado se desvía +/- 5 % de 0,45.
B. Establezca el umbral en 0,05 y vuelva a entrenar si el Kappa ponderado se desvía +/- 5 % de 0,5.
C. Establezca el umbral en 0,2 y vuelva a entrenar si el Kappa ponderado se desvía +/- 5 % de 0,6.
D. Establezca el umbral en 0,75 y vuelva a entrenar si el Kappa ponderado se desvía +/- 5 % de 0,15.
Sección: (ninguna)
Explicación
885CB989129A5F974833949052CFB2F2
Explicación:
Guión:
885CB989129A5F974833949052CFB2F2
Desarrollar modelos
PREGUNTA 1
Utiliza el módulo Red neuronal de dos clases en Azure Machine Learning Studio para crear un modelo de clasificación binaria. Utilice el módulo Ajustar hiperparámetros del modelo para ajustar la
precisión del modelo.
Debe configurar el módulo Tune Model Hyperparameters.
¿Qué dos valores debería usar? Cada respuesta correcta presenta parte de la solución.
A. Número de nodos ocultos

B. Tasa de
aprendizaje C. El tipo de normalizador
D. Número de iteraciones de aprendizaje
E. Especificación de capa oculta
Respuesta correcta: DE
Sección: (ninguna)
Explicación
Explicación: D: Para Número
de iteraciones de aprendizaje, especifique el número máximo de veces que el algoritmo debe procesar los casos de entrenamiento.
E: Para la especificación de capa oculta, seleccione el tipo de arquitectura de red que desea crear.
Entre las capas de entrada y salida puede insertar varias capas ocultas. La mayoría de las tareas predictivas se pueden realizar fácilmente con solo una o unas pocas capas ocultas.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/two-class-neural-network
PREGUNTA 2
Crea un modelo de clasificación binaria mediante Azure Machine Learning Studio.
Debe ajustar los hiperparámetros realizando un barrido de parámetros del modelo. El barrido de parámetros debe cumplir los siguientes requisitos:
iterar todas las combinaciones posibles de hiperparámetros

minimizar los recursos informáticos necesarios para realizar el barrido
885CB989129A5F974833949052CFB2F2
Debe realizar un barrido de parámetros del modelo.
¿Qué modo de barrido de parámetros debe utilizar?
A. Barrido aleatorio B.
Agrupamiento de barrido C.
Cuadrícula completa D.
Cuadrícula aleatoria
Sección: (ninguna)
Explicación
Explicación: Número máximo
de ejecuciones en cuadrícula aleatoria: esta opción también controla el número de iteraciones sobre un muestreo aleatorio de valores de parámetros, pero los valores no se generan aleatoriamente a
partir del rango especificado; en su lugar, se crea una matriz de todas las combinaciones posibles de valores de parámetros y se toma un muestreo aleatorio sobre la matriz. Este método es más eficiente
y menos propenso al sobremuestreo o submuestreo regional.
Si está entrenando un modelo que admite un barrido de parámetros integrado, también puede establecer un rango de valores semilla para usar e iterar sobre las semillas aleatorias también.
Esto es opcional, pero puede ser útil para evitar el sesgo introducido por la selección de semillas.
B: Si está creando un modelo de conglomerados, utilice Sweep Clustering para determinar automáticamente la cantidad óptima de conglomerados y otros parámetros.
C: Cuadrícula completa: cuando selecciona esta opción, el módulo recorre una cuadrícula predefinida por el sistema para probar diferentes combinaciones e identificar al mejor alumno. Esta opción es
útil para los casos en los que no sabe cuál podría ser la mejor configuración de parámetros y desea probar todas las combinaciones posibles de valores.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/tune-model-hyperparameters
PREGUNTA 3
Está construyendo una red neuronal recurrente para realizar una clasificación binaria.
Revisa la pérdida de entrenamiento, la pérdida de validación, la precisión del entrenamiento y la precisión de la validación para cada época de entrenamiento.
Necesita analizar el rendimiento del modelo.
Debe identificar si el modelo de clasificación está sobreajustado.
885CB989129A5F974833949052CFB2F2
¿Cual de los siguientes es correcto?
R. La pérdida de entrenamiento permanece constante y la pérdida de validación permanece en un valor constante y cercano al valor de pérdida de entrenamiento cuando se entrena el modelo.
B. La pérdida de entrenamiento disminuye mientras que la pérdida de validación aumenta al entrenar el modelo.
C. La pérdida de entrenamiento se mantiene constante y la pérdida de validación disminuye al entrenar el modelo.
D. La pérdida de entrenamiento aumenta mientras que la pérdida de validación disminuye al entrenar el modelo.
Sección: (ninguna)
Explicación
Explicación: Un modelo
sobreajustado es aquel en el que el rendimiento en el conjunto de trenes es bueno y continúa mejorando, mientras que el rendimiento en el conjunto de validación mejora hasta cierto punto y luego comienza a
degradarse.
Referencia:
https://machinelearningmastery.com/diagnose-overfitting-underfitting-lstm-models/
PREGUNTA 4
Está realizando un agrupamiento utilizando el algoritmo K-means.
Es necesario definir las posibles condiciones de terminación.
¿Qué tres condiciones puedes usar? Cada respuesta correcta presenta una solución completa.
A. Los centroides no cambian entre iteraciones.

B. La suma residual de cuadrados (RSS) se eleva por encima de un umbral.
C. La suma residual de cuadrados (RSS) cae por debajo de un umbral.
D. Se ejecuta un número fijo de iteraciones.
E. La suma de distancias entre centroides alcanza un máximo.
Respuesta correcta: CDA

Sección: (ninguna)
Explicación
Explicación:
885CB989129A5F974833949052CFB2F2
AD: el algoritmo termina cuando los centroides se estabilizan o cuando se completa un número específico de iteraciones.
C: Una medida de qué tan bien los centroides representan a los miembros de sus grupos es la suma residual de cuadrados o RSS, la distancia al cuadrado de cada vector desde su centroide sumada sobre todos los
vectores. RSS es la función objetivo y nuestro objetivo es minimizarla.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/k-means-clustering
https://nlp.stanford.edu/IR-book/html/htmledition/k-means-1.html
PREGUNTA 5
Usted es un científico de datos que construye una red neuronal convolucional profunda (CNN) para la clasificación de imágenes.
El modelo de CNN que crea muestra signos de sobreajuste.
Debe reducir el sobreajuste y hacer converger el modelo en un ajuste óptimo.
¿Cuáles son las dos acciones que deberías llevar a cabo? Cada respuesta correcta presenta una solución completa.
A. Agregue una capa densa adicional con 512 unidades de entrada.

B. Añadir regularización L1/L2.
C. Usar el aumento de datos de entrenamiento.
D. Reducir la cantidad de datos de entrenamiento.
E. Agregue una capa densa adicional con 64 unidades de entrada.
Sección: (ninguna)
Explicación
Explicación: B: La regularización
del peso proporciona un enfoque para reducir el sobreajuste de un modelo de red neuronal de aprendizaje profundo en los datos de entrenamiento y mejorar el rendimiento del modelo en datos nuevos, como el conjunto
de prueba de retención.
Keras proporciona una API de regularización de peso que le permite agregar una penalización por tamaño de peso a la función de pérdida.
Se proporcionan tres instancias de regularizador diferentes; están:

L1: Suma de los pesos absolutos.
L2: Suma de los pesos al cuadrado.
L1L2: Suma de los pesos absoluto y cuadrático.
885CB989129A5F974833949052CFB2F2
D: Debido a que una capa totalmente conectada ocupa la mayoría de los parámetros, es propensa al sobreajuste. Un método para reducir el sobreajuste es la deserción. En cada etapa de entrenamiento, los nodos
individuales se "eliminan" de la red con probabilidad 1-p o se mantienen con probabilidad p, de modo que queda una red reducida; También se eliminan los bordes entrantes y salientes de un nodo descartado.
Al evitar entrenar todos los nodos en todos los datos de entrenamiento, la deserción reduce el sobreajuste.
Referencia:
https://machinelearningmastery.com/how-to-reduce-overfitting-in-deep-learning-with-weight-regularization/
https://en.wikipedia.org/wiki/Convolutional_neural_network
PREGUNTA 6
Está con un conjunto de datos de series temporales en Azure Machine Learning Studio.
Debe dividir su conjunto de datos en subconjuntos de entrenamiento y prueba mediante el módulo Dividir datos.
¿Qué modo de división debería usar?
A. División de recomendador
B. División de expresión regular C.
División de expresión relativa D. Filas
divididas con el parámetro de división aleatoria establecido en verdadero
Sección: (ninguna)
Explicación
Explicación: Dividir filas: use esta
opción si solo desea dividir los datos en dos partes. Puede especificar el porcentaje de datos para poner en cada división, pero de forma predeterminada, los datos se dividen 50-50.
B: División de expresión regular: elija esta opción cuando desee dividir su conjunto de datos probando una sola columna para un valor.
C: División de expresión relativa: use esta opción siempre que desee aplicar una condición a una columna de números.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/split-data
PREGUNTA 7
Nota: Esta pregunta es parte de una serie de preguntas que presentan el mismo escenario. Cada pregunta de la serie contiene una solución única que podría
885CB989129A5F974833949052CFB2F2
cumplir con las metas establecidas. Algunos conjuntos de preguntas pueden tener más de una solución correcta, mientras que otros pueden no tener una solución correcta.
Está creando un modelo para predecir el precio de la obra de arte de un estudiante según las siguientes variables: la duración de la educación del estudiante, el tipo de título y la forma de arte.
Comienza creando un modelo de regresión lineal.
Necesita evaluar el modelo de regresión lineal.
Solución: utilice las siguientes métricas: error absoluto medio, error absoluto medio raíz, error absoluto relativo, exactitud, precisión, recuperación, puntuación F1 y AUC.
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: Exactitud, Precisión,
Recuperación, puntaje F1 y AUC son métricas para evaluar modelos de clasificación.
Nota: el error absoluto medio, el error absoluto medio raíz y el error absoluto relativo están bien para el modelo de regresión lineal.
Referencia:
PREGUNTA 8
Está construyendo un modelo de clasificación binaria utilizando un conjunto de entrenamiento suministrado.
El conjunto de entrenamiento está desequilibrado entre dos clases.
Necesita resolver el desequilibrio de datos.
¿Cuáles son las tres formas posibles de lograr este objetivo? Cada respuesta correcta presenta una solución completa.
885CB989129A5F974833949052CFB2F2
A. Sancionar la clasificación
B. Volver a muestrear el conjunto de datos utilizando submuestreo o sobremuestreo

C. Normalizar el conjunto de funciones de entrenamiento D. Generar muestras
sintéticas en la clase minoritaria E. Usar la precisión como la métrica de evaluación
del modelo
Respuesta correcta: ABD

Sección: (ninguna)
Explicación
Explicación: A: Pruebe modelos
penalizados Puede usar los
mismos algoritmos pero darles una perspectiva diferente del problema.
La clasificación penalizada impone un costo adicional al modelo por cometer errores de clasificación en la clase minoritaria durante el entrenamiento. Estas sanciones pueden sesgar el modelo para que preste
más atención a la clase minoritaria.
B: Puede cambiar el conjunto de datos que usa para construir su modelo predictivo para tener datos más equilibrados.
Este cambio se llama muestreo de su conjunto de datos y hay dos métodos principales que puede usar para igualar las clases: considere probar el
submuestreo cuando tenga muchos datos (decenas o cientos de miles de instancias o más)
Considere probar el sobremuestreo cuando no tenga muchos datos (decenas de miles de registros o menos)
D: Intente generar muestras sintéticas Una

forma sencilla de generar muestras sintéticas es muestrear aleatoriamente los atributos de las instancias de la clase minoritaria.
Referencia:
https://machinelearningmastery.com/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/
PREGUNTA 9
Crea un modelo para pronosticar las condiciones climáticas en función de los datos históricos.
Debe crear una canalización que ejecute un script de procesamiento para cargar datos de un almacén de datos y pasar los datos procesados a un script de entrenamiento del modelo de aprendizaje automático.
885CB989129A5F974833949052CFB2F2
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación:
Los dos pasos están presentes: process_step y train_step
La entrada de datos de entrenamiento no está configurada correctamente.
Nota:
Los datos utilizados en la canalización se pueden producir en un paso y consumir en otro paso al proporcionar un objeto PipelineData como salida de un paso y como entrada de uno o más pasos posteriores.
Los objetos PipelineData también se usan al construir Pipelines para describir dependencias de pasos. Para especificar que un paso requiere la salida de otro paso como entrada, use un objeto PipelineData
en el constructor de ambos pasos.
Por ejemplo, el paso de entrenamiento de canalización depende de la salida de process_step_output del paso de proceso de canalización:
de azureml.pipeline.core importar Pipeline, PipelineData de

azureml.pipeline.steps importar PythonScriptStep
885CB989129A5F974833949052CFB2F2
datastore = ws.get_default_datastore()
process_step_output = PipelineData("processed_data", datastore=datastore) process_step =
PythonScriptStep(script_name="process.py", arguments=["--data_for_train", process_step_output],
outputs=[process_step_output], compute_target =cómputo_aml,
directorio_fuente=directorio_proceso)
tren_paso = PythonScriptStep(script_name="tren.py",
arguments=["--data_for_train", process_step_output],
inputs=[process_step_output], compute_target=aml_compute,
source_directory=train_directory)
tubería = tubería (espacio de trabajo = ws, pasos = [paso_proceso, paso_entrenamiento])
Referencia:
https://docs.microsoft.com/en-us/python/api/azureml-pipeline-core/azureml.pipeline.core.pipelinedata?view=azure-ml-py
PREGUNTA 10
885CB989129A5F974833949052CFB2F2
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: falta train_step.
Referencia:
PREGUNTA 11
885CB989129A5F974833949052CFB2F2
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: Nota: Los datos
utilizados en la canalización pueden generarse en un paso y consumirse en otro paso proporcionando un objeto PipelineData como salida de un paso y entrada de uno o más pasos posteriores.
Compare con este ejemplo, el paso de tren de canalización depende de la salida de process_step_output del paso de proceso de canalización:

Referencia:
PREGUNTA 12
885CB989129A5F974833949052CFB2F2
Tiene un script de Python llamado train.py en una carpeta local llamada scripts. El script entrena un modelo de regresión mediante scikit-learn. El script incluye código para cargar un archivo de datos de
entrenamiento que también se encuentra en la carpeta de scripts.
Debe ejecutar el script como un experimento de Azure ML en un clúster de proceso denominado aml-compute.
Debe configurar la ejecución para asegurarse de que el entorno incluya los paquetes necesarios para el entrenamiento del modelo. Ha creado instancias de una variable llamada aml compute
que hace referencia al clúster de proceso de destino.
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: El estimador de
scikit-learn proporciona una forma sencilla de iniciar un trabajo de capacitación de scikit-learn en un destino de proceso. Se implementa a través de la clase SKLearn, que se puede usar para admitir el
entrenamiento de CPU de un solo nodo.
Ejemplo:
estimador = SKLearn(source_directory=project_folder,
entry_script='train_iris.py' )
885CB989129A5F974833949052CFB2F2
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-train-scikit-learn
PREGUNTA 13
R. Sí
B No
Sección: (ninguna)
Explicación
scikit-learn proporciona una forma sencilla de iniciar un trabajo de capacitación de scikit-learn en un destino de proceso. Se implementa a través de la clase SKLearn, que se puede usar para admitir el
entrenamiento de CPU de un solo nodo.
Ejemplo:
885CB989129A5F974833949052CFB2F2
Referencia:
PREGUNTA 14
R. Sí
B No
Sección: (ninguna)
885CB989129A5F974833949052CFB2F2
Explicación
scikit-learn proporciona una forma sencilla de iniciar un trabajo de capacitación de scikit-learn en un destino de proceso. Se implementa a través de la clase SKLearn, que se puede usar para admitir el entrenamiento
de CPU de un solo nodo.
Ejemplo:
Referencia:
PREGUNTA 15
Usted crea una canalización en Designer para entrenar un modelo que predice los precios de los automóviles.
Debido a las relaciones no lineales en los datos, la canalización calcula el logaritmo natural (Ln) de los precios en los datos de entrenamiento, entrena un modelo para predecir este logaritmo natural del valor del
precio y luego calcula el exponencial de la etiqueta puntuada para obtener el precio previsto.
El proceso de formación se muestra en la exposición. (Haga clic en la pestaña Canalización de capacitación ).
Tubería de formación
885CB989129A5F974833949052CFB2F2
Cree una canalización de inferencia en tiempo real a partir de la canalización de entrenamiento, como se muestra en la exposición. (Haga clic en la pestaña Canalización en tiempo real ).
Canalización en tiempo real
885CB989129A5F974833949052CFB2F2
Debe modificar la canalización de inferencia para garantizar que el servicio web devuelva el exponencial de la etiqueta puntuada como el precio previsto del automóvil y que no se requiera que las aplicaciones cliente
incluyan un valor de precio en los valores de entrada.
¿Cuáles son las tres modificaciones que debe realizar en la canalización de inferencia? Cada respuesta correcta presenta parte de la solución.
A. Conecte la salida de Aplicar transformación SQL al módulo Salida del servicio web.
B. Reemplace el módulo de entrada de servicio web con una entrada de datos que no incluya la columna de precio.
C. Agregue un módulo Seleccionar columnas antes del módulo Modelo de puntaje para seleccionar todas las columnas excepto el precio.
D. Reemplace el módulo del conjunto de datos de entrenamiento con una entrada de datos que no incluya la columna de precio.
E. Elimine el módulo Aplicar operación matemática que reemplaza el precio con su logaritmo natural del flujo de datos.
F. Elimine el módulo Aplicar transformación SQL del flujo de datos.
Respuesta correcta: AS
Sección: (ninguna)
Explicación
885CB989129A5F974833949052CFB2F2
PREGUNTA 16
Entrena un modelo y lo registra en su espacio de trabajo de Azure Machine Learning. Está listo para implementar el modelo como un servicio web en tiempo real.
Implementa el modelo en un clúster de inferencia de Azure Kubernetes Service (AKS), pero la implementación falla porque se produce un error cuando el servicio ejecuta el script de entrada asociado con la
implementación del modelo.
Debe depurar el error modificando iterativamente el código y recargando el servicio, sin necesidad de volver a implementar el servicio para cada actualización de código.
¿Qué debes hacer?
A. Modifique la configuración de implementación del servicio de AKS para habilitar la información de la aplicación y vuelva a implementar en AKS.
B. Cree una configuración de implementación de servicios web de Azure Container Instances (ACI) e implemente el modelo en ACI.
C. Agregue un punto de interrupción a la primera línea del script de entrada y vuelva a implementar el servicio en AKS.
D. Cree una configuración de implementación de servicio web local e implemente el modelo en un contenedor Docker local.
E. Registre una nueva versión del modelo y actualice el script de entrada para cargar la nueva versión del modelo desde su ruta registrada.
Sección: (ninguna)
Explicación
Explicación: Cómo evitar o
resolver errores comunes de implementación de Docker con Azure Container Instances (ACI) y Azure Kubernetes Service (AKS) mediante Azure Machine Learning.
El enfoque recomendado y más actualizado para la implementación de modelos es a través de la API Model.deploy() utilizando un objeto de entorno como parámetro de entrada. En este caso, nuestro servicio
creará una imagen base de la ventana acoplable durante la etapa de implementación y montará los modelos necesarios, todo en una sola llamada. Las tareas básicas de implementación
son:
1. Registre el modelo en el registro de modelos del espacio de trabajo.
2. Defina la configuración de inferencia:
una. Cree un objeto de entorno basado en las dependencias que especifique en el archivo yaml del entorno o use uno de nuestros entornos adquiridos. b. Cree una configuración de
inferencia (objeto InferenceConfig) basada en el entorno y el script de puntuación.
3. Implemente el modelo en el servicio Azure Container Instance (ACI) o Azure Kubernetes Service (AKS).
PREGUNTA 17
Está creando un modelo de clasificación para una empresa bancaria para identificar posibles casos de fraude con tarjetas de crédito. Planea crear el modelo en Azure Machine Learning mediante el
aprendizaje automático automatizado.
885CB989129A5F974833949052CFB2F2
El conjunto de datos de entrenamiento que está utilizando está muy desequilibrado.
Es necesario evaluar el modelo de clasificación.
¿Qué métrica principal debe utilizar?
A. normalized_mean_absolute_error B.
AUC_weighted C. precision D.
normalized_root_mean_squared_error E.
spearman_correlation
Sección: (ninguna)
Explicación
Explicación: AUC_weighted es
una métrica de clasificación.
Nota: AUC es el área bajo la curva característica operativa del receptor. Ponderada es la media aritmética de la puntuación de cada clase, ponderada por el número de instancias verdaderas en cada
clase.
A: normalized_mean_absolute_error es una métrica de regresión, no una métrica de clasificación.
C: Al comparar enfoques para problemas de clasificación desequilibrada, considere usar métricas más allá de la precisión, como recuperación, precisión y AUROC. Puede ser que cambiar la métrica
para la que optimiza durante la selección de parámetros o la selección del modelo sea suficiente para proporcionar un rendimiento deseable al detectar la clase minoritaria.
D: normalized_root_mean_squared_error es una métrica de regresión, no una métrica de clasificación.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-understand-automated-ml
PREGUNTA 18
Usted crea un modelo de aprendizaje automático mediante el diseñador de Azure Machine Learning. El modelo se publica como un servicio en tiempo real en un clúster de proceso de inferencia de Azure
Kubernetes Service (AKS). No realiza ningún cambio en la configuración del punto final implementado.
Debe proporcionar a los desarrolladores de aplicaciones la información que necesitan para consumir el punto final.
885CB989129A5F974833949052CFB2F2
¿Qué dos valores debería proporcionar a los desarrolladores de aplicaciones? Cada respuesta correcta presenta parte de la solución.
A. El nombre del clúster de AKS donde se hospeda el punto de conexión.

B. El nombre de la canalización de inferencia para el extremo.
C. La URL del punto final.
D. El ID de ejecución del experimento de canalización de inferencia para el extremo.
E. La clave para el punto final.
Sección: (ninguna)
Explicación
Explicación: La implementación
de un modelo de Azure Machine Learning como un servicio web crea un punto de conexión de API REST. Puede enviar datos a este extremo y recibir la predicción devuelta por el modelo.
Usted crea un servicio web cuando implementa un modelo en su entorno local, Azure Container Instances, Azure Kubernetes Service o matrices de puertas programables en campo (FPGA). El URI utilizado
para acceder al servicio web se recupera mediante el SDK de Azure Machine Learning. Si la autenticación está habilitada, también puede usar el SDK para obtener las claves o tokens de autenticación.
Ejemplo:
# URL para el servicio web
scoring_uri = '<su URI de servicio web>'
# Si el servicio está autenticado, establezca la clave o la clave del
token = '<su clave o token>'
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-consume-web-service
PREGUNTA 19
Utiliza el diseñador de Azure Machine Learning para crear una canalización de entrenamiento para un modelo de regresión.
Debe preparar la canalización para la implementación como un punto final que genera predicciones de forma asincrónica para un conjunto de datos de valores de datos de entrada.
¿Qué debes hacer?
A. Clonar la canalización de entrenamiento.
B. Cree una canalización de inferencia por lotes a partir de la canalización de entrenamiento.
885CB989129A5F974833949052CFB2F2
C. Cree una canalización de inferencia en tiempo real a partir de la canalización de entrenamiento.
D. Reemplazar el conjunto de datos en la canalización de entrenamiento con un módulo Introducir datos manualmente.
Sección: (ninguna)
Explicación
Explicación: Primero debe
convertir la canalización de entrenamiento en una canalización de inferencia en tiempo real. Este proceso elimina los módulos de capacitación y agrega entradas y salidas del servicio web para manejar las solicitudes.
A: Utilice el módulo Introducir datos manualmente para crear un pequeño conjunto de datos escribiendo valores.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/tutorial-designer-automobile-price-deploy
https://docs.microsoft.com/en-us/azure/machine-learning/algorithm-module-reference/enter-data-manually
PREGUNTA 20
Vuelve a entrenar un modelo existente.
Debe registrar la nueva versión de un modelo mientras mantiene la versión actual del modelo en el registro.
¿Qué debes hacer?
A. Registre un modelo con un nombre diferente al modelo existente y una propiedad personalizada denominada versión con el valor 2.
B. Registre el modelo con el mismo nombre que el modelo existente.
C. Guarde el nuevo modelo en el almacén de datos predeterminado con el mismo nombre que el modelo existente. No registre el nuevo modelo.
D. Eliminar el modelo existente y registrar el nuevo con el mismo nombre.
Sección: (ninguna)
Explicación
Explicación: Versión del modelo:
Una versión de un modelo registrado. Cuando se agrega un nuevo modelo al Registro de modelos, se agrega como Versión 1. Cada modelo registrado con el mismo nombre de modelo incrementa el número de versión.
885CB989129A5F974833949052CFB2F2
Referencia:
https://docs.microsoft.com/en-us/azure/databricks/applications/mlflow/model-registry
PREGUNTA 21
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación:
885CB989129A5F974833949052CFB2F2
Los dos pasos están presentes: process_step y train_step Data_input

hace referencia correctamente a los datos en el almacén de datos.
Nota:
Los datos utilizados en la canalización se pueden producir en un paso y consumir en otro paso al proporcionar un objeto PipelineData como salida de un paso y como entrada de uno o más pasos posteriores.
Los objetos PipelineData también se usan al construir Pipelines para describir dependencias de pasos. Para especificar que un paso requiere la salida de otro paso como entrada, use un objeto PipelineData en
el constructor de ambos pasos.
Por ejemplo, el paso de entrenamiento de canalización depende de la salida de process_step_output del paso de proceso de canalización:

Referencia:
PREGUNTA 22
Ejecuta un experimento que usa una clase AutoMLConfig para definir una tarea de aprendizaje automático automatizado con un máximo de diez iteraciones de entrenamiento del modelo. La tarea intentará
encontrar el modelo con mejor rendimiento en función de una métrica denominada precisión.
Envías el experimento con el siguiente código:
885CB989129A5F974833949052CFB2F2
Debe crear un código de Python que devuelva el mejor modelo generado por la tarea de aprendizaje automático automatizado.
¿Qué segmento de código se debe utilizar?
A. mejor_modelo = automl_run.get_details()
B. mejor_modelo = automl_run.get_metrics()
C. mejor_modelo = automl_run.get_file_names()[1]
D. mejor_modelo = automl_run.get_output()[1]
Sección: (ninguna)
Explicación
Explicación: El método
get_output devuelve la mejor ejecución y el modelo ajustado.
Referencia:
https://notebooks.azure.com/azureml/projects/azureml-getting-started/html/how-to-use-azureml/automated-machine-learning/classification/auto-ml Classification.ipynb
PREGUNTA 23
Utiliza el SDK de Azure Machine Learning para ejecutar un experimento de entrenamiento que entrena un modelo de clasificación y calcula su métrica de precisión.
El modelo se volverá a entrenar cada mes a medida que haya nuevos datos disponibles.
Debe registrar el modelo para usarlo en una canalización de inferencia por lotes.
Debe registrar el modelo y asegurarse de que los modelos creados por experimentos de reentrenamiento posteriores se registren solo si su precisión es mayor que el modelo registrado actualmente.
A. Especifique un nombre diferente para el modelo cada vez que lo registre.

B. Registre el modelo con el mismo nombre cada vez, independientemente de la precisión, y use siempre la versión más reciente del modelo en la canalización de inferencia por lotes.
C. Especifique la versión del marco del modelo al registrar el modelo, y solo registre modelos posteriores si este valor es mayor.
D. Especifique una propiedad llamada precisión con la métrica de precisión como un valor al registrar el modelo, y solo registre modelos posteriores si su precisión es
885CB989129A5F974833949052CFB2F2
mayor que el valor de la propiedad de precisión del modelo actualmente registrado.

E. Especifique una etiqueta denominada precisión con la métrica de precisión como un valor al registrar el modelo, y solo registre modelos posteriores si su precisión es mayor
que el valor de la etiqueta de precisión del modelo actualmente registrado.
Sección: (ninguna)
Explicación
Explicación: E: Al usar etiquetas,
puede rastrear información útil, como el nombre y la versión de la biblioteca de aprendizaje automático utilizada para entrenar el modelo. Tenga en cuenta que las etiquetas deben ser alfanuméricas.
Referencia:
https://notebooks.azure.com/xavierheriat/projects/azureml-getting-started/html/how-to-use-azureml/deployment/register-model-create-image-deploy-service/ register-model- crear-imagen-desplegar-
servicio.ipynb
PREGUNTA 24
Planea usar la función Hyperdrive de Azure Machine Learning para determinar los valores óptimos de hiperparámetro al entrenar un modelo.
Debe usar Hyperdrive para probar combinaciones de los siguientes valores de hiperparámetro. No debe aplicar una política de terminación anticipada.
learning_rate: cualquier valor entre 0,001 y 0,1 batch_size:

16, 32 o 64
Debe configurar el método de muestreo para el experimento Hyperdrive.
¿Qué dos métodos de muestreo puede utilizar? Cada respuesta correcta es una solución completa.
A. Sin muestreo B.
Muestreo en
cuadrícula C. Muestreo
bayesiano D. Muestreo aleatorio
Respuesta correcta: CD
Sección: (ninguna)
Explicación
885CB989129A5F974833949052CFB2F2
C: El muestreo bayesiano se basa en el algoritmo de optimización bayesiano y toma decisiones inteligentes sobre los valores de hiperparámetros para muestrear a continuación. Selecciona la
muestra en función del rendimiento de las muestras anteriores, de modo que la nueva muestra mejora la métrica principal informada.
El muestreo bayesiano no admite ninguna política de finalización anticipada
Ejemplo:
from azureml.train.hyperdrive import BayesianParameterSampling from
azureml.train.hyperdrive import uniform, choice param_sampling =
BayesianParameterSampling( { "learning_rate": uniform(0.05, 0.1), "batch_size":
choice(16, 32, 64, 128)
}
)
D: En el muestreo aleatorio, los valores de los hiperparámetros se seleccionan aleatoriamente del espacio de búsqueda definido. El muestreo aleatorio permite que el espacio de búsqueda incluya
hiperparámetros discretos y continuos.
B: el muestreo de cuadrícula se puede usar si su espacio de hiperparámetros se puede definir como una opción entre valores discretos y si tiene suficiente presupuesto para buscar exhaustivamente
todos los valores en el espacio de búsqueda definido. Además, se puede utilizar la terminación anticipada automatizada de ejecuciones de bajo rendimiento, lo que reduce el desperdicio de
recursos.
Por ejemplo, el siguiente espacio tiene un total de seis muestras:

from azureml.train.hyperdrive import GridParameterSampling from
azureml.train.hyperdrive import choice param_sampling =
GridParameterSampling( { "num_hidden_layers": choice(1, 2, 3),
"batch_size": elección (16, 32)
}
)
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/how-to-tune-hyperparameters
PREGUNTA 25
Está entrenando modelos de aprendizaje automático en Azure Machine Learning. Utiliza Hyperdrive para ajustar el hiperparámetro.
En ejecuciones anteriores de entrenamiento y ajuste de modelos, muchos modelos mostraron un rendimiento similar.
Debe seleccionar una póliza de terminación anticipada que cumpla con los siguientes requisitos:
tiene en cuenta el rendimiento de todas las ejecuciones anteriores al evaluar la ejecución actual
evita comparar la ejecución actual solo con la ejecución de mejor rendimiento hasta la fecha
885CB989129A5F974833949052CFB2F2
¿Qué dos pólizas de terminación anticipada debería usar? Cada respuesta correcta presenta parte de la solución.
A. Parada mediana B.
Bandido
C por defecto
D. Selección de truncamiento
Respuesta correcta: CA
Sección: (ninguna)
Explicación
Explicación: la política de
detención mediana calcula los promedios móviles de todas las ejecuciones y cancela las ejecuciones cuyo mejor rendimiento es peor que la mediana de los promedios móviles.
Si no se especifica ninguna política, el servicio de ajuste de hiperparámetros permitirá que todas las ejecuciones de entrenamiento se ejecuten hasta su finalización.
B: BanditPolicy define una política de terminación anticipada basada en criterios de holgura y una frecuencia e intervalo de demora para la evaluación.
La política Bandit toma los siguientes parámetros de configuración:
slack_factor: la cantidad de holgura permitida con respecto a la carrera de entrenamiento con mejor rendimiento. Este factor especifica la holgura como una relación.
D: La política de selección de truncamiento cancela periódicamente el porcentaje dado de ejecuciones que tienen la clasificación más baja por su rendimiento en la métrica principal. La política se esfuerza por lograr
la equidad en la clasificación de las ejecuciones teniendo en cuenta la mejora del rendimiento del modelo con el tiempo de entrenamiento. Al clasificar una ejecución relativamente joven, la política usa el rendimiento
correspondiente (y anterior) de ejecuciones más antiguas para comparar. Por lo tanto, las ejecuciones no se cancelan por tener un rendimiento más bajo porque se ejecutaron durante menos tiempo que otras ejecuciones.
Referencia:
https://docs.microsoft.com/en-us/python/api/azureml-train-core/azureml.train.hyperdrive.medianstoppingpolicy
https://docs.microsoft.com/en-us/python/api/azureml-train-core/azureml.train.hyperdrive.truncationselectionpolicy
https://docs.microsoft.com/en-us/python/api/azureml-train-core/azureml.train.hyperdrive.banditpolicy
PREGUNTA 26
Nota: Esta pregunta es parte de una serie de preguntas que presentan el mismo escenario. Cada pregunta de la serie contiene una solución única que podría cumplir con los objetivos establecidos.
Algunos conjuntos de preguntas pueden tener más de una solución correcta, mientras que otros pueden no tener una solución correcta.
885CB989129A5F974833949052CFB2F2
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: Falta una línea:
conda_packages=['scikit-learn'], que es necesaria.
Ejemplo correcto:
sk_est = Estimator(source_directory='./my-sklearn-proj',
compute_target=compute_target, entry_script='train.py',
conda_packages=['scikit-learn'])
Nota:
La clase Estimator representa un estimador genérico para entrenar datos utilizando cualquier marco proporcionado.
885CB989129A5F974833949052CFB2F2
Esta clase está diseñada para usarse con marcos de aprendizaje automático que aún no tienen un estimador preconfigurado de Azure Machine Learning. Existen estimadores preconfigurados para
Chainer, PyTorch, TensorFlow y SKLearn.
Ejemplo:
from azureml.train.estimator import Estimator
script_params = { #
para montar archivos a los que hace referencia el
conjunto de datos mnist '--carpeta de datos':
ds.as_named_input('mnist').as_mount(), '--regularization': 0.8
}
Referencia:
https://docs.microsoft.com/en-us/python/api/azureml-train-core/azureml.train.estimator.estimator
PREGUNTA 27
Solución: Utilice las siguientes métricas: Exactitud, Precisión, Recuperación, puntuación F1 y AUC.
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: Esas son métricas
para evaluar modelos de clasificación; en su lugar, utilice: Error absoluto medio, Error absoluto medio raíz, Error absoluto relativo, Error cuadrático relativo y el Coeficiente de determinación.
885CB989129A5F974833949052CFB2F2
Referencia:
PREGUNTA 28
Solución: utilice las siguientes métricas: error cuadrático relativo, coeficiente de determinación, exactitud, precisión, recuperación, puntuación F1 y AUC.
R. Sí
B No
Sección: (ninguna)
Explicación
Explicación: El error cuadrático
relativo, el coeficiente de determinación son buenas métricas para evaluar el modelo de regresión lineal, pero las otras son métricas para modelos de clasificación.
Referencia:
PREGUNTA 29
Eres un científico de datos que crea un modelo de regresión lineal.
Debe determinar qué tan cerca se ajustan los datos a la línea de regresión.
¿Qué métrica debe revisar?
885CB989129A5F974833949052CFB2F2
A. Error cuadrático medio B.

Coeficiente de determinación
C. Recordar
D. Precisión
E. Error absoluto medio
Sección: (ninguna)
Explicación
Explicación: El coeficiente de
determinación, a menudo denominado R2, representa el poder predictivo del modelo como un valor entre 0 y 1. Cero significa que el modelo es aleatorio (no explica nada); 1 significa que hay un
ajuste perfecto. Sin embargo, se debe tener precaución al interpretar los valores de R2, ya que los valores bajos pueden ser completamente normales y los valores altos pueden ser sospechosos.
A: El error cuadrático medio (RMSE) crea un valor único que resume el error en el modelo. Al elevar al cuadrado la diferencia, la métrica ignora la diferencia entre la predicción excesiva y la predicción
insuficiente.
C: Recall es la fracción de todos los resultados correctos devueltos por el modelo.
D: La precisión es la proporción de resultados verdaderos sobre todos los resultados positivos.
E: el error absoluto medio (MAE) mide qué tan cerca están las predicciones de los resultados reales; por lo tanto, una puntuación más baja es mejor.
Referencia:
PREGUNTA 30
Está creando una clasificación binaria utilizando un modelo de regresión logística de dos clases.
Debe evaluar los resultados del modelo en busca de desequilibrio.
¿Qué métrica de evaluación debe utilizar?
A. Error absoluto relativo

B. Curva AUC
C. Error absoluto medio
D. Error cuadrático relativo
885CB989129A5F974833949052CFB2F2
E. Precisión F.
Error cuadrático medio
Sección: (ninguna)
Explicación
Explicación: Se puede
inspeccionar la tasa de verdaderos positivos frente a la tasa de falsos positivos en la curva de características operativas del receptor (ROC) y el valor correspondiente del área bajo la curva (AUC). Cuanto
más cerca esté esta curva de la esquina superior izquierda, mejor será el rendimiento del clasificador (es decir, maximizar la tasa de verdaderos positivos y minimizar la tasa de falsos positivos). Las curvas
que están cerca de la diagonal de la gráfica son el resultado de clasificadores que tienden a hacer predicciones cercanas a las conjeturas aleatorias.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio/evaluate-model-performance#evaluating-a-binary-classification-model
PREGUNTA 31
Está creando un modelo de aprendizaje automático para traducir contenido textual en inglés a contenido textual en francés.
Debe crear y entrenar el modelo de aprendizaje automático para aprender la secuencia del contenido textual.
¿Qué tipo de red neuronal debería usar?
A. Percepciones multicapa (MLP)

B. Redes neuronales convolucionales (CNN)
C. Redes neuronales recurrentes (RNN)
D. Redes adversarias generativas (GAN)
Sección: (ninguna)
Explicación
Explicación: Para traducir un
corpus de texto en inglés al francés, necesitamos construir una red neuronal recurrente (RNN).
Nota: los RNN están diseñados para tomar secuencias de texto como entradas o devolver secuencias de texto como salidas, o ambas cosas. Se denominan recurrentes porque las capas ocultas de la red
tienen un bucle en el que la salida y el estado de la celda de cada paso de tiempo se convierten en entradas en el siguiente paso de tiempo. Esta recurrencia sirve como una forma de memoria. Permite que la
información contextual fluya a través de la red para que los resultados relevantes de los pasos de tiempo anteriores se puedan aplicar a las operaciones de la red en el paso de tiempo actual.
Referencia:
885CB989129A5F974833949052CFB2F2
https://towardsdatascience.com/language-translation-with-rnns-d84d43b40571
PREGUNTA 32
Creas un modelo de clasificación binaria.
Es necesario evaluar el rendimiento del modelo.
¿Qué dos métricas puedes usar? Cada respuesta correcta presenta una solución completa.
A. error absoluto relativo

B. precisión
C. exactitud
D. error absoluto medio
E. coeficiente de determinación
Sección: (ninguna)
Explicación
Explicación: Las métricas de
evaluación disponibles para los modelos de clasificación binaria son: Exactitud, Precisión, Recuperación, Puntuación F1 y AUC.
Nota: Una pregunta muy natural es: 'De los individuos a quienes el modelo, ¿cuántos fueron clasificados correctamente (TP)?' Esta
pregunta se puede responder observando la Precisión del modelo, que es la proporción de positivos que se clasifican correctamente.
Referencia:
https://docs.microsoft.com/en-us/azure/machine-learning/studio/evaluate-model-performance
885CB989129A5F974833949052CFB2F2

DP 100

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

DP 100

Cargado por

Copyright:

Formatos disponibles

Machine Translated by Google

Definir y preparar el entorno de desarrollo.

NOTA: Cada selección correcta vale un punto.

A. Herramienta de detección de virtualización asistida por hardware de Microsoft

Tienes los siguientes requisitos:

Los modelos deben construirse utilizando los marcos Caffe2 o Chainer.

Debe seleccionar un entorno de ciencia de datos.

¿Qué entorno debe usar?

A. Servicio de aprendizaje automático de Azure

El modelo utiliza una base de datos PostgreSQL y requiere procesamiento de GPU.

¿Qué debes hacer?

A. Cree una edición de Windows de Máquina virtual de ciencia de datos (DSVM).

Tiene los siguientes datos disponibles para la construcción del modelo:

Grabaciones en video de eventos deportivos.

Debe seleccionar un entorno para crear el modelo.

¿Qué entorno debe usar?

A. Azure Cognitive Services B.

Debe transferir los datos a Azure Blob Storage.

NOTA: Cada selección correcta vale un punto.

A. Consulta SQL de inserción

Respuesta correcta: BCD

Explorador de Azure Storage

Debe formatear los datos para el entorno Weka.

¿Qué módulo debería usar?

El modelo debe ser compatible con la última versión de Python.

¿Qué deberías recomendar?

Debe seleccionar una DSVM preconfigurada para admitir los marcos.

¿Qué deberías crear?

A. Máquina virtual de ciencia de datos para Windows 2012 B.

Debe seleccionar un destino de proceso para implementar el espacio de trabajo.

¿Qué debes usar?

A. Azure Data Lake Analytics B. Azure

D. Apache Spark para HDInsight

El conjunto de datos está desequilibrado.

¿Qué módulo debería usar?

A. Importancia de la característica de permutación

C. Análisis discriminante lineal de Fisher D.

Debe predecir la tarifa de un viaje en taxi.

Debe seleccionar métricas de rendimiento para evaluar correctamente el modelo de regresión.

NOTA: Cada selección correcta vale un punto.

A. un valor de error cuadrático medio que es bajo B. un

Solución: Ejecute el siguiente código:

¿La solución cumple con el objetivo?

Destino: registros del controlador, diseñador de Azure Machine Learning

Solución: Ejecute el siguiente código:

¿La solución cumple con el objetivo?

Nota: ejemplo de impresión/registro de Python:

Destino: registros del controlador, diseñador de Azure Machine Learning

Solución: Ejecute el siguiente código:

¿La solución cumple con el objetivo?

Nota: ejemplo de impresión/registro de Python:

Destino: registros del controlador, diseñador de Azure Machine Learning

Debe identificar las tareas que podrá realizar en el espacio de trabajo.

NOTA: Cada selección correcta vale un punto.

Respuesta correcta: ABD

¿Qué debes hacer?

desde azureml.core importar espacio de trabajo, almacén de datos, conjunto de datos

datastore_name = 'su nombre de almacén de datos'

# obtener espacio de trabajo

# recuperar un almacén de datos existente en el espacio de trabajo por

# crear un TabularDataset a partir de 3 rutas de archivos en el almacén

¿Qué segmento de código debe agregar al script?

¿Qué segmento de código de Python debería usar?