Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Este glosario define términos generales de aprendizaje automático, además de términos específicos de
TensorFlow.
¿Sabías? Puede filtrar el glosario eligiendo un tema del menú desplegable Glosario en la barra de
navegación superior. El icono de pájaro que nace significa definiciones dirigidas a los recién llegados de ML
Una forma estadística de comparar dos (o más) técnicas: la A y la B. Por lo general, la A es una técnica
existente y la B es una técnica nueva. Las pruebas A/B no solo determinan qué técnica funciona mejor,
sino también si la diferencia es estadísticamente significativa.
Las pruebas A/B generalmente comparan una sola métrica (#metric) en dos técnicas; por ejemplo, ¿cómo
se compara la precisión (#accuracy) del modelo para dos técnicas? Sin embargo, las pruebas A/B también
pueden comparar cualquier número finito de métricas.
accuracy - exactitud 🐣
El número de predicciones (#prediction) de clasificación correctas dividido por el número total de
predicciones. Eso es:
Por ejemplo, un modelo que hizo 40 predicciones correctas y 10 incorrectas tendría una precisión de:
Aunque es una métrica valiosa para algunas situaciones, la precisión es muy engañosa para otras. En
particular, la precisión suele ser una métrica deficiente para evaluar los modelos de clasificación
que procesan conjuntos de datos de clases desequilibradas (#class_imbalanced_data_set).
Por ejemplo, supongamos que la nieve cae solo 25 días por siglo en cierta ciudad subtropical. Dado
que los días sin nieve (la clase negativa) superan ampliamente a los días con nieve (la clase
positiva), el conjunto de datos de nieve para esta ciudad está desequilibrado por clases. Imagine un
modelo de clasificación binaria (#binary-classification) que se supone que prediga nieve o no nieve
todos los días, pero simplemente predice "no nieve" todos los días. Este modelo es muy preciso pero
no tiene poder predictivo. La siguiente tabla resume los resultados de un siglo de predicciones:
Category Number
TP 0
TN 36500
FP 25
FN 0
La precisión (#precision) y la recuperación (#recall) suelen ser métricas más útiles que la precisión para
evaluar modelos entrenados en conjuntos de datos de clase desequilibrada -class-imbalanced datasets -.
action - acción RL
En el aprendizaje por refuerzo (#reinforcement_learning), el mecanismo por el cual el agente (#agent)
realiza la transición entre los estados (#state) del entorno (#environment). El agente elige la acción
mediante una política (#policy).
activation function - función de activación 🐣
Una función que permite que las redes neuronales (#neural_network) aprendan relaciones no lineales
(#nonlinear) (complejas -complex-) entre las entidades y la etiqueta.
Las gráficas de las funciones de activación nunca son líneas rectas simples. Por ejemplo, el gráfico de la
función de activación de ReLU consta de dos líneas rectas:
En una red neuronal, las funciones de activación manipulan la suma ponderada (#weighted_sum) de
todas las entradas a una neurona (#neuron). Para calcular una suma ponderada, la neurona suma los
productos de los valores y pesos relevantes. Por ejemplo, suponga que la entrada relevante a una
neurona consiste en lo siguiente:
2 -1.3
-1 0.6
3 0.4
La suma ponderada es por lo tanto:
Suponga que el diseñador de esta red neuronal elige la función sigmoidea (#sigmoid-function) como
función de activación. En ese caso, la neurona calcula el sigmoide de -2,0, que es aproximadamente
0,12. Por lo tanto, la neurona pasa 0,12 (en lugar de -2,0) a la siguiente capa de la red neuronal. La
siguiente figura ilustra la parte relevante del proceso:
AdaGrad
Un sofisticado algoritmo de descenso de gradientes que vuelve a escalar los gradientes de cada
parámetro (#parameter), dando efectivamente a cada parámetro una tasa de aprendizaje
(#learning_rate) independiente . Para obtener una explicación completa, consulte este artículo.
(http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf).
agent - agente RL
En el aprendizaje por refuerzo (#reinforcement_learning), es la entidad que utiliza una política
(#policy) para maximizar el rendimiento (#return) esperado obtenido de la transición entre estados
(#state) del entorno (#environment).
AR
Abreviatura de realidad aumentada (#augmented_reality).
Un mecanismo no humano que demuestra una amplia gama de resolución de problemas, creatividad y
adaptabilidad. Por ejemplo, un programa que demuestre inteligencia artificial general podría traducir
texto, componer sinfonías y sobresalir en juegos que aún no se han inventado.
attention - atención 🔤
Cualquiera de una amplia gama de mecanismos de arquitectura de redes neuronales (#neural_network)
que agregan información de un conjunto de entradas de manera dependiente de los datos. Un mecanismo
de atención típico podría consistir en una suma ponderada sobre un conjunto de entradas, donde el peso
(#weight) de cada entrada es calculado por otra parte de la red neuronal.
attribute - atributo ⚖️
Sinónimo de característica (#feature)
Por ejemplo, la siguiente ilustración muestra un modelo clasificador que separa perfectamente las clases
positivas (óvalos verdes) de las clases negativas (rectángulos morados). Este modelo irrealmente perfecto
tiene un AUC de 1.0:
Por el contrario, la siguiente ilustración muestra los resultados de un modelo clasificador que generó
resultados aleatorios. Este modelo tiene un AUC de 0.5:
La mayoría de los modelos están en algún lugar entre los dos extremos. Por ejemplo, el siguiente modelo
separa un poco los aspectos positivos de los negativos y, por lo tanto, tiene un AUC entre 0.5 y 1.0:
AUC ignora cualquier valor que establezca para el umbral de clasificación (#classification_threshold). En
cambio, AUC considera todos los umbrales de clasificación posibles.
Click the icon to learn about the relationship between AUC and ROC curves.
AUC representa el área bajo una curva ROC -ROC curve- (#ROC). Por ejemplo, la curva ROC para un
modelo que separa perfectamente los aspectos positivos de los negativos es la siguiente:
AUC es el área de la región gris en la ilustración anterior. En este caso inusual, el área es simplemente la
longitud de la región gris (1.0) multiplicada por el ancho de la región gris (1.0). Por lo tanto, el producto
de 1.0 y 1.0 produce un AUC de exactamente 1.0, que es la puntuación de AUC más alta posible.
Por el contrario, la curva ROC para un clasificador que no puede separar clases en absoluto es la siguiente.
El área de esta región gris es 0.5.
AUC es la probabilidad de que un clasificador esté más seguro de que un ejemplo positivo elegido al azar
sea realmente positivo que de que un ejemplo negativo elegido al azar sea positivo.
Una métrica para resumir el rendimiento de una secuencia clasificada de resultados. La precisión promedio
se calcula tomando el promedio de los valores de precisión (#precision) para cada resultado relevante
(cada resultado en la lista clasificada donde el recuerdo aumenta en relación con el resultado anterior).
backpropagation - retropropagación 🐣
El algoritmo que implementa el descenso de gradiente (#gradient_descent) en las redes neuronales
(#neural_network).
El entrenamiento de una red neuronal implica muchas iteraciones (#iteration) del siguiente ciclo de dos
pasos:
1. Durante el paso hacia adelante –forward pass-, el sistema procesa un lote (#batch) de
ejemplos (#example) para generar predicciones. El sistema compara cada predicción con cada
valor de etiqueta (#label). La diferencia entre la predicción y el valor de la etiqueta es la
pérdida (#loss) para ese ejemplo. El sistema agrega las pérdidas de todos los ejemplos para
calcular la pérdida total del lote actual.
2. Durante el paso hacia atrás -backward pass- (backpropagation), el sistema reduce la pérdida
ajustando los pesos de todas las neuronas (#neuron) en todas las capas ocultas
(#hidden_layer).
Las redes neuronales a menudo contienen muchas neuronas en muchas capas ocultas. Cada una de esas
neuronas contribuye a la pérdida general de diferentes maneras. Backpropagation determina si aumentar o
disminuir los pesos aplicados a neuronas particulares.
La tasa de aprendizaje (#learning_rate) es un multiplicador que controla el grado en que cada paso hacia
atrás aumenta o disminuye cada peso. Una tasa de aprendizaje grande aumentará o disminuirá cada peso
más que una tasa de aprendizaje pequeña.
Es decir, backpropagation calcula la derivada parcial (#learning_rate) del error con respecto a cada
parámetro. Para obtener más detalles, consulte este tutorial en Machine Learning Crash Course.
(https://developers-dot-devsite-v2-prod.appspot.com/machine-learning/crash-course/backprop-scroll).
Hace años, los profesionales de ML tenían que escribir código para implementar la retropropagación. Las
API de aprendizaje automático modernas, como TensorFlow, ahora implementan la retropropagación por ti.
¡Uf!
bagging - harpillera 🌳🌲🌳
Un método para entrenar (#training) un conjunto (#ensemble) donde cada modelo (#model)
constituyente entrena en un subconjunto aleatorio de ejemplos de entrenamiento muestreados con
reemplazo (#sampling-with-replacement) . Por ejemplo, un bosque aleatorio (#random-forest) es una
colección de árboles de decisión (#decision-tree) entrenados con embolsado.
Por ejemplo, bolsa de palabras representa las siguientes tres frases de manera idéntica:
● el perro salta
● salta el perro
● perro salta el
Cada palabra se asigna a un índice en un vector disperso (#sparse_vector) , donde el vector tiene un
índice para cada palabra del vocabulario. Por ejemplo, la frase el perro salta se asigna a un vector de
características con valores distintos de cero en los tres índices correspondientes a las palabras el , el perro
y salta . El valor distinto de cero puede ser cualquiera de los siguientes:
baseline - base
Un modelo (#model) que se utiliza como punto de referencia para comparar el rendimiento de otro
modelo (por lo general, uno más complejo). Por ejemplo, un modelo de regresión logística
(#logistic_regression) podría servir como una buena base para un modelo profundo (#deep_model) .
Para un problema particular, la línea de base ayuda a los desarrolladores de modelos a cuantificar el
rendimiento mínimo esperado que debe alcanzar un nuevo modelo para que sea útil.
batch - lote 🐣
El conjunto de ejemplos (#example) utilizados en una iteración (#iteration) de entrenamiento . El
tamaño del lote (#batch_size) determina el número de ejemplos en un lote.
Consulte época (#epoch) para obtener una explicación de cómo un lote se relaciona con una época.
● Haga que las redes neuronales sean (#neural_network) más estables protegiéndolas contra pesos
atípicos (#outliers).
● Habilite tasas de aprendizaje más altas (#learning_rate) , lo que puede acelerar el
entrenamiento.
● Reducir el sobreajuste (#overfitting) .
Dado que la optimización bayesiana es muy costosa, generalmente se usa para optimizar tareas costosas de
evaluar que tienen una pequeña cantidad de parámetros, como la selección de hiperparámetros
(#hyperparameter) .
Los algoritmos de aprendizaje por refuerzo (#reinforcement_learning) aplican esta identidad para crear
Q-learning (#q-learning) a través de la siguiente regla de actualización:
Más allá del aprendizaje por refuerzo, la ecuación de Bellman tiene aplicaciones en la programación
dinámica. Consulte la entrada de Wikipedia para la ecuación de Bellman
(https://wikipedia.org/wiki/Bellman_equation).
BERT (Bidirectional Encoder Representations from Transformer) -
(Representaciones de codificador bidireccional de transformadores) 🔤
Una arquitectura modelo para la representación (#representation) de texto . Un modelo BERT entrenado
puede actuar como parte de un modelo más grande para la clasificación de texto u otras tareas de ML.
● LaBSE (https://ai.googleblog.com/2020/08/language-agnostic-bert-sentence.html.
Consulte Open Sourcing BERT: capacitación previa de última generación para el procesamiento del lenguaje
natural (https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html) para obtener una
descripción general de BERT.
2. Error sistemático introducido por un procedimiento de muestreo o informe. Las formas de este tipo de
sesgo incluyen:
No debe confundirse con el término sesgo (#bias) en modelos de aprendizaje automático o sesgo de
predicción (#prediction_bias).
En una línea bidimensional simple, el sesgo solo significa "intersección y". Por ejemplo, el sesgo de la línea
en la siguiente ilustración es 2.
El sesgo existe porque no todos los modelos parten del origen (0.0). Por ejemplo, supongamos que la
entrada a un parque de atracciones cuesta 2 euros y 0.5 euros adicionales por cada hora de estancia de
un cliente. Por lo tanto, un modelo que mapee el costo total tiene un sesgo de 2 porque el costo más bajo
es de 2 euros.
El sesgo no debe confundirse con el sesgo de ética y equidad (#bias_ethics) o el sesgo de predicción
(#prediction_bias).
Un modelo de lenguaje unidireccional tendría que basar sus probabilidades solo en el contexto provisto por
las palabras "Qué", "es" y "el". Por el contrario, un modelo de lenguaje bidireccional también podría
obtener contexto de "con" y "usted", lo que podría ayudar al modelo a generar mejores predicciones.
Por ejemplo, los siguientes dos modelos de aprendizaje automático realizan una clasificación binaria:
● Un modelo que determina si los mensajes de correo electrónico son spam (clase positiva) o no
spam (clase negativa).
● Un modelo que evalúa los síntomas médicos para determinar si una persona tiene una enfermedad
en particular (la clase positiva) o no tiene esa enfermedad (la clase negativa).
binning - agrupar
Sinónimo de baldear (#bucketing) .
boosting - impulsar
Una técnica de aprendizaje automático que combina iterativamente un conjunto de clasificadores simples
y no muy precisos (denominados clasificadores "débiles") en un clasificador con alta precisión (un
clasificador "fuerte") mediante la ponderación (#upweighting) de los ejemplos que el modelo está
clasificando incorrectamente actualmente.
bounding box - cuadro delimitador 🖼️
En una imagen, las coordenadas (x,y) de un rectángulo alrededor de un área de interés, como el perro en
la imagen de abajo.
broadcasting - radiodifusión
Por ejemplo, dadas las siguientes definiciones, el álgebra lineal prohíbe A+B porque A y B tienen
dimensiones diferentes:
A = [[7, 10, 4],
[13, 5, 9]]
B = [2]
bucketing - baldeando 🐣
Convertir una característica (#feature) única en varias características binarias denominadas cubos o
contenedores , generalmente en función de un rango de valores.La función cortada suele ser una función
continua (#continuous_feature).
Por ejemplo, en lugar de representar la temperatura como una sola característica continua de punto
flotante, puede dividir rangos de temperaturas en cubos discretos, como:
El modelo tratará todos los valores en el mismo cubo de manera idéntica. Por ejemplo, los valores 13 y
22 están en el cubo templado, por lo que el modelo trata los dos valores de forma idéntica.
Si representa la temperatura como una característica continua, el modelo trata la temperatura como una
sola característica. Si representa la temperatura como tres cubos, el modelo trata cada cubo como una
característica separada. Es decir, un modelo puede aprender relaciones separadas de cada depósito con la
etiqueta (#label). Por ejemplo, un modelo de regresión lineal (#linear_regression) puede aprender pesos
(#weight) separados para cada cubo.
Aumentar la cantidad de cubos hace que su modelo sea más complicado al aumentar la cantidad de
relaciones que su modelo debe aprender. Por ejemplo, los cubos frío, templado y tibio son esencialmente
tres características separadas para que su modelo entrene. Si decide agregar dos cubos más, por ejemplo,
congelado y caliente, su modelo ahora tendría que entrenarse en cinco funciones separadas.
¿Cómo sabe cuántos cubos debe crear o cuáles deben ser los rangos para cada cubo? Las respuestas
generalmente requieren una buena cantidad de experimentación.
C
● red
● yellow
● green
centroid - centroide 🍇
El centro de un conglomerado determinado por un algoritmo k-means (#k-means) o kmedian (#k-median) .
Por ejemplo, si k es 3, entonces el algoritmo k-medias o k-mediana encuentra 3 centroides.
checkpoint - control
Datos que capturan el estado de los parámetros (#parameter) de un modelo en una iteración de
entrenamiento particular. Los puntos de control permiten exportar pesos (#weight) de modelos o realizar
entrenamientos (#training) en varias sesiones. Los puntos de control también permiten que el
entrenamiento continúe con errores pasados (por ejemplo, preferencia de trabajo).
class - clase 🐣
Una categoría a la que puede pertenecer una etiqueta (#label) Por ejemplo:
● En un modelo de clasificación binaria (#binary_classification) que detecta spam, las dos clases
pueden ser spam y no spam .
● En un modelo de clasificación de varias clases (#multi-class) que identifica las razas de perros, las
clases pueden ser poodle , beagle , pug , etc.
● Un modelo que predice el idioma de una oración de entrada (¿francés? ¿español? ¿italiano?).
● Un modelo que predice especies de árboles (¿arce? ¿roble? ¿baobab?).
● Un modelo que predice la clase positiva o negativa para una condición médica particular.
Por el contrario, los modelos de regresión (#regression_model) predicen números en lugar de clases.
● Si este valor bruto es mayor que el umbral de clasificación, se predice la clase positiva.
● Si este valor bruto es inferior al umbral de clasificación, se predice la clase negativa.
Por ejemplo, suponga que el umbral de clasificación es 0.8. Si el valor bruto es 0.9, el modelo predice la
clase positiva. Si el valor bruto es 0.7, el modelo predice la clase negativa.
La elección del umbral de clasificación influye fuertemente en el número de falsos positivos (#FP) y
falsos negativos (#FN) .
A medida que evolucionan los modelos o conjuntos de datos, los ingenieros a veces también cambian el
umbral de clasificación. Cuando cambia el umbral de clasificación, las predicciones de clase positivas
pueden convertirse repentinamente en clases negativas y viceversa.
Por lo tanto, el sistema diagnostica la clase positiva. (El paciente jadea, "¡Oh, no! ¡Estoy enfermo!")
Por lo tanto, el sistema ahora reclasifica a ese paciente como la clase negativa. ("¡Feliz día! No estoy
enfermo".) El mismo paciente. Diagnóstico diferente.
Por el contrario, el siguiente conjunto de datos no tiene un desequilibrio de clases porque la proporción de
etiquetas negativas a etiquetas positivas es relativamente cercana a 1:
Los conjuntos de datos de varias clases también pueden estar desequilibrados por clase. Por ejemplo, el
siguiente conjunto de datos de clasificación de clases múltiples también está desequilibrado porque una
etiqueta tiene muchos más ejemplos que las otras dos:
clipping - recorte 🐣
Una técnica para el manejo de valores atípicos (#outliers) haciendo uno o ambos de los siguientes:
● Reducir los valores de características (#feature) que son mayores que un umbral máximo hasta ese
umbral máximo.
● Aumentar los valores de las características que son inferiores a un umbral mínimo hasta ese umbral
mínimo.
Por ejemplo, suponga que <0,5% de los valores de una característica en particular se encuentran fuera
del rango 40–60. En este caso, podrías hacer lo siguiente:
● Recorte todos los valores por encima de 60 (el umbral máximo) para que sean exactamente 60.
● Recorte todos los valores por debajo de 40 (el umbral mínimo) para que sean exactamente 40.
Los valores atípicos pueden dañar los modelos y, en ocasiones, hacer que las pesos (#weight) se desborden
durante el entrenamiento. Algunos valores atípicos también pueden estropear drásticamente métricas
como la precisión (#accuracy) . El recorte es una técnica común para limitar el daño.
clustering - agrupamiento 🍇
Agrupar ejemplos (#example) relacionados , particularmente durante el aprendizaje no supervisado
(#unsupervised_machine_learning). Una vez que se agrupan todos los ejemplos, un ser humano puede
opcionalmente proporcionar significado a cada grupo.
Existen muchos algoritmos de agrupamiento. Por ejemplo, el algoritmo k-means (#k-means) agrupa
ejemplos en función de su proximidad a un centroide (#centroid) , como en el siguiente diagrama:
Luego, un investigador humano podría revisar los grupos y, por ejemplo, etiquetar el grupo 1 como "árboles
enanos" y el grupo 2 como "árboles de tamaño completo".
Como otro ejemplo, considere un algoritmo de agrupamiento basado en la distancia de un ejemplo desde
un punto central, ilustrado a continuación:
co-adaptation - coadaptación
Cuando las neuronas (#neuron) predicen patrones en los datos de entrenamiento basándose casi
exclusivamente en los resultados de otras neuronas específicas en lugar de confiar en el comportamiento
de la red como un todo. Cuando los patrones que causan la coadaptación no están presentes en los datos
de validación, la coadaptación provoca un sobreajuste. La regularización de la deserción
(#dropout_regularization) reduce la coadaptación porque la deserción garantiza que las neuronas no
puedan depender únicamente de otras neuronas específicas.
Ver también:
Tumor(predicted) Non.Tumor(predicted)
Tumor (ground truth) 18(TP) 1(FN)
Non-Tumor (ground truth) 6(FP) 452(TN)
● De las 19 predicciones en las que la verdad fundamental (#ground_truth) fue Tumor, el modelo
clasificó correctamente 18 y clasificó incorrectamente 1.
● De las 458 predicciones en las que la verdad del terreno fue No tumoral, el modelo clasificó
correctamente 452 e incorrectamente 6.
Como otro ejemplo más, una matriz de confusión podría revelar que un modelo entrenado para reconocer
dígitos escritos a mano tiende a predecir erróneamente 9 en lugar de 4, o predecir erróneamente 1 en
lugar de 7.
Las matrices de confusión contienen información suficiente para calcular una variedad de métricas de
rendimiento, incluidas la precisión (#precision) y la recuperación (#recall).
convergence - convergencia 🐣
Un estado alcanzado cuando los valores de pérdida (#loss) cambian muy poco o nada en cada iteración
(#iteration) . Por ejemplo, la siguiente curva de pérdida (#loss_curve) sugiere convergencia en alrededor
de 700 iteraciones:
En el aprendizaje profundo (#deep_model) , los valores de pérdida a veces permanecen constantes o casi
durante muchas iteraciones antes de finalmente descender. Durante un largo período de valores de pérdida
constante, puede tener temporalmente una falsa sensación de convergencia.
Por el contrario, la siguiente función no es convexa. Observe cómo la región sobre el gráfico no es un
conjunto convexo:
Una función estrictamente convexa tiene exactamente un punto mínimo local, que también es el punto
mínimo global. Las funciones clásicas en forma de U son estrictamente funciones convexas. Sin embargo,
algunas funciones convexas (por ejemplo, líneas rectas) no tienen forma de U.
Haga clic en el ícono para una mirada más profunda a las matemáticas.
Muchas de las funciones de pérdida (#loss-function) comunes , incluidas las siguientes, son funciones
convexas:
● pérdida L2 (#L2_loss)
● Pérdida de registro (#Log_Loss)
● regularización L1 (#L1_regularization)
● regularización L2 (#L2_regularization)
Se garantiza que muchas variaciones del descenso del gradiente (#gradient_descent) encontrarán un
punto cercano al mínimo de una función estrictamente convexa. De manera similar, muchas variaciones del
descenso de gradiente estocástico (#SGD) tienen una alta probabilidad (aunque no una garantía) de
encontrar un punto cercano al mínimo de una función estrictamente convexa.
La suma de dos funciones convexas (por ejemplo, pérdida L2 + regularización L1) es una función
convexa.
Los modelos profundos (#deep_model) nunca son funciones convexas. Sorprendentemente, los algoritmos
diseñados para la optimización convexa (#convex_optimization) tienden a encontrar soluciones
razonablemente buenas en redes profundas de todos modos, aunque no se garantiza que esas soluciones
sean un mínimo global.
El término "convolución" en el aprendizaje automático suele ser una forma abreviada de referirse a una
operación (#convolutional_operation) convolucional o una capa convolucional (#convolutional_layer).
Sin circunvoluciones, un algoritmo de aprendizaje automático tendría que aprender un peso separado para
cada celda en un tensor (#tensor) grande. Por ejemplo, un entrenamiento de algoritmo de aprendizaje
automático en imágenes de 2K x 2K se vería obligado a encontrar pesos separados de 4M. Gracias a las
convoluciones, un algoritmo de aprendizaje automático sólo tiene que encontrar pesos para cada celda en
el filtro convolucional (#convolutional_filter), lo que reduce drásticamente la memoria necesaria para
entrenar el modelo. Cuando se aplica el filtro convolucional, simplemente se replica en las celdas de modo
que cada una se multiplique por el filtro.
En la manipulación fotográfica, todas las celdas de un filtro convolucional suelen establecerse en un patrón
constante de unos y ceros. En el aprendizaje automático, los filtros convolucionales generalmente se
siembran con números aleatorios y luego la red entrena (#training) los valores ideales.
Las redes neuronales convolucionales han tenido un gran éxito en ciertos tipos de problemas, como el
reconocimiento de imágenes.
1. Multiplicación por elementos del filtro convolucional (#convolutional_filter) y una porción de una
matriz de entrada. (El segmento de la matriz de entrada tiene el mismo rango y tamaño que el
filtro convolucional).
2. Suma de todos los valores de la matriz de productos resultante.
Cada operación convolucional involucra una sola rebanada de 2x2 de la matriz de entrada. Por ejemplo,
supongamos que usamos el segmento 2x2 en la parte superior izquierda de la matriz de entrada.
Entonces, la operación de convolución en este segmento se ve de la siguiente manera:
Una capa convolucional (#convolutional_layer) consta de una serie de operaciones convolucionales, cada
una de las cuales actúa sobre una porción diferente de la matriz de entrada.
cost - costo
co-training - co-entrenamiento
Un enfoque de aprendizaje (#semi-supervised_learning) semisupervisado particularmente útil cuando se
cumplen todas las condiciones siguientes:
El co-entrenamiento esencialmente amplifica las señales independientes en una señal más fuerte. Por
ejemplo, considere un modelo de clasificación (#classification_model) que categorice autos usados
individuales como buenos o malos . Un conjunto de características predictivas podría centrarse en
características agregadas como el año, la marca y el modelo del automóvil; otro conjunto de funciones
predictivas podría centrarse en el historial de conducción del propietario anterior y el historial de
mantenimiento del automóvil.
Consulte "Cuando los mundos chocan: integración de diferentes supuestos contrafácticos en la equidad"
(https://papers.nips.cc/paper/2017/file/1271a7029c9df08643b631b02cf9e116-Paper.pdf) para obtener una
discusión más detallada sobre la equidad contrafactual.
Obtener una comprensión de los datos considerando muestras, medidas y visualización. El análisis de datos
puede ser particularmente útil cuando se recibe un conjunto de datos por primera vez, antes de construir
el primer modelo (#model) . También es crucial para comprender los experimentos y depurar problemas
con el sistema.
Un DataFrame es análogo a una tabla o una hoja de cálculo. Cada columna de un DataFrame tiene un
nombre (un encabezado) y cada fila se identifica con un número único.
Cada columna en un DataFrame está estructurada como una matriz 2D, excepto que a cada columna se le
puede asignar su propio tipo de datos.
Una forma de escalar el entrenamiento (#training) o la inferencia (#inference) que replica un modelo
completo en varios dispositivos y luego pasa un subconjunto de los datos de entrada a cada dispositivo. El
paralelismo de datos puede permitir el entrenamiento y la inferencia en tamaños de lotes (#batch_size)
muy grandes; sin embargo, el paralelismo de datos requiere que el modelo sea lo suficientemente pequeño
para caber en todos los dispositivos.
Una API TensorFlow (#TensorFlow) de alto nivel para leer datos y transformarlos en la forma que requiere
un algoritmo de aprendizaje automático. Un tf.data.Datasetobjeto representa una secuencia de
elementos, en la que cada elemento contiene uno o más tensores (#tensor). Un tf.data.Iterator
objeto proporciona acceso a los elementos de un Dataset.
Para obtener detalles sobre la API de conjunto de datos, consulte tf.data: Build TensorFlow input pipelines
(https://www.tensorflow.org/guide/data) en la Guía del programador de TensorFlow.
El separador entre clases (#class) aprendido por un modelo (#model) en una clase binaria
(#binary_classification) o problemas de clasificación multiclase (#multi-class) . Por ejemplo, en la
siguiente imagen que representa un problema de clasificación binaria, el límite de decisión es la frontera
entre la clase naranja y la clase azul:
decision forest - bosque de decisiones 🌳🌲🌳
Un modelo creado a partir de múltiples árboles de decisión (#decision-tree). Un bosque de decisión hace
una predicción agregando las predicciones de sus árboles de decisión. Los tipos populares de bosques de
decisión incluyen bosques aleatorios (#random-forest) y árboles potenciados por gradientes (#gbt).
Los decodificadores son a menudo un componente de un modelo más grande, donde con frecuencia se
emparejan con un codificador (#encoder).
Por ejemplo, si tanto liliputienses como brobdingnagianos se postulan para la Universidad de Glubbdubdrib,
la paridad demográfica se logra si el porcentaje de liliputienses admitidos es el mismo que el porcentaje
de brobdingnagianos admitidos, independientemente de si un grupo está en promedio más calificado que el
otro.
1. El ruido se agrega artificialmente a una oración sin etiqueta al enmascarar algunas de las fichas.
2. El modelo intenta predecir las fichas originales.
depth - profundidad 🐣
La suma de lo siguiente en una red neuronal (#neural_network) :
Por ejemplo, una red neuronal con cinco capas ocultas y una capa de salida tiene una profundidad de 6.
Una convolución separable en profundidad (también abreviada como convolución separable) factoriza una
convolución 3-D estándar en dos operaciones de convolución separadas que son más eficientes
computacionalmente: primero, una convolución en profundidad, con una profundidad de 1(n✕n✕1), y
luego segundo, una convolución puntual, con largo y ancho de 1 (1 ✕ 1 ✕ n).
Para obtener más información, consulte Xception: aprendizaje profundo con circunvoluciones separables
en profundidad (https://arxiv.org/pdf/1610.02357.pdf).
device - dispositivo
Una categoría de hardware que puede ejecutar una sesión de TensorFlow, incluidas CPUs, GPUs y TPUs
(#TPU).
Disminución del número de dimensiones utilizadas para representar una característica particular en un
vector de características, normalmente mediante la conversión a un vector incrustado
(#embedding_vector).
dimensions - dimensiones
Término sobrecargado que tiene cualquiera de las siguientes definiciones: El número de niveles de
coordenadas en un tensor (#tensor). Por ejemplo:
Un modelo (#model) que predice etiquetas (#label) a partir de un conjunto de una o más características
(#feature). Más formalmente, los modelos discriminativos definen la probabilidad condicional de una
salida dadas las características y los pesos (#weight) ; eso es:
Por ejemplo, un modelo que predice si un correo electrónico es spam a partir de características y pesos es
un modelo discriminatorio.
La gran mayoría de los modelos de aprendizaje supervisado, incluidos los modelos de clasificación y
regresión, son modelos discriminativos.
discriminator - discriminado
Por ejemplo, supongamos que un algoritmo que determina la elegibilidad de un liliputiense para un
préstamo de vivienda en miniatura es más probable que lo clasifique como "no elegible" si su dirección
postal contiene un código postal determinado. Si es más probable que los liliputienses de Big-Endian
tengan direcciones de correo con este código postal que los liliputienses de Little-Endian, entonces este
algoritmo puede tener un impacto dispar.
Contraste con el tratamiento (#disparate_treatment) desigual, que se centra en las disparidades que
resultan cuando las características de los subgrupos son entradas explícitas para un proceso algorítmico de
toma de decisiones.
Por ejemplo, considere un algoritmo que determine la elegibilidad de los liliputienses para un préstamo de
vivienda en miniatura en función de los datos que proporcionan en su solicitud de préstamo. Si el algoritmo
utiliza la afiliación de un liliputiense como Big-Endian o Little-Endian como entrada, está promulgando un
tratamiento dispar a lo largo de esa dimensión.
Contraste con impacto dispar (#disparate_impact), que se enfoca en las disparidades en los impactos
sociales de las decisiones algorítmicas en subgrupos, independientemente de si esos subgrupos son
entradas al modelo.
Advertencia: dado que los atributos confidenciales casi siempre se correlacionan con otras características que pueden
tener los datos, la eliminación explícita de la información de atributos confidenciales no garantiza que los subgrupos
reciban el mismo trato. Por ejemplo, la eliminación de atributos demográficos confidenciales de un conjunto de datos
de entrenamiento que todavía incluye el código postal como característica puede abordar el tratamiento desigual de
los subgrupos, pero aún puede haber un impacto dispar en estos grupos porque el código postal puede servir como un
proxy (#proxy_sensitive_attributes) para otra información demográfica.
DQN RL
Abreviatura de Deep Q-Network (#deep_q-network).
dynamic - dinámica 🐣
Algo que se hace con frecuencia o continuamente. Los términos dinámico y en línea son sinónimos en el
aprendizaje automático. Los siguientes son usos comunes de dinámico y en línea en el aprendizaje
automático:
La interrupción temprana puede parecer contraria a la intuición. Después de todo, decirle a un modelo que
detenga el entrenamiento mientras la pérdida sigue disminuyendo puede parecer como decirle a un chef
que deje de cocinar antes de que el postre esté completamente horneado. Sin embargo, entrenar un
modelo durante demasiado tiempo puede provocar un sobreajuste (#overfitting). Es decir, si entrena un
modelo demasiado tiempo, el modelo puede ajustarse tanto a los datos de entrenamiento que el modelo
no hace buenas predicciones en nuevos ejemplos.
Una medida de la similitud relativa entre dos documentos. Cuanto menor sea la distancia del movimiento
de tierras, más similares serán los documentos.
Una matriz de 73,000 elementos es muy larga. Si no agrega una capa de incrustación al modelo, el
entrenamiento llevará mucho tiempo debido a la multiplicación de 72,999 ceros. Tal vez elija la capa de
incrustación para que consista en 12 dimensiones. En consecuencia, la capa de incrustación aprenderá
gradualmente un nuevo vector de incrustación para cada especie de árbol.
En ciertas situaciones, el hashing (#hashing) es una alternativa razonable a una capa de incrustación.
encoder - codificador 🔤
En general, cualquier sistema de ML que convierta una representación sin procesar, escasa o externa en
una representación más procesada, más densa o más interna.
Los codificadores son a menudo un componente de un modelo más grande, donde con frecuencia se
emparejan con un decodificador (#decoder). Algunos Transformers (#Transformer) emparejan
codificadores con decodificadores, mientras que otros Transformers usan solo el codificador o solo el
decodificador.
Algunos sistemas utilizan la salida del codificador como entrada a una red de clasificación o regresión.
ensemble - conjunto
Una colección de modelos (#model) entrenados de forma independiente cuyas predicciones se promedian
o agregan. En muchos casos, un conjunto produce mejores predicciones que un solo modelo. Por ejemplo,
un bosque aleatorio (#random-forest) es un conjunto construido a partir de múltiples árboles de decisión
(#decision-tree) . Tenga en cuenta que no todos los bosques de decisión (#decision-forest) son
conjuntos.
entropy - entropía 🌳🌲🌳
En teoría de la información (https://wikipedia.org/wiki/Information_theory), una descripción de cuán
impredecible es una distribución de probabilidad. Alternativamente, la entropía también se define como la
cantidad de información que contiene cada ejemplo (#example). Una distribución tiene la entropía más
alta posible cuando todos los valores de una variable aleatoria son igualmente probables.
La entropía de un conjunto con dos valores posibles "0" y "1" (por ejemplo, las etiquetas en un problema
de clasificación binaria (#binary_classification) ) tiene la siguiente fórmula:
dónde:
● H es la entropía.
● p es la fracción de "1" ejemplos.
● q es la fracción de "0" ejemplos. Tenga en cuenta que q = (1 - p)
● log es generalmente log2 . En este caso, la unidad de entropía es un bit.
● p = 0,25
● q = 0,75
● H = (-0,25) log2(0,25) - (0,75) log2(0,75) = 0,81 bits por ejemplo
Un conjunto perfectamente equilibrado (por ejemplo, 200 "0"s y 200 "1"s) tendría una entropía de 1.0 bit
por ejemplo. A medida que un conjunto se vuelve más desequilibrado (#class_imbalanced_data_set) ,
su entropía se mueve hacia 0.0.
episode - episodio RL
En el aprendizaje por refuerzo, cada uno de los intentos repetidos por parte del agente (#agent) de
aprender un entorno (#environment).
epoch - época 🐣
Un pase de entrenamiento completo sobre todo el conjunto de entrenamiento de modo (#training_set)
que cada ejemplo (#example) se haya procesado una vez.
Durante episodios sucesivos, el algoritmo reduce el valor de épsilon para pasar de seguir una política
aleatoria a seguir una política codiciosa. Al cambiar la política, el agente primero explora aleatoriamente
el entorno y luego explota con avidez los resultados de la exploración aleatoria.
equality of opportunity - igualdad de oportunidades ⚖️
Una métrica de equidad (#fairness_metric) que verifica si, para una etiqueta (#label) preferida (una que
confiere una ventaja o beneficio a una persona) y un atributo (#attribute) dado , un clasificador predice
esa etiqueta preferida igualmente bien para todos los valores de ese atributo. En otras palabras, la
igualdad de oportunidades mide si las personas que deberían calificar para una oportunidad tienen la
misma probabilidad de hacerlo, independientemente de su pertenencia al grupo.
Por ejemplo, digamos que 100 liliputienses y 100 brobdingnagianos solicitan ingreso a la Universidad de
Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:
Qualified Unqualified
Admitted 5 9
Rejected 5 81
Total 10 90
Nota: Si bien se cumple la igualdad de oportunidades, no se cumplen las siguientes dos métricas de
equidad:
● paridad demográfica (#demographic_parity) : los liliputienses y los brobdingnagianos son
admitidos en la universidad a diferentes tasas; Se admite el 48% de los estudiantes liliputienses,
pero solo se admite el 14% de los estudiantes brobdingnagianos.
Digamos que 100 liliputienses y 100 brobdingnagianos solicitan ingreso a la Universidad de Glubbdubdrib,
y las decisiones de admisión se toman de la siguiente manera:
Qualified Unqualified
Admitted 45 2
Rejected 45 8
Total 90 10
Qualified Unqualified
Admitted 5 18
Rejected 5 72
Total 10 90
Nota: Si bien aquí se satisfacen las probabilidades igualadas, no se satisface la paridad demográfica
(#demographic_parity). Los estudiantes de Lilliputian y Brobdingnagian son admitidos en la Universidad de
Glubbdubdrib a diferentes tasas; Se admite el 47% de los estudiantes liliputienses y el 23% de los estudiantes
brobdingnagianos.
Nota: Compare las probabilidades igualadas con la métrica más relajada de igualdad de oportunidades
(#equality_of_opportunity).
Estimator - Estimador
Una API de TensorFlow en desuso. Use tf.keras (#tf.keras) en lugar de Estimadores.
example - ejemplo 🐣
Los valores de una fila de características (#feature) y posiblemente una etiqueta (#label) . Los ejemplos
en el aprendizaje supervisado (#supervised_machine_learning) se dividen en dos categorías generales:
● Un ejemplo sin etiqueta (#unlabeled_example) consta de una o más características pero no tiene
etiqueta. Los ejemplos no etiquetados se utilizan durante la inferencia.
Por ejemplo, suponga que está entrenando un modelo para determinar la influencia de las condiciones
climáticas en los puntajes de las pruebas de los estudiantes. Aquí hay tres ejemplos etiquetados:
Features Label
Temperature Humidity Pressure Test score
15 47 998 Good
19 34 1020 Excellent
18 92 1012 Poor
La fila de un conjunto de datos (#dataset) suele ser la fuente sin procesar de un ejemplo. Es decir, un
ejemplo normalmente consta de un subconjunto de las columnas del conjunto de datos. Además, las
características de un ejemplo también pueden incluir características sintéticas (#synthetic_feature) ,
como cruces de características (#feature_cross).
Los modelos que sufren el problema del gradiente explosivo se vuelven difíciles o imposibles de entrenar.
El recorte de gradiente (#gradient_clipping) puede mitigar este problema.
Muchas métricas de equidad son mutuamente excluyentes; ver incompatibilidad de métricas de equidad
(#incompatibility_of_fairness_metrics).
La proporción de ejemplos positivos reales para los que el modelo predijo erróneamente la clase negativa.
La siguiente fórmula calcula la tasa de falsos negativos:
false positive (FP) - falso positivo 🐣
Un ejemplo en el que el modelo predice erróneamente la clase positiva (#positive_class) . Por ejemplo, el
modelo predice que un mensaje de correo electrónico en particular es spam (la clase positiva), pero ese
mensaje de correo electrónico en realidad no es spam.
feature - característica 🐣
Una variable de entrada para un modelo de aprendizaje automático. Un ejemplo (#example) consiste en
una o más características. Por ejemplo, suponga que está entrenando un modelo para determinar la
influencia de las condiciones climáticas en los puntajes de las pruebas de los estudiantes. La siguiente
tabla muestra tres ejemplos, cada uno de los cuales contiene tres funciones y una etiqueta:
Features Label
Temperature Humidity Pressure Test score
15 47 998 92
19 34 1020 84
18 92 1012 87
Por ejemplo, considere un modelo de "pronóstico del estado de ánimo" que represente la temperatura en
uno de los siguientes cuatro cubos:
● freezing
● chilly
● temperate
● warm
Y representa la velocidad del viento en uno de los siguientes tres cubos:
● still
● light
● windy
Sin cruces de características, el modelo lineal se entrena de forma independiente en cada uno de los siete
cubos anteriores. Entonces, el modelo entrena, por ejemplo, freezing independientemente del
entrenamiento, por ejemplo, windy.
Alternativamente, podría crear un cruce de características de temperatura y velocidad del viento. Esta
característica sintética tendría los siguientes 12 valores posibles:
● freezing-still
● freezing-light
● freezing-windy
● chilly-still
● chilly-light
● chilly-windy
● temperate-still
● temperate-light
● temperate-windy
● warm-still
● warm-light
● warm-windy
Gracias a los cruces de funciones, el modelo puede aprender las diferencias de humor entre un
freezing-windy day y un freezing-still day.
Si crea una característica sintética a partir de dos características que tienen muchos cubos diferentes, la
combinación de características resultante tendrá una gran cantidad de combinaciones posibles. Por
ejemplo, si una característica tiene 1,000 cubos y la otra característica tiene 2,000 cubos, el cruce
de características resultante tiene 2,000,000 cubos.
Los cruces de características se usan principalmente con modelos lineales y rara vez se usan con redes
neuronales.
1. Determinar qué características (#feature) pueden ser útiles para entrenar un modelo.
2. Convertir datos sin procesar del conjunto de datos en versiones eficientes de esas características.
Por ejemplo, podría determinar que temperature podría ser una característica útil. Luego, puede
experimentar con el almacenamiento en depósitos (#bucketing) para optimizar lo que el modelo puede
aprender de diferentes temperature rangos.
La ingeniería de características a veces se denomina extracción de características.
En TensorFlow, la ingeniería de características a menudo significa convertir las entradas del archivo de
registro sin procesar en búferes de protocolo tf.Example (#tf.Example). Véase también tf.Transform
(https://github.com/tensorflow/transform).
Describe la información necesaria para extraer datos de entidades del búfer del protocolo (#tf.Example)
tf.Example. (#feature) Debido a que el búfer del protocolo tf.Example es solo un contenedor de datos,
debe especificar lo siguiente: (#tf.Example)
● los datos a extraer (es decir, las claves para las características)
● el tipo de datos (por ejemplo, float o int)
● La longitud (fija o variable)
feature vector - característica vectorial 🐣
La matriz de valores de característica (#feature) que comprende un ejemplo (#example). El vector de
características se ingresa durante el entrenamiento (#training) y durante la inferencia (#inference). Por
ejemplo, el vector de características para un modelo con dos características discretas podría ser:
[0.92, 0.56]
Cada ejemplo proporciona diferentes valores para el vector de características, por lo que el vector de
características para el siguiente ejemplo podría ser algo como:
[0.73, 0.49]
● una característica categórica binaria con cinco valores posibles representados con codificación
one-hot; por ejemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
● otra característica categórica binaria con tres valores posibles representados con codificación
one-hot; por ejemplo:[0.0, 0.0, 1.0]
0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3
Dado que los ejemplos de capacitación nunca se cargan, el aprendizaje federado sigue los principios de
privacidad de recopilación de datos enfocada y minimización de datos.
Para obtener más información sobre el aprendizaje federado, consulte este tutorial
(https://federated.withgoogle.com).
Una red neuronal sin conexiones cíclicas o recursivas. Por ejemplo, las redes neuronales profundas
(#deep_neural_network) tradicionales son redes neuronales de avance. Contrasta con las redes
neuronales recurrentes (#recurrent_neural_network) , que son cíclicas.
few-shot learning - aprendizaje de pocos disparos
Un enfoque de aprendizaje automático, a menudo utilizado para la clasificación de objetos, diseñado para
entrenar clasificadores efectivos a partir de solo una pequeña cantidad de ejemplos de entrenamiento.
Realizar una optimización secundaria para ajustar los parámetros de un modelo (#model) ya entrenado
para adaptarse a un nuevo problema. El ajuste fino a menudo se refiere a reajustar los pesos de un
modelo no supervisado (#unsupervised_machine_learning) entrenado a un modelo supervisado
(#supervised_machine_learning).
Una capa oculta (#hidden_layer) en la que cada nodo (#node) está conectado a todos los nodos de la
capa oculta posterior.
Una capa totalmente conectada también se conoce como capa densa (#dense_layer).
G
GAN
generalization - generalización 🐣
La capacidad de un modelo (#model) para hacer predicciones correctas sobre datos nuevos, nunca antes
vistos. Un modelo que puede generalizar es lo contrario de un modelo que se sobreajusta (#overfitting) .
Entrena un modelo en los ejemplos del conjunto de entrenamiento. En consecuencia, el modelo aprende
las peculiaridades de los datos en el conjunto de entrenamiento. La generalización esencialmente
pregunta si su modelo puede hacer buenas predicciones en ejemplos que no están en el conjunto de
entrenamiento.
Una curva de generalización puede ayudarlo a detectar un posible sobreajuste (#overfitting). Por
ejemplo, la siguiente curva de generalización sugiere un sobreajuste porque, en última instancia, la
pérdida de validación se vuelve significativamente mayor que la pérdida de entrenamiento.
generalized linear model - modelo lineal generalizado
El poder de un modelo lineal generalizado está limitado por sus características. A diferencia de un modelo
profundo, un modelo lineal generalizado no puede "aprender nuevas funciones".
● Crea (genera) nuevos ejemplos a partir del conjunto de datos de entrenamiento. Por ejemplo, un
modelo generativo podría crear poesía después de entrenarse en un conjunto de datos de poemas.
La parte generadora (#generator) de una red antagónica generativa
(#generative_adversarial_network) cae en esta categoría.
p(examples)
generator - generador
Las variantes de GPT se pueden aplicar a múltiples modalidades (#modality), que incluyen:
Haga clic en el icono para obtener detalles matemáticos sobre la impureza de Gini.
dónde:
● I es la impureza gini.
● p es la fracción de "1" ejemplos.
● q es la fracción de "0" ejemplos. Tenga en cuenta que q = 1-p
● p = 0,25
● q = 0,75
● I = 1 - (0.252 + 0.752 ) = 0.375
En consecuencia, una etiqueta aleatoria del mismo conjunto de datos tendría un 37.5% de posibilidades
de clasificarse incorrectamente y un 62.5% de posibilidades de clasificarse correctamente.
Una etiqueta perfectamente equilibrada (por ejemplo, 200 "0" y 200 "1") tendría una impureza de Gini
de 0.5. Una etiqueta muy desequilibrada (#class_imbalanced_data_set) tendría una impureza de gini
cercana a 0.0.
gradient - degradado
El vector de derivadas parciales (#partial_derivative) con respecto a todas las variables independientes.
En aprendizaje automático, el gradiente es el vector de derivadas parciales de la función modelo. La
pendiente apunta en la dirección del ascenso más empinado.
En la forma más simple de aumento de gradiente, en cada iteración, se entrena un modelo débil para
predecir el gradiente de pérdida del modelo fuerte. Luego, la salida del modelo fuerte se actualiza
restando el gradiente predicho, similar al descenso de gradiente (#gradient_descent).
dónde:
Las variaciones modernas de aumento de gradiente también incluyen la segunda derivada (arpillera) de la
pérdida en su cálculo.
Los árboles de decisión (#decision-tree) se utilizan comúnmente como modelos débiles en la potenciación
de gradientes. Ver árboles (de decisión) potenciados por gradiente (#gbt) .
El descenso de gradiente es más antiguo, mucho, mucho más antiguo, que el aprendizaje automático.
graph - gráfico
En TensorFlow, una especificación de computación. Los nodos en el gráfico representan operaciones. Los
bordes están dirigidos y representan pasar el resultado de una operación (un tensor (#tensor)) como un
operando a otra operación. Usa TensorBoard (#TensorBoard) para visualizar un gráfico.
Evaluamos la calidad del modelo contra la realidad del terreno. Sin embargo, la verdad básica no siempre
es completamente, bueno, veraz. Por ejemplo, considere los siguientes ejemplos de posibles
imperfecciones en la verdad fundamental:
● Supongamos que la etiqueta es un valor de punto flotante medido por instrumentos (por ejemplo,
barómetros). ¿Cómo podemos estar seguros de que cada instrumento está calibrado de manera
idéntica o que cada lectura se tomó en las mismas circunstancias?
● Si la etiqueta es una cuestión de opinión humana, ¿cómo podemos estar seguros de que cada
evaluador (#rater) humano está evaluando los eventos de la misma manera? Para mejorar la
consistencia, a veces intervienen evaluadores humanos expertos.
Véase también sesgo de homogeneidad del grupo externo (#out-group_homogeneity_bias) y sesgo del
grupo interno (#in-group_bias).
H
hallucination - alucinación
hashing - hash
Por ejemplo, la Tierra es el hogar de unas 73,000 especies de árboles. Podría representar cada una de las
73,000 especies de árboles en 73,000 cubos categóricos separados.
Alternativamente, si solo 200 de esas especies de árboles aparecen realmente en un conjunto de datos,
podría usar hash para dividir las especies de árboles en quizás 500 cubos.
Un solo balde podría contener múltiples especies de árboles. Por ejemplo, el hashing podría colocar al
baobab y al arce rojo, dos especies genéticamente diferentes, en el mismo cubo. De todos modos, el
hashing sigue siendo una buena manera de mapear grandes conjuntos categóricos en la cantidad deseada
de cubos. Hashing convierte una característica categórica que tiene una gran cantidad de valores posibles
en una cantidad mucho menor de valores al agrupar valores de manera determinista.
heuristic - heurístico
Una solución simple y de rápida implementación a un problema. Por ejemplo, "Con una heurística,
logramos un 86% de precisión. Cuando cambiamos a una red neuronal profunda, la precisión aumentó al
98%".
● El agrupamiento divisivo primero agrupa todos los ejemplos en un solo grupo y luego divide
iterativamente el grupo en un árbol jerárquico.
Una familia de funciones de pérdida (#loss) para la clasificación (#classification_model) diseñada para
encontrar el límite de decisión (#decision_boundary) lo más distante posible de cada ejemplo de
entrenamiento, maximizando así el margen entre los ejemplos y el límite. Los KSVM (#KSVMs) utilizan la
pérdida de bisagra (o una función relacionada, como la pérdida de bisagra al cuadrado). Para la
clasificación binaria, la función de pérdida de bisagra se define de la siguiente manera:
donde y es la etiqueta verdadera, ya sea -1 o +1, e y' es la salida sin procesar del modelo clasificador:
Por el contrario, los parámetros (#parameter) son los diversos pesos (#weight) y sesgos (#bias) que el
modelo aprende durante el entrenamiento.
hyperplane - hiperplano
Un límite que separa un espacio en dos subespacios. Por ejemplo, una línea es un hiperplano en dos
dimensiones y un plano es un hiperplano en tres dimensiones. Más típicamente en el aprendizaje
automático, un hiperplano es el límite que separa un espacio de alta dimensión. Las máquinas de vectores
de soporte del núcleo (#KSVMs) utilizan hiperplanos para separar las clases positivas de las clases
negativas, a menudo en un espacio de dimensiones muy altas.
I
i.i.d.
Por ejemplo, al construir un clasificador para identificar fotos de bodas, un ingeniero puede usar la
presencia de un vestido blanco en una foto como característica. Sin embargo, los vestidos blancos han sido
habituales sólo durante ciertas épocas y en ciertas culturas.
La idea de que algunas nociones de equidad son mutuamente incompatibles y no pueden satisfacerse
simultáneamente. Como resultado, no existe una métrica (#fairness_metric) universal única para
cuantificar la equidad que se pueda aplicar a todos los problemas de ML.
Si bien esto puede parecer desalentador, la incompatibilidad de las métricas de equidad no implica que los
esfuerzos de equidad sean infructuosos. En cambio, sugiere que la equidad debe definirse contextualmente
para un problema de ML dado, con el objetivo de prevenir daños específicos para sus casos de uso.
Datos extraídos de una distribución que no cambia, y donde cada valor extraído no depende de valores que
se hayan extraído previamente. Un iid es el gas ideal (https://wikipedia.org/wiki/Ideal_gas) del aprendizaje
automático: una construcción matemática útil pero que casi nunca se encuentra exactamente en el mundo
real. Por ejemplo, la distribución de visitantes a una página web puede ser iid durante una breve ventana
de tiempo; es decir, la distribución no cambia durante esa breve ventana y la visita de una persona
generalmente es independiente de la visita de otra. Sin embargo, si amplía esa ventana de tiempo, pueden
aparecer diferencias estacionales en los visitantes de la página web.
Tenga en cuenta que la equidad individual depende completamente de cómo defina la "similitud" (en este
caso, las calificaciones y los puntajes de las pruebas), y puede correr el riesgo de introducir nuevos
problemas de equidad si su métrica de similitud no incluye información importante (como el rigor de la
evaluación de un estudiante). plan de estudios).
La inferencia tiene un significado algo diferente en estadística. Consulte el artículo de Wikipedia sobre
inferencia estadística (https://wikipedia.org/wiki/Statistical_inference) para obtener más información.
● x = 7
● y = 12
● z = -3
La ruta de inferencia en la siguiente ilustración viaja a través de tres condiciones antes de llegar a la hoja
(Zeta).
Entonces, el 40% de los ejemplos están en un nodo secundario y el 60% están en el otro nodo secundario.
Por lo tanto:
suma de entropía ponderada de los nodos secundarios = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
● ganancia de información = entropía del nodo principal - suma de entropía ponderada de los nodos
secundarios
● ganancia de información = 0.6 - 0.14 = 0.46
La mayoría de los divisores (#splitter) buscan crear condiciones (#condition) que maximicen la ganancia
de información.
Las condiciones en el conjunto generalmente conducen a árboles de decisión más eficientes que las
condiciones que prueban características codificadas en caliente (#one-hot_encoding).
instance - instancia
La mayoría de los modelos de regresión lineal, por ejemplo, son altamente interpretables. (Simplemente
necesita mirar los pesos entrenados para cada característica). Los bosques de decisión también son
altamente interpretables. Sin embargo, algunos modelos requieren una visualización sofisticada para ser
interpretables.
Una medida de la frecuencia con la que los evaluadores humanos están de acuerdo al realizar una tarea. Si
los evaluadores no están de acuerdo, es posible que sea necesario mejorar las instrucciones de la tarea.
También llamado a veces acuerdo entre anotadores o confiabilidad entre evaluadores. Véase también
kappa de Cohen (https://wikipedia.org/wiki/Cohen%27s_kappa) , que es una de las medidas de acuerdo entre
evaluadores más populares.
● El cuadro delimitador predicho (las coordenadas que delimitan el lugar donde el modelo predice
que se encuentra la mesa de noche en la pintura) está resaltado en púrpura.
● El cuadro delimitador de verdad en el suelo (las coordenadas que delimitan dónde se encuentra
realmente la mesa de noche en la pintura) está resaltado en verde.
Aquí, la intersección de los cuadros delimitadores para la predicción y la verdad básica (abajo a la
izquierda) es 1, y la unión de los cuadros delimitadores para la predicción y la verdad básica (abajo a la
La matriz de elementos tiene el mismo número de columnas que la matriz objetivo que se está
factorizando. Por ejemplo, dado un sistema de recomendación de películas que evalúa 10,000 títulos de
películas, la matriz de elementos tendrá 10,000 columnas.
items - elementos 👎👍
En un sistema de recomendación (#recommendation_system) , las entidades que recomienda un sistema.
Por ejemplo, los videos son los artículos que recomienda una tienda de videos, mientras que los libros son
los artículos que recomienda una librería.
iteration - iteración 🐣
Una única actualización de los parámetros (#model) de un modelo (las ponderaciones (#weight) y los
sesgos (#bias) del modelo) durante el entrenamiento (#training). El tamaño del lote (#batch_size)
determina cuántos ejemplos procesa el modelo en una sola iteración. Por ejemplo, si el tamaño del lote es
20, el modelo procesa 20 ejemplos antes de ajustar los parámetros.
Al entrenar una red neuronal (#neural_network) , una única iteración implica los siguientes dos pasos:
2. Un pase hacia atrás (backpropagation (#backpropagation)) para ajustar los parámetros del
modelo en función de la pérdida y la tasa de aprendizaje.
K
Keras
Una popular API de aprendizaje automático de Python. Keras (https://keras.io) se ejecuta en varios marcos
de aprendizaje profundo, incluido TensorFlow, donde está disponible como tf.keras
(https://www.tensorflow.org/api_docs/python/tf/keras).
Un algoritmo de clasificación que busca maximizar el margen entre las clases positivas (#positive_class) y
negativas (#negative_class) mediante la asignación de vectores de datos de entrada a un espacio
dimensional superior. Por ejemplo, considere un problema de clasificación en el que el conjunto de datos
de entrada tiene cien características. Para maximizar el margen entre las clases positivas y negativas, un
KSVM podría mapear internamente esas características en un espacio de un millón de dimensiones. KSVMs
utiliza una función de pérdida llamada pérdida de bisagra (#hinge-loss).
k-means 🍇
Un popular algoritmo de agrupamiento (#clustering) que agrupa ejemplos en el aprendizaje no
supervisado. El algoritmo k-means básicamente hace lo siguiente:
● Asigna cada ejemplo al centroide más cercano. Los ejemplos más cercanos al mismo centroide
pertenecen al mismo grupo.
El algoritmo k-means elige ubicaciones de centroide para minimizar el cuadrado acumulativo de las
distancias de cada ejemplo a su centroide más cercano.
Imagina que un fabricante quiere determinar los tamaños ideales para suéteres pequeños, medianos y
grandes para perros. Los tres centroides identifican la altura media y la anchura media de cada perro en
ese grupo. Entonces, el fabricante probablemente debería basar los tamaños de los suéteres en esos tres
centroides. Tenga en cuenta que el centroide de un clúster normalmente no es un ejemplo en el clúster.
Las ilustraciones anteriores muestran k-medias para ejemplos con solo dos características (alto y ancho).
Tenga en cuenta que k-means puede agrupar ejemplos en muchas características.
k-median - k-mediana 🍇
Un algoritmo de agrupamiento estrechamente relacionado con k-means (#k-means) . La diferencia
práctica entre los dos es la siguiente:
L0 regularization - L0 regularización 🐣
Tipo de regularización (#regularization) que penaliza el número total de ponderaciones (#weight)
distintas de cero en un modelo. Por ejemplo, un modelo que tenga 11 pesos distintos de cero se penalizará
más que un modelo similar que tenga 10 pesos distintos de cero. La regularización L0 rara vez se utiliza.
L1 loss - L1 pérdida 🐣
Una función de pérdida (#loss-function) que calcula el valor absoluto de la diferencia entre los valores
reales de la etiqueta (#label) y los valores que predice un modelo (#model). Por ejemplo, aquí está el
cálculo de la pérdida de L1 para un lote (#batch) de cinco ejemplos (#example) :
La pérdida L1 es menos sensible a los valores atípicos (#outliers) que la pérdida L2 (#squared_loss).
dónde:
● es el número de ejemplos.
● es el valor real de la etiqueta.
L2 loss - L2 pérdida 🐣
Una función de pérdida (#loss-function) que calcula el cuadrado de la diferencia entre los valores reales
de la etiqueta (#label) y los valores que predice un modelo (#model). Por ejemplo, aquí está el cálculo
de la pérdida de L2 para un lote (#batch) de cinco ejemplos (#example) :
Debido al cuadrado, la pérdida de L2 amplifica la influencia de los valores atípicos (#outliers) . Es decir,
la pérdida de L2 reacciona con más fuerza a las malas predicciones que la pérdida de L1 (#L1_loss). Por
ejemplo, la pérdida de L1 para el lote anterior sería 8 en lugar de 16. Observe que un solo valor atípico
representa 9 de los 16.
Los modelos de regresión (#regression_model) suelen utilizarla pérdida L2 como función de pérdida.
El error cuadrático medio (#MSE) es la pérdida L2 promedio por ejemplo. La pérdida al cuadrado es otro
nombre para la pérdida L2.
dónde:
● es el número de ejemplos.
● es el valor real de la etiqueta.
label - etiqueta 🐣
En el aprendizaje automático supervisado (#supervised_machine_learning) , la parte de "respuesta" o
"resultado" de un ejemplo (#example).
Cada ejemplo etiquetado (#labeled_example) consta de una o más características (#feature) y una
etiqueta. Por ejemplo, en un conjunto de datos de detección de spam, la etiqueta probablemente sea
"spam" o "no spam". En un conjunto de datos de lluvia, la etiqueta podría ser la cantidad de lluvia que cayó
durante un período determinado.
lambda 🐣
Sinónimo de tasa de regularización (#regularization_rate).
Lambda es un término sobrecargado. Aquí nos estamos enfocando en la definición del término dentro de la
regularización (#regularization).
Aunque contrario a la intuición, muchos modelos que evalúan texto no son modelos de lenguaje. Por
ejemplo, los modelos de clasificación de texto y los modelos de análisis de opiniones no son modelos de
lenguaje.
La mayoría de los modelos de lenguaje grande actuales (por ejemplo, GPT (#GPT)) se basan en la
arquitectura Transformer (#Transformer).
layer - capa 🐣
Un conjunto de neuronas (#neuron) en una red neuronal (#neural_network) . Los tres tipos comunes de
capas son los siguientes:
● La capa de entrada (#input_layer), que proporciona valores para todas las entidades (#feature) .
● Una o más capas ocultas (#hidden_layer), que encuentran relaciones no lineales entre las
entidades y la etiqueta.
Por ejemplo, la siguiente ilustración muestra una red neuronal con una capa de entrada, dos capas ocultas
y una capa de salida:
En TensorFlow (#TensorFlow) , las capas también son funciones de Python que toman tensores (#tensor)
y opciones de configuración como entrada y producen otros tensores como salida.
Layers API (tf.layers) - API de capas
Una API de TensorFlow para construir una red neuronal profunda como una composición de capas
(#deep_model). La API de capas le permite crear diferentes tipos de capas (#layer), como:
La API de capas sigue las convenciones de la API de capas de Keras (#Keras). Es decir, aparte de un prefijo
diferente, todas las funciones en la API de capas tienen los mismos nombres y firmas que sus contrapartes
en la API de capas de Keras.
Los modelos lineales suelen ser más fáciles de entrenar y más interpretables (#interpretability) que los
modelos profundos. Sin embargo, los modelos profundos pueden aprender relaciones complejas entre
características.
La regresión lineal (#linear_regression) y la regresión logística (#logistic_regression) son dos tipos de
modelos lineales.
dónde:
● y' es la predicción en bruto. (En ciertos tipos de modelos lineales, esta predicción sin procesar se
modificará aún más. Por ejemplo, consulte la regresión logística (#logistic_regression)).
● b es el sesgo (#bias).
Por ejemplo, suponga que un modelo lineal para tres características aprende los siguientes sesgos y
ponderaciones:
● b = 7
● w1 = -2.5
● w2 = -1.2
● w3 = 1.4
Por lo tanto, dadas tres características (x1, x2 y x3), el modelo lineal usa la siguiente ecuación para
generar cada predicción:
● x1 = 4
● x2 = -10
● x3 = 5
Conectar esos valores en la fórmula produce una predicción para este ejemplo:
Los modelos lineales incluyen no solo modelos que usan solo una ecuación lineal para hacer predicciones,
sino también un conjunto más amplio de modelos que usan una ecuación lineal como solo un componente
de la fórmula que hace predicciones. Por ejemplo, la regresión logística procesa posteriormente la
predicción sin procesar (y') para producir un valor de predicción final entre 0 y 1, exclusivamente.
linear - lineal 🐣
Una relación entre dos o más variables que se pueden representar únicamente a través de la suma y la
multiplicación.
● La función de pérdida durante el entrenamiento es Log Loss (#Log_Loss). (Se pueden colocar
varias unidades de pérdida de registro en paralelo para etiquetas con más de dos valores posibles).
● El modelo tiene una arquitectura lineal, no una red neuronal profunda. Sin embargo, el resto de
esta definición también se aplica a modelos profundos (#deep_model) que predicen
probabilidades para etiquetas categóricas.
Por ejemplo, considere un modelo de regresión logística que calcula la probabilidad de que un correo
electrónico de entrada sea spam o no spam. Durante la inferencia, suponga que el modelo predice 0.72.
Por lo tanto, el modelo está estimando:
1. El modelo genera una predicción sin procesar (y') mediante la aplicación de una función lineal de
características de entrada.
2. El modelo usa esa predicción sin procesar como entrada para una función sigmoidea
(#sigmoid-function), que convierte la predicción sin procesar en un valor entre 0 y 1, exclusivo.
Como cualquier modelo de regresión, un modelo de regresión logística predice un número. Sin embargo,
este número generalmente se convierte en parte de un modelo de clasificación binaria de la siguiente
manera:
El vector de predicciones sin procesar (no normalizadas) que genera un modelo de clasificación, que
normalmente se pasa a una función de normalización. Si el modelo está resolviendo un problema de
clasificación de clases múltiples (#multi-class), los logits generalmente se convierten en una entrada para
la función softmax (#softmax). La función softmax luego genera un vector de probabilidades
(normalizadas) con un valor para cada clase posible.
tf.nn.sigmoid_cross_entropy_with_logits
https://www.tensorflow.org/api_docs/python/tf/nn/sigmoid_cross_entropy_with_logits).
dónde:
● es el valor predicho (en algún lugar entre 0 y 1, exclusivo), dado el conjunto de características
en .
loss - pérdida 🐣
Durante el entrenamiento (#training) de un modelo supervisado (#supervised_machine_learning), una
medida de qué tan lejos está la predicción (#prediction) de un modelo de su etiqueta (#label).
Las curvas de pérdida pueden ayudarlo a determinar cuándo su modelo está convergiendo (#convergence)
o sobreajustándose (#overfitting).
Las curvas de pérdida pueden trazar todos los siguientes tipos de pérdida:
El objetivo del entrenamiento suele ser minimizar la pérdida que devuelve una función de pérdida.
Existen muchos tipos diferentes de funciones de pérdida. Elija la función de pérdida apropiada para el tipo
de modelo que está construyendo. Por ejemplo:
Un gráfico de peso(s) vs. pérdida. El descenso de gradiente (#gradient_descent) tiene como objetivo
encontrar los pesos para los cuales la superficie de pérdida está en un mínimo local.
LSTM 🔺➡ 🟦➡🟡
Abreviatura de memoria a largo plazo (#Long_Short-Term_Memory).
M
El aprendizaje automático también se refiere al campo de estudio relacionado con estos programas o
sistemas.
matplotlib 👎👍
Una biblioteca de trazado 2D de Python de código abierto matplotlib (https://matplotlib.org/) lo ayuda a
visualizar diferentes aspectos del aprendizaje automático.
El sistema de recomendación de películas tiene como objetivo predecir las calificaciones de los usuarios
para películas sin calificación. Por ejemplo, ¿al usuario 1 le gustará Black Panther?
Un enfoque para los sistemas de recomendación es utilizar la factorización de matrices para generar las
siguientes dos matrices:
● Una matriz de usuarios (#user_matrix), con la forma del número de usuarios X el número de
dimensiones incrustadas.
● Una matriz de elementos (#item_matrix), con la forma del número de dimensiones incrustadas X
el número de elementos.
Por ejemplo, el uso de la factorización matricial en nuestros tres usuarios y cinco elementos podría generar
la siguiente matriz de usuario y matriz de elementos:
El producto escalar de la matriz de usuarios y la matriz de elementos genera una matriz de
recomendaciones que contiene no sólo las calificaciones originales de los usuarios, sino también
predicciones para las películas que cada usuario no ha visto. Por ejemplo, considere la calificación del
Usuario 1 de Casablanca, que fue 5.0. Se espera que el producto escalar correspondiente a esa celda en
la matriz de recomendación sea alrededor de 5.0, y es:
(1.1 * 0.9) + (2.3 * 1.7) = 4.9
Más importante aún, ¿al usuario 1 le gustará Black Panther ? Tomando el producto escalar correspondiente
a la primera fila y la tercera columna se obtiene una calificación pronosticada de 4.3:
(1.1 * 1.4) + (2.3 * 1.2) = 4.3
La factorización de matrices generalmente produce una matriz de usuario y una matriz de elementos que,
juntas, son significativamente más compactas que la matriz de destino.
La pérdida promedio por ejemplo cuando se usa la pérdida L1 (#L1_loss). Calcule el error absoluto medio
de la siguiente manera:
1. Calcule la pérdida de L1 para un lote.
dónde:
● es el número de ejemplos.
● es el valor real de la etiqueta.
For example, consider the calculation of L1 loss on the following batch of five examples:
Actual value of example Model’s predicted value Loss (difference between actual and predicted)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = L1 loss
Entonces, la pérdida de L1 es 8 y el número de ejemplos es 5. Por lo tanto, el error absoluto medio es:
La pérdida promedio por ejemplo cuando se usa la pérdida L2 (#L2_loss). Calcule el error cuadrático
medio de la siguiente manera:
dónde:
● es el número de ejemplos.
● es el valor real de la etiqueta.
For example, consider the loss on the following batch of five examples:
Actual value Model’s predicted Loss Squared loss
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 loss
Contraste el error cuadrático medio con el error absoluto medio (#MAE) y el error cuadrático medio
(#RMSE).
TensorFlow Playground (#TensorFlow_Playground) usa el error cuadrático medio para calcular los valores
de pérdida.
Haga clic en el icono para ver más detalles sobre los valores atípicos.
Los valores atípicos (#outliers) influyen fuertemente en el error cuadrático medio. Por ejemplo, una
pérdida de 1 es una pérdida de 1 al cuadrado, pero una pérdida de 3 es una pérdida de 9 al cuadrado.
En la tabla anterior, el ejemplo con una pérdida de 3 representa ~56% del error cuadrático medio,
mientras que cada uno de los ejemplos con una pérdida de 1 representa solo el 6% del error cuadrático
medio.
Los valores atípicos no influyen tanto en el error absoluto medio como en el error cuadrático medio. Por
ejemplo, una pérdida de 3 representa solo ~38% del error absoluto medio.
El recorte (#clipping) es una forma de evitar que los valores atípicos extremos dañen la capacidad
predictiva de su modelo.
metric - métrico
Un objetivo (#objective) es una métrica que un sistema de aprendizaje automático intenta optimizar.
meta-learning - meta-aprendizaje 🔤
Un subconjunto de aprendizaje automático que descubre o mejora un algoritmo de aprendizaje. Un
sistema de metaaprendizaje también puede apuntar a entrenar un modelo para que aprenda rápidamente
una nueva tarea a partir de una pequeña cantidad de datos o de la experiencia adquirida en tareas
anteriores. Los algoritmos de metaaprendizaje generalmente intentan lograr lo siguiente:
Una API de TensorFlow para evaluar modelos. Por ejemplo, tf.metrics.accuracy determina la
frecuencia con la que las predicciones de un modelo coinciden con las etiquetas.
mini-batch - mini-lote 🐣
Un pequeño subconjunto seleccionado al azar de un lote (#batch) procesado en una iteración (#iteration).
El tamaño de lote (#batch_size) de un mini lote suele estar entre 10 y 1,000 ejemplos.
Por ejemplo, suponga que todo el conjunto de entrenamiento (el lote completo) consta de 1,000
ejemplos. Además, suponga que establece el tamaño de lote (#batch_size) de cada mini lote en 20. Por
lo tanto, cada iteración determina la pérdida en 20 de los 1,000 ejemplos aleatorios y luego ajusta los
pesos (#weight) y sesgos (#bias) en consecuencia.
Es mucho más eficiente calcular la pérdida en un mini lote que la pérdida en todos los ejemplos del lote
completo.
Un conjunto de entrenamiento con un millón de ejemplos (#example) suena impresionante. Sin embargo,
si la clase minoritaria está mal representada, incluso un conjunto de entrenamiento muy grande podría ser
insuficiente. Concéntrese menos en la cantidad total de ejemplos en el conjunto de datos y más en la
cantidad de ejemplos en la clase minoritaria.
Si su conjunto de datos no contiene suficientes ejemplos de clases minoritarias, considere usar la
reducción de muestreo (#downsampling) (la definición en la segunda viñeta) para complementar la clase
minoritaria.
ML
Abreviatura de aprendizaje automático (#machine_learning).
MNIST 🖼️
Un conjunto de datos de dominio público compilado por LeCun, Cortes y Burges que contiene 60,000
imágenes, cada una de las cuales muestra cómo un ser humano escribió manualmente un dígito particular
del 0 al 9. Cada imagen se almacena como una matriz de enteros de 28x28, donde cada entero es un
valor en escala de grises entre 0 y 255, inclusive.
MNIST es un conjunto de datos canónico para el aprendizaje automático, que a menudo se usa para probar
nuevos enfoques de aprendizaje automático. Para obtener más información, consulte la base de datos
MNIST de dígitos escritos a mano (http://yann.lecun.com/exdb/mnist/).
modality - modalidad 🔤
Una categoría de datos de alto nivel. Por ejemplo, números, texto, imágenes, video y audio son cinco
modalidades diferentes.
model - modelo 🐣
En general, cualquier construcción matemática que procesa datos de entrada y devuelve resultados.
Expresado de otra manera, un modelo es el conjunto de parámetros y estructura necesarios para que un
sistema haga predicciones. En el aprendizaje automático supervisado (#supervised_machine_learning),
un modelo toma un ejemplo (#example) como entrada e infiere una predicción (#prediction) como
salida. Dentro del aprendizaje automático supervisado, los modelos difieren un poco. Por ejemplo:
● Un conjunto de capas ocultas (#hidden_layer), cada una de las cuales contiene una o más
neuronas (#neuron).
● Los pesos y sesgos asociados a cada neurona.
● Un modelo de árbol de decisión (#decision-tree) consta de:
● La forma del árbol; es decir, el patrón en el que se conectan las condiciones y las hojas.
● Las condiciones y las hojas.
Haga clic en el icono para comparar funciones algebraicas y de programación con modelos ML.
Una persona que llama pasa argumentos a la función de Python anterior, y la función de Python genera
resultados (a través de la instrucción de retorno).
Aunque una red neuronal profunda (#deep_neural_network) tiene una estructura matemática muy
diferente a la de una función algebraica o de programación, una red neuronal profunda aún toma entradas
(un ejemplo) y devuelve salidas (una predicción).
Un programador humano codifica una función de programación manualmente. Por el contrario, un modelo
de aprendizaje automático aprende gradualmente los parámetros óptimos durante el entrenamiento
automatizado.
La complejidad de los problemas que un modelo puede aprender. Cuanto más complejos sean los
problemas que un modelo puede aprender, mayor será la capacidad del modelo. La capacidad de un
modelo normalmente aumenta con el número de parámetros del modelo. Para obtener una definición
formal de la capacidad del clasificador, consulte la dimensión VC (https://wikipedia.org/wiki/VC_dimension).
model parallelism - modelo de paralelismo 🔤
Una forma de escalar el entrenamiento o la inferencia que coloca diferentes partes de un modelo en
diferentes dispositivos. El paralelismo de modelos permite modelos que son demasiado grandes para caber
en un solo dispositivo.
Momentum - Impulso
● Iris setosa
● Iris virgen
● Iris versicolor
Un modelo entrenado en el conjunto de datos de Iris que predice el tipo de Iris en nuevos ejemplos está
realizando una clasificación de varias clases.
Por el contrario, los problemas de clasificación que distinguen exactamente dos clases son modelos de
clasificación binarios (#binary_classification) . Por ejemplo, un modelo de correo electrónico que predice
el correo no deseado o no es un modelo de clasificación binaria.
Cada neurona de una red neuronal se conecta a todos los nodos de la siguiente capa. Por ejemplo, en el
diagrama anterior, observe que cada una de las tres neuronas de la primera capa oculta se conecta por
separado a las dos neuronas de la segunda capa oculta.
Las redes neuronales implementadas en computadoras a veces se denominan redes neuronales artificiales
para diferenciarlas de las redes neuronales que se encuentran en el cerebro y otros sistemas nerviosos.
Algunas redes neuronales pueden imitar relaciones no lineales extremadamente complejas entre diferentes
características y la etiqueta.
Véase también red neuronal convolucional (#convolutional_neural_network) y red neuronal recurrente
(#recurrent_neural_network).
neuron - neurona 🐣
En el aprendizaje automático, una unidad distinta dentro de una capa oculta (#hidden_layer) de una red
neuronal (#neural_network) . Cada neurona realiza la siguiente acción de dos pasos:
1. Calcula la suma ponderada (#weighted_sum) de los valores de entrada multiplicada por sus pesos
correspondientes.
Una neurona en la primera capa oculta acepta entradas de los valores de características en la capa de
entrada (#input_layer). Una neurona en cualquier capa oculta más allá de la primera acepta entradas de
las neuronas en la capa oculta anterior. Por ejemplo, una neurona en la segunda capa oculta acepta
entradas de las neuronas en la primera capa oculta.
Una neurona en una red neuronal imita el comportamiento de las neuronas en el cerebro y otras partes del
sistema nervioso.
Contraste los N-gramas con la bolsa de palabras (#bag_of_words), que son conjuntos desordenados de
palabras.
NLU 🔤
Abreviatura de comprensión del lenguaje natural (#natural_language_understanding).
node (neural network) - nodo (red neuronal) 🐣
Una neurona (#neuron) en una capa oculta (#hidden_layer).
noise - ruido
En términos generales, cualquier cosa que oscurezca la señal en un conjunto de datos. El ruido se puede
introducir en los datos de varias maneras. Por ejemplo:
nonlinear - no lineal 🐣
Una relación entre dos o más variables que no se puede representar únicamente mediante la suma y la
multiplicación. Una relación lineal se puede representar como una línea; una relación no lineal no se
puede representar como una línea. Por ejemplo, considere dos modelos en los que cada uno relacione una
sola característica con una sola etiqueta. El modelo de la izquierda es lineal y el modelo de la derecha es
no lineal:
nonstationarity - no estacionariedad 🐣
Una característica cuyos valores cambian en una o más dimensiones, generalmente el tiempo. Por ejemplo,
considere los siguientes ejemplos de no estacionariedad:
● La cantidad de trajes de baño vendidos en una tienda en particular varía según la temporada.
● La cantidad de una fruta en particular cosechada en una región en particular es cero durante gran
parte del año, pero grande durante un breve período.
● -1 a +1
● 0 a 1
● la distribución normal
Por ejemplo, suponga que el rango real de valores de una determinada característica es de 800 a
2,400. Como parte de la ingeniería de características (#feature_engineering) , puede normalizar los
valores reales a un rango estándar, como -1 a +1.
No todos los datos enteros deben representarse como datos numéricos. Por ejemplo, los códigos postales
en algunas partes del mundo son números enteros; sin embargo, los códigos postales enteros no deben
representarse como datos numéricos en los modelos. Esto se debe a que un código postal de 20000 no
es el doble (o la mitad) de potente que un código postal de 10000. Además, aunque diferentes códigos
postales se correlacionan con diferentes valores inmobiliarios, no podemos suponer que los valores
inmobiliarios en el código postal 20000 son dos veces más valioso que los valores inmobiliarios en el
código postal 10000. En su lugar, los códigos postales deben representarse como datos categóricos
(#categorical_data).
objective - objetivo
La fórmula matemática o métrica (#metric) que un modelo pretende optimizar. Por ejemplo, la función
objetivo para la regresión lineal (#linear_regression) suele ser Mean Squared Loss (#MSE) . Por lo tanto,
al entrenar un modelo de regresión lineal, el objetivo del entrenamiento es minimizar la pérdida
cuadrática media.
En algunos casos, el objetivo es maximizar la función objetivo. Por ejemplo, si la función objetivo es la
precisión, el objetivo es maximizar la precisión.
offline - desconectado 🐣
Sinónimo de estático (#static).
● Un elemento se establece en 1.
La codificación one-hot se usa comúnmente para representar cadenas o identificadores que tienen un
conjunto finito de valores posibles.
Por ejemplo, supongamos que una característica categórica determinada Scandinaviatiene cinco valores
posibles:
● "Dinamarca"
● "Suecia"
● "Noruega"
● "Finlandia"
● "Islandia"
La codificación one-hot podría representar cada uno de los cinco valores de la siguiente manera:
One-hot encoding could represent of the five values as follows:
Country Vector
“Denmark” 1 0 0 0 0
“Sweden” 0 1 0 0 0
“Norway” 0 0 1 0 0
“Finland” 0 0 0 1 0
“Iceland” 0 0 0 0 1
Gracias a la codificación one-hot, un modelo puede aprender diferentes conexiones basadas en cada uno
de los cinco países.
● "Dinamarca" es 0
● "Suecia" es 1
● "Noruega" es 2
● "Finlandia" es 3
● "Islandia" es 4
Con la codificación numérica, un modelo interpretaría matemáticamente los números sin procesar y
trataría de entrenar con esos números. Sin embargo, Islandia no es en realidad el doble (o la mitad) de
algo que Noruega, por lo que el modelo llegaría a algunas conclusiones extrañas.
Un enfoque de aprendizaje automático, a menudo utilizado para la clasificación de objetos, diseñado para
aprender clasificadores efectivos a partir de un solo ejemplo de entrenamiento.
online - en línea 🐣
Sinónimo de dinámico (#dynamic).
En TensorFlow, cualquier procedimiento que crea, manipula o destruye un Tensor (#tensor) . Por ejemplo,
una multiplicación de matrices es una operación que toma dos tensores como entrada y genera un tensor
como salida
Por ejemplo, los liliputienses podrían describir las casas de otros liliputienses con gran detalle, citando
pequeñas diferencias en estilos arquitectónicos, ventanas, puertas y tamaños. Sin embargo, los mismos
liliputienses podrían simplemente declarar que todos los brobdingnagianos viven en casas idénticas.
El sesgo de homogeneidad fuera del grupo es una forma de sesgo de atribución grupal
(#group_attribution_bias).
Valores distantes de la mayoría de los demás valores. En el aprendizaje automático, cualquiera de los
siguientes son valores atípicos:
● Datos de entrada cuyos valores son más de aproximadamente 3 desviaciones estándar de la media.
Por ejemplo, supongamos que widget-price es una característica de cierto modelo. Suponga que la
media widget-price es 7 euros con una desviación estándar de 1 euro. Por lo tanto, los ejemplos que
contienen un valor widget-price de 12 euros o 2 euros se considerarían valores atípicos porque cada
uno de esos precios tiene cinco desviaciones estándar de la media.
Los valores atípicos a menudo son causados por errores tipográficos u otros errores de entrada. En otros
casos, los valores atípicos no son errores; después de todo, los valores a cinco desviaciones estándar de la
media son raros pero casi imposibles.
Los valores atípicos a menudo causan problemas en el entrenamiento del modelo. El recorte (#clipping)
es una forma de gestionar los valores atípicos.
La siguiente ilustración muestra una pequeña red neuronal profunda con una capa de entrada, dos capas
ocultas y una capa de salida:
overfitting - sobreajuste 🐣
Crear un modelo (#model) que coincida tanto con los datos de entrenamiento (#training_set) que el
modelo no pueda hacer predicciones correctas sobre nuevos datos.
El sobreajuste es como seguir estrictamente los consejos de tu profesor favorito. Probablemente tendrá
éxito en la clase de ese maestro, pero podría "sobreajustarse" a las ideas de ese maestro y no tener éxito
en otras clases. Seguir los consejos de una mezcla de profesores te permitirá adaptarte mejor a las nuevas
situaciones.
oversampling - sobremuestreo
Reutilizar los ejemplos (#example) de una clase minoritaria (#minority_class) en un conjunto de datos
de clase desequilibrada (#class_imbalanced_data_set) para crear un conjunto de entrenamiento
(#training_set) más equilibrado .
pandas 🐣
Una API de análisis de datos orientada a columnas construida sobre numpy (#numpy). Muchos marcos de
aprendizaje automático, incluido TensorFlow, admiten estructuras de datos de pandas como entradas.
Consulte la documentación de pandas (http://pandas.pydata.org/) para obtener más información.
parameter - parámetro 🐣
Los pesos (#weight) y sesgos (#bias) que un modelo aprende durante el entrenamiento (#training). Por
ejemplo, en un modelo de regresión lineal (#linear_regression), los parámetros consisten en el sesgo (b)
y todos los pesos ( w1, w2, etc.) en la siguiente fórmula:
Por el contrario, los hiperparámetros (#hyperparameter) son los valores que usted (o un servicio de
conversión de hiperparámetros) proporciona al modelo. Por ejemplo, la tasa de aprendizaje
(#learning_rate) es un hiperparámetro.
Un trabajo que realiza un seguimiento de los parámetros (#parameter) de un modelo en una configuración
distribuida.
Una derivada en la que todas menos una de las variables se consideran constantes. Por ejemplo, la
derivada parcial de f(x, y) con respecto a x es la derivada de f considerada como función de x
solamente (es decir, manteniendo y constante). La derivada parcial de f con respecto a x se enfoca solo
en cómo está cambiando x e ignora todas las demás variables en la ecuación.
participation bias - sesgo de participación ⚖️
Sinónimo de sesgo de no respuesta. Véase sesgo de selección (#selection_bias).
perceptron - perceptrón
Un sistema (ya sea hardware o software) que toma uno o más valores de entrada, ejecuta una función en
la suma ponderada de las entradas y calcula un único valor de salida. En el aprendizaje automático, la
función suele ser no lineal, como ReLU (#ReLU), sigmoid (#sigmoid-function) o tanh
(https://wikipedia.org/wiki/Hyperbolic_functions) . Por ejemplo, el siguiente perceptrón se basa en la
función sigmoidea para procesar tres valores de entrada:
En la siguiente ilustración, el perceptrón toma tres entradas, cada una de las cuales es modificada por un
peso antes de ingresar al perceptrón:
Los perceptrones son las neuronas (#neuron) de las redes neuronales (#neural-network).
performance - actuación
perplexity - perplejidad
Una medida de qué tan bien un modelo (#model) está realizando su tarea. Por ejemplo, suponga que su
tarea es leer las primeras letras de una palabra que un usuario está escribiendo en el teclado de un
teléfono inteligente y ofrecer una lista de posibles palabras para completar. La perplejidad, P, para esta
tarea es aproximadamente el número de conjeturas que necesita ofrecer para que su lista contenga la
palabra real que el usuario está tratando de escribir.
pipeline - tubería
pipelining - canalización 🔤
Una forma de paralelismo de modelos (#model-parallelism) en la que el procesamiento de un modelo se
divide en etapas consecutivas y cada etapa se ejecuta en un dispositivo diferente. Mientras una etapa
procesa un lote, la etapa anterior puede trabajar en el siguiente lote.
Véase también formación por etapas (#staged-training).
policy - política RL
En el aprendizaje por refuerzo, el mapeo probabilístico de un agente (#agent) de estados (#state) a
acciones (#action).
Una operación de agrupación, al igual que una operación convolucional, divide esa matriz en rebanadas y
luego desliza esa operación convolucional a pasos agigantados (#stride) . Por ejemplo, suponga que la
operación de agrupación divide la matriz convolucional en rebanadas de 2x2 con un paso de 1x1. Como
ilustra el siguiente diagrama, se llevan a cabo cuatro operaciones de agrupación. Imagine que cada
operación de agrupación elige el valor máximo de los cuatro en ese segmento:
La agrupación para aplicaciones de visión se conoce más formalmente como agrupación espacial. Las
aplicaciones de series de tiempo generalmente se refieren a la agrupación como agrupación temporal.
Menos formalmente, la agrupación a menudo se denomina submuestreo o reducción de muestreo.
positive class - clase positiva 🐣
La clase para la que está probando. Por ejemplo, la clase positiva en un modelo de cáncer podría ser
"tumor". La clase positiva en un clasificador de correo electrónico podría ser "spam".
El término clase positiva puede resultar confuso porque el resultado "positivo" de muchas pruebas suele
ser un resultado indeseable. Por ejemplo, la clase positiva en muchas pruebas médicas corresponde a
tumores o enfermedades. En general, desea que un médico le diga: "¡Felicitaciones! Los resultados de su
prueba fueron negativos". Independientemente, la clase positiva es el evento que la prueba busca
encontrar.
precision - precisión
Una métrica para modelos de clasificación (#classification_model) que responde a la siguiente pregunta:
Cuando el modelo predijo la clase positiva (#positive_class), ¿qué porcentaje de las predicciones fueron
correctas?
Por ejemplo, suponga que un modelo hizo 200 predicciones positivas. De estas 200 predicciones positivas:
En este caso:
prediction - predicción 🐣
La salida de un modelo. Por ejemplo:
Un valor que indica qué tan lejos está el promedio de predicciones (#prediction) del promedio de
etiquetas (#label) en el conjunto de datos.
No debe confundirse con el término sesgo (#bias) en los modelos de aprendizaje automático o con el sesgo
en ética y equidad (#bias_ethics).
predictive parity - paridad predictiva ⚖️
Una métrica de equidad (#fairness_metric) que verifica si, para un clasificador dado, las tasas de
precisión (#precision) son equivalentes para los subgrupos en consideración.
Por ejemplo, un modelo que predice la aceptación en la universidad satisfaría la paridad predictiva de la
nacionalidad si su índice de precisión es el mismo para los liliputienses y los brobdingnagianos.
preprocessing - preprocesamiento ⚖️
Procesamiento de datos antes de que se usen para entrenar un modelo. El preprocesamiento podría ser tan
simple como eliminar palabras de un corpus de texto en inglés que no aparecen en el diccionario de inglés,
o podría ser tan complejo como volver a expresar puntos de datos de una manera que elimine la mayor
cantidad posible de atributos que están correlacionados con atributos confidenciales
(#sensitive_attribute).
Modelos o componentes del modelo (como el vector incrustado (#embedding_vector)) que ya se han
entrenado. A veces, alimentará vectores de incrustación previamente entrenados en una red neuronal
(#neural_network). Otras veces, su modelo entrenará los vectores de incrustación en sí mismo en lugar de
depender de las incrustaciones pre-entrenadas.
Lo que cree acerca de los datos antes de comenzar a entrenar con ellos. Por ejemplo, la regularización de
L2 (#L2_regularization) se basa en la creencia previa de que los pesos (#weight) deben ser pequeños y
normalmente distribuidos alrededor de cero.
probabilistic regression model - modelo de regresión probabilística
Un modelo de regresión (#regression_model) que usa no solo los pesos (#weight) para cada
característica (#feature), sino también la incertidumbre de esos pesos. Un modelo de regresión
probabilística genera una predicción y la incertidumbre de esa predicción. Por ejemplo, un modelo de
regresión probabilística podría arrojar una predicción de 325 con una desviación estándar de 12. Para
obtener más información sobre los modelos de regresión probabilística, consulte este Colab en
tensorflow.org (https://www.tensorflow.org/probability/examples/Probabilistic_Layers_Regression).
Por ejemplo, suponga que debe entrenar un modelo para predecir el nivel de estrés de los empleados. Su
conjunto de datos contiene muchas características predictivas, pero no contiene una etiqueta denominada
nivel de estrés. Sin desanimarse, elige "accidentes en el lugar de trabajo" como una etiqueta indirecta
para el nivel de estrés. Después de todo, los empleados bajo mucho estrés tienen más accidentes que los
empleados tranquilos. ¿O ellos? Tal vez los accidentes laborales en realidad aumentan y disminuyen por
múltiples razones.
Como segundo ejemplo, suponga que quiere ¿está lloviendo? ser una etiqueta booleana para su conjunto de
datos, pero su conjunto de datos no contiene datos de lluvia. Si hay fotografías disponibles, puede
establecer imágenes de personas que llevan paraguas como una etiqueta indirecta de ¿está lloviendo? ¿Es
esa una buena etiqueta de proxy? Posiblemente, pero es más probable que las personas en algunas culturas
lleven paraguas para protegerse del sol que de la lluvia.
Las etiquetas de proxy a menudo son imperfectas. Cuando sea posible, elija etiquetas reales en lugar de
etiquetas proxy. Dicho esto, cuando no haya una etiqueta real, elija la etiqueta proxy con mucho cuidado,
eligiendo el candidato a etiqueta proxy menos horrible.
Q
Q-function - Función Q RL
En el aprendizaje por refuerzo (#reinforcement_learning), la función que predice el rendimiento
(#return) esperado de realizar una acción (#action) en un estado (#state) y luego seguir una política
(#policy) dada .
Q-learning - Q-aprendizaje RL
En el aprendizaje por refuerzo (#reinforcement_learning) , un algoritmo que permite a un agente
(#agent) aprender la función Q (#q-function) óptima de un proceso de decisión de Markov
(#markov_decision_process) mediante la aplicación de la ecuación de Bellman (#bellman_equation). El
proceso de decisión de Markov modela un entorno (#environment).
quantile - cuantil
Cada depósito en la clasificación por cuantiles (#quantile_bucketing).
Distribuir los valores de una característica en depósitos (#bucketing) para que cada depósito contenga el
mismo (o casi el mismo) número de ejemplos. Por ejemplo, la siguiente figura divide 44 puntos en 4
cubos, cada uno de los cuales contiene 11 puntos. Para que cada cubo en la figura contenga la misma
cantidad de puntos, algunos cubos abarcan un ancho diferente de valores x.
quantization - cuantización
queue - cola
Una operación (#Operation) de TensorFlow que implementa una estructura de datos de cola.
Normalmente se utiliza en E/S.
R
ranking - clasificación
La posición ordinal de una clase en un problema de aprendizaje automático que clasifica las clases de
mayor a menor. Por ejemplo, un sistema de clasificación de comportamiento podría clasificar las
recompensas de un perro desde la más alta (un bistec) a la más baja (col rizada marchita).
El número de dimensiones en un Tensor (#tensor). Por ejemplo, un escalar tiene rango 0, un vector tiene
rango 1 y una matriz tiene rango 2.
recall - recuerdo
Una métrica para modelos de clasificación (#classification_model) que responde a la siguiente pregunta:
Cuando la verdad fundamental (#ground_truth) fue la clase positiva (#positive_class), ¿qué porcentaje
de predicciones identificó correctamente el modelo como la clase positiva?
dónde:
Por ejemplo, suponga que su modelo hizo 200 predicciones sobre ejemplos para los cuales la verdad
fundamental era la clase positiva. De estas 200 predicciones:
En este caso:
Haga clic en el icono para obtener notas sobre conjuntos de datos desequilibrados de clase.
● 30 Verdaderos Positivos
● 20 falsos negativos
● 4,999,000 Verdaderos Negativos
● 950 falsos positivos
Por lo tanto, la retirada de este modelo es:
recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
Ese alto valor de precisión parece impresionante, pero esencialmente no tiene sentido. La recuperación es
una métrica mucho más útil para conjuntos de datos de clase desequilibrada que la precisión.
Por ejemplo:
Por ejemplo, la siguiente figura muestra una red neuronal recurrente que se ejecuta cuatro veces. Observe
que los valores aprendidos en las capas ocultas de la primera ejecución pasan a formar parte de la entrada
de las mismas capas ocultas en la segunda ejecución. De manera similar, los valores aprendidos en la capa
oculta en la segunda ejecución pasan a formar parte de la entrada de la misma capa oculta en la tercera
ejecución. De esta manera, la red neuronal recurrente entrena y predice gradualmente el significado de
toda la secuencia en lugar de solo el significado de las palabras individuales.
regression model - Modelo de regresión 🐣
Informalmente, un modelo que genera una predicción numérica. (Por el contrario, un modelo de
clasificación (#classification_model) genera una predicción de clase). Por ejemplo, los siguientes son
todos modelos de regresión:
● Un modelo que predice el valor de una determinada casa, como 423,000 euros.
● Un modelo que predice la esperanza de vida de cierto árbol, como 23.2 años.
● Un modelo que predice la cantidad de lluvia que caerá en una determinada ciudad durante las
próximas seis horas, como 0.18 pulgadas.
● Regresión lineal (#linear_regression), que encuentra la línea que mejor se ajusta a los valores de
las etiquetas para las características.
● Regresión logística (#logistic_regression), que genera una probabilidad entre 0.0 y 1.0 de que
un sistema normalmente se asigne a una predicción de clase.
No todos los modelos que generan predicciones numéricas son modelos de regresión. En algunos casos, una
predicción numérica es realmente sólo un modelo de clasificación que tiene nombres de clase numéricos.
Por ejemplo, un modelo que predice un código postal numérico es un modelo de clasificación, no un
modelo de regresión.
regularization - regularización 🐣
Cualquier mecanismo que reduzca el sobreajuste (#overfitting) . Los tipos populares de regularización
incluyen:
● L1 regularización (#L1_regularization)
● L2 regularización (#L2_regularization)
La tasa de regularización se suele representar con la letra griega lambda. La siguiente ecuación de
pérdida (#loss) simplificada muestra la influencia de lambda:
● L1 regularización (#L1_regularization)
● L2 regularización (#L2_regularization)
ReLU 🐣
Abreviatura de Unidad Lineal Rectificada (#ReLU).
Por ejemplo, en los libros, la palabra reía prevalece más que respiraba. Un modelo de aprendizaje
automático que estime la frecuencia relativa de reír y respirar de un corpus de libros probablemente
determinaría que reír es más común que respirar.
representation - representación
re-ranking - reclasificación 👎👍
La etapa final de un sistema de recomendación (#recommendation_system), durante la cual los
elementos puntuados pueden volver a calificarse de acuerdo con algún otro algoritmo (normalmente, no
ML). La reclasificación evalúa la lista de elementos generados por la fase de puntuación (#scoring),
tomando acciones como:
return - devolver RL
En el aprendizaje por refuerzo, dada una determinada política y un determinado estado, el retorno es la
suma de todas las recompensas (#reward) que el agente (#agent) espera recibir al seguir la política
(#policy) desde el estado (#state) hasta el final del episodio (#episode). El agente explica la naturaleza
retrasada de las recompensas esperadas descontando las recompensas de acuerdo con las transiciones de
estado requeridas para obtener la recompensa.
Por lo tanto, si el factor de descuento es , y denote las recompensas hasta el final del
episodio, luego el cálculo de retorno es el siguiente:
reward - premio RL
En el aprendizaje por refuerzo, el resultado numérico de realizar una acción (#action) en un estado
(#state) definido por el entorno (#environment).
RNN 🔺➡ 🟦➡🟡
Abreviatura de redes neuronales recurrentes (#recurrent_neural_network).
La forma de una curva ROC sugiere la capacidad de un modelo de clasificación binaria para separar las
clases positivas de las clases negativas. Supongamos, por ejemplo, que un modelo de clasificación binaria
separa perfectamente todas las clases negativas de todas las clases positivas:
Mientras tanto, en el mundo real, la mayoría de los modelos de clasificación binaria separan las clases
positivas y negativas hasta cierto punto, pero por lo general no a la perfección. Entonces, una curva ROC
típica se encuentra en algún lugar entre los dos extremos:
El punto de una curva ROC más cercano a (0.0,1.0) identifica teóricamente el umbral de clasificación
ideal. Sin embargo, varios otros problemas del mundo real influyen en la selección del umbral de
clasificación ideal. Por ejemplo, quizás los falsos negativos causen mucho más dolor que los falsos
positivos.
Una métrica numérica llamada AUC (#AUC) resume la curva ROC en un solo valor de punto flotante.
El directorio que especificas para hospedar subdirectorios del punto de control de TensorFlow y archivos de
eventos de varios modelos.
Root Mean Squared Error (RMSE) - Raìz cuadrada del error cuadrático medio 🐣
La raíz cuadrada del error cuadrático medio (#MSE).
Supongamos que el sistema selecciona aleatoriamente fig como primer elemento. Si usa muestreo con
reemplazo, entonces el sistema selecciona el segundo artículo del siguiente conjunto:
Sí, ese es el mismo conjunto que antes, por lo que el sistema podría elegir fig nuevamente.
Si se usa el muestreo sin reemplazo, una vez recolectada, la muestra no se puede recolectar nuevamente.
Por ejemplo, si el sistema elige aleatoriamente fig como la primera muestra, fig no se puede volver a
elegir. Por lo tanto, el sistema toma la segunda muestra del siguiente conjunto (reducido):
La palabra reemplazo en muestreo con reemplazo confunde a muchas personas. En inglés, reemplazo
significa "sustitución". Sin embargo, el muestreo con reemplazo en realidad usa la definición francesa de
reemplazo , que significa "devolver algo". La palabra inglesa replace se traduce como la palabra francesa
replacement.
SavedModel - Modelo guardado
Saver - Ahorrador
Un objeto de TensorFlow (https://www.tensorflow.org/api_docs/python/tf/compat/v1/train/Saver) responsable
de guardar los puntos de control del modelo.
scalar - escalar
Un solo número o una sola cadena que se puede representar como un tensor (#tensor) de rango (#rank)
0. Por ejemplo, cada una de las siguientes líneas de código crea un escalar en TensorFlow:
scaling - escalada
Cualquier transformación matemática o técnica que cambie el rango de una etiqueta y/o valor de
característica. Algunas formas de escalado son muy útiles para transformaciones como la normalización
(#normalization).
● escala lineal, que generalmente usa una combinación de resta y división para reemplazar el valor
original con un número entre -1 y +1 o entre 0 y 1.
scoring - puntuación 👎👍
La parte de un sistema de recomendación (#recommendation_system) que proporciona un valor o
clasificación para cada elemento producido por la fase de generación de candidatos.
(#candidate_generation).
● sesgo de no respuesta (también llamado sesgo de participación ): los usuarios de ciertos grupos
optan por no participar en las encuestas en porcentajes diferentes a los usuarios de otros grupos.
Por ejemplo, suponga que está creando un modelo de aprendizaje automático que predice el disfrute de
una película por parte de las personas. Para recopilar datos de capacitación, entrega una encuesta a todos
los que se encuentran en la primera fila de un cine que muestra la película. De entrada, esto puede sonar
como una forma razonable de recopilar un conjunto de datos; sin embargo, esta forma de recopilación de
datos puede introducir las siguientes formas de sesgo de selección:
● sesgo de cobertura: al tomar muestras de una población que optó por ver la película, es posible
que las predicciones de su modelo no se generalicen a las personas que aún no expresaron ese nivel
de interés en la película.
● sesgo de no respuesta: en general, las personas con opiniones fuertes tienden a responder
encuestas opcionales con más frecuencia que las personas con opiniones moderadas. Dado que la
encuesta de la película es opcional, es más probable que las respuestas formen una distribución
bimodal (https://wikipedia.org/wiki/Multimodal_distribution) que una distribución normal (en forma de
campana)
self-attention (also called self-attention layer) - autoatención (también
llamada capa de autoatención) 🔤
Una capa de red neuronal que transforma una secuencia de incrustaciones (por ejemplo, incrustaciones de
tokens (#token)) en otra secuencia de incrustaciones. Cada incrustación en la secuencia de salida se
construye integrando información de los elementos de la secuencia de entrada a través de un mecanismo
de atención (#attention).
La parte propia de la autoatención se refiere a la secuencia que se presta atención a sí misma en lugar de
a algún otro contexto. La autoatención es uno de los principales bloques de construcción de Transformers
(#Transformer) y utiliza terminología de búsqueda de diccionario, como "consulta", "clave" y "valor".
Una capa de autoatención comienza con una secuencia de representaciones de entrada, una para cada
palabra. La representación de entrada de una palabra puede ser una simple incrustación. Para cada
palabra en una secuencia de entrada, la red califica la relevancia de la palabra para cada elemento en la
secuencia completa de palabras. Las puntuaciones de relevancia determinan cuánto incorpora la
representación final de la palabra las representaciones de otras palabras.
La siguiente ilustración (de Transformer: una nueva arquitectura de red neuronal para la comprensión del
lenguaje (https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html)) muestra un patrón de
atención de una capa de autoatención para el pronombre it , con la oscuridad de cada línea que indica
cuánto contribuye cada palabra a la representación:
La capa de autoatención resalta las palabras que son relevantes para "eso". En este caso, la capa de
atención ha aprendido a resaltar palabras a las que podría hacer referencia, asignando el mayor peso a
animal.
Para una secuencia de n tokens (#token) , la autoatención transforma una secuencia de incrustaciones n
veces separadas, una vez en cada posición de la secuencia.
Algunos modelos basados en Transformer (#Transformer), como BERT (#BERT) , utilizan el aprendizaje
autosupervisado.
self-training - Auto-entrenamiento
El autoaprendizaje funciona mediante la iteración de los siguientes dos pasos hasta que el modelo deja de
mejorar:
2. 2. Utilice el modelo creado en el Paso 1 para generar predicciones (etiquetas) en los ejemplos sin
etiqueta, moviendo aquellos en los que hay un alto nivel de confianza a los ejemplos etiquetados
con la etiqueta predicha.
Tenga en cuenta que cada iteración del Paso 2 agrega más ejemplos etiquetados para que el Paso 1
entrene.
Entrenamiento de un modelo en datos donde algunos de los ejemplos de entrenamiento tienen etiquetas
pero otros no. Una técnica para el aprendizaje semisupervisado es inferir etiquetas para los ejemplos no
etiquetados y luego entrenar con las etiquetas inferidas para crear un nuevo modelo. El aprendizaje
semisupervisado puede ser útil si las etiquetas son costosas de obtener, pero abundan los ejemplos no
etiquetados.
El autoaprendizaje (#self-training) es una técnica para el aprendizaje semisupervisado.
sensitive attribute - atributo sensible ⚖️
Un atributo humano al que se le puede dar una consideración especial por razones legales, éticas, sociales
o personales.
● Traductores:
● Ejemplo de secuencia de entrada: "Te amo".
● Ejemplo de secuencia de salida: "Je t'aime".
● Respuesta a la pregunta:
● Ejemplo de secuencia de entrada: "¿Necesito mi automóvil en la ciudad de Nueva York?"
● Secuencia de salida de muestra: "No. Mantenga su automóvil en casa".
serving - servicio
El número de elementos en cada dimensión (#dimensions) de un tensor. La forma se representa como una
lista de enteros. Por ejemplo, el siguiente tensor bidimensional tiene una forma de [3,4]:
[[5, 7, 6, 4],
[2, 9, 4, 8],
[3, 6, 5, 1]]
TensorFlow usa el formato de fila principal (estilo C) para representar el orden de las dimensiones, por lo
que la forma en TensorFlow es [3,4] en lugar de [4,3]. En otras palabras, en un TensorFlow Tensor
bidimensional, la forma es [ número de filas , número de columnas ].
Convertir el resultado sin procesar de una regresión logística (#logistic_regression) o una regresión
multinomial (#multinomial-regression) en una probabilidad.
sketching - dibujando 🍇
En el aprendizaje automático no supervisado (#unsupervised_machine_learning), una categoría de
algoritmos que realizan un análisis de similitud preliminar en ejemplos. Los algoritmos de esbozo usan una
función hash sensible a la localidad (https://wikipedia.org/wiki/Locality-sensitive_hashing) para
identificar puntos que probablemente sean similares y luego los agrupan en cubos.
La creación de bocetos reduce el cálculo necesario para los cálculos de similitud en grandes conjuntos de
datos. En lugar de calcular la similitud para cada par de ejemplos en el conjunto de datos, calculamos la
similitud solo para cada par de puntos dentro de cada cubo.
softmax 🐣
Una función que determina las probabilidades para cada clase posible en un modelo de clasificación de
clases múltiples (#multi-class). Las probabilidades suman exactamente 1.0. Por ejemplo, la siguiente
tabla muestra cómo softmax distribuye varias probabilidades:
Image is a … Probability
dog .85
cat .13
horse .02
dónde:
● es el vector de salida. Cada elemento del vector de salida especifica la probabilidad de este
elemento. La suma de todos los elementos en el vector de salida es 1.0. El vector de salida
contiene el mismo número de elementos que el vector de entrada, .
● es el vector de entrada. Cada elemento del vector de entrada contiene un valor de coma
flotante.
Por el contrario, una característica densa (#dense_feature) tiene valores que predominantemente no son
cero o están vacíos.
Por ejemplo, suponga que una característica categórica con nombre species identifica las 36 especies
de árboles en un bosque en particular. Suponga además que cada ejemplo (#example) identifica una sola
especie.
Podrías usar un vector one-hot para representar las especies de árboles en cada ejemplo. Un vector
caliente contendría un solo 1 (para representar la especie de árbol en particular en ese ejemplo) y 35 0s
(para representar las 35 especies de árboles que no están en ese ejemplo). Entonces, la representación
one-hot de maple podría ser algo como lo siguiente:
Tenga en cuenta que la representación dispersa es mucho más compacta que la representación única.
Nota: No debe pasar una representación dispersa como una entrada de función directa a un modelo. En su lugar, debe
convertir la representación dispersa en una representación única antes de entrenarla.
Suponga que cada ejemplo en su modelo debe representar las palabras, pero no el orden de esas palabras,
en una oración en inglés. El inglés consta de unas 170,000 palabras, por lo que el inglés es una
característica categórica con unos 170,000 elementos. La mayoría de las oraciones en inglés usan una
fracción extremadamente pequeña de esas 170,000 palabras, por lo que el conjunto de palabras en un
solo ejemplo seguramente serán datos escasos.
Podrías usar una variante del vector one-hot para representar las palabras en esta oración. En esta
variante, varias celdas del vector pueden contener un valor distinto de cero. Además, en esta variante,
una celda puede contener un número entero distinto de uno. Aunque las palabras "mi", "es", "un" y "gran"
aparecen solo una vez en la oración, la palabra "perro" aparece dos veces. El uso de esta variante de
vectores one-hot para representar las palabras en esta oración produce el siguiente vector de 170,000
elementos:
0: 1
26100: 2
45770: 1
58906: 1
91520: 1
sparsity - escasez
El número de elementos establecidos en cero (o nulo) en un vector o matriz dividido por el número total
de entradas en ese vector o matriz. Por ejemplo, considere una matriz de 100 elementos en la que 98
celdas contienen cero. El cálculo de la dispersión es el siguiente:
El cuadrado de la pérdida de bisagra (#hinge-loss). La pérdida de bisagra cuadrada penaliza los valores
atípicos con más dureza que la pérdida de bisagra normal.
● La etapa 1 contiene 3 capas ocultas, la etapa 2 contiene 6 capas ocultas y la etapa 3 contiene
12 capas ocultas.
● La Etapa 2 comienza a entrenar con los pesos aprendidos en las 3 capas ocultas de la Etapa 1. La
Etapa 3 comienza a entrenar con los pesos aprendidos en las 6 capas ocultas de la Etapa 2.
static - estático 🐣
Algo hecho una vez en lugar de continuamente. Los términos estático y fuera de línea son sinónimos. Los
siguientes son usos comunes de estático y fuera de línea en el aprendizaje automático:
● El modelo estático (o modelo fuera de línea) es un modelo entrenado una vez y luego usado por
un tiempo.
stationarity - estacionariedad 🐣
Una característica cuyos valores no cambian en una o más dimensiones, generalmente el tiempo. Por
ejemplo, una característica cuyos valores se ven casi iguales en 2020 y 2022 exhibe estacionariedad.
En el mundo real, muy pocas características exhiben estacionariedad. Incluso las características que son
sinónimo de estabilidad (como el nivel del mar) cambian con el tiempo.
Consulte la propagación (#backpropagation) hacia atrás para obtener más información sobre el pase hacia
adelante y el pase hacia atrás.
stride - paso 🖼️
En una operación convolucional o agrupación, el delta en cada dimensión de la siguiente serie de
segmentos de entrada. Por ejemplo, la siguiente animación muestra un paso (1,1) durante una operación
convolucional. Por lo tanto, el siguiente segmento de entrada comienza una posición a la derecha del
segmento de entrada anterior. Cuando la operación alcanza el borde derecho, el siguiente corte está
completamente hacia la izquierda pero una posición hacia abajo.
● El deseo de construir el modelo más predictivo (por ejemplo, la pérdida más baja).
● El deseo de mantener el modelo lo más simple posible (por ejemplo, una fuerte regularización).
subsampling - submuestreo 🖼️
Véase puesta (#pooling) en común.
summary - resumen
Después de dominar el mapeo entre preguntas y respuestas, un estudiante puede proporcionar respuestas a
preguntas nuevas (nunca antes vistas) sobre el mismo tema.
target - objetivo
Sinónimo de etiqueta (#label).
Datos registrados en diferentes momentos. Por ejemplo, las ventas de abrigos de invierno registradas para
cada día del año serían datos temporales.
Tensor
La estructura de datos principal en los programas de TensorFlow. Los tensores son estructuras de datos
N-dimensionales (donde N podría ser muy grande), más comúnmente escalares, vectores o matrices. Los
elementos de un tensor pueden contener valores enteros, de punto flotante o de cadena.
TensorBoard - TensorTablero
El tablero que muestra los resúmenes guardados durante la ejecución de uno o más programas de
TensorFlow.
TensorFlow
Una plataforma de aprendizaje automático distribuida a gran escala. El término también hace referencia a
la capa base de la API en la pila de TensorFlow, que admite el cálculo general en gráficos de flujo de
datos.
Aunque TensorFlow se usa principalmente para el aprendizaje automático, también puede usar TensorFlow
para tareas que no sean de ML que requieran cálculos numéricos mediante gráficos de flujo de datos.
Un circuito integrado específico de la aplicación (ASIC) que optimiza el rendimiento de las cargas de
trabajo de aprendizaje automático. Estos ASIC se implementan como varios chips de TPU (#TPU_chip) en
un dispositivo de TPU (#TPU_device).
El número de elementos que contiene un Tensor (#tensor) en varias dimensiones. Por ejemplo, un tensor
[5, 10] tiene forma de 5 en una dimensión y de 10 en otra.
Tensor size - Tamaño del tensor
El número total de escalares que contiene un tensor (#tensor). Por ejemplo, un tensor [5, 10] tiene
un tamaño de 50.
Una gran brecha entre la pérdida de prueba y la pérdida de capacitación o pérdida de validación a veces
sugiere que necesita aumentar la tasa de regularización (#regularization_rate)
Un subconjunto del conjunto de datos (#dataset) reservado para probar un modelo (#model) entrenado.
Tradicionalmente, los ejemplos del conjunto de datos se dividen en los siguientes tres subconjuntos
distintos:
tf.Example
tf.keras
grade >= 75
Esta forma del término umbral es diferente del umbral de clasificación (#classification_threshold).
token - simbólico 🔤
En un modelo de lenguaje (#language-model) , la unidad atómica en la que el modelo está entrenando y
haciendo predicciones. Un token suele ser uno de los siguientes:
● una palabra; por ejemplo, la frase "a los perros les gustan los gatos" consta de tres tokens de
palabras: "perros", "me gusta" y "gatos".
● un carácter; por ejemplo, la frase "pez en bicicleta" consta de nueve fichas de carácter. (Tenga en
cuenta que el espacio en blanco cuenta como uno de los tokens).
● subpalabras: en las que una sola palabra puede ser un solo token o varios tokens. Una subpalabra
consta de una palabra raíz, un prefijo o un sufijo. Por ejemplo, un modelo de lenguaje que usa
subpalabras como tokens podría ver la palabra "dogs" como dos tokens (la raíz de la palabra "dog" y
el sufijo plural "s"). Ese mismo modelo de lenguaje podría ver la sola palabra "más alto" como dos
subpalabras (la raíz de la palabra "alto" y el sufijo "er").
En dominios fuera de los modelos de lenguaje, los tokens pueden representar otros tipos de unidades
atómicas. Por ejemplo, en visión artificial, un token puede ser un subconjunto de una imagen.
tower - torre
Un componente de una red neuronal profunda (#deep_neural_network) que es en sí misma una red
neuronal profunda sin una capa de salida. Por lo general, cada torre lee desde una fuente de datos
independiente. Las torres son independientes hasta que su salida se combina en una capa final.
TPU
Un acelerador de álgebra lineal programable con memoria de alto ancho de banda en chip que está
optimizado para cargas de trabajo de aprendizaje automático. Se implementan varios chips de TPU en un
dispositivo de TPU (#TPU_device).
Una placa de circuito impreso (PCB) con varios chips de TPU (#TPU_chip), interfaces de red de gran ancho
de banda y hardware de refrigeración del sistema.
El proceso de coordinación central que se ejecuta en una máquina host que envía y recibe datos,
resultados, programas, rendimiento e información sobre el estado del sistema a los trabajadores de la TPU
(#TPU_worker). El maestro de TPU también administra la configuración y el apagado de los dispositivos
de TPU (#TPU_device) .
Una configuración específica de dispositivos TPU (#TPU_device) en un centro de datos de Google. Todos
los dispositivos en un pod de TPU están conectados entre sí a través de una red de alta velocidad
dedicada. Un pod de TPU es la configuración más grande de dispositivos de TPU (#TPU_device)
disponibles para una versión específica de TPU.
Una entidad de TPU en Google Cloud Platform que creas, administras o consumes. Por ejemplo, los nodos
de TPU (#TPU_node) y los tipos de TPU (#TPU_type) son recursos de TPU.
Una porción de TPU es una porción fraccionaria de los dispositivos de TPU (#TPU_device) en un pod de
TPU (#TPU_Pod). Todos los dispositivos en un segmento de TPU están conectados entre sí a través de una
red de alta velocidad dedicada.
Una configuración de uno o más dispositivos de TPU (#TPU_device) con una versión de hardware de TPU
específica. Selecciona un tipo de TPU cuando crea un nodo de TPU (#TPU_node) en Google Cloud
Platform. Por ejemplo, un v2-8 tipo de TPU es un solo dispositivo TPU v2 con 8 núcleos. Un v3-2048
tipo de TPU tiene 256 dispositivos TPU v3 en red y un total de 2048 núcleos. Los tipos de TPU son un
recurso definido en la API de Cloud TPU
(https://cloud.google.com/tpu/docs/reference/rest/v1/projects.locations.acceleratorTypes) .
Un proceso que se ejecuta en una máquina host y ejecuta programas de aprendizaje automático en
dispositivos TPU (#TPU_device).
training - capacitación 🐣
El proceso de determinar los parámetros (#parameter) ideales (pesos y sesgos) que componen un modelo
(#model). Durante el entrenamiento, un sistema lee ejemplos (#example) y ajusta gradualmente los
parámetros. El entrenamiento utiliza cada ejemplo desde unas pocas veces hasta miles de millones de
veces.
Una curva de pérdida (#loss_curve) traza la pérdida de entrenamiento frente al número de iteraciones.
Una curva de pérdida proporciona los siguientes consejos sobre el entrenamiento:
● Una fuerte pendiente descendente durante las iteraciones iniciales, lo que implica una rápida
mejora del modelo.
● Una pendiente que se aplana gradualmente (pero aún hacia abajo) hasta cerca del final del
entrenamiento, lo que implica una mejora continua del modelo a un ritmo algo más lento que
durante las iteraciones iniciales.
● Una pendiente plana hacia el final del entrenamiento, lo que sugiere convergencia.
Tradicionalmente, los ejemplos en el conjunto de datos se dividen en los siguientes tres subconjuntos
distintos:
● un conjunto de entrenamiento
● un conjunto de validación (#validation_set)
● un conjunto de prueba (#test_set)
Idealmente, cada ejemplo en el conjunto de datos debe pertenecer solo a uno de los subconjuntos
anteriores. Por ejemplo, un solo ejemplo no debe pertenecer tanto al conjunto de entrenamiento como al
conjunto de validación.
trajectory - trayectoria RL
En el aprendizaje por refuerzo (#reinforcement_learning), una secuencia de tuplas
(https://wikipedia.org/wiki/Tuple) que representan una secuencia de transiciones de estado (#state) del
agente (#agent), donde cada tupla corresponde al estado, la acción (#action), la recompensa (#reward)
y el siguiente estado para una transición de estado determinada.
Transferir información de una tarea de aprendizaje automático a otra. Por ejemplo, en el aprendizaje
multitarea, un solo modelo resuelve múltiples tareas, como un modelo profundo (#deep_model) que tiene
diferentes nodos de salida para diferentes tareas. El aprendizaje por transferencia puede implicar la
transferencia de conocimientos de la solución de una tarea más simple a una más compleja, o la
transferencia de conocimientos de una tarea en la que hay más datos a otra en la que hay menos datos.
La mayoría de los sistemas de aprendizaje automático resuelven una sola tarea. El aprendizaje por
transferencia es un pequeño paso hacia la inteligencia artificial en el que un solo programa puede resolver
múltiples tareas.
Transformer - Transformador 🔤
Una arquitectura de red neuronal (#neural_network) desarrollada en Google que se basa en mecanismos
de autoatención (#self-attention) para transformar una secuencia de incrustaciones de entrada en una
secuencia de incrustaciones de salida sin depender de convoluciones (#convolution) o redes neuronales
recurrentes (#recurrent_neural_network). Un transformador puede verse como una pila de capas de
atención propia.
● un codificador (#encoder)
● un decodificador (#decoder)
● tanto un codificador como un decodificador
Un codificador transforma una secuencia de incrustaciones en una nueva secuencia de la misma longitud.
Un codificador incluye N capas idénticas, cada una de las cuales contiene dos subcapas. Estas dos subcapas
se aplican en cada posición de la secuencia de incrustación de entrada, transformando cada elemento de
la secuencia en una nueva incrustación. La primera subcapa del codificador agrega información de toda la
secuencia de entrada. La segunda subcapa del codificador transforma la información agregada en una
incrustación de salida.
La publicación de blog Transformer: una nueva arquitectura de red neuronal para la comprensión del
lenguaje (https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html) proporciona una buena
introducción a Transformers.
underfitting - desajustar 🐣
Producir un modelo (#model) con poca capacidad predictiva porque el modelo no ha capturado
completamente la complejidad de los datos de entrenamiento. Muchos problemas pueden causar un ajuste
insuficiente, incluidos:
● Entrenamiento para muy pocas épocas (#epoch) o con una tasa de aprendizaje (#learning_rate)
demasiado baja.
● Proporcionar muy pocas capas ocultas (#hidden_layer) en una red neuronal profunda.
undersampling - submuestreo
Por ejemplo, considere un conjunto de datos en el que la relación entre la clase mayoritaria y la clase
minoritaria (#minority_class) es de 20:1. Para superar este desequilibrio de clases, puede crear un
conjunto de entrenamiento que consista en todos los ejemplos de clases minoritarias pero solo una décima
parte de los ejemplos de clases mayoritarias, lo que crearía una proporción de clases de conjuntos de
entrenamiento de 2:1. Gracias al submuestreo, este conjunto de entrenamiento más equilibrado podría
producir un mejor modelo. Alternativamente, este conjunto de entrenamiento más equilibrado podría
contener ejemplos insuficientes para entrenar un modelo efectivo.
El uso más común del aprendizaje automático no supervisado es agrupar (#clustering) datos en grupos de
ejemplos similares. Por ejemplo, un algoritmo de aprendizaje automático no supervisado puede agrupar
canciones en función de varias propiedades de la música. Los clústeres resultantes pueden convertirse en
una entrada para otros algoritmos de aprendizaje automático (por ejemplo, para un servicio de
recomendación de música). El agrupamiento puede ayudar cuando las etiquetas útiles son escasas o están
ausentes. Por ejemplo, en dominios como la lucha contra el abuso y el fraude, los clústeres pueden ayudar
a los humanos a comprender mejor los datos.
Una técnica de modelado, comúnmente utilizada en marketing, que modela el "efecto causal" (también
conocido como "impacto incremental") de un "tratamiento" en un "individuo". Aquí hay dos ejemplos:
● Los médicos pueden usar modelos de mejora para predecir la disminución de la mortalidad (efecto
causal) de un procedimiento médico (tratamiento) según la edad y el historial médico de un
paciente (individual).
● Los especialistas en marketing pueden usar modelos de aumento para predecir el aumento en la
probabilidad de una compra (efecto causal) debido a un anuncio (tratamiento) en una persona
(individuo).
upweighting - ponderación
Aplicar un peso a la clase reducida (#downsampling) de tamaño igual al factor por el cual se redujo la
muestra.
user matrix - matriz de usuarios 👎👍
En los sistemas de recomendación (#recommendation_system), un vector de incrustación
(#embedding_vector) generado por factorización matricial (#matrix_factorization) que contiene señales
latentes sobre las preferencias del usuario. Cada fila de la matriz de usuarios contiene información sobre
la fuerza relativa de varias señales latentes para un solo usuario. Por ejemplo, considere un sistema de
recomendación de películas. En este sistema, las señales latentes en la matriz de usuarios pueden
representar el interés de cada usuario en géneros particulares, o pueden ser señales más difíciles de
interpretar que involucran interacciones complejas entre múltiples factores.
La matriz de usuarios tiene una columna para cada función latente y una fila para cada usuario. Es decir, la
matriz de usuario tiene el mismo número de filas que la matriz de destino que se factoriza. Por ejemplo,
dado un sistema de recomendación de películas para 1,000,000 de usuarios, la matriz de usuarios
tendrá 1,000,000 de filas.
V
validation - validación 🐣
La evaluación inicial de la calidad de un modelo. La validación verifica la calidad de las predicciones de un
modelo contra el conjunto de validación (#validation_set).
Podría pensar en evaluar el modelo contra el conjunto de validación como la primera ronda de pruebas y
evaluar el modelo contra el conjunto de pruebas (#test_set) como la segunda ronda de pruebas.
Tradicionalmente, divide los ejemplos en el conjunto de datos en los siguientes tres subconjuntos distintos:
Idealmente, cada ejemplo en el conjunto de datos debe pertenecer solo a uno de los subconjuntos
anteriores. Por ejemplo, un solo ejemplo no debe pertenecer tanto al conjunto de entrenamiento como al
conjunto de validación.
vanishing gradient problem - problema del gradiente de fuga 🔺➡ 🟦➡🟡
La tendencia de los gradientes de las primeras capas ocultas (#hidden_layer) de algunas redes
neuronales profundas (#deep_neural_network) a volverse sorprendentemente planos (bajos). Los
gradientes cada vez más bajos dan como resultado cambios cada vez más pequeños en los pesos de los
nodos en una red neuronal profunda, lo que lleva a un aprendizaje escaso o nulo. Los modelos que sufren
el problema del gradiente de fuga se vuelven difíciles o imposibles de entrenar. Las celdas de memoria a
corto plazo (#Long_Short-Term_Memory) abordan este problema.
Por ejemplo, considere un árbol de decisiones (#decision-tree) que estima los precios de las casas.
Suponga que este árbol de decisiones utiliza tres características: tamaño, antigüedad y estilo. Si se calcula
que un conjunto de importancias variables para las tres características es {tamaño = 5.8, edad =
2.5, estilo = 4.7}, entonces el tamaño es más importante para el árbol de decisión que la edad o
el estilo.
Existen diferentes métricas de importancia variable, que pueden informar a los expertos de ML sobre
diferentes aspectos de los modelos.
W
Una de las funciones de pérdida comúnmente utilizada en las redes adversarias generativas
(#generative_adversarial_network), basada en la distancia del movimiento de tierra
(#earth-movers-distance) entre la distribución de los datos generados y los datos reales.
weight - peso 🐣
Un valor que un modelo multiplica por otro valor. El entrenamiento (#training) es el proceso de
determinar los pesos ideales de un modelo; la inferencia (#inference) es el proceso de usar esos pesos
aprendidos para hacer predicciones.
Imagine un modelo lineal (#linear_model) con dos características. Supongamos que el entrenamiento
determina los siguientes pesos (y sesgos (#bias)):
Este modelo lineal utiliza la siguiente fórmula para generar una predicción, y':
2 -1.3
-1 0.6
3 0.4
El número de neuronas (#neuron) en una capa (#layer) particular de una red neuronal
(#neural_network).
Los conjuntos (#ensemble) son un software análogo a la sabiduría de la multitud. Incluso si los modelos
individuales hacen predicciones muy imprecisas, promediar las predicciones de muchos modelos a menudo
genera predicciones sorprendentemente buenas. Por ejemplo, aunque un árbol de decisiones
(#decision-tree) individual puede hacer malas predicciones, un bosque de decisiones (#decision-forest) a
menudo hace muy buenas predicciones.
800 0
950 +1.5
575 -2.25
Luego, el modelo de aprendizaje automático se entrena en los puntajes Z para esa función en lugar de los
valores sin procesar.