Glosario ML 002

GLOSARIO DE TÉRMINOS ML
Este glosario define términos generales de aprendizaje automático, además de términos específicos de
TensorFlow.
¿Sabías? Puede filtrar el glosario eligiendo un tema del menú desplegable Glosario en la barra de
navegación superior. El icono de pájaro que nace significa definiciones dirigidas a los recién llegados de ML
A/B testing - Pruebas A / B
Una forma estadística de comparar dos (o más) técnicas: la A y la B. Por lo general, la A es una técnica
existente y la B es una técnica nueva. Las pruebas A/B no solo determinan qué técnica funciona mejor,
sino también si la diferencia es estadísticamente significativa.
Las pruebas A/B generalmente comparan una sola métrica (#metric) en dos técnicas; por ejemplo, ¿cómo
se compara la precisión (#accuracy) del modelo para dos técnicas? Sin embargo, las pruebas A/B también
pueden comparar cualquier número finito de métricas.
accuracy - exactitud 🐣
El número de predicciones (#prediction) de clasificación correctas dividido por el número total de
predicciones. Eso es:
Por ejemplo, un modelo que hizo 40 predicciones correctas y 10 incorrectas tendría una precisión de:
La clasificación binaria (#binary_classification) proporciona nombres específicos para las diferentes

categorías de predicciones correctas y predicciones incorrectas. Entonces, la fórmula de precisión para la
clasificación binaria es la siguiente:
dónde:
● TP es el número de verdaderos positivos (#TP - true positives -) (predicciones correctas).
● TN es el número de verdaderos negativos (#TN - true negatives -) (predicciones correctas).
● FP es el número de falsos positivos (#FP - false positives -) (predicciones incorrectas).
● FN es el número de falsos negativos (#FN - false negatives -) (predicciones incorrectas).
Compare y contraste la precisión con la precisión (#precision) y la recuperación (#recall).
Click the icon for additional notes.
Aunque es una métrica valiosa para algunas situaciones, la precisión es muy engañosa para otras. En
particular, la precisión suele ser una métrica deficiente para evaluar los modelos de clasificación
que procesan conjuntos de datos de clases desequilibradas (#class_imbalanced_data_set).
Por ejemplo, supongamos que la nieve cae solo 25 días por siglo en cierta ciudad subtropical. Dado
que los días sin nieve (la clase negativa) superan ampliamente a los días con nieve (la clase
positiva), el conjunto de datos de nieve para esta ciudad está desequilibrado por clases. Imagine un
modelo de clasificación binaria (#binary-classification) que se supone que prediga nieve o no nieve
todos los días, pero simplemente predice "no nieve" todos los días. Este modelo es muy preciso pero
no tiene poder predictivo. La siguiente tabla resume los resultados de un siglo de predicciones:
Category Number
TP 0
TN 36500
FP 25
FN 0
Por lo tanto, la precisión de este modelo es:
accuracy = (TP + TN) / (TP + TN + FP + FN)

accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%
Aunque el 99,93% de precisión parece un porcentaje impresionante, el modelo en realidad no tiene

poder predictivo.
La precisión (#precision) y la recuperación (#recall) suelen ser métricas más útiles que la precisión para
evaluar modelos entrenados en conjuntos de datos de clase desequilibrada -class-imbalanced datasets -.
action - acción RL
En el aprendizaje por refuerzo (#reinforcement_learning), el mecanismo por el cual el agente (#agent)
realiza la transición entre los estados (#state) del entorno (#environment). El agente elige la acción
mediante una política (#policy).
activation function - función de activación 🐣
Una función que permite que las redes neuronales (#neural_network) aprendan relaciones no lineales
(#nonlinear) (complejas -complex-) entre las entidades y la etiqueta.
Las funciones de activación populares incluyen:

● ReLU (#ReLU)
● Sigmoideo (#sigmoid-function)
Las gráficas de las funciones de activación nunca son líneas rectas simples. Por ejemplo, el gráfico de la
función de activación de ReLU consta de dos líneas rectas:
Una gráfica de la función de activación sigmoidea se ve de la siguiente manera:
Click the icon to see an example.
En una red neuronal, las funciones de activación manipulan la suma ponderada (#weighted_sum) de
todas las entradas a una neurona (#neuron). Para calcular una suma ponderada, la neurona suma los
productos de los valores y pesos relevantes. Por ejemplo, suponga que la entrada relevante a una
neurona consiste en lo siguiente:
input value input weight
2 -1.3
-1 0.6
3 0.4
La suma ponderada es por lo tanto:
weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0
Suponga que el diseñador de esta red neuronal elige la función sigmoidea (#sigmoid-function) como
función de activación. En ese caso, la neurona calcula el sigmoide de -2,0, que es aproximadamente
0,12. Por lo tanto, la neurona pasa 0,12 (en lugar de -2,0) a la siguiente capa de la red neuronal. La
siguiente figura ilustra la parte relevante del proceso:
active learning - aprendizaje activo

Un enfoque de entrenamiento (#training) en el que el algoritmo elige algunos de los datos de los que
aprende. El aprendizaje activo es particularmente valioso cuando los ejemplos etiquetados
(#labeled_example) son escasos o costosos de obtener. En lugar de buscar ciegamente una amplia gama de
ejemplos etiquetados, un algoritmo de aprendizaje activo busca selectivamente la gama particular de
ejemplos que necesita para aprender.
AdaGrad
Un sofisticado algoritmo de descenso de gradientes que vuelve a escalar los gradientes de cada
parámetro (#parameter), dando efectivamente a cada parámetro una tasa de aprendizaje
(#learning_rate) independiente . Para obtener una explicación completa, consulte este artículo.
(http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf).
agent - agente RL
En el aprendizaje por refuerzo (#reinforcement_learning), es la entidad que utiliza una política
(#policy) para maximizar el rendimiento (#return) esperado obtenido de la transición entre estados
(#state) del entorno (#environment).
agglomerative clustering - agrupamiento aglomerativo 🍇

Ver agrupamiento jerárquico (#hierarchical_clustering).
anomaly detection - detección de anomalías

El proceso de identificación de valores atípicos (#outliers). Por ejemplo, si la media de una característica
(#feature) determinada es 100 con una desviación estándar de 10, la detección de anomalías debería
marcar un valor de 200 como sospechoso.
AR
Abreviatura de realidad aumentada (#augmented_reality).
area under the PR curve - área bajo la cura PR

Consulte PR AUC (Área bajo la curva PR) (#PR_AUC).
area under the ROC curve - área bajo la curva ROC

Ver AUC (Área bajo la curva ROC) (#AUC).
artificial general intelligence - inteligencia general artificial
Un mecanismo no humano que demuestra una amplia gama de resolución de problemas, creatividad y
adaptabilidad. Por ejemplo, un programa que demuestre inteligencia artificial general podría traducir
texto, componer sinfonías y sobresalir en juegos que aún no se han inventado.
artificial intelligence - inteligencia artificial 🐣

Un programa o modelo (#model) no humano que puede resolver tareas sofisticadas. Por ejemplo, un
programa o modelo que traduce texto o un programa o modelo que identifica enfermedades a partir de
imágenes radiológicas exhiben inteligencia artificial.
Formalmente, el aprendizaje automático (#machine_learning) es un subcampo de la inteligencia

artificial. Sin embargo, en los últimos años, algunas organizaciones han comenzado a usar los términos
inteligencia artificial y aprendizaje automático de manera intercambiable.
attention - atención 🔤
Cualquiera de una amplia gama de mecanismos de arquitectura de redes neuronales (#neural_network)
que agregan información de un conjunto de entradas de manera dependiente de los datos. Un mecanismo
de atención típico podría consistir en una suma ponderada sobre un conjunto de entradas, donde el peso
(#weight) de cada entrada es calculado por otra parte de la red neuronal.
Consulte también la autoatención (#self-attention) y la autoatención de varios cabezales

(#multi-head-self-attention), que son los componentes básicos de Transformers (#Transformer).
attribute - atributo ⚖️
Sinónimo de característica (#feature)
En la equidad del aprendizaje automático, los atributos a menudo se refieren a características

pertenecientes a individuos.
attribute sampling - muestreo de atributos 🌳🌲🌳
Una táctica para entrenar un bosque de decisión (#decision-forest) en el que cada árbol de decisión
(#decision-tree) considera sólo un subconjunto aleatorio de características (#feature) posibles al
aprender la condición (#condition). Por lo general, se muestrea un subconjunto diferente de funciones
para cada nodo (#node-decision-tree). Por el contrario, cuando se entrena un árbol de decisión sin
muestreo de atributos, se consideran todas las características posibles para cada nodo.
AUC (Area under the ROC curve) 🐣

Un número entre 0.0 y 1.0 que representa la capacidad de un modelo de clasificación binaria
(#binary-classification) para separar las clases positivas (#positive_class) de las clases negativas
(#negative_class). Cuanto más cerca esté el AUC de 1.0, mejor será la capacidad del modelo para
separar las clases entre sí.
Por ejemplo, la siguiente ilustración muestra un modelo clasificador que separa perfectamente las clases
positivas (óvalos verdes) de las clases negativas (rectángulos morados). Este modelo irrealmente perfecto
tiene un AUC de 1.0:
Por el contrario, la siguiente ilustración muestra los resultados de un modelo clasificador que generó
resultados aleatorios. Este modelo tiene un AUC de 0.5:
Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.
La mayoría de los modelos están en algún lugar entre los dos extremos. Por ejemplo, el siguiente modelo
separa un poco los aspectos positivos de los negativos y, por lo tanto, tiene un AUC entre 0.5 y 1.0:
AUC ignora cualquier valor que establezca para el umbral de clasificación (#classification_threshold). En
cambio, AUC considera todos los umbrales de clasificación posibles.
Click the icon to learn about the relationship between AUC and ROC curves.
AUC representa el área bajo una curva ROC -ROC curve- (#ROC). Por ejemplo, la curva ROC para un
modelo que separa perfectamente los aspectos positivos de los negativos es la siguiente:
AUC es el área de la región gris en la ilustración anterior. En este caso inusual, el área es simplemente la
longitud de la región gris (1.0) multiplicada por el ancho de la región gris (1.0). Por lo tanto, el producto
de 1.0 y 1.0 produce un AUC de exactamente 1.0, que es la puntuación de AUC más alta posible.
Por el contrario, la curva ROC para un clasificador que no puede separar clases en absoluto es la siguiente.
El área de esta región gris es 0.5.
Una curva ROC más típica se ve aproximadamente como la siguiente:

Sería laborioso calcular el área bajo esta curva manualmente, razón por la cual un programa normalmente
calcula la mayoría de los valores de AUC.
Click the icon for a more formal definition of AUC.
AUC es la probabilidad de que un clasificador esté más seguro de que un ejemplo positivo elegido al azar
sea realmente positivo que de que un ejemplo negativo elegido al azar sea positivo.
augmented reality - realidad aumentada 🖼️

Una tecnología que superpone una imagen generada por computadora en la vista del usuario del mundo
real, proporcionando así una vista compuesta.
automation bias - sesgo de automatización ⚖️

Cuando un tomador de decisiones humano favorece las recomendaciones hechas por un sistema de toma de
decisiones automatizado sobre la información hecha sin automatización, incluso cuando el sistema de toma
de decisiones automatizado comete errores.
average precision - precisión media
Una métrica para resumir el rendimiento de una secuencia clasificada de resultados. La precisión promedio
se calcula tomando el promedio de los valores de precisión (#precision) para cada resultado relevante
(cada resultado en la lista clasificada donde el recuerdo aumenta en relación con el resultado anterior).
Véase también Área bajo la curva PR (#area_under_the_pr_curve).
axis-aligned condition - condición alineada con el eje 🌳🌲🌳

En un árbol de decisión (#decision-tree), una condición (#condition) que involucra una sola característica
(#feature). Por ejemplo, si el área es una característica, lo siguiente es una condición alineada con el eje:
area > 200
Contraste con condición oblicua (#oblique-condition).

B
backpropagation - retropropagación 🐣
El algoritmo que implementa el descenso de gradiente (#gradient_descent) en las redes neuronales
(#neural_network).
El entrenamiento de una red neuronal implica muchas iteraciones (#iteration) del siguiente ciclo de dos
pasos:
1. Durante el paso hacia adelante –forward pass-, el sistema procesa un lote (#batch) de
ejemplos (#example) para generar predicciones. El sistema compara cada predicción con cada
valor de etiqueta (#label). La diferencia entre la predicción y el valor de la etiqueta es la
pérdida (#loss) para ese ejemplo. El sistema agrega las pérdidas de todos los ejemplos para
calcular la pérdida total del lote actual.
2. Durante el paso hacia atrás -backward pass- (backpropagation), el sistema reduce la pérdida
ajustando los pesos de todas las neuronas (#neuron) en todas las capas ocultas
(#hidden_layer).
Las redes neuronales a menudo contienen muchas neuronas en muchas capas ocultas. Cada una de esas
neuronas contribuye a la pérdida general de diferentes maneras. Backpropagation determina si aumentar o
disminuir los pesos aplicados a neuronas particulares.
La tasa de aprendizaje (#learning_rate) es un multiplicador que controla el grado en que cada paso hacia
atrás aumenta o disminuye cada peso. Una tasa de aprendizaje grande aumentará o disminuirá cada peso
más que una tasa de aprendizaje pequeña.
En términos de cálculo, la retropropagación implementa la regla de la cadena de cálculo -chain rule-.

(https://www.khanacademy.org/math/ap-calculus-ab/ab-differentiation-2-new/ab-3-1a/v/chain-rule- introduction)
Es decir, backpropagation calcula la derivada parcial (#learning_rate) del error con respecto a cada
parámetro. Para obtener más detalles, consulte este tutorial en Machine Learning Crash Course.
(https://developers-dot-devsite-v2-prod.appspot.com/machine-learning/crash-course/backprop-scroll).
Hace años, los profesionales de ML tenían que escribir código para implementar la retropropagación. Las
API de aprendizaje automático modernas, como TensorFlow, ahora implementan la retropropagación por ti.
¡Uf!
bagging - harpillera 🌳🌲🌳
Un método para entrenar (#training) un conjunto (#ensemble) donde cada modelo (#model)
constituyente entrena en un subconjunto aleatorio de ejemplos de entrenamiento muestreados con
reemplazo (#sampling-with-replacement) . Por ejemplo, un bosque aleatorio (#random-forest) es una
colección de árboles de decisión (#decision-tree) entrenados con embolsado.
El término bagging es la abreviatura de bootstrap agg regating .
bag of words - bolsa de palabras 🔤

Una representación de las palabras en una frase o pasaje, independientemente del orden.
Por ejemplo, bolsa de palabras representa las siguientes tres frases de manera idéntica:
● el perro salta
● salta el perro
● perro salta el
Cada palabra se asigna a un índice en un vector disperso (#sparse_vector) , donde el vector tiene un
índice para cada palabra del vocabulario. Por ejemplo, la frase el perro salta se asigna a un vector de
características con valores distintos de cero en los tres índices correspondientes a las palabras el , el perro
y salta . El valor distinto de cero puede ser cualquiera de los siguientes:
● Un 1 para indicar la presencia de una palabra.

● Conteo del número de veces que aparece una palabra en la bolsa. Por ejemplo, si la frase era el
perro granate es un perro con pelaje granate , tanto el granate como el perro se representarían
como 2, mientras que las otras palabras se representarían como 1.
● Algún otro valor, como el logaritmo de la cuenta del número de veces que aparece una palabra en
la bolsa.
baseline - base
Un modelo (#model) que se utiliza como punto de referencia para comparar el rendimiento de otro
modelo (por lo general, uno más complejo). Por ejemplo, un modelo de regresión logística
(#logistic_regression) podría servir como una buena base para un modelo profundo (#deep_model) .
Para un problema particular, la línea de base ayuda a los desarrolladores de modelos a cuantificar el
rendimiento mínimo esperado que debe alcanzar un nuevo modelo para que sea útil.
batch - lote 🐣
El conjunto de ejemplos (#example) utilizados en una iteración (#iteration) de entrenamiento . El
tamaño del lote (#batch_size) determina el número de ejemplos en un lote.
Consulte época (#epoch) para obtener una explicación de cómo un lote se relaciona con una época.
batch normalization - normalización por lotes
Normalizando (#normalization) la entrada o salida de las funciones de activación

(#activation_function) en una capa oculta (#hidden_layer). La normalización por lotes puede
proporcionar los siguientes beneficios:
● Haga que las redes neuronales sean (#neural_network) más estables protegiéndolas contra pesos
atípicos (#outliers).
● Habilite tasas de aprendizaje más altas (#learning_rate) , lo que puede acelerar el
entrenamiento.
● Reducir el sobreajuste (#overfitting) .
batch size - tamaño por lote 🐣

El número de ejemplos (#example) en un lote (#batch) . Por ejemplo, si el tamaño del lote es 100, el
modelo procesa 100 ejemplos por iteración (#iteration).
Las siguientes son estrategias populares de tamaño de lote:
● Descenso de gradiente estocástico (SGD) (#SGD), en el que el tamaño del lote es 1.

● Lote completo, en el que el tamaño del lote es el número de ejemplos en todo el conjunto de
entrenamiento (#training_set) . Por ejemplo, si el conjunto de entrenamiento contiene un millón
de ejemplos, el tamaño del lote sería de un millón de ejemplos. El lote completo suele ser una
estrategia ineficiente.
● Mini lote (#mini-batch) en el que el tamaño del lote suele estar entre 10 y 1000. El mini lote
suele ser la estrategia más eficiente.
Bayesian neural network - red neuronal bayesiana
Una red neuronal (#neural_network) probabilística que da cuenta de la incertidumbre en pesos

(#weight) y salidas. Un modelo de regresión de red neuronal estándar normalmente predice (#prediction)
un valor escalar; por ejemplo, un modelo predice un precio de vivienda de 853,000. Por el contrario,
una red neuronal bayesiana predice una distribución de valores; por ejemplo, un modelo predice un precio
de vivienda de 853,000 con una desviación estándar de 67,200. Una red neuronal bayesiana se basa
en el teorema de Bayes.
(https://betterexplained.com/articles/an-intuitive-and-short-explanation-of-bayes-theorem/)
para calcular incertidumbres en pesos y predicciones. Una red neuronal bayesiana puede ser útil cuando es
importante cuantificar la incertidumbre, como en modelos relacionados con productos farmacéuticos. Las
redes neuronales bayesianas también pueden ayudar a prevenir el sobreajuste (#overfitting).
Bayesian optimization - optimización bayesiana
Una técnica de modelo de regresión probabilística para optimizar (#probabilistic-regression-model)

funciones objetivas (#objective_function) computacionalmente costosas mediante la optimización de un
sustituto que cuantifica la incertidumbre a través de una técnica de aprendizaje bayesiano.
Dado que la optimización bayesiana es muy costosa, generalmente se usa para optimizar tareas costosas de
evaluar que tienen una pequeña cantidad de parámetros, como la selección de hiperparámetros
(#hyperparameter) .
Bellman equation - Ecuación de Bellman RL

En el aprendizaje por refuerzo, la siguiente identidad satisfecha por la función Q (#q-function) óptima :
Los algoritmos de aprendizaje por refuerzo (#reinforcement_learning) aplican esta identidad para crear
Q-learning (#q-learning) a través de la siguiente regla de actualización:
Más allá del aprendizaje por refuerzo, la ecuación de Bellman tiene aplicaciones en la programación
dinámica. Consulte la entrada de Wikipedia para la ecuación de Bellman
(https://wikipedia.org/wiki/Bellman_equation).
BERT (Bidirectional Encoder Representations from Transformer) -
(Representaciones de codificador bidireccional de transformadores) 🔤
Una arquitectura modelo para la representación (#representation) de texto . Un modelo BERT entrenado
puede actuar como parte de un modelo más grande para la clasificación de texto u otras tareas de ML.
BERT tiene las siguientes características:
● Utiliza la arquitectura Transformer (#Transformer) y, por lo tanto, se basa en la autoatención

(#self-attention) .
● Utiliza la parte del codificador (#encoder) del Transformador. El trabajo del codificador es
producir buenas representaciones de texto, en lugar de realizar una tarea específica como la
clasificación.
● Es bidireccional (#bidirectional) .
● Utiliza enmascaramiento (#masked-language-model) para el entrenamiento no supervisado
(#unsupervised_machine_learning) .
Las variantes de BERT incluyen:
● ALBERT (https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html), que es un

acrónimo de A ight BERT .
● LaBSE (https://ai.googleblog.com/2020/08/language-agnostic-bert-sentence.html.
Consulte Open Sourcing BERT: capacitación previa de última generación para el procesamiento del lenguaje
natural (https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html) para obtener una
descripción general de BERT.
bias (ethics/fairness) - sesgo (ética/equidad) ⚖️🐣

1. Estereotipos, prejuicios o favoritismos hacia unas cosas, personas o grupos sobre otros. Estos sesgos
pueden afectar la recopilación e interpretación de datos, el diseño de un sistema y la forma en que los
usuarios interactúan con un sistema. Las formas de este tipo de sesgo incluyen:
● sesgo de automatización (#automation_bias)

● sesgo de confirmación (#confirmation_bias)
● sesgo del experimentador (#confirmation_bias)
● sesgo de atribución de grupo (#group_attribution_bias)
● sesgo implícito (#implicit_bias)
● sesgo endogrupo (#in-group_bias)
● sesgo de homogeneidad del grupo externo (#out-group_homogeneity_bias)
2. Error sistemático introducido por un procedimiento de muestreo o informe. Las formas de este tipo de
sesgo incluyen:
● sesgo de cobertura (#selection_bias)

● sesgo de no respuesta (#selection_bias)
● sesgo de participación (#participation_bias)
● sesgo de informe (#reporting_bias)
● sesgo de muestreo (#selection_bias)
● Sesgo de selección (#selection_bias)
No debe confundirse con el término sesgo (#bias) en modelos de aprendizaje automático o sesgo de
predicción (#prediction_bias).
bias (math) or bias term - sesgo o término de sesgo 🐣

Una intersección o desplazamiento desde un origen. El sesgo es un parámetro en los modelos de
aprendizaje automático, que está simbolizado por cualquiera de los siguientes:
● b
● w0
Por ejemplo, el sesgo es la b en la siguiente fórmula:
En una línea bidimensional simple, el sesgo solo significa "intersección y". Por ejemplo, el sesgo de la línea
en la siguiente ilustración es 2.
El sesgo existe porque no todos los modelos parten del origen (0.0). Por ejemplo, supongamos que la
entrada a un parque de atracciones cuesta 2 euros y 0.5 euros adicionales por cada hora de estancia de
un cliente. Por lo tanto, un modelo que mapee el costo total tiene un sesgo de 2 porque el costo más bajo
es de 2 euros.
El sesgo no debe confundirse con el sesgo de ética y equidad (#bias_ethics) o el sesgo de predicción
(#prediction_bias).
bigram - bigrama 🔺➡ 🟦➡🟡 🔤

Un N-grama (#N-gram) en el que N=2.
bidirectional - bidireccional 🔤
Término utilizado para describir un sistema que evalúa el texto que precede y sigue a una sección de texto
de destino. Por el contrario, un sistema unidireccional (#unidirectional) solo evalúa el texto que precede
a una sección de texto de destino.
Por ejemplo, considere un modelo de lenguaje enmascarado (#masked-language-model) que debe

determinar las probabilidades de la palabra o palabras que representan el subrayado en la siguiente
pregunta:
¿Cuál es el _____ contigo?
Un modelo de lenguaje unidireccional tendría que basar sus probabilidades solo en el contexto provisto por
las palabras "Qué", "es" y "el". Por el contrario, un modelo de lenguaje bidireccional también podría
obtener contexto de "con" y "usted", lo que podría ayudar al modelo a generar mejores predicciones.
bidirectional language model - modelo de lenguaje bidireccional 🔤

Un modelo de lenguaje (#language-model) que determina la probabilidad de que un token determinado
esté presente en una ubicación determinada en un extracto de texto en función del texto anterior y
posterior .
binary classification - clasificación binaria 🐣

Un tipo de tarea de clasificación (#classification_model) que predice una de dos clases mutuamente
excluyentes:
● la clase positiva (#positive_class)

● la clase negativa (#negative_class)
Por ejemplo, los siguientes dos modelos de aprendizaje automático realizan una clasificación binaria:
● Un modelo que determina si los mensajes de correo electrónico son spam (clase positiva) o no
spam (clase negativa).
● Un modelo que evalúa los síntomas médicos para determinar si una persona tiene una enfermedad
en particular (la clase positiva) o no tiene esa enfermedad (la clase negativa).
Contrasta con la clasificación multiclase (#multi-class) . Véase también regresión logística

(#logistic_regression) y umbral de clasificación (#classification_threshold).
binary condition - condición binaria 🌳🌲🌳
En un árbol de decisión (#decision-tree) , una condición (#condition) que tiene solo dos resultados
posibles, generalmente sí o no . Por ejemplo, la siguiente es una condición binaria:
temperature >= 100
Contraste con condición no binaria (#non-binary-condition) .
binning - agrupar
Sinónimo de baldear (#bucketing) .
BLEU (Bilingual Evaluation Understudy)-(Suplente de evaluación bilingüe) 🔤

Una puntuación entre 0.0 y 1.0, inclusive, que indica la calidad de una traducción entre dos idiomas
humanos (por ejemplo, entre inglés y ruso). Una puntuación BLEU de 1.0 indica una traducción perfecta;
una puntuación BLEU de 0.0 indica una traducción terrible.
boosting - impulsar
Una técnica de aprendizaje automático que combina iterativamente un conjunto de clasificadores simples
y no muy precisos (denominados clasificadores "débiles") en un clasificador con alta precisión (un
clasificador "fuerte") mediante la ponderación (#upweighting) de los ejemplos que el modelo está
clasificando incorrectamente actualmente.
bounding box - cuadro delimitador 🖼️
En una imagen, las coordenadas (x,y) de un rectángulo alrededor de un área de interés, como el perro en
la imagen de abajo.
broadcasting - radiodifusión
Expandir la forma de un operando en una operación matemática matricial a dimensiones (#dimensions)

compatibles para esa operación. Por ejemplo, el álgebra lineal requiere que los dos operandos en una
operación de suma de matrices tengan las mismas dimensiones. En consecuencia, no puede agregar una
matriz de forma (m, n) a un vector de longitud n. La transmisión permite esta operación al expandir
virtualmente el vector de longitud n a una matriz de forma (m, n) al replicar los mismos valores en cada
columna.
Por ejemplo, dadas las siguientes definiciones, el álgebra lineal prohíbe A+B porque A y B tienen
dimensiones diferentes:
A = [[7, 10, 4],
[13, 5, 9]]
B = [2]
Sin embargo, la transmisión permite la operación A+B al expandir virtualmente B a:

[[2, 2, 2],
[2, 2, 2]]
Por lo tanto, A+B es ahora una operación válida:
[[7, 10, 4], + [[2, 2, 2], = [[ 9, 12, 6],

[13, 5, 9]] [2, 2, 2]] [15, 7, 11]]
Consulte la siguiente descripción de la transmisión en NumPy

(https://docs.scipy.org/doc/numpy-1.15.0/user/basics.broadcasting.html) para obtener más detalles
bucketing - baldeando 🐣
Convertir una característica (#feature) única en varias características binarias denominadas cubos o
contenedores , generalmente en función de un rango de valores.La función cortada suele ser una función
continua (#continuous_feature).
Por ejemplo, en lugar de representar la temperatura como una sola característica continua de punto
flotante, puede dividir rangos de temperaturas en cubos discretos, como:
● <= 10 grados centígrados sería el balde "frío".

● 11 - 24 grados centígrados sería el cubo "templado".
● >= 25 grados centígrados sería el balde "tibio".
El modelo tratará todos los valores en el mismo cubo de manera idéntica. Por ejemplo, los valores 13 y
22 están en el cubo templado, por lo que el modelo trata los dos valores de forma idéntica.
Haga clic en el icono para obtener notas adicionales.
Si representa la temperatura como una característica continua, el modelo trata la temperatura como una
sola característica. Si representa la temperatura como tres cubos, el modelo trata cada cubo como una
característica separada. Es decir, un modelo puede aprender relaciones separadas de cada depósito con la
etiqueta (#label). Por ejemplo, un modelo de regresión lineal (#linear_regression) puede aprender pesos
(#weight) separados para cada cubo.
Aumentar la cantidad de cubos hace que su modelo sea más complicado al aumentar la cantidad de
relaciones que su modelo debe aprender. Por ejemplo, los cubos frío, templado y tibio son esencialmente
tres características separadas para que su modelo entrene. Si decide agregar dos cubos más, por ejemplo,
congelado y caliente, su modelo ahora tendría que entrenarse en cinco funciones separadas.
¿Cómo sabe cuántos cubos debe crear o cuáles deben ser los rangos para cada cubo? Las respuestas
generalmente requieren una buena cantidad de experimentación.
C
calibration layer - capa de calibración

Un ajuste posterior a la predicción, normalmente para tener en cuenta el sesgo de predicción
(#prediction_bias) . Las predicciones y probabilidades ajustadas deben coincidir con la distribución de un
conjunto de etiquetas observado.
candidate generation - generación de candidatos 👎👍

El conjunto inicial de recomendaciones elegido por un sistema de recomendación
(#recommendation_system) . Por ejemplo, considere una librería que ofrece 100,000 títulos. La fase de
generación de candidatos crea una lista mucho más pequeña de libros adecuados para un usuario en
particular, digamos 500. Pero incluso 500 libros son demasiados para recomendarlos a un usuario. Las
fases subsiguientes y más costosas de un sistema de recomendaciones (como la puntuación (#scoring) y la
reclasificación (#re-ranking) ) reducen esas 500 a un conjunto de recomendaciones mucho más pequeño
y útil.
candidate sampling - muestreo de candidatos

Una optimización del tiempo de entrenamiento en la que se calcula una probabilidad para todas las
etiquetas positivas (#positive_class) , usando, por ejemplo, softmax (#softmax) , pero solo para una
muestra aleatoria de etiquetas negativas. Por ejemplo, si tenemos un ejemplo etiquetado como beagle y
perro , el muestreo de candidatos calcula las probabilidades predichas y los términos de pérdida
correspondientes para las salidas de la clase beagle y perro , además de un subconjunto aleatorio de las
clases restantes ( gato , chupetín , valla ). La idea es que las clases negativas (#negative_class) puedan
aprender de un refuerzo negativo menos frecuente siempre que las clases positivas
(#positive_class)obtener siempre el reforzamiento positivo adecuado, y esto se observa empíricamente.
La motivación para el muestreo de candidatos es una ganancia de eficiencia computacional al no calcular
predicciones para todos los negativos.
categorical data - datos categóricos 🐣

Características (#feature) que tienen un conjunto específico de valores posibles. Por ejemplo, considere
una característica categórica llamada traffic-light-state, que solo puede tener uno de los siguientes
tres valores posibles:
● red
● yellow
● green
Al representar traffic-light-state como una característica categórica, un modelo puede aprender

los diferentes impactos de red, green y yellow en el comportamiento del conductor.
Las características categóricas a veces se denominan características discretas (#discrete_feature) .

Contrasta con datos numéricos (#numerical_data) .
causal language model - modelo de lenguaje casual 🔤
Sinónimo de modelo de lenguaje unidireccional (#unidirectional-language-model).
Consulte el modelo de lenguaje bidireccional (#bidirectional-language-model) para contrastar diferentes

enfoques direccionales en el modelado de lenguaje.
centroid - centroide 🍇
El centro de un conglomerado determinado por un algoritmo k-means (#k-means) o kmedian (#k-median) .
Por ejemplo, si k es 3, entonces el algoritmo k-medias o k-mediana encuentra 3 centroides.
centroid-based clustering - agrupamiento basado en centroide 🍇

Una categoría de algoritmos de agrupación (#clustering) que organiza los datos en grupos no jerárquicos.
k-means (#k-means) es el algoritmo de agrupamiento basado en el centroide más utilizado.
Contrasta con los algoritmos de agrupamiento jerárquico (#hierarchical_clustering).
checkpoint - control
Datos que capturan el estado de los parámetros (#parameter) de un modelo en una iteración de
entrenamiento particular. Los puntos de control permiten exportar pesos (#weight) de modelos o realizar
entrenamientos (#training) en varias sesiones. Los puntos de control también permiten que el
entrenamiento continúe con errores pasados (por ejemplo, preferencia de trabajo).
class - clase 🐣
Una categoría a la que puede pertenecer una etiqueta (#label) Por ejemplo:
● En un modelo de clasificación binaria (#binary_classification) que detecta spam, las dos clases
pueden ser spam y no spam .
● En un modelo de clasificación de varias clases (#multi-class) que identifica las razas de perros, las
clases pueden ser poodle , beagle , pug , etc.
Un modelo de clasificación (#classification_model) predice una clase. Por el contrario, un modelo de

regresión (#regression_model) predice un número en lugar de una clase.
classification model - modelo de clasificación 🐣
Un modelo (#model) cuya predicción es una clase (#class) . Por ejemplo, los siguientes son todos los
modelos de clasificación:
● Un modelo que predice el idioma de una oración de entrada (¿francés? ¿español? ¿italiano?).
● Un modelo que predice especies de árboles (¿arce? ¿roble? ¿baobab?).
● Un modelo que predice la clase positiva o negativa para una condición médica particular.
Por el contrario, los modelos de regresión (#regression_model) predicen números en lugar de clases.
Dos tipos comunes de modelos de clasificación son:
● clasificación binaria (#binary-classification)

● clasificación multiclase (#multi-class)
classification threshold - umbral de clasificación 🐣

En una clasificación binaria (#binary-classification) , un número entre 0 y 1 que convierte la salida sin
procesar de un modelo de regresión logística (#logistic_regression) en una predicción de la clase positiva
(#positive_class) o negativa (#negative_class). Tenga en cuenta que el umbral de clasificación es un valor
que elige un ser humano, no un valor elegido por el entrenamiento del modelo.
Un modelo de regresión logística genera un valor bruto entre 0 y 1. Luego:
● Si este valor bruto es mayor que el umbral de clasificación, se predice la clase positiva.
● Si este valor bruto es inferior al umbral de clasificación, se predice la clase negativa.
Por ejemplo, suponga que el umbral de clasificación es 0.8. Si el valor bruto es 0.9, el modelo predice la
clase positiva. Si el valor bruto es 0.7, el modelo predice la clase negativa.
La elección del umbral de clasificación influye fuertemente en el número de falsos positivos (#FP) y
falsos negativos (#FN) .
Haga clic en el icono para obtener notas adicionales .
A medida que evolucionan los modelos o conjuntos de datos, los ingenieros a veces también cambian el
umbral de clasificación. Cuando cambia el umbral de clasificación, las predicciones de clase positivas
pueden convertirse repentinamente en clases negativas y viceversa.
Por ejemplo, considere un modelo de predicción de enfermedades de clasificación binaria. Supongamos

que cuando el sistema se ejecuta en el primer año:
● El valor bruto para un paciente en particular es 0.95.

● El umbral de clasificación es 0.94.
Por lo tanto, el sistema diagnostica la clase positiva. (El paciente jadea, "¡Oh, no! ¡Estoy enfermo!")
Un año después, quizás los valores ahora se vean de la siguiente manera:

● El valor bruto para el mismo paciente se mantiene en 0.95.
● El umbral de clasificación cambia a 0.97.
Por lo tanto, el sistema ahora reclasifica a ese paciente como la clase negativa. ("¡Feliz día! No estoy
enfermo".) El mismo paciente. Diagnóstico diferente.
class-imbalanced dataset - conjunto de datos de clase desequilibrada 🐣

Un conjunto de datos para un problema de clasificación en el que el número total de etiquetas (#label) de
cada clase difiere significativamente. Por ejemplo, considere un conjunto de datos de clasificación binaria
cuyas dos etiquetas se dividen de la siguiente manera:
● 1,000,000 etiquetas negativas

● 10 etiquetas positivas
La proporción de etiquetas negativas a positivas es de 100,000 a 1, por lo que este es un conjunto de

datos de clase desequilibrada.
Por el contrario, el siguiente conjunto de datos no tiene un desequilibrio de clases porque la proporción de
etiquetas negativas a etiquetas positivas es relativamente cercana a 1:
● 517 etiquetas negativas

● 483 etiquetas positivas
Los conjuntos de datos de varias clases también pueden estar desequilibrados por clase. Por ejemplo, el
siguiente conjunto de datos de clasificación de clases múltiples también está desequilibrado porque una
etiqueta tiene muchos más ejemplos que las otras dos:
● 1,000,000 etiquetas con clase "verde"

● 200 etiquetas con clase "púrpura"
● 350 etiquetas con clase "naranja"
Véase también entropía (#entropy) , clase mayoritaria (#majority_class) y clase minoritaria

(#minority_class).
clipping - recorte 🐣
Una técnica para el manejo de valores atípicos (#outliers) haciendo uno o ambos de los siguientes:
● Reducir los valores de características (#feature) que son mayores que un umbral máximo hasta ese
umbral máximo.
● Aumentar los valores de las características que son inferiores a un umbral mínimo hasta ese umbral
mínimo.
Por ejemplo, suponga que <0,5% de los valores de una característica en particular se encuentran fuera
del rango 40–60. En este caso, podrías hacer lo siguiente:
● Recorte todos los valores por encima de 60 (el umbral máximo) para que sean exactamente 60.
● Recorte todos los valores por debajo de 40 (el umbral mínimo) para que sean exactamente 40.
Los valores atípicos pueden dañar los modelos y, en ocasiones, hacer que las pesos (#weight) se desborden
durante el entrenamiento. Algunos valores atípicos también pueden estropear drásticamente métricas
como la precisión (#accuracy) . El recorte es una técnica común para limitar el daño.
El recorte de gradiente (#gradient_clipping) fuerza los valores de gradiente dentro de un rango

designado durante el entrenamiento.
Cloud TPU - TPU en la nube

Un acelerador de hardware especializado diseñado para acelerar las cargas de trabajo de aprendizaje
automático en Google Cloud Platform.
clustering - agrupamiento 🍇
Agrupar ejemplos (#example) relacionados , particularmente durante el aprendizaje no supervisado
(#unsupervised_machine_learning). Una vez que se agrupan todos los ejemplos, un ser humano puede
opcionalmente proporcionar significado a cada grupo.
Existen muchos algoritmos de agrupamiento. Por ejemplo, el algoritmo k-means (#k-means) agrupa
ejemplos en función de su proximidad a un centroide (#centroid) , como en el siguiente diagrama:
Luego, un investigador humano podría revisar los grupos y, por ejemplo, etiquetar el grupo 1 como "árboles
enanos" y el grupo 2 como "árboles de tamaño completo".
Como otro ejemplo, considere un algoritmo de agrupamiento basado en la distancia de un ejemplo desde
un punto central, ilustrado a continuación:
co-adaptation - coadaptación
Cuando las neuronas (#neuron) predicen patrones en los datos de entrenamiento basándose casi
exclusivamente en los resultados de otras neuronas específicas en lugar de confiar en el comportamiento
de la red como un todo. Cuando los patrones que causan la coadaptación no están presentes en los datos
de validación, la coadaptación provoca un sobreajuste. La regularización de la deserción
(#dropout_regularization) reduce la coadaptación porque la deserción garantiza que las neuronas no
puedan depender únicamente de otras neuronas específicas.
collaborative filtering - filtración colaborativa 👎👍

Hacer predicciones (#prediction) sobre los intereses de un usuario en función de los intereses de muchos
otros usuarios. El filtrado colaborativo se utiliza a menudo en los sistemas de recomendación
(#recommendation_system).
condition - condición 🌳🌲🌳
En un árbol de decisión (#decision-tree) , cualquier nodo (#node) que evalúa una expresión. Por ejemplo,
la siguiente parte de un árbol de decisión contiene dos condiciones:
Una condición también se denomina división o prueba.
Condición de contraste con la hoja (#leaf).
Ver también:
● condición binaria (#binary-condition)

● condición no binaria (#non-binary-condition)
● condición de alineación del eje (#axis-aligned-condition)
● condición oblicua (#oblique-condition)
confirmation bias - sesgo de confirmación ⚖️

La tendencia a buscar, interpretar, favorecer y recordar información de una manera que confirme las
propias creencias o hipótesis preexistentes. Los desarrolladores de aprendizaje automático pueden
recopilar o etiquetar datos sin darse cuenta de manera que influyan en un resultado que respalde sus
creencias existentes. El sesgo de confirmación es una forma de sesgo implícito (#implicit_bias).
El sesgo del experimentador es una forma de sesgo de confirmación en el que un experimentador

continúa entrenando modelos hasta que se confirma una hipótesis preexistente.
confusion matrix - matriz de confusión 🐣
Una tabla NxN que resume el número de predicciones correctas e incorrectas que realizó un modelo de
clasificación (#classification_model) . Por ejemplo, considere la siguiente matriz de confusión para un
modelo de clasificación binaria (#binary_classification) :
Tumor(predicted) Non.Tumor(predicted)
Tumor (ground truth) 18(TP) 1(FN)
Non-Tumor (ground truth) 6(FP) 452(TN)
La matriz de confusión anterior muestra lo siguiente:
● De las 19 predicciones en las que la verdad fundamental (#ground_truth) fue Tumor, el modelo
clasificó correctamente 18 y clasificó incorrectamente 1.
● De las 458 predicciones en las que la verdad del terreno fue No tumoral, el modelo clasificó
correctamente 452 e incorrectamente 6.
La matriz de confusión para un problema de clasificación de clases múltiples (#multi-class) puede

ayudarlo a identificar patrones de errores. Por ejemplo, considere la siguiente matriz de confusión para un
modelo de clasificación multiclase de 3 clases que categoriza tres tipos de iris diferentes (Virginica,
Versicolor y Setosa). Cuando la verdad fundamental era Virginica, la matriz de confusión muestra que era
mucho más probable que el modelo predijera erróneamente Versicolor que Setosa:
Setosa(predicted) Versicolor(predicted) Virginica(predicted)

Setosa (ground truth) 88 12 0
Versicolor (ground truth) 6 141 7
Virginica (ground truth) 2 27 109
Como otro ejemplo más, una matriz de confusión podría revelar que un modelo entrenado para reconocer
dígitos escritos a mano tiende a predecir erróneamente 9 en lugar de 4, o predecir erróneamente 1 en
lugar de 7.
Las matrices de confusión contienen información suficiente para calcular una variedad de métricas de
rendimiento, incluidas la precisión (#precision) y la recuperación (#recall).
continuous feature - característica continua 🐣

Una característica (#feature) de coma flotante con un rango infinito de valores posibles, como la
temperatura o el peso.
Contraste con característica discreta (#discrete_feature) .

convenience sampling - muestreo de conveniencia
Usar un conjunto de datos no recopilados científicamente para realizar experimentos rápidos. Más
adelante, es esencial cambiar a un conjunto de datos recopilados científicamente.
convergence - convergencia 🐣
Un estado alcanzado cuando los valores de pérdida (#loss) cambian muy poco o nada en cada iteración
(#iteration) . Por ejemplo, la siguiente curva de pérdida (#loss_curve) sugiere convergencia en alrededor
de 700 iteraciones:
Un modelo converge cuando la capacitación adicional no mejorará el modelo.
En el aprendizaje profundo (#deep_model) , los valores de pérdida a veces permanecen constantes o casi
durante muchas iteraciones antes de finalmente descender. Durante un largo período de valores de pérdida
constante, puede tener temporalmente una falsa sensación de convergencia.
Véase también parada anticipada (#early_stopping).

convex function - función convexa
Una función en la que la región sobre el gráfico de la función es un conjunto convexo (#convex_set) . La
función convexa prototípica tiene una forma similar a la letra U. Por ejemplo, las siguientes son todas
funciones convexas:
Por el contrario, la siguiente función no es convexa. Observe cómo la región sobre el gráfico no es un
conjunto convexo:
Una función estrictamente convexa tiene exactamente un punto mínimo local, que también es el punto
mínimo global. Las funciones clásicas en forma de U son estrictamente funciones convexas. Sin embargo,
algunas funciones convexas (por ejemplo, líneas rectas) no tienen forma de U.
Haga clic en el ícono para una mirada más profunda a las matemáticas.
Muchas de las funciones de pérdida (#loss-function) comunes , incluidas las siguientes, son funciones
convexas:
● pérdida L2 (#L2_loss)
● Pérdida de registro (#Log_Loss)
● regularización L1 (#L1_regularization)
● regularización L2 (#L2_regularization)
Se garantiza que muchas variaciones del descenso del gradiente (#gradient_descent) encontrarán un
punto cercano al mínimo de una función estrictamente convexa. De manera similar, muchas variaciones del
descenso de gradiente estocástico (#SGD) tienen una alta probabilidad (aunque no una garantía) de
encontrar un punto cercano al mínimo de una función estrictamente convexa.
La suma de dos funciones convexas (por ejemplo, pérdida L2 + regularización L1) es una función
convexa.
Los modelos profundos (#deep_model) nunca son funciones convexas. Sorprendentemente, los algoritmos
diseñados para la optimización convexa (#convex_optimization) tienden a encontrar soluciones
razonablemente buenas en redes profundas de todos modos, aunque no se garantiza que esas soluciones
sean un mínimo global.
convex optimization - optimizacion convexa

El proceso de usar técnicas matemáticas como el descenso de gradiente (#gradient_descent) para
encontrar el mínimo de una función convexa (#convex_function) . Gran parte de la investigación en
aprendizaje automático se ha centrado en formular varios problemas como problemas de optimización
convexa y en resolver esos problemas de manera más eficiente.
Para obtener detalles completos, consulte Boyd y Vandenberghe, Optimización convexa

(https://web.stanford.edu/~boyd/cvxbook/bv_cvxbook.pdf).
convex set - conjunto convexo

Un subconjunto del espacio euclidiano tal que una línea trazada entre dos puntos cualesquiera del
subconjunto permanece completamente dentro del subconjunto. Por ejemplo, las siguientes dos formas
son conjuntos convexos:
Por el contrario, las siguientes dos formas no son conjuntos convexos:

convolution - circunvolución 🖼️
En matemáticas, casualmente hablando, una mezcla de dos funciones. En el aprendizaje automático, una
convolución mezcla el filtro convolucional (#convolutional_filter) y la matriz de entrada para entrenar
pesos (#weight).
El término "convolución" en el aprendizaje automático suele ser una forma abreviada de referirse a una
operación (#convolutional_operation) convolucional o una capa convolucional (#convolutional_layer).
Sin circunvoluciones, un algoritmo de aprendizaje automático tendría que aprender un peso separado para
cada celda en un tensor (#tensor) grande. Por ejemplo, un entrenamiento de algoritmo de aprendizaje
automático en imágenes de 2K x 2K se vería obligado a encontrar pesos separados de 4M. Gracias a las
convoluciones, un algoritmo de aprendizaje automático sólo tiene que encontrar pesos para cada celda en
el filtro convolucional (#convolutional_filter), lo que reduce drásticamente la memoria necesaria para
entrenar el modelo. Cuando se aplica el filtro convolucional, simplemente se replica en las celdas de modo
que cada una se multiplique por el filtro.
convolutional filter - filtro convolucional 🖼️

Uno de los dos actores en una operación convolucional (#convolutional_operation) . (El otro actor es una
porción de una matriz de entrada). Un filtro convolucional es una matriz que tiene el mismo rango (#rank)
que la matriz de entrada, pero una forma más pequeña. Por ejemplo, dada una matriz de entrada de
28x28, el filtro podría ser cualquier matriz 2D menor que 28 x 28.
En la manipulación fotográfica, todas las celdas de un filtro convolucional suelen establecerse en un patrón
constante de unos y ceros. En el aprendizaje automático, los filtros convolucionales generalmente se
siembran con números aleatorios y luego la red entrena (#training) los valores ideales.
convolutional layer - capa convolucional 🖼️

Una capa de una red neuronal profunda (#deep_model) en la que un filtro convolucional
(#convolutional_filter) pasa a lo largo de una matriz de entrada. Por ejemplo, considere el siguiente filtro
convolucional (#convolutional_filter) 3x3 :
La siguiente animación muestra una capa convolucional que consta de 9 operaciones convolucionales que
involucran la matriz de entrada de 5x5. Tenga en cuenta que cada operación convolucional funciona en
una porción diferente de 3x3 de la matriz de entrada. La matriz resultante de 3x3 (a la derecha) consta
de los resultados de las 9 operaciones convolucionales:
convolutional neural network - red neuronal convolucional 🖼️

Una red neuronal (#neural_network) en la que al menos una capa es una capa convolucional
(#convolutional_layer) . Una red neuronal convolucional típica consta de alguna combinación de las
siguientes capas:
● capas convolucionales (#convolutional_layer)

● capas de agrupación (#pooling)
● capas densas (#dense_layer)
Las redes neuronales convolucionales han tenido un gran éxito en ciertos tipos de problemas, como el
reconocimiento de imágenes.
convolution operation - operación convolucional 🖼️

La siguiente operación matemática de dos pasos:
1. Multiplicación por elementos del filtro convolucional (#convolutional_filter) y una porción de una
matriz de entrada. (El segmento de la matriz de entrada tiene el mismo rango y tamaño que el
filtro convolucional).
2. Suma de todos los valores de la matriz de productos resultante.
Por ejemplo, considere la siguiente matriz de entrada de 5x5:

Ahora imagina el siguiente filtro convolucional 2x2:
Cada operación convolucional involucra una sola rebanada de 2x2 de la matriz de entrada. Por ejemplo,
supongamos que usamos el segmento 2x2 en la parte superior izquierda de la matriz de entrada.
Entonces, la operación de convolución en este segmento se ve de la siguiente manera:
Una capa convolucional (#convolutional_layer) consta de una serie de operaciones convolucionales, cada
una de las cuales actúa sobre una porción diferente de la matriz de entrada.
cost - costo
Sinónimo de pérdida (#loss).
co-training - co-entrenamiento
Un enfoque de aprendizaje (#semi-supervised_learning) semisupervisado particularmente útil cuando se
cumplen todas las condiciones siguientes:
● La proporción de ejemplos sin etiquetar (#unlabeled_example) a ejemplos etiquetados

(#labeled_example) en el conjunto de datos es alta.
● Este es un problema de clasificación binaria ((#binary_classification) o multiclase
(#multi-class)).
● El conjunto de datos (#dataset) contiene dos conjuntos diferentes de características predictivas
que son independientes entre sí y complementarias.
El co-entrenamiento esencialmente amplifica las señales independientes en una señal más fuerte. Por
ejemplo, considere un modelo de clasificación (#classification_model) que categorice autos usados
individuales como buenos o malos . Un conjunto de características predictivas podría centrarse en
características agregadas como el año, la marca y el modelo del automóvil; otro conjunto de funciones
predictivas podría centrarse en el historial de conducción del propietario anterior y el historial de
mantenimiento del automóvil.
El artículo seminal sobre la capacitación conjunta es Combinación de datos etiquetados y no etiquetados

con (https://www.cs.cmu.edu/%7Eavrim/Papers/cotrain.pdf) capacitación conjunta de Blum y Mitchell.
counterfactual fairness - equidad contrafáctica ⚖️

Una métrica de equidad (#fairness_metric) que verifica si un clasificador produce el mismo resultado
para un individuo que para otro individuo que es idéntico al primero, excepto con respecto a uno o más
atributos sensibles (#sensitive_attribute) . La evaluación de la equidad contrafactual de un clasificador
es un método para descubrir posibles fuentes de sesgo en un modelo.
Consulte "Cuando los mundos chocan: integración de diferentes supuestos contrafácticos en la equidad"
(https://papers.nips.cc/paper/2017/file/1271a7029c9df08643b631b02cf9e116-Paper.pdf) para obtener una
discusión más detallada sobre la equidad contrafactual.
coverage bias - sesgo de cobertura ⚖️

Véase sesgo de selección (#selection_bias).
crash blossom - flor de choque 🔤

Una oración o frase con un significado ambiguo. Las flores de choque presentan un problema significativo
en la comprensión del lenguaje natural (#natural_language_understanding). Por ejemplo, el titular La
burocracia detiene un rascacielos es una flor de choque porque un modelo de NLU podría interpretar el
titular de forma literal o figurada.
Solo para aclarar ese misterioso titular:
● Red Tape podría referirse a cualquiera de los siguientes:

○ un adhesivo
○ Burocracia excesiva
● Holds Up podría referirse a cualquiera de los siguientes:
○ Soporte estructural
○ Retrasos
critic - crítico RL
Sinónimo de Deep Q-Network (#deep_q-network) .
cross-entropy - entropía cruzada

Una generalización de Log Loss (#Log_Loss) a problemas de clasificación multiclase (#multi-class) . La
entropía cruzada cuantifica la diferencia entre dos distribuciones de probabilidad. Véase también
perplejidad (#perplexity) .
cross-validation - validación cruzada

Un mecanismo para estimar qué tan bien se generalizaría un modelo (#model) a nuevos datos probando el
modelo contra uno o más subconjuntos de datos no superpuestos retenidos del conjunto de
entrenamiento (#training_set) .
D
data analysis - análisis de datos
Obtener una comprensión de los datos considerando muestras, medidas y visualización. El análisis de datos
puede ser particularmente útil cuando se recibe un conjunto de datos por primera vez, antes de construir
el primer modelo (#model) . También es crucial para comprender los experimentos y depurar problemas
con el sistema.
data augmentation - aumento de datos 🖼️

Aumentar artificialmente el rango y la cantidad de ejemplos de capacitación (#training) mediante la
transformación de ejemplos (#example) existentes para crear ejemplos adicionales. Por ejemplo, suponga
que las imágenes son una de sus características (#feature) , pero su conjunto de datos no contiene
suficientes ejemplos de imágenes para que el modelo aprenda asociaciones útiles. Idealmente, agregaría
suficientes imágenes etiquetadas (#label) a su conjunto de datos para permitir que su modelo se entrene
correctamente. Si eso no es posible, el aumento de datos puede rotar, estirar y reflejar cada imagen para
producir muchas variantes de la imagen original, lo que posiblemente produzca suficientes datos
etiquetados para permitir un entrenamiento excelente.
DataFrame - marco de datos 🐣

Un tipo de datos popular de pandas (#pandas) para representar conjuntos de datos (#dataset) en la
memoria.
Un DataFrame es análogo a una tabla o una hoja de cálculo. Cada columna de un DataFrame tiene un
nombre (un encabezado) y cada fila se identifica con un número único.
Cada columna en un DataFrame está estructurada como una matriz 2D, excepto que a cada columna se le
puede asignar su propio tipo de datos.
Consulte también la página de referencia oficial de pandas.DataFrame

(https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html).
data parallelism - paralelismo de datos
Una forma de escalar el entrenamiento (#training) o la inferencia (#inference) que replica un modelo
completo en varios dispositivos y luego pasa un subconjunto de los datos de entrada a cada dispositivo. El
paralelismo de datos puede permitir el entrenamiento y la inferencia en tamaños de lotes (#batch_size)
muy grandes; sin embargo, el paralelismo de datos requiere que el modelo sea lo suficientemente pequeño
para caber en todos los dispositivos.
Véase también paralelismo de modelos (#model-parallelism).

dataset - conjunto de datos 🐣
Una colección de datos sin procesar, comúnmente (pero no exclusivamente) organizados en uno de los
siguientes formatos:
● una hoja de cálculo
● un archivo en formato CSV (valores separados por comas)
Dataset API (tf.data) - API de conjunto de datos
Una API TensorFlow (#TensorFlow) de alto nivel para leer datos y transformarlos en la forma que requiere
un algoritmo de aprendizaje automático. Un tf.data.Datasetobjeto representa una secuencia de
elementos, en la que cada elemento contiene uno o más tensores (#tensor). Un tf.data.Iterator
objeto proporciona acceso a los elementos de un Dataset.
Para obtener detalles sobre la API de conjunto de datos, consulte tf.data: Build TensorFlow input pipelines
(https://www.tensorflow.org/guide/data) en la Guía del programador de TensorFlow.
decision boundary - límite de decisión
El separador entre clases (#class) aprendido por un modelo (#model) en una clase binaria
(#binary_classification) o problemas de clasificación multiclase (#multi-class) . Por ejemplo, en la
siguiente imagen que representa un problema de clasificación binaria, el límite de decisión es la frontera
entre la clase naranja y la clase azul:
decision forest - bosque de decisiones 🌳🌲🌳
Un modelo creado a partir de múltiples árboles de decisión (#decision-tree). Un bosque de decisión hace
una predicción agregando las predicciones de sus árboles de decisión. Los tipos populares de bosques de
decisión incluyen bosques aleatorios (#random-forest) y árboles potenciados por gradientes (#gbt).
decision threshold - umbral de decisión
Sinónimo de umbral de clasificación (#classification_threshold).
decision tree - árbol de decisión 🌳🌲🌳

Un modelo de aprendizaje supervisado compuesto por un conjunto de condiciones (#condition) y hojas
(#leaf) organizadas jerárquicamente. Por ejemplo, el siguiente es un árbol de decisión:
deep model - modelo profundo 🐣

Una red neuronal (#neural_network) que contiene más de una capa oculta (#hidden_layer).
Un modelo profundo también se denomina red neuronal profunda.
Contraste con modelo ancho (#wide_model).

decoder - descifrador 🔤
En general, cualquier sistema de ML que convierta una representación procesada, densa o interna a una
representación más cruda, dispersa o externa.
Los decodificadores son a menudo un componente de un modelo más grande, donde con frecuencia se
emparejan con un codificador (#encoder).
En las tareas de secuencia a secuencia (#sequence-to-sequence-task) , un decodificador comienza con el

estado interno generado por el codificador para predecir la siguiente secuencia.
Consulte Transformador (#Transformer) para conocer la definición de un decodificador dentro de la

arquitectura Transformador.
deep neural network - red neuronal profunda
Sinónimo de modelo profundo (#deep_model).
Deep Q-Network - Red Q profunda (DQN) RL

En Q-learning (#q-learning), una red neuronal (#neural_network) profunda que predice funciones Q
(#q-function).
Critic es sinónimo de Deep Q-Network.
demographic parity - paridad demográfica ⚖️

Una métrica de equidad (#fairness_metric) que se cumple si los resultados de la clasificación de un
modelo no dependen de un atributo sensible (#sensitive_attribute) dado.
Por ejemplo, si tanto liliputienses como brobdingnagianos se postulan para la Universidad de Glubbdubdrib,
la paridad demográfica se logra si el porcentaje de liliputienses admitidos es el mismo que el porcentaje
de brobdingnagianos admitidos, independientemente de si un grupo está en promedio más calificado que el
otro.
Contraste con las probabilidades igualadas (#equalized_odds) y la igualdad de oportunidades

(#equality_of_opportunity), que permiten que los resultados de clasificación en conjunto dependan de
atributos sensibles, pero no permiten que los resultados de clasificación para ciertas etiquetas de verdad
de campo específicas dependan de atributos sensibles.
Consulte "Atacar la discriminación con un aprendizaje automático más inteligente"

(http://research.google.com/bigpicture/attacking-discrimination-in-ml/) para ver una visualización que explora
las ventajas y desventajas al optimizar para la paridad demográfica.
denoising - eliminación de ruido 🔤
Un enfoque común para el aprendizaje autosupervisado (#self-supervised-learning) en el que:
1. El ruido (#noise) se agrega artificialmente al conjunto de datos.

2. El modelo (#model) intenta eliminar el ruido.
La eliminación de ruido permite aprender de ejemplos no etiquetados (#unlabeled_example) . El

conjunto de datos (#dataset) original sirve como destino o etiqueta (#label) y los datos ruidosos como
entrada.
Algunos modelos de lenguaje enmascarado (#masked-language-model) utilizan la eliminación de ruido de

la siguiente manera:
1. El ruido se agrega artificialmente a una oración sin etiqueta al enmascarar algunas de las fichas.
2. El modelo intenta predecir las fichas originales.
dense feature - rasgo denso 🐣

Una característica (#feature) en la que la mayoría o todos los valores son distintos de cero, normalmente
un tensor (#tensor) de valores de punto flotante. Por ejemplo, el siguiente tensor de 10 elementos es
denso porque 9 de sus valores son distintos de cero:
Contraste con rasgo escaso (#sparse_features).
dense layer - capa densa

Sinónimo de capa totalmente conectada (#fully_connected_layer).
depth - profundidad 🐣
La suma de lo siguiente en una red neuronal (#neural_network) :
● el número de capas ocultas (#hidden_layer)

● el número de capas de salida (#output_layer) , que suele ser 1
● el número de capas incrustadas (#embedding_layer)
Por ejemplo, una red neuronal con cinco capas ocultas y una capa de salida tiene una profundidad de 6.
Observe que la capa de entrada (#input_layer) no influye en la profundidad.

depthwise separable convolutional neural network (sepCNN) - red
neuronal convolucional separable en profundidad (sepCNN) 🖼️
Una arquitectura de red neuronal convolucional (#convolutional_neural_network) basada en Inception
(https://github.com/tensorflow/tpu/tree/master/models/experimental/inception), pero donde los módulos de
Inception se reemplazan con convoluciones separables en profundidad. También conocido como Xception.
Una convolución separable en profundidad (también abreviada como convolución separable) factoriza una
convolución 3-D estándar en dos operaciones de convolución separadas que son más eficientes
computacionalmente: primero, una convolución en profundidad, con una profundidad de 1(n✕n✕1), y
luego segundo, una convolución puntual, con largo y ancho de 1 (1 ✕ 1 ✕ n).
Para obtener más información, consulte Xception: aprendizaje profundo con circunvoluciones separables
en profundidad (https://arxiv.org/pdf/1610.02357.pdf).
derived label - etiqueta derivada

Sinónimo de etiqueta de proxy (#proxy_labels).
device - dispositivo
Una categoría de hardware que puede ejecutar una sesión de TensorFlow, incluidas CPUs, GPUs y TPUs
(#TPU).
dimension reduction - reducción de dimensión
Disminución del número de dimensiones utilizadas para representar una característica particular en un
vector de características, normalmente mediante la conversión a un vector incrustado
(#embedding_vector).
dimensions - dimensiones
Término sobrecargado que tiene cualquiera de las siguientes definiciones: El número de niveles de
coordenadas en un tensor (#tensor). Por ejemplo:
● Un escalar tiene cero dimensiones; por ejemplo, ["Hello"].

● Un vector tiene una dimensión; por ejemplo, [3, 5, 7, 11].
● Una matriz tiene dos dimensiones; por ejemplo, [[2, 4, 18], [5, 7, 14]].
Puede especificar de forma única una celda en particular en un vector unidimensional con una coordenada;
necesita dos coordenadas para especificar de forma única una celda en particular en una matriz
bidimensional.
● El número de entradas en un vector de características (#feature_vector).

● El número de elementos en una capa incrustada (#embedding_layer).
discrete feature - característica discreta 🐣

Una característica (#feature) con un conjunto finito de valores posibles. Por ejemplo, una característica
cuyos valores sólo pueden ser animal, vegetal o mineral es una característica discreta (o categórica).
Contraste con característica continua (#continuous_feature).
discriminative model - modelo discriminativo
Un modelo (#model) que predice etiquetas (#label) a partir de un conjunto de una o más características
(#feature). Más formalmente, los modelos discriminativos definen la probabilidad condicional de una
salida dadas las características y los pesos (#weight) ; eso es:
p(output | features, weights)
Por ejemplo, un modelo que predice si un correo electrónico es spam a partir de características y pesos es
un modelo discriminatorio.
La gran mayoría de los modelos de aprendizaje supervisado, incluidos los modelos de clasificación y
regresión, son modelos discriminativos.
Contrasta con el modelo generativo (#generative_model).
discriminator - discriminado
Un sistema que determina si los ejemplos (#example) son reales o falsos.
Alternativamente, el subsistema dentro de una red antagónica generativa

(#generative_adversarial_network) que determina si los ejemplos creados por el generador
(#generator) son reales o falsos.
disparate impact - impacto dispar ⚖️
Tomar decisiones sobre personas que impactan a diferentes subgrupos de la población de manera
desproporcionada. Esto generalmente se refiere a situaciones en las que un proceso algorítmico de toma
de decisiones perjudica o beneficia a algunos subgrupos más que a otros.
Por ejemplo, supongamos que un algoritmo que determina la elegibilidad de un liliputiense para un
préstamo de vivienda en miniatura es más probable que lo clasifique como "no elegible" si su dirección
postal contiene un código postal determinado. Si es más probable que los liliputienses de Big-Endian
tengan direcciones de correo con este código postal que los liliputienses de Little-Endian, entonces este
algoritmo puede tener un impacto dispar.
Contraste con el tratamiento (#disparate_treatment) desigual, que se centra en las disparidades que
resultan cuando las características de los subgrupos son entradas explícitas para un proceso algorítmico de
toma de decisiones.
disparate treatment - trato dispar ⚖️

Factorización de los atributos sensibles (#sensitive_attribute) de los sujetos en un proceso algorítmico de
toma de decisiones de modo que diferentes subgrupos de personas sean tratados de manera diferente.
Por ejemplo, considere un algoritmo que determine la elegibilidad de los liliputienses para un préstamo de
vivienda en miniatura en función de los datos que proporcionan en su solicitud de préstamo. Si el algoritmo
utiliza la afiliación de un liliputiense como Big-Endian o Little-Endian como entrada, está promulgando un
tratamiento dispar a lo largo de esa dimensión.
Contraste con impacto dispar (#disparate_impact), que se enfoca en las disparidades en los impactos
sociales de las decisiones algorítmicas en subgrupos, independientemente de si esos subgrupos son
entradas al modelo.
Advertencia: dado que los atributos confidenciales casi siempre se correlacionan con otras características que pueden
tener los datos, la eliminación explícita de la información de atributos confidenciales no garantiza que los subgrupos
reciban el mismo trato. Por ejemplo, la eliminación de atributos demográficos confidenciales de un conjunto de datos
de entrenamiento que todavía incluye el código postal como característica puede abordar el tratamiento desigual de
los subgrupos, pero aún puede haber un impacto dispar en estos grupos porque el código postal puede servir como un
proxy (#proxy_sensitive_attributes) para otra información demográfica.
divisive clustering - agrupamiento divisivo 🍇

Ver agrupamiento jerárquico (#hierarchical_clustering).
downsampling - reducción de resolución 🖼️
Término sobrecargado que puede significar cualquiera de los siguientes: Reducir la cantidad de
información en una función (#feature) para entrenar (#training) un modelo de manera más eficiente. Por
ejemplo, antes de entrenar un modelo de reconocimiento de imágenes, reducir la resolución de imágenes
de alta resolución a un formato de menor resolución.
Capacitación en un porcentaje desproporcionadamente bajo de ejemplos de clases (#class) con

representación excesiva para mejorar la capacitación modelo en clases con representación insuficiente.
Por ejemplo, en un conjunto de datos de clase desequilibrada (#class_imbalanced_data_set), los
modelos tienden a aprender mucho sobre la clase mayoritaria (#majority_class) y no lo suficiente sobre la
clase minoritaria (#minority_class). La reducción de muestreo ayuda a equilibrar la cantidad de
capacitación en las clases mayoritarias y minoritarias.
DQN RL
Abreviatura de Deep Q-Network (#deep_q-network).
dropout regularization - regularización de la deserción
Una forma de regularización (#regularization) útil en el entrenamiento de redes neuronales

(#neural_network). La regularización de abandono elimina una selección aleatoria de un número fijo de
unidades en una capa de red para un solo paso de gradiente. Cuantas más unidades abandonaron, más
fuerte fue la regularización. Esto es análogo a entrenar la red para emular un conjunto (#ensemble)
exponencialmente grande de redes más pequeñas. Para obtener detalles completos, consulte Abandono:
una forma sencilla de evitar el sobreajuste de las redes neuronales
(http://jmlr.org/papers/volume15/srivastava14a.old/srivastava14a.pdf).
dynamic - dinámica 🐣
Algo que se hace con frecuencia o continuamente. Los términos dinámico y en línea son sinónimos en el
aprendizaje automático. Los siguientes son usos comunes de dinámico y en línea en el aprendizaje
automático:
● Un modelo dinámico (#dynamic_model) (o modelo en línea) es un modelo que se vuelve a

entrenar con frecuencia o de forma continua.
● El entrenamiento dinámico (o entrenamiento en línea) es el proceso de entrenamiento frecuente
o continuo.
● La inferencia dinámica (o inferencia en línea) es el proceso de generar predicciones bajo
demanda.
dynamic model - modelo dinámico 🐣
Un modelo (#model) que es frecuentemente (quizás incluso continuamente) reentrenado. Un modelo
dinámico es un "aprendiz de por vida" que se adapta constantemente a los datos en evolución. Un modelo
dinámico también se conoce como modelo en línea.
Contraste con el modelo estático (#static-model) .

E
eager execution - ejecución ansiosa
Un entorno de programación de TensorFlow en el que las operaciones (#Operation) se ejecutan

inmediatamente. Por el contrario, las operaciones llamadas en la ejecución de gráficos
(#graph_execution) no se ejecutan hasta que se evalúan explícitamente. La ejecución ansiosa es una
interfaz imperativa (https://wikipedia.org/wiki/Imperative_programming), muy parecida al código en la
mayoría de los lenguajes de programación. Los programas de ejecución ansiosos son generalmente mucho
más fáciles de depurar que los programas de ejecución de gráficos.
early stopping - parada temprana 🐣

Método de regularización (#regularization) que consiste en terminar el entrenamiento (#training) antes
de que termine de disminuir la pérdida de entrenamiento. En la detención anticipada, detiene
intencionalmente el entrenamiento del modelo cuando la pérdida en un conjunto de datos de validación
(#validation_set) comienza a aumentar; es decir, cuando empeora el rendimiento de generalización
(#generalization).
La interrupción temprana puede parecer contraria a la intuición. Después de todo, decirle a un modelo que
detenga el entrenamiento mientras la pérdida sigue disminuyendo puede parecer como decirle a un chef
que deje de cocinar antes de que el postre esté completamente horneado. Sin embargo, entrenar un
modelo durante demasiado tiempo puede provocar un sobreajuste (#overfitting). Es decir, si entrena un
modelo demasiado tiempo, el modelo puede ajustarse tanto a los datos de entrenamiento que el modelo
no hace buenas predicciones en nuevos ejemplos.
earth mover’s distance (EMD) - distancia del motor de tierra
Una medida de la similitud relativa entre dos documentos. Cuanto menor sea la distancia del movimiento
de tierras, más similares serán los documentos.
embedding layer - capa de incrustación 🔤🐣

Una capa oculta especial que se entrena en una característica (#hidden_layer) categórica
(#categorical_data) de alta dimensión para aprender gradualmente un vector de incrustación de
dimensión más baja. Una capa de incrustación permite que una red neuronal se entrene de manera mucho
más eficiente que entrenar solo en la característica categórica de alta dimensión.
Por ejemplo, la Tierra actualmente alberga alrededor de 73,000 especies de árboles. Suponga que la
especie de árbol es una característica (#feature) de su modelo, por lo que la capa de entrada de su
modelo incluye un vector caliente (#one-hot_encoding) de 73,000 elementos de largo. Por ejemplo,
quizás baobab se representaría algo como esto:
Una matriz de 73,000 elementos es muy larga. Si no agrega una capa de incrustación al modelo, el
entrenamiento llevará mucho tiempo debido a la multiplicación de 72,999 ceros. Tal vez elija la capa de
incrustación para que consista en 12 dimensiones. En consecuencia, la capa de incrustación aprenderá
gradualmente un nuevo vector de incrustación para cada especie de árbol.
En ciertas situaciones, el hashing (#hashing) es una alternativa razonable a una capa de incrustación.
embedding space - espacio de incrustación 🔤

El espacio vectorial d-dimensional al que se asignan las características de un espacio vectorial de mayor
dimensión. Idealmente, el espacio de incrustación contiene una estructura que produce resultados
matemáticos significativos; por ejemplo, en un espacio de inserción ideal, la suma y resta de
incrustaciones puede resolver tareas de analogía de palabras.
El producto escalar (https://wikipedia.org/wiki/Dot_product) de dos incrustaciones es una medida de su

similitud.
embedding vector - vector de incrustación 🔤

En términos generales, una matriz de números de punto flotante tomados de cualquier capa oculta
(#hidden_layer) que describe las entradas a esa capa oculta. A menudo, un vector de incrustación es la
matriz de números de punto flotante entrenados en una capa de incrustación. Por ejemplo, suponga que
una capa de incrustación debe aprender un vector de incrustación para cada una de las 73,000 especies
de árboles de la Tierra. Quizás la siguiente matriz sea el vector de incrustación de un árbol baobab:
Un vector de incrustación no es un conjunto de números aleatorios. Una capa de incrustación determina

estos valores a través del entrenamiento, de forma similar a como una red neuronal aprende otros pesos
durante el entrenamiento. Cada elemento de la matriz es una calificación a lo largo de alguna
característica de una especie de árbol. ¿Qué elemento representa la característica de qué especie de
árbol? Eso es muy difícil de determinar para los humanos.
La parte matemáticamente notable de un vector incrustado es que elementos similares tienen conjuntos
similares de números de punto flotante. Por ejemplo, las especies de árboles similares tienen un conjunto
más similar de números de coma flotante que las especies de árboles diferentes. Las secoyas y las secuoyas
son especies de árboles relacionadas, por lo que tendrán un conjunto más similar de números de coma
flotante que las secoyas y los cocoteros. Los números en el vector de incrustación cambiarán cada vez que
vuelva a entrenar el modelo, incluso si vuelve a entrenar el modelo con una entrada idéntica.
empirical risk minimization (ERM) - minimización empírica del riesgo

Elegir la función que minimiza la pérdida en el conjunto de entrenamiento. Contraste con la minimización
del riesgo estructural (#SRM).
encoder - codificador 🔤
En general, cualquier sistema de ML que convierta una representación sin procesar, escasa o externa en
una representación más procesada, más densa o más interna.
Los codificadores son a menudo un componente de un modelo más grande, donde con frecuencia se
emparejan con un decodificador (#decoder). Algunos Transformers (#Transformer) emparejan
codificadores con decodificadores, mientras que otros Transformers usan solo el codificador o solo el
decodificador.
Algunos sistemas utilizan la salida del codificador como entrada a una red de clasificación o regresión.
En las tareas de secuencia a secuencia (#sequence-to-sequence-task) , un codificador toma una

secuencia de entrada y devuelve un estado interno (un vector). Luego, el decodificador (#decoder) usa
ese estado interno para predecir la siguiente secuencia.
Consulte Transformador (#Transformer) para conocer la definición de un codificador en la arquitectura de

Transformador.
ensemble - conjunto
Una colección de modelos (#model) entrenados de forma independiente cuyas predicciones se promedian
o agregan. En muchos casos, un conjunto produce mejores predicciones que un solo modelo. Por ejemplo,
un bosque aleatorio (#random-forest) es un conjunto construido a partir de múltiples árboles de decisión
(#decision-tree) . Tenga en cuenta que no todos los bosques de decisión (#decision-forest) son
conjuntos.
entropy - entropía 🌳🌲🌳
En teoría de la información (https://wikipedia.org/wiki/Information_theory), una descripción de cuán
impredecible es una distribución de probabilidad. Alternativamente, la entropía también se define como la
cantidad de información que contiene cada ejemplo (#example). Una distribución tiene la entropía más
alta posible cuando todos los valores de una variable aleatoria son igualmente probables.
La entropía de un conjunto con dos valores posibles "0" y "1" (por ejemplo, las etiquetas en un problema
de clasificación binaria (#binary_classification) ) tiene la siguiente fórmula:
H = -p log p - q log q = -p log p - (1-p) * log (1-p)
dónde:
● H es la entropía.
● p es la fracción de "1" ejemplos.
● q es la fracción de "0" ejemplos. Tenga en cuenta que q = (1 - p)
● log es generalmente log2 . En este caso, la unidad de entropía es un bit.
Por ejemplo, supongamos lo siguiente:
● 100 ejemplos contienen el valor "1"

● 300 ejemplos contienen el valor "0"
Por lo tanto, el valor de la entropía es:
● p = 0,25
● q = 0,75
● H = (-0,25) log2(0,25) - (0,75) log2(0,75) = 0,81 bits por ejemplo
Un conjunto perfectamente equilibrado (por ejemplo, 200 "0"s y 200 "1"s) tendría una entropía de 1.0 bit
por ejemplo. A medida que un conjunto se vuelve más desequilibrado (#class_imbalanced_data_set) ,
su entropía se mueve hacia 0.0.
En los árboles de decisión (#decision-tree) , la entropía ayuda a formular la ganancia de información

(#information-gain) para ayudar al divisor (#splitter) a seleccionar las condiciones (#condition) durante
el crecimiento de un árbol de decisión de clasificación.
Compara la entropía con:
● impureza gini (#gini-impurity)

● (#cross-entropy) función de pérdida de entropía cruzada (#cross-entropy)
La entropía a menudo se llama entropía de Shannon.

environment - ambiente RL
En el aprendizaje por refuerzo, el mundo que contiene al agente (#agent) y le permite observar el estado
(#state) de ese mundo . Por ejemplo, el mundo representado puede ser un juego como el ajedrez o un
mundo físico como un laberinto. Cuando el agente aplica una acción (#action) al entorno, el entorno
cambia de estado.
episode - episodio RL
En el aprendizaje por refuerzo, cada uno de los intentos repetidos por parte del agente (#agent) de
aprender un entorno (#environment).
epoch - época 🐣
Un pase de entrenamiento completo sobre todo el conjunto de entrenamiento de modo (#training_set)
que cada ejemplo (#example) se haya procesado una vez.
Una época representa iteraciones (#iteration) de entrenamiento de tamaño de lote (#batch_size) N ,

donde es el número total de ejemplos (#batch_size) (#iteration) N .
Por ejemplo, supongamos lo siguiente:
● El conjunto de datos consta de 1,000 ejemplos.

● El tamaño del lote es de 50 ejemplos.
Por lo tanto, una sola época requiere 20 iteraciones:
1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations
epsilon greedy policy - política codiciosa de épsilon RL

En el aprendizaje por refuerzo, una política (#policy) que sigue una política aleatoria (#random_policy)
con probabilidad épsilon o una política codiciosa (#greedy_policy) de lo contrario. Por ejemplo, si épsilon
es 0.9, la política sigue una política aleatoria el 90% de las veces y una política codiciosa el 10% de las
veces.
Durante episodios sucesivos, el algoritmo reduce el valor de épsilon para pasar de seguir una política
aleatoria a seguir una política codiciosa. Al cambiar la política, el agente primero explora aleatoriamente
el entorno y luego explota con avidez los resultados de la exploración aleatoria.
equality of opportunity - igualdad de oportunidades ⚖️
Una métrica de equidad (#fairness_metric) que verifica si, para una etiqueta (#label) preferida (una que
confiere una ventaja o beneficio a una persona) y un atributo (#attribute) dado , un clasificador predice
esa etiqueta preferida igualmente bien para todos los valores de ese atributo. En otras palabras, la
igualdad de oportunidades mide si las personas que deberían calificar para una oportunidad tienen la
misma probabilidad de hacerlo, independientemente de su pertenencia al grupo.
Por ejemplo, supongamos que la Universidad de Glubbdubdrib admite liliputienses y brobdingnagianos en

un riguroso programa de matemáticas. Las escuelas secundarias de los liliputienses ofrecen un plan de
estudios sólido de clases de matemáticas y la gran mayoría de los estudiantes están calificados para el
programa universitario. Las escuelas secundarias de Brobdingnagians no ofrecen clases de matemáticas en
absoluto y, como resultado, muchos menos de sus estudiantes están calificados. La igualdad de
oportunidades se cumple para la etiqueta preferida de "admitido" con respecto a la nacionalidad
(liliputiense o brobdingnagian) si los estudiantes calificados tienen las mismas probabilidades de ser
admitidos independientemente de si son liliputienses o brobdingnagianos.
Por ejemplo, digamos que 100 liliputienses y 100 brobdingnagianos solicitan ingreso a la Universidad de
Glubbdubdrib, y las decisiones de admisión se toman de la siguiente manera:
Tabla 1. Solicitantes liliputienses (90% están calificados)

Qualified Unqualified
Admitted 45 3
Rejected 45 7
Total 90 10
➔ Porcentaje de alumnos titulados admitidos: 45/90 = 50%

➔ Porcentaje de alumnos no cualificados rechazados: 7/10 = 70%
➔ Porcentaje total de alumnos liliputienses admitidos: (45+3)/100 = 48%
Tabla 2. Solicitantes de Brobdingnagian (10% están calificados):
Admitted 5 9
Rejected 5 81
Total 10 90
➔ Porcentaje de estudiantes calificados admitidos: 5/10 = 50%

➔ Porcentaje de estudiantes no calificados rechazados: 81/90 = 90%
➔ Porcentaje total de estudiantes de Brobdingnagian admitidos: (5+9)/100 = 14%
Los ejemplos anteriores satisfacen la igualdad de oportunidades para la aceptación de estudiantes

calificados porque los liliputienses y brobdingnagianos calificados tienen un 50% de posibilidades de ser
admitidos.
Nota: Si bien se cumple la igualdad de oportunidades, no se cumplen las siguientes dos métricas de
equidad:
● paridad demográfica (#demographic_parity) : los liliputienses y los brobdingnagianos son
admitidos en la universidad a diferentes tasas; Se admite el 48% de los estudiantes liliputienses,
pero solo se admite el 14% de los estudiantes brobdingnagianos.
● probabilidades igualadas (#equalized_odds) : si bien los estudiantes liliputienses y

brobdingnagianos calificados tienen las mismas posibilidades de ser admitidos, no se cumple la
restricción adicional de que los liliputienses y los brobdingnagianos no calificados tienen las
mismas posibilidades de ser rechazados. Los liliputienses no calificados tienen una tasa de rechazo
del 70%, mientras que los brobdingnagianos no calificados tienen una tasa de rechazo del 90 %.
Consulte "Igualdad de oportunidades en el aprendizaje supervisado" (https://arxiv.org/pdf/1610.02413.pdf)

para obtener una discusión más detallada sobre la igualdad de oportunidades. Consulte también "Atacar la
discriminación con un aprendizaje automático más inteligente"
(http://research.google.com/bigpicture/attacking-discrimination-in-ml/) para ver una visualización que explora
las compensaciones al optimizar para la igualdad de oportunidades.
equalized odds - probabilidades igualadas ⚖️

Una métrica de equidad (#fairness_metric) que verifica si, para cualquier etiqueta y atributo en
particular, un clasificador predice esa etiqueta igualmente bien para todos los valores de ese atributo.
Por ejemplo, supongamos que la Universidad de Glubbdubdrib admite liliputienses y brobdingnagianos en

un riguroso programa de matemáticas. Las escuelas secundarias de los liliputienses ofrecen un plan de
estudios sólido de clases de matemáticas y la gran mayoría de los estudiantes están calificados para el
programa universitario. Las escuelas secundarias de Brobdingnagians no ofrecen clases de matemáticas en
absoluto y, como resultado, muchos menos de sus estudiantes están calificados. Las probabilidades
igualadas se satisfacen siempre que no importa si un solicitante es liliputiense o brobdingnagiano, si está
calificado, tiene las mismas probabilidades de ser admitido en el programa, y si no está calificado, tiene
las mismas probabilidades de ser rechazado. .
Digamos que 100 liliputienses y 100 brobdingnagianos solicitan ingreso a la Universidad de Glubbdubdrib,
y las decisiones de admisión se toman de la siguiente manera:
Tabla 3. Solicitantes liliputienses (90% están calificados)
Admitted 45 2
Rejected 45 8
Total 90 10
➔ Porcentaje de alumnos titulados admitidos: 45/90 = 50%

➔ Porcentaje de alumnos no cualificados rechazados: 8/10 = 80%
➔ Porcentaje total de alumnos liliputienses admitidos: (45+2)/100 = 47%
Tabla 4. Solicitantes de Brobdingnagian (10% están calificados):
Admitted 5 18
Rejected 5 72
Total 10 90
➔ Porcentaje de estudiantes calificados admitidos: 5/10 = 50%

➔ Porcentaje de estudiantes no calificados rechazados: 72/90 = 80%
➔ Porcentaje total de estudiantes de Brobdingnagian admitidos: (5+18)/100 = 23%
Las probabilidades igualadas se satisfacen porque los estudiantes liliputienses y brobdingnagianos

calificados tienen un 50% de posibilidades de ser admitidos, y los liliputienses y brobdingnagianos no
calificados tienen un 80% de posibilidades de ser rechazados.
Nota: Si bien aquí se satisfacen las probabilidades igualadas, no se satisface la paridad demográfica
(#demographic_parity). Los estudiantes de Lilliputian y Brobdingnagian son admitidos en la Universidad de
Glubbdubdrib a diferentes tasas; Se admite el 47% de los estudiantes liliputienses y el 23% de los estudiantes
brobdingnagianos.
Las probabilidades igualadas se definen formalmente en "Igualdad de oportunidades en el aprendizaje

supervisado" (https://arxiv.org/pdf/1610.02413.pdf) de la siguiente manera: "el predictor Ŷ satisface las
probabilidades igualadas con respecto al atributo protegido A y el resultado Y si Ŷ y A son independientes,
condicionales a Y".
Nota: Compare las probabilidades igualadas con la métrica más relajada de igualdad de oportunidades
(#equality_of_opportunity).
Estimator - Estimador
Una API de TensorFlow en desuso. Use tf.keras (#tf.keras) en lugar de Estimadores.
example - ejemplo 🐣
Los valores de una fila de características (#feature) y posiblemente una etiqueta (#label) . Los ejemplos
en el aprendizaje supervisado (#supervised_machine_learning) se dividen en dos categorías generales:
● Un ejemplo etiquetado (#labeled_example) consta de una o más características y una etiqueta.

Los ejemplos etiquetados se utilizan durante el entrenamiento.
● Un ejemplo sin etiqueta (#unlabeled_example) consta de una o más características pero no tiene
etiqueta. Los ejemplos no etiquetados se utilizan durante la inferencia.
Por ejemplo, suponga que está entrenando un modelo para determinar la influencia de las condiciones
climáticas en los puntajes de las pruebas de los estudiantes. Aquí hay tres ejemplos etiquetados:
Features Label
Temperature Humidity Pressure Test score
15 47 998 Good
19 34 1020 Excellent
18 92 1012 Poor
Aquí hay tres ejemplos sin etiquetar:
Temperature Humidity Pressure

12 62 1014
21 47 1017
19 41 1021
La fila de un conjunto de datos (#dataset) suele ser la fuente sin procesar de un ejemplo. Es decir, un
ejemplo normalmente consta de un subconjunto de las columnas del conjunto de datos. Además, las
características de un ejemplo también pueden incluir características sintéticas (#synthetic_feature) ,
como cruces de características (#feature_cross).
experience replay - repetición de la experiencia RL

En el aprendizaje por refuerzo, una técnica DQN (#deep_q-network) utilizada para reducir las
correlaciones temporales en los datos de entrenamiento. El agente (#agent) almacena las transiciones de
estado en un búfer de reproducción (#replay_buffer) y luego toma muestras de las transiciones del búfer
de reproducción para crear datos de entrenamiento.
experimenter’s bias - sesgo del experimentador ⚖️

Ver sesgo de confirmación (#confirmation_bias).
exploding gradient problem - problema del gradiente explosivo 🔺➡ 🟦➡🟡
La tendencia de los gradientes (#gradient) en las redes neuronales profundas (#deep_neural_network)
(especialmente las redes neuronales recurrentes (#recurrent_neural_network)) a volverse
sorprendentemente pronunciados (altos). Los gradientes pronunciados a menudo provocan actualizaciones
muy grandes en los pesos (#weight) de cada nodo (#node) en una red neuronal profunda.
Los modelos que sufren el problema del gradiente explosivo se vuelven difíciles o imposibles de entrenar.
El recorte de gradiente (#gradient_clipping) puede mitigar este problema.
Comparar con el problema del gradiente de fuga (#vanishing_gradient_problem).

F
fairness constraint - restricción de equidad ⚖️

Aplicar una restricción a un algoritmo para garantizar que se satisfagan una o más definiciones de equidad.
Ejemplos de restricciones de equidad incluyen:
● Procesamiento posterior (#post-processing) de la salida de su modelo.

● Alterar la función de pérdida (#loss) para incorporar una sanción por violar una métrica de
equidad (#fairness_metric).
● Agregar directamente una restricción matemática a un problema de optimización.
fairness metric - métrica de equidad 🐣

Una definición matemática de “equidad” que es medible. Algunas métricas de equidad comúnmente
utilizadas incluyen:
● probabilidades igualadas (#equalized_odds)

● paridad predictiva (#predictive_parity)
● equidad contrafáctica (#counterfactual_fairness)
● paridad demográfica (#demographic_parity)
Muchas métricas de equidad son mutuamente excluyentes; ver incompatibilidad de métricas de equidad
(#incompatibility_of_fairness_metrics).
false negative (FN) - falso negativo
Un ejemplo en el que el modelo predice erróneamente la clase negativa (#negative_class) . Por

ejemplo, el modelo predice que un mensaje de correo electrónico en particular no es correo no deseado
(la clase negativa), pero ese mensaje de correo electrónico en realidad es correo no deseado.
false negative rate - tasa de falsos negativos
La proporción de ejemplos positivos reales para los que el modelo predijo erróneamente la clase negativa.
La siguiente fórmula calcula la tasa de falsos negativos:
false positive (FP) - falso positivo 🐣
Un ejemplo en el que el modelo predice erróneamente la clase positiva (#positive_class) . Por ejemplo, el
modelo predice que un mensaje de correo electrónico en particular es spam (la clase positiva), pero ese
mensaje de correo electrónico en realidad no es spam.
false positive rate (FPR) - tasa de falsos positivos 🐣

La proporción de ejemplos negativos reales para los que el modelo predijo erróneamente la clase positiva.
La siguiente fórmula calcula la tasa de falsos positivos:
La tasa de falsos positivos es el eje x en una curva ROC (#ROC).
feature - característica 🐣
Una variable de entrada para un modelo de aprendizaje automático. Un ejemplo (#example) consiste en
una o más características. Por ejemplo, suponga que está entrenando un modelo para determinar la
influencia de las condiciones climáticas en los puntajes de las pruebas de los estudiantes. La siguiente
tabla muestra tres ejemplos, cada uno de los cuales contiene tres funciones y una etiqueta:
Features Label
Temperature Humidity Pressure Test score
15 47 998 92
19 34 1020 84
18 92 1012 87
Contraste con la etiqueta (#label) .
feature cross - cruz de características 🐣

Una característica sintética (#synthetic_feature) formada por características categóricas
(#categorical_data) o agrupadas (#bucketing) "cruzadas" .
Por ejemplo, considere un modelo de "pronóstico del estado de ánimo" que represente la temperatura en
uno de los siguientes cuatro cubos:
● freezing
● chilly
● temperate
● warm
Y representa la velocidad del viento en uno de los siguientes tres cubos:
● still
● light
● windy
Sin cruces de características, el modelo lineal se entrena de forma independiente en cada uno de los siete
cubos anteriores. Entonces, el modelo entrena, por ejemplo, freezing independientemente del
entrenamiento, por ejemplo, windy.
Alternativamente, podría crear un cruce de características de temperatura y velocidad del viento. Esta
característica sintética tendría los siguientes 12 valores posibles:
● freezing-still
● freezing-light
● freezing-windy
● chilly-still
● chilly-light
● chilly-windy
● temperate-still
● temperate-light
● temperate-windy
● warm-still
● warm-light
● warm-windy
Gracias a los cruces de funciones, el modelo puede aprender las diferencias de humor entre un
freezing-windy day y un freezing-still day.
Si crea una característica sintética a partir de dos características que tienen muchos cubos diferentes, la
combinación de características resultante tendrá una gran cantidad de combinaciones posibles. Por
ejemplo, si una característica tiene 1,000 cubos y la otra característica tiene 2,000 cubos, el cruce
de características resultante tiene 2,000,000 cubos.
Formalmente, una cruz es un producto cartesiano (https://wikipedia.org/wiki/Cartesian_product).
Los cruces de características se usan principalmente con modelos lineales y rara vez se usan con redes
neuronales.
feature engineering - ingeniería de funciones 🐣

Un proceso que consta de los siguientes pasos:
1. Determinar qué características (#feature) pueden ser útiles para entrenar un modelo.
2. Convertir datos sin procesar del conjunto de datos en versiones eficientes de esas características.
Por ejemplo, podría determinar que temperature podría ser una característica útil. Luego, puede
experimentar con el almacenamiento en depósitos (#bucketing) para optimizar lo que el modelo puede
aprender de diferentes temperature rangos.
La ingeniería de características a veces se denomina extracción de características.
Haga clic en el ícono para obtener notas adicionales sobre TensorFlow.
En TensorFlow, la ingeniería de características a menudo significa convertir las entradas del archivo de
registro sin procesar en búferes de protocolo tf.Example (#tf.Example). Véase también tf.Transform
(https://github.com/tensorflow/transform).
feature extraction - extracción de características

Término sobrecargado que tiene cualquiera de las siguientes definiciones:
Recuperar representaciones de características intermedias calculadas por un modelo no supervisado

(#unsupervised_machine_learning) o previamente entrenado (por ejemplo, valores de capa oculta
(#hidden_layer) en una red neuronal (#neural_network)) para usar en otro modelo como entrada.
Sinónimo de ingeniería de características (#feature_engineering).
feature importances - características importantes 🌳🌲🌳

Sinónimo de importancias variables (#variable-importances).
feature set - conjunto de características 🐣

El grupo de características (#feature) en las que se entrena su modelo (#model) de aprendizaje
automático. Por ejemplo, el código postal, el tamaño de la propiedad y la condición de la propiedad
pueden comprender un conjunto de características simple para un modelo que predice los precios de la
vivienda.
feature spec - especificación de características
Describe la información necesaria para extraer datos de entidades del búfer del protocolo (#tf.Example)
tf.Example. (#feature) Debido a que el búfer del protocolo tf.Example es solo un contenedor de datos,
debe especificar lo siguiente: (#tf.Example)
● los datos a extraer (es decir, las claves para las características)
● el tipo de datos (por ejemplo, float o int)
● La longitud (fija o variable)
feature vector - característica vectorial 🐣
La matriz de valores de característica (#feature) que comprende un ejemplo (#example). El vector de
características se ingresa durante el entrenamiento (#training) y durante la inferencia (#inference). Por
ejemplo, el vector de características para un modelo con dos características discretas podría ser:
[0.92, 0.56]
Cada ejemplo proporciona diferentes valores para el vector de características, por lo que el vector de
características para el siguiente ejemplo podría ser algo como:
[0.73, 0.49]
La ingeniería de funciones (#feature_engineering) determina cómo representar las funciones en el vector

de funciones. Por ejemplo, una característica categórica binaria con cinco valores posibles podría
representarse con una codificación one-hot (#one-hot_encoding) . En este caso, la porción del vector de
características para un ejemplo particular consistiría en cuatro ceros y un solo 1.0 en la tercera posición,
de la siguiente manera:
[0.0, 0.0, 1.0, 0.0, 0.0]
Como otro ejemplo, suponga que su modelo consta de tres características:
● una característica categórica binaria con cinco valores posibles representados con codificación
one-hot; por ejemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
● otra característica categórica binaria con tres valores posibles representados con codificación
one-hot; por ejemplo:[0.0, 0.0, 1.0]
● una característica de punto flotante; por ejemplo: 8.3.

En este caso, el vector de características de cada ejemplo estaría representado por nueve valores. Dados
los valores de ejemplo en la lista anterior, el vector de características sería:
0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3
federated learning - aprendizaje federado
Un enfoque de aprendizaje automático distribuido que entrena (#training) modelos (#model) de

aprendizaje automático utilizando ejemplos (#example) descentralizados que residen en dispositivos como
teléfonos inteligentes. En el aprendizaje federado, un subconjunto de dispositivos descarga el modelo
actual desde un servidor de coordinación central. Los dispositivos utilizan los ejemplos almacenados en los
dispositivos para realizar mejoras en el modelo. Luego, los dispositivos cargan las mejoras del modelo
(pero no los ejemplos de capacitación) en el servidor de coordinación, donde se agregan con otras
actualizaciones para generar un modelo global mejorado. Después de la agregación, las actualizaciones del
modelo calculadas por los dispositivos ya no son necesarias y se pueden descartar.
Dado que los ejemplos de capacitación nunca se cargan, el aprendizaje federado sigue los principios de
privacidad de recopilación de datos enfocada y minimización de datos.
Para obtener más información sobre el aprendizaje federado, consulte este tutorial
(https://federated.withgoogle.com).
feedback loop - Bucle de retroalimentación 🐣

En el aprendizaje automático, una situación en la que las predicciones de un modelo influyen en
los datos de entrenamiento para el mismo modelo o para otro modelo. Por ejemplo, un modelo
que recomienda películas influirá en las películas que la gente ve, lo que luego influirá en los
modelos de recomendación de películas posteriores.
feedforward neural network (FFN) - red neuronal feedforward
Una red neuronal sin conexiones cíclicas o recursivas. Por ejemplo, las redes neuronales profundas
(#deep_neural_network) tradicionales son redes neuronales de avance. Contrasta con las redes
neuronales recurrentes (#recurrent_neural_network) , que son cíclicas.
few-shot learning - aprendizaje de pocos disparos
Un enfoque de aprendizaje automático, a menudo utilizado para la clasificación de objetos, diseñado para
entrenar clasificadores efectivos a partir de solo una pequeña cantidad de ejemplos de entrenamiento.
Véase también aprendizaje de una sola vez (#one-shot_learning).
fine tuning - sintonía fina
Realizar una optimización secundaria para ajustar los parámetros de un modelo (#model) ya entrenado
para adaptarse a un nuevo problema. El ajuste fino a menudo se refiere a reajustar los pesos de un
modelo no supervisado (#unsupervised_machine_learning) entrenado a un modelo supervisado
(#supervised_machine_learning).
forget gate - olvida la puerta 🔺➡ 🟦➡🟡

La porción de una celda de Memoria a Largo Corto Plazo (#Long_Short-Term_Memory) que regula el flujo
de información a través de la celda. Las puertas de olvido mantienen el contexto al decidir qué
información descartar del estado de la celda.
full softmax - softmax completo
Sinónimo de softmax (#softmax).
Contraste con el muestreo de candidatos (#candidate_sampling).
fully connected layer - capa completamente conectada
Una capa oculta (#hidden_layer) en la que cada nodo (#node) está conectado a todos los nodos de la
capa oculta posterior.
Una capa totalmente conectada también se conoce como capa densa (#dense_layer).
G
GAN
Abreviatura de red adversarial generativa (#generative_adversarial_network).
generalization - generalización 🐣
La capacidad de un modelo (#model) para hacer predicciones correctas sobre datos nuevos, nunca antes
vistos. Un modelo que puede generalizar es lo contrario de un modelo que se sobreajusta (#overfitting) .
Entrena un modelo en los ejemplos del conjunto de entrenamiento. En consecuencia, el modelo aprende
las peculiaridades de los datos en el conjunto de entrenamiento. La generalización esencialmente
pregunta si su modelo puede hacer buenas predicciones en ejemplos que no están en el conjunto de
entrenamiento.
Para fomentar la generalización, la regularización (#regularization) ayuda a que un modelo se entrene de

forma menos exacta a las peculiaridades de los datos en el conjunto de entrenamiento.
generalization curve - curva de generalización 🐣

Una gráfica de pérdida de entrenamiento (#training-loss) y pérdida de validación (#validation-loss) en
función del número de iteraciones (#iteration).
Una curva de generalización puede ayudarlo a detectar un posible sobreajuste (#overfitting). Por
ejemplo, la siguiente curva de generalización sugiere un sobreajuste porque, en última instancia, la
pérdida de validación se vuelve significativamente mayor que la pérdida de entrenamiento.
generalized linear model - modelo lineal generalizado
Una generalización de los modelos de regresión de mínimos cuadrados (#least_squares_regression) ,

que se basan en el ruido gaussiano (https://wikipedia.org/wiki/Gaussian_noise), a otros tipos de modelos
basados en otros tipos de ruido, como el ruido de Poisson (https://wikipedia.org/wiki/Shot_noise) o el ruido
categórico. Los ejemplos de modelos lineales generalizados incluyen:
● Regresión logística (#logistic_regression)

● regresión multiclase
● regresión de mínimos cuadrados
Los parámetros de un modelo lineal generalizado se pueden encontrar a través de la optimización

convexa (#convex_optimization).
Los modelos lineales generalizados exhiben las siguientes propiedades:
● La predicción promedio del modelo de regresión de mínimos cuadrados óptimo es igual a la

etiqueta promedio en los datos de entrenamiento.
● La probabilidad promedio predicha por el modelo de regresión logística óptima es igual a la

etiqueta promedio en los datos de entrenamiento.
El poder de un modelo lineal generalizado está limitado por sus características. A diferencia de un modelo
profundo, un modelo lineal generalizado no puede "aprender nuevas funciones".
generative adversarial network (GAN) - red antagónica generativa

Un sistema para crear nuevos datos en el que un generador (#generator) crea datos y un discriminador
(#discriminator) determina si los datos creados son válidos o no.
generative model - modelo generativo
En términos prácticos, un modelo que hace cualquiera de las siguientes cosas:
● Crea (genera) nuevos ejemplos a partir del conjunto de datos de entrenamiento. Por ejemplo, un
modelo generativo podría crear poesía después de entrenarse en un conjunto de datos de poemas.
La parte generadora (#generator) de una red antagónica generativa
(#generative_adversarial_network) cae en esta categoría.
● Determina la probabilidad de que un nuevo ejemplo provenga del conjunto de entrenamiento o se

haya creado a partir del mismo mecanismo que creó el conjunto de entrenamiento. Por ejemplo,
después de entrenar en un conjunto de datos que consta de oraciones en inglés, un modelo
generativo podría determinar la probabilidad de que la nueva entrada sea una oración válida en
inglés.
Un modelo generativo teóricamente puede discernir la distribución de ejemplos o características
particulares en un conjunto de datos. Eso es:
p(examples)
Los modelos de aprendizaje no supervisados son generativos.
Contraste con modelos discriminativos (#discriminative_model).
generator - generador
El subsistema dentro de una red adversarial generativa (#generative_adversarial_network) que crea

nuevos ejemplos (#example).
Contrasta con el modelo discriminativo (#discriminative_model).
GPT (Generative Pre-trained Transformer) - (Transformador preentrenado

generativo) 🔤
Una familia de modelos de lenguaje grande (#large-language-model) basados en Transformer
(#Transformer) desarrollados por OpenAI (https://openai.com/).
Las variantes de GPT se pueden aplicar a múltiples modalidades (#modality), que incluyen:
● generación de imágenes (por ejemplo, ImageGPT)
● generación de texto a imagen (por ejemplo, DALL-E (https://openai.com/blog/dall-e/)).
gini impurity - impureza gini 🌳🌲🌳

Una métrica similar a la entropía (#entropy). Los divisores (#splitter) utilizan valores derivados de la
impureza o la entropía de gini para componer las condiciones (#condition) de los árboles de decisión
(#decision-tree) de clasificación . La ganancia de información (#information-gain) se deriva de la
entropía. No existe un término equivalente universalmente aceptado para la métrica derivada de la
impureza de gini; sin embargo, esta métrica sin nombre es tan importante como la obtención de
información.
La impureza de Gini también se llama índice de Gini , o simplemente Gini.
Haga clic en el icono para obtener detalles matemáticos sobre la impureza de Gini.
La impureza de Gini es la probabilidad de clasificar erróneamente un nuevo dato tomado de la misma

distribución. La impureza gini de un conjunto con dos valores posibles "0" y "1" (por ejemplo, las etiquetas
en un problema de clasificación binaria (#binary_classification)) se calcula a partir de la siguiente
fórmula:
I = 1 - (p2 + q2) = 1 - (p2 + (1-p)2)
dónde:
● I es la impureza gini.
● p es la fracción de "1" ejemplos.
● q es la fracción de "0" ejemplos. Tenga en cuenta que q = 1-p
Por ejemplo, considere el siguiente conjunto de datos:
● 100 etiquetas (0.25 del conjunto de datos) contienen el valor "1"

● 300 etiquetas (0.75 del conjunto de datos) contienen el valor "0"
Por lo tanto, la impureza de gini es:
● p = 0,25
● q = 0,75
● I = 1 - (0.252 + 0.752 ) = 0.375
En consecuencia, una etiqueta aleatoria del mismo conjunto de datos tendría un 37.5% de posibilidades
de clasificarse incorrectamente y un 62.5% de posibilidades de clasificarse correctamente.
Una etiqueta perfectamente equilibrada (por ejemplo, 200 "0" y 200 "1") tendría una impureza de Gini
de 0.5. Una etiqueta muy desequilibrada (#class_imbalanced_data_set) tendría una impureza de gini
cercana a 0.0.
gradient - degradado
El vector de derivadas parciales (#partial_derivative) con respecto a todas las variables independientes.
En aprendizaje automático, el gradiente es el vector de derivadas parciales de la función modelo. La
pendiente apunta en la dirección del ascenso más empinado.
gradient boosting - aumento de gradiente 🌳🌲🌳

Un algoritmo de entrenamiento en el que se entrenan modelos débiles para mejorar iterativamente la
calidad (reducir la pérdida) de un modelo fuerte. Por ejemplo, un modelo débil podría ser un modelo de
árbol de decisión lineal o pequeño. El modelo fuerte se convierte en la suma de todos los modelos débiles
previamente entrenados.
En la forma más simple de aumento de gradiente, en cada iteración, se entrena un modelo débil para
predecir el gradiente de pérdida del modelo fuerte. Luego, la salida del modelo fuerte se actualiza
restando el gradiente predicho, similar al descenso de gradiente (#gradient_descent).
dónde:
● es el modelo fuerte inicial.

● es el siguiente modelo fuerte.
● es el modelo fuerte actual.
● es un valor entre 0.0 y 1.0 llamado contracción (#shrinkage), que es análogo a la tasa de
aprendizaje (#learning_rate) en el descenso de gradiente.
● ¿Está el modelo débil entrenado para predecir el gradiente de pérdida de .
Las variaciones modernas de aumento de gradiente también incluyen la segunda derivada (arpillera) de la
pérdida en su cálculo.
Los árboles de decisión (#decision-tree) se utilizan comúnmente como modelos débiles en la potenciación
de gradientes. Ver árboles (de decisión) potenciados por gradiente (#gbt) .
gradient boosted (decision) trees (GBT) - árboles (de decisión) potenciados

por gradiente 🌳🌲🌳
Un tipo de bosque de decisión (#decision-forest) en el que:
● El entrenamiento (#training) se basa en el aumento de gradiente (#gradient-boosting).
● El modelo débil es un árbol de decisión (#decision-tree).
gradient clipping - recorte de degradado 🔺➡ 🟦➡🟡

Un mecanismo de uso común para mitigar el problema del gradiente explosivo
(#exploding_gradient_problem) al limitar artificialmente (recortar) el valor máximo de los gradientes
cuando se usa el descenso de gradiente (#gradient_descent) para entrenar (#training) un modelo.
gradient descent - descenso de gradiente 🐣

Una técnica matemática para minimizar la pérdida (#loss) . El descenso de gradiente ajusta
iterativamente pesos (#weight) y sesgos (#bias) , encontrando gradualmente la mejor combinación para
minimizar la pérdida.
El descenso de gradiente es más antiguo, mucho, mucho más antiguo, que el aprendizaje automático.
graph - gráfico
En TensorFlow, una especificación de computación. Los nodos en el gráfico representan operaciones. Los
bordes están dirigidos y representan pasar el resultado de una operación (un tensor (#tensor)) como un
operando a otra operación. Usa TensorBoard (#TensorBoard) para visualizar un gráfico.
graph execution - ejecución de gráfico
Un entorno de programación de TensorFlow en el que el programa primero construye un gráfico (#graph) y

luego ejecuta todo o parte de ese gráfico. La ejecución de gráficos es el modo de ejecución
predeterminado en TensorFlow 1.x.
Contrasta con la ejecución ansiosa (#eager_execution).
greedy policy - política codiciosa RL

En el aprendizaje por refuerzo, una política (#policy) que elige siempre la acción con mayor retorno
(#return) esperado.
ground truth - verdad básica 🐣

La realidad.
Lo que realmente sucedió.
Por ejemplo, considere un modelo de clasificación binaria (#binary_classification) que predice si un

estudiante en su primer año de universidad se graduará dentro de seis años. La verdad básica para este
modelo es si ese estudiante se graduó o no dentro de los seis años.
Evaluamos la calidad del modelo contra la realidad del terreno. Sin embargo, la verdad básica no siempre
es completamente, bueno, veraz. Por ejemplo, considere los siguientes ejemplos de posibles
imperfecciones en la verdad fundamental:
● En el ejemplo de graduación, ¿estamos seguros de que los registros de graduación de cada

estudiante son siempre correctos? ¿Es impecable el mantenimiento de registros de la universidad?
● Supongamos que la etiqueta es un valor de punto flotante medido por instrumentos (por ejemplo,
barómetros). ¿Cómo podemos estar seguros de que cada instrumento está calibrado de manera
idéntica o que cada lectura se tomó en las mismas circunstancias?
● Si la etiqueta es una cuestión de opinión humana, ¿cómo podemos estar seguros de que cada
evaluador (#rater) humano está evaluando los eventos de la misma manera? Para mejorar la
consistencia, a veces intervienen evaluadores humanos expertos.
group attribution bias - sesgo de atribución de grupo ⚖️

Suponiendo que lo que es cierto para un individuo también es cierto para todos en ese grupo. Los efectos
del sesgo de atribución de grupo pueden exacerbarse si se utiliza un muestreo de conveniencia
(#convenience_sampling) para la recopilación de datos. En una muestra no representativa se pueden
realizar atribuciones que no reflejan la realidad.
Véase también sesgo de homogeneidad del grupo externo (#out-group_homogeneity_bias) y sesgo del
grupo interno (#in-group_bias).
H
hallucination - alucinación
La producción de resultados aparentemente plausibles pero de hecho incorrectos por un modelo

generativo (#generative_model) que pretende estar haciendo una afirmación sobre el mundo real. Por
ejemplo, si un agente de diálogo afirma que Barack Obama murió en 1865, el agente está alucinando.
hashing - hash
En el aprendizaje automático, un mecanismo para agrupar datos categóricos (#categorical_data),

particularmente cuando la cantidad de categorías es grande, pero la cantidad de categorías que realmente
aparecen en el conjunto de datos es comparativamente pequeña.
Por ejemplo, la Tierra es el hogar de unas 73,000 especies de árboles. Podría representar cada una de las
73,000 especies de árboles en 73,000 cubos categóricos separados.
Alternativamente, si solo 200 de esas especies de árboles aparecen realmente en un conjunto de datos,
podría usar hash para dividir las especies de árboles en quizás 500 cubos.
Un solo balde podría contener múltiples especies de árboles. Por ejemplo, el hashing podría colocar al
baobab y al arce rojo, dos especies genéticamente diferentes, en el mismo cubo. De todos modos, el
hashing sigue siendo una buena manera de mapear grandes conjuntos categóricos en la cantidad deseada
de cubos. Hashing convierte una característica categórica que tiene una gran cantidad de valores posibles
en una cantidad mucho menor de valores al agrupar valores de manera determinista.
heuristic - heurístico
Una solución simple y de rápida implementación a un problema. Por ejemplo, "Con una heurística,
logramos un 86% de precisión. Cuando cambiamos a una red neuronal profunda, la precisión aumentó al
98%".
hidden layer - capa oculta 🐣

Una capa en una red neuronal (#neural_network) entre la capa de entrada (#input_layer) (las
características) y la capa de salida (#output_layer) (la predicción). Cada capa oculta consta de una o más
neuronas (#neuron) . Por ejemplo, la siguiente red neuronal contiene dos capas ocultas, la primera con
tres neuronas y la segunda con dos neuronas:
Una red neuronal profunda (#deep_neural_network) contiene más de una capa oculta. Por ejemplo, la
ilustración anterior es una red neuronal profunda porque el modelo contiene dos capas ocultas.
hierarchical clustering - agrupación jerárquica 🍇

Una categoría de algoritmos de agrupamiento (#clustering) que crea un árbol de agrupaciones. El
agrupamiento jerárquico se adapta bien a los datos jerárquicos, como las taxonomías botánicas. Hay dos
tipos de algoritmos de agrupamiento jerárquico:
● El agrupamiento aglomerativo primero asigna cada ejemplo a su propio grupo y combina

iterativamente los grupos más cercanos para crear un árbol jerárquico.
● El agrupamiento divisivo primero agrupa todos los ejemplos en un solo grupo y luego divide
iterativamente el grupo en un árbol jerárquico.
Contraste con el agrupamiento basado en el centroide (#centroid_based_clustering).

hinge loss - pérdida de bisagra
Una familia de funciones de pérdida (#loss) para la clasificación (#classification_model) diseñada para
encontrar el límite de decisión (#decision_boundary) lo más distante posible de cada ejemplo de
entrenamiento, maximizando así el margen entre los ejemplos y el límite. Los KSVM (#KSVMs) utilizan la
pérdida de bisagra (o una función relacionada, como la pérdida de bisagra al cuadrado). Para la
clasificación binaria, la función de pérdida de bisagra se define de la siguiente manera:
donde y es la etiqueta verdadera, ya sea -1 o +1, e y' es la salida sin procesar del modelo clasificador:
En consecuencia, una gráfica de pérdida de bisagra frente a (y * y') se ve de la siguiente manera:
holdout data - datos reservados
Ejemplos (#example) intencionalmente no utilizados ("retenidos") durante el entrenamiento. El conjunto

de datos de validación (#validation_set) y el conjunto de datos de prueba (#test_set) son ejemplos de
datos reservados. Los datos reservados ayudan a evaluar la capacidad de su modelo para generalizar datos
distintos de los datos con los que se entrenó. La pérdida en el conjunto reservado proporciona una mejor
estimación de la pérdida en un conjunto de datos no visto que la pérdida en el conjunto de entrenamiento.
hyperparameter - hiperparámetro 🐣
Las variables que usted o un servicio de ajuste de hiperparámetros ajustan durante ejecuciones sucesivas
de entrenamiento de un modelo. Por ejemplo, la tasa de aprendizaje (#learning_rate) es un
hiperparámetro. Puede establecer la tasa de aprendizaje en 0.01 antes de una sesión de entrenamiento.
Si determina que 0.01 es demasiado alto, tal vez podría establecer la tasa de aprendizaje en 0.003 para
la próxima sesión de entrenamiento.
Por el contrario, los parámetros (#parameter) son los diversos pesos (#weight) y sesgos (#bias) que el
modelo aprende durante el entrenamiento.
hyperplane - hiperplano
Un límite que separa un espacio en dos subespacios. Por ejemplo, una línea es un hiperplano en dos
dimensiones y un plano es un hiperplano en tres dimensiones. Más típicamente en el aprendizaje
automático, un hiperplano es el límite que separa un espacio de alta dimensión. Las máquinas de vectores
de soporte del núcleo (#KSVMs) utilizan hiperplanos para separar las clases positivas de las clases
negativas, a menudo en un espacio de dimensiones muy altas.
I
i.i.d.
Abreviatura de distribuidos de manera independiente e idéntica (#iid).
image recognition - reconocimiento de imagen 🖼️

Un proceso que clasifica objetos, patrones o conceptos en una imagen. El reconocimiento de imágenes
también se conoce como clasificación de imágenes.
Para obtener más información, consulte Práctica de ML: clasificación de imágenes

(/machine-learning/practica/image-classification).
imbalanced dataset - conjunto de datos desequilibrado
Sinónimo de conjunto de datos de clase desequilibrada (#class_imbalanced_data_set).
implicit bias - sesgo implícito ⚖️

Hacer automáticamente una asociación o suposición basada en los modelos mentales y recuerdos de uno.
El sesgo implícito puede afectar lo siguiente:
● Cómo se recopilan y clasifican los datos.

● Cómo se diseñan y desarrollan los sistemas de aprendizaje automático.
Por ejemplo, al construir un clasificador para identificar fotos de bodas, un ingeniero puede usar la
presencia de un vestido blanco en una foto como característica. Sin embargo, los vestidos blancos han sido
habituales sólo durante ciertas épocas y en ciertas culturas.
Véase también sesgo de confirmación (#confirmation_bias).

incompatibility of fairness metrics
⚖️
- incompatibilidad de las métricas de
equidad
La idea de que algunas nociones de equidad son mutuamente incompatibles y no pueden satisfacerse
simultáneamente. Como resultado, no existe una métrica (#fairness_metric) universal única para
cuantificar la equidad que se pueda aplicar a todos los problemas de ML.
Si bien esto puede parecer desalentador, la incompatibilidad de las métricas de equidad no implica que los
esfuerzos de equidad sean infructuosos. En cambio, sugiere que la equidad debe definirse contextualmente
para un problema de ML dado, con el objetivo de prevenir daños específicos para sus casos de uso.
Véase "Sobre la (im)posibilidad de la equidad" (https://arxiv.org/pdf/1609.07236.pdf) para una discusión más

detallada de este tema.
independently and identically distributed (i.i.d)

🐣
- independiente e
idénticamente distribuida (i . i . d)
Datos extraídos de una distribución que no cambia, y donde cada valor extraído no depende de valores que
se hayan extraído previamente. Un iid es el gas ideal (https://wikipedia.org/wiki/Ideal_gas) del aprendizaje
automático: una construcción matemática útil pero que casi nunca se encuentra exactamente en el mundo
real. Por ejemplo, la distribución de visitantes a una página web puede ser iid durante una breve ventana
de tiempo; es decir, la distribución no cambia durante esa breve ventana y la visita de una persona
generalmente es independiente de la visita de otra. Sin embargo, si amplía esa ventana de tiempo, pueden
aparecer diferencias estacionales en los visitantes de la página web.
Véase también no estacionariedad (#nonstationarity).
individual fairness - justicia individual ⚖️

Una métrica de equidad que verifica si las personas similares se clasifican de manera similar. Por ejemplo,
la Academia Brobdingnagian podría querer satisfacer la equidad individual asegurándose de que dos
estudiantes con calificaciones idénticas y puntajes de exámenes estandarizados tengan las mismas
probabilidades de ser admitidos.
Tenga en cuenta que la equidad individual depende completamente de cómo defina la "similitud" (en este
caso, las calificaciones y los puntajes de las pruebas), y puede correr el riesgo de introducir nuevos
problemas de equidad si su métrica de similitud no incluye información importante (como el rigor de la
evaluación de un estudiante). plan de estudios).
Consulte "Equidad a través de la conciencia" (https://arxiv.org/pdf/1104.3913.pdf) para obtener una discusión

más detallada sobre la equidad individual.
inference - inferencia 🐣
En el aprendizaje automático, el proceso de hacer predicciones mediante la aplicación de un modelo
entrenado a ejemplos sin etiquetar (#unlabeled_example) .
La inferencia tiene un significado algo diferente en estadística. Consulte el artículo de Wikipedia sobre
inferencia estadística (https://wikipedia.org/wiki/Statistical_inference) para obtener más información.
inference path - ruta de inferencia 🌳🌲🌳

En un árbol de decisión (#decision-tree) , durante la inferencia (#inference) , la ruta que toma un
ejemplo (#example) particular desde la raíz (#root) a otras condiciones (#condition) , terminando con
una hoja (#leaf) . Por ejemplo, en el siguiente árbol de decisión, las flechas más gruesas muestran la ruta
de inferencia para un ejemplo con los siguientes valores de características:
● x = 7
● y = 12
● z = -3
La ruta de inferencia en la siguiente ilustración viaja a través de tres condiciones antes de llegar a la hoja
(Zeta).
Las tres flechas gruesas muestran la ruta de inferencia.

information gain - ganancia de información 🌳🌲🌳
En los bosques de decisión (#decision-forest), la diferencia entre la entropía (#entropy) de un nodo y la
suma ponderada (por número de ejemplos) de la entropía de sus nodos secundarios. La entropía de un
nodo es la entropía de los ejemplos en ese nodo.
Por ejemplo, considere los siguientes valores de entropía:
● entropía del nodo padre = 0.6

● entropía de un nodo hijo con 16 ejemplos relevantes = 0.2
● entropía de otro nodo hijo con 24 ejemplos relevantes = 0.1
Entonces, el 40% de los ejemplos están en un nodo secundario y el 60% están en el otro nodo secundario.
Por lo tanto:
suma de entropía ponderada de los nodos secundarios = (0.4 * 0.2) + (0.6 * 0.1) = 0.14
Entonces, la ganancia de información es:
● ganancia de información = entropía del nodo principal - suma de entropía ponderada de los nodos
secundarios
● ganancia de información = 0.6 - 0.14 = 0.46
La mayoría de los divisores (#splitter) buscan crear condiciones (#condition) que maximicen la ganancia
de información.
in-group bias - sesgo endogrupo ⚖️

Mostrar parcialidad hacia el propio grupo o características propias. Si los evaluadores o evaluadores son
amigos, familiares o colegas del desarrollador de aprendizaje automático, entonces el sesgo en el grupo
puede invalidar la prueba del producto o el conjunto de datos.
El sesgo endogrupo es una forma de sesgo de atribución grupal (#group_attribution_bias) . Véase

también sesgo de homogeneidad del grupo externo (#out-group_homogeneity_bias).
input layer - capa de entrada 🐣

La capa (#layer) de una red neuronal (#neural_network) que contiene el vector de características
(#feature_vector) . Es decir, la capa de entrada proporciona ejemplos (#example) para entrenamiento
(#training) o inferencia (#inference) . Por ejemplo, la capa de entrada en la siguiente red neuronal
consta de dos características:
in-set condition - condición en conjunto 🌳🌲🌳
En un árbol de decisión (#decision-tree) , una condición (#condition) que comprueba la presencia de un
elemento en un conjunto de elementos. Por ejemplo, la siguiente es una condición en conjunto:
house-style in [tudor, colonial, cape]
Durante la inferencia, si el valor de la función (#feature) de estilo de casa es tudor or colonial or

cape, esta condición se evalúa como Sí. Si el valor de la función de estilo de la casa es otra cosa (por
ejemplo, ranch), entonces esta condición se evalúa como No.
Las condiciones en el conjunto generalmente conducen a árboles de decisión más eficientes que las
condiciones que prueban características codificadas en caliente (#one-hot_encoding).
instance - instancia
Sinónimo por ejemplo (#example).

interpretability - interpretabilidad 🐣
La capacidad de explicar o presentar el razonamiento de un modelo ML en términos comprensibles para un
ser humano.
La mayoría de los modelos de regresión lineal, por ejemplo, son altamente interpretables. (Simplemente
necesita mirar los pesos entrenados para cada característica). Los bosques de decisión también son
altamente interpretables. Sin embargo, algunos modelos requieren una visualización sofisticada para ser
interpretables.
inter-rater agreement - acuerdo entre evaluadores
Una medida de la frecuencia con la que los evaluadores humanos están de acuerdo al realizar una tarea. Si
los evaluadores no están de acuerdo, es posible que sea necesario mejorar las instrucciones de la tarea.
También llamado a veces acuerdo entre anotadores o confiabilidad entre evaluadores. Véase también
kappa de Cohen (https://wikipedia.org/wiki/Cohen%27s_kappa) , que es una de las medidas de acuerdo entre
evaluadores más populares.
intersection over union (IoU) - intersección sobre unión (IoU) 🖼️

La intersección de dos conjuntos divididos por su unión. En las tareas de detección de imágenes de
aprendizaje automático, IoU se utiliza para medir la precisión del cuadro delimitador (#bounding_box)
previsto del modelo con respecto al cuadro delimitador de la realidad del terreno (#ground_truth). En
este caso, el IoU para los dos cuadros es la relación entre el área superpuesta y el área total, y su valor
oscila entre 0 (sin superposición del cuadro delimitador previsto y el cuadro delimitador real) a 1 (cuadro
delimitador previsto y cuadro delimitador real tiene exactamente las mismas coordenadas).
Por ejemplo, en la siguiente imagen:
● El cuadro delimitador predicho (las coordenadas que delimitan el lugar donde el modelo predice
que se encuentra la mesa de noche en la pintura) está resaltado en púrpura.
● El cuadro delimitador de verdad en el suelo (las coordenadas que delimitan dónde se encuentra
realmente la mesa de noche en la pintura) está resaltado en verde.
Aquí, la intersección de los cuadros delimitadores para la predicción y la verdad básica (abajo a la
izquierda) es 1, y la unión de los cuadros delimitadores para la predicción y la verdad básica (abajo a la
derecha) es 7, por lo que el IoU es .

IoU
Abreviatura de intersección sobre unión (#intersection_over_union).
item matrix - matriz de elementos 👎👍

En los sistemas de recomendación (#recommendation_system) , una matriz de vectores
(#embedding_vector) integrados generada por factorización de matrices (#matrix_factorization) que
contiene señales latentes sobre cada elemento (#items). Cada fila de la matriz de elementos contiene el
valor de una sola característica latente para todos los elementos. Por ejemplo, considere un sistema de
recomendación de películas. Cada columna de la matriz de elementos representa una sola película. Las
señales latentes pueden representar géneros, o pueden ser señales más difíciles de interpretar que
involucran interacciones complejas entre géneros, estrellas, edad del cine u otros factores.
La matriz de elementos tiene el mismo número de columnas que la matriz objetivo que se está
factorizando. Por ejemplo, dado un sistema de recomendación de películas que evalúa 10,000 títulos de
películas, la matriz de elementos tendrá 10,000 columnas.
items - elementos 👎👍
En un sistema de recomendación (#recommendation_system) , las entidades que recomienda un sistema.
Por ejemplo, los videos son los artículos que recomienda una tienda de videos, mientras que los libros son
los artículos que recomienda una librería.
iteration - iteración 🐣
Una única actualización de los parámetros (#model) de un modelo (las ponderaciones (#weight) y los
sesgos (#bias) del modelo) durante el entrenamiento (#training). El tamaño del lote (#batch_size)
determina cuántos ejemplos procesa el modelo en una sola iteración. Por ejemplo, si el tamaño del lote es
20, el modelo procesa 20 ejemplos antes de ajustar los parámetros.
Al entrenar una red neuronal (#neural_network) , una única iteración implica los siguientes dos pasos:
1. Un pase hacia adelante para evaluar la pérdida en un solo lote.
2. Un pase hacia atrás (backpropagation (#backpropagation)) para ajustar los parámetros del
modelo en función de la pérdida y la tasa de aprendizaje.
K
Keras
Una popular API de aprendizaje automático de Python. Keras (https://keras.io) se ejecuta en varios marcos
de aprendizaje profundo, incluido TensorFlow, donde está disponible como tf.keras
(https://www.tensorflow.org/api_docs/python/tf/keras).
keypoints - puntos clave 🖼️

Las coordenadas de características particulares en una imagen. Por ejemplo, para un modelo de
reconocimiento de imágenes (#image_recognition) que distingue especies de flores, los puntos clave
pueden ser el centro de cada pétalo, el tallo, el estambre, etc.
Kernel Support Vector Machines (KSVMs) - Máquinas de vectores de

soporte de kernel
Un algoritmo de clasificación que busca maximizar el margen entre las clases positivas (#positive_class) y
negativas (#negative_class) mediante la asignación de vectores de datos de entrada a un espacio
dimensional superior. Por ejemplo, considere un problema de clasificación en el que el conjunto de datos
de entrada tiene cien características. Para maximizar el margen entre las clases positivas y negativas, un
KSVM podría mapear internamente esas características en un espacio de un millón de dimensiones. KSVMs
utiliza una función de pérdida llamada pérdida de bisagra (#hinge-loss).
k-means 🍇
Un popular algoritmo de agrupamiento (#clustering) que agrupa ejemplos en el aprendizaje no
supervisado. El algoritmo k-means básicamente hace lo siguiente:
● Determina iterativamente los mejores k puntos centrales (conocidos como centroides

(#centroid)).
● Asigna cada ejemplo al centroide más cercano. Los ejemplos más cercanos al mismo centroide
pertenecen al mismo grupo.
El algoritmo k-means elige ubicaciones de centroide para minimizar el cuadrado acumulativo de las
distancias de cada ejemplo a su centroide más cercano.
Por ejemplo, considere la siguiente gráfica de altura de perro a ancho de perro:

Si k=3, el algoritmo de k-medias determinará tres centroides. Cada ejemplo se asigna a su centroide más
cercano, lo que genera tres grupos:
Imagina que un fabricante quiere determinar los tamaños ideales para suéteres pequeños, medianos y
grandes para perros. Los tres centroides identifican la altura media y la anchura media de cada perro en
ese grupo. Entonces, el fabricante probablemente debería basar los tamaños de los suéteres en esos tres
centroides. Tenga en cuenta que el centroide de un clúster normalmente no es un ejemplo en el clúster.
Las ilustraciones anteriores muestran k-medias para ejemplos con solo dos características (alto y ancho).
Tenga en cuenta que k-means puede agrupar ejemplos en muchas características.
k-median - k-mediana 🍇
Un algoritmo de agrupamiento estrechamente relacionado con k-means (#k-means) . La diferencia
práctica entre los dos es la siguiente:
● En k-means, los centroides se determinan minimizando la suma de los cuadrados de la distancia

entre un centroide candidato y cada uno de sus ejemplos.
● En k-mediana, los centroides se determinan minimizando la suma de la distancia entre un

centroide candidato y cada uno de sus ejemplos.
Tenga en cuenta que las definiciones de distancia también son diferentes:
● k-means se basa en la distancia euclidiana (https://wikipedia.org/wiki/Euclidean_distance) desde el

centroide hasta un ejemplo. (En dos dimensiones, la distancia euclidiana significa usar el teorema
de Pitágoras para calcular la hipotenusa). Por ejemplo, la distancia k-media entre (2,2) y
(5,-2) sería:
● k-median se basa en la distancia de Manhattan (https://wikipedia.org/wiki/Taxicab_geometry) desde

el centroide hasta un ejemplo. Esta distancia es la suma de los deltas absolutos en cada dimensión.
Por ejemplo, la distancia k-mediana entre (2,2) y (5,-2) sería:
L
L0 regularization - L0 regularización 🐣
Tipo de regularización (#regularization) que penaliza el número total de ponderaciones (#weight)
distintas de cero en un modelo. Por ejemplo, un modelo que tenga 11 pesos distintos de cero se penalizará
más que un modelo similar que tenga 10 pesos distintos de cero. La regularización L0 rara vez se utiliza.
La regularización L1 (#L1_regularization) y la regularización L2 (#L2_regularization) se utilizan mucho

más que la regularización L0. Esto se debe a que la regularización L1 y L2 son funciones convexas,
(#convex_function) pero la regularización L0 no es una función convexa.
L1 loss - L1 pérdida 🐣
Una función de pérdida (#loss-function) que calcula el valor absoluto de la diferencia entre los valores
reales de la etiqueta (#label) y los valores que predice un modelo (#model). Por ejemplo, aquí está el
cálculo de la pérdida de L1 para un lote (#batch) de cinco ejemplos (#example) :
Actual value of example Model’s predicted value Absolute value of delta

7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8=L1 loss
La pérdida L1 es menos sensible a los valores atípicos (#outliers) que la pérdida L2 (#squared_loss).
El error absoluto medio (#MAE) es la pérdida L1 promedio por ejemplo.
Haga clic en el icono para ver las matemáticas formales.
dónde:
● es el número de ejemplos.
● es el valor real de la etiqueta.
● es el valor que predice el modelo para .

Un tipo de regularización (#regularization) que penaliza pesos (#weight) en proporción a la suma del
valor absoluto de los pesos. La regularización L1 ayuda a llevar los pesos de las características irrelevantes
o apenas relevantes a exactamente 0 . Una característica (#feature) con un peso de 0 se elimina
efectivamente del modelo.
Contrasta con la regularización de L2 (#L2_regularization).
L2 loss - L2 pérdida 🐣
Una función de pérdida (#loss-function) que calcula el cuadrado de la diferencia entre los valores reales
de la etiqueta (#label) y los valores que predice un modelo (#model). Por ejemplo, aquí está el cálculo
de la pérdida de L2 para un lote (#batch) de cinco ejemplos (#example) :
Actual value of example Model’s predicted value Absolute value of delta

7 6 1
5 4 1
8 11 9
4 6 4
9 8 1
16=L2 loss
Debido al cuadrado, la pérdida de L2 amplifica la influencia de los valores atípicos (#outliers) . Es decir,
la pérdida de L2 reacciona con más fuerza a las malas predicciones que la pérdida de L1 (#L1_loss). Por
ejemplo, la pérdida de L1 para el lote anterior sería 8 en lugar de 16. Observe que un solo valor atípico
representa 9 de los 16.
Los modelos de regresión (#regression_model) suelen utilizarla pérdida L2 como función de pérdida.
El error cuadrático medio (#MSE) es la pérdida L2 promedio por ejemplo. La pérdida al cuadrado es otro
nombre para la pérdida L2.
dónde:

Un tipo de regularización (#regularization) que penaliza pesos (#weight) en proporción a la suma de los
cuadrados de los pesos. La regularización de L2 ayuda a acercar los pesos atípicos (#outliers) (aquellos
con valores positivos altos o negativos bajos) a 0 pero no del todo a 0 . Las características con
valores muy cercanos a 0 permanecen en el modelo pero no influyen mucho en la predicción del modelo.
La regularización L2 siempre mejora la generalización en modelos lineales (#linear_model).
Contraste con la regularización L1 (#L1_regularization).
label - etiqueta 🐣
En el aprendizaje automático supervisado (#supervised_machine_learning) , la parte de "respuesta" o
"resultado" de un ejemplo (#example).
Cada ejemplo etiquetado (#labeled_example) consta de una o más características (#feature) y una
etiqueta. Por ejemplo, en un conjunto de datos de detección de spam, la etiqueta probablemente sea
"spam" o "no spam". En un conjunto de datos de lluvia, la etiqueta podría ser la cantidad de lluvia que cayó
durante un período determinado.
labeled example - ejemplo etiquetado 🐣

Un ejemplo que contiene una o más características (#feature) y una etiqueta (#label) . Por ejemplo, la
siguiente tabla muestra tres ejemplos etiquetados de un modelo de valoración de viviendas, cada uno con
tres características y una etiqueta:
Number of bedrooms Number of bathrooms House age House price (label)

3 2 15 $345,000
2 1 72 $179,000
4 2 34 $392,000
En el aprendizaje automático supervisado (#supervised_machine_learning) , los modelos se entrenan en

ejemplos etiquetados y hacen predicciones en ejemplos no etiquetados (#unlabeled_example).
Contrasta el ejemplo etiquetado con los ejemplos no etiquetados.

LaMDA (Language Model for Dialogue Applications)
🔤
- (Modelo de
lenguaje para aplicaciones de diálogo)
Un modelo de lenguaje grande (#large-language-model) basado en Transformer (#Transformer)

desarrollado por Google entrenado en un gran conjunto de datos de diálogo que puede generar respuestas
conversacionales realistas.
LaMDA: nuestra revolucionaria tecnología de conversación (https://blog.google/technology/ai/lamda/)

proporciona una visión general.
lambda 🐣
Sinónimo de tasa de regularización (#regularization_rate).
Lambda es un término sobrecargado. Aquí nos estamos enfocando en la definición del término dentro de la
regularización (#regularization).
landmarks - puntos de referencia 🖼️

Sinónimo de puntos clave (#keypoints).
language model - modelo de lenguaje 🔤

Un modelo (#model) que estima la probabilidad de que una ficha (#token) o secuencia de fichas ocurra en
una secuencia más larga de fichas.
Aunque contrario a la intuición, muchos modelos que evalúan texto no son modelos de lenguaje. Por
ejemplo, los modelos de clasificación de texto y los modelos de análisis de opiniones no son modelos de
lenguaje.
large language mode - modelo de lenguaje grande 🔤

Un término informal sin una definición estricta que generalmente significa un modelo de lenguaje
(#language-model) que tiene una gran cantidad de parámetros (#parameter). Algunos modelos de
lenguaje grandes contienen más de 100 mil millones de parámetros.

Quizás se esté preguntando cuándo un modelo de lenguaje (#language-model) se vuelve lo
suficientemente grande como para denominarse modelo de lenguaje grande . Actualmente, no existe una
línea de definición acordada para el número de parámetros.
La mayoría de los modelos de lenguaje grande actuales (por ejemplo, GPT (#GPT)) se basan en la
arquitectura Transformer (#Transformer).
layer - capa 🐣
Un conjunto de neuronas (#neuron) en una red neuronal (#neural_network) . Los tres tipos comunes de
capas son los siguientes:
● La capa de entrada (#input_layer), que proporciona valores para todas las entidades (#feature) .
● Una o más capas ocultas (#hidden_layer), que encuentran relaciones no lineales entre las
entidades y la etiqueta.
● La capa de salida (#output_layer), que proporciona la predicción.
Por ejemplo, la siguiente ilustración muestra una red neuronal con una capa de entrada, dos capas ocultas
y una capa de salida:
En TensorFlow (#TensorFlow) , las capas también son funciones de Python que toman tensores (#tensor)
y opciones de configuración como entrada y producen otros tensores como salida.
Layers API (tf.layers) - API de capas
Una API de TensorFlow para construir una red neuronal profunda como una composición de capas
(#deep_model). La API de capas le permite crear diferentes tipos de capas (#layer), como:
● tf.layers.Dense para una capa completamente conectada (#fully_connected_layer).

● tf.layers.Conv2D para una capa convolucional.
La API de capas sigue las convenciones de la API de capas de Keras (#Keras). Es decir, aparte de un prefijo
diferente, todas las funciones en la API de capas tienen los mismos nombres y firmas que sus contrapartes
en la API de capas de Keras.
leaf - hoja 🌳🌲🌳

Cualquier punto final en un árbol de decisión (#decision-tree). A diferencia de una condición
(#condition), una hoja no realiza una prueba. Más bien, una hoja es una predicción posible. Una hoja es
también el nodo (#node) terminal de un camino de inferencia (#inference-path).
Por ejemplo, el siguiente árbol de decisión contiene tres hojas:
learning rate - tasa de aprendizaje 🐣

Un número de coma flotante que le dice al algoritmo de descenso de gradiente (#gradient_descent) con
qué fuerza debe ajustar los pesos y sesgos en cada iteración (#iteration). Por ejemplo, una tasa de
aprendizaje de 0.3 ajustaría los pesos y sesgos tres veces más que una tasa de aprendizaje de 0,1.
La tasa de aprendizaje es un hiperparámetro (#hyperparameter) clave. Si establece la tasa de

aprendizaje demasiado baja, el entrenamiento llevará demasiado tiempo. Si configura la tasa de
aprendizaje demasiado alta, el descenso de gradiente a menudo tiene problemas para alcanzar la
convergencia (#convergence).
Haga clic en el icono para obtener una explicación más matemática.
Durante cada iteración, el algoritmo de descenso de gradiente (#gradient_descent) multiplica la tasa de

aprendizaje por el gradiente. El producto resultante se llama paso de gradiente.
least squares regression - regresión de mínimos cuadrados
Un modelo de regresión lineal entrenado minimizando L2 Loss (#L2_loss).
linear model - Modelo lineal 🐣

Un modelo (#model) que asigna un peso (#weight) por característica (#feature) para hacer predicciones
(#prediction) . (Los modelos lineales también incorporan un sesgo (#bias)). Por el contrario, la relación de
las características con las predicciones en los modelos profundos (#deep_model) generalmente no es
lineal.
Los modelos lineales suelen ser más fáciles de entrenar y más interpretables (#interpretability) que los
modelos profundos. Sin embargo, los modelos profundos pueden aprender relaciones complejas entre
características.
La regresión lineal (#linear_regression) y la regresión logística (#logistic_regression) son dos tipos de
modelos lineales.
Haga clic en el icono para ver las matemáticas.
Un modelo lineal sigue esta fórmula:
dónde:
● y' es la predicción en bruto. (En ciertos tipos de modelos lineales, esta predicción sin procesar se
modificará aún más. Por ejemplo, consulte la regresión logística (#logistic_regression)).
● b es el sesgo (#bias).
● w es un peso (#weight) , por lo que w1 es el peso de la primera característica, w2 es el peso de la

segunda característica, y así sucesivamente.
● x es una función (#feature) , por lo que x1 es el valor de la primera función, x2 es el valor de la

segunda función, y así sucesivamente.
Por ejemplo, suponga que un modelo lineal para tres características aprende los siguientes sesgos y
ponderaciones:
● b = 7
● w1 = -2.5
● w2 = -1.2
● w3 = 1.4
Por lo tanto, dadas tres características (x1, x2 y x3), el modelo lineal usa la siguiente ecuación para
generar cada predicción:
y' = 7 + (-2.5)(x1) + (-1.2)(x2) + (1.4)(x3)
Supongamos que un ejemplo particular contiene los siguientes valores:
● x1 = 4
● x2 = -10
● x3 = 5
Conectar esos valores en la fórmula produce una predicción para este ejemplo:
y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)

y' = 16
Los modelos lineales incluyen no solo modelos que usan solo una ecuación lineal para hacer predicciones,
sino también un conjunto más amplio de modelos que usan una ecuación lineal como solo un componente
de la fórmula que hace predicciones. Por ejemplo, la regresión logística procesa posteriormente la
predicción sin procesar (y') para producir un valor de predicción final entre 0 y 1, exclusivamente.
linear - lineal 🐣
Una relación entre dos o más variables que se pueden representar únicamente a través de la suma y la
multiplicación.
La trama de una relación lineal es una línea.
Contrasta con no lineal (#nonlinear).
linear regression - regresión lineal 🐣

Un tipo de modelo de aprendizaje automático en el que se cumplen las dos condiciones siguientes:
● El modelo es un modelo lineal (#linear_model).
● La predicción es un valor de punto flotante. (Esta es la parte de regresión (#regression_model)

de la regresión lineal).
Contraste la regresión lineal con la regresión logística (#logistic_regression). Además, contraste la

regresión con la clasificación (#classification_model) .
logistic regression - Regresión logística 🐣
Un tipo de modelo de regresión (#regression_model) que predice una probabilidad. Los modelos de
regresión logística tienen las siguientes características:
● La etiqueta es categórica (#categorical_data). El término regresión logística suele referirse a la

regresión logística binaria, es decir, a un modelo que calcula probabilidades para etiquetas con
dos valores posibles. Una variante menos común, la regresión logística multinomial, calcula
probabilidades para etiquetas con más de dos valores posibles.
● La función de pérdida durante el entrenamiento es Log Loss (#Log_Loss). (Se pueden colocar
varias unidades de pérdida de registro en paralelo para etiquetas con más de dos valores posibles).
● El modelo tiene una arquitectura lineal, no una red neuronal profunda. Sin embargo, el resto de
esta definición también se aplica a modelos profundos (#deep_model) que predicen
probabilidades para etiquetas categóricas.
Por ejemplo, considere un modelo de regresión logística que calcula la probabilidad de que un correo
electrónico de entrada sea spam o no spam. Durante la inferencia, suponga que el modelo predice 0.72.
Por lo tanto, el modelo está estimando:
● Un 72% de posibilidades de que el correo electrónico sea spam.

● Un 28% de posibilidades de que el correo electrónico no sea spam.
Un modelo de regresión logística utiliza la siguiente arquitectura de dos pasos:
1. El modelo genera una predicción sin procesar (y') mediante la aplicación de una función lineal de
características de entrada.
2. El modelo usa esa predicción sin procesar como entrada para una función sigmoidea
(#sigmoid-function), que convierte la predicción sin procesar en un valor entre 0 y 1, exclusivo.
Como cualquier modelo de regresión, un modelo de regresión logística predice un número. Sin embargo,
este número generalmente se convierte en parte de un modelo de clasificación binaria de la siguiente
manera:
● Si el número pronosticado es mayor que el umbral de clasificación (#classification_threshold), el

modelo de clasificación binaria predice la clase positiva.
● Si el número pronosticado es menor que el umbral de clasificación, el modelo de clasificación

binaria predice la clase negativa.
logits
El vector de predicciones sin procesar (no normalizadas) que genera un modelo de clasificación, que
normalmente se pasa a una función de normalización. Si el modelo está resolviendo un problema de
clasificación de clases múltiples (#multi-class), los logits generalmente se convierten en una entrada para
la función softmax (#softmax). La función softmax luego genera un vector de probabilidades
(normalizadas) con un valor para cada clase posible.
tf.nn.sigmoid_cross_entropy_with_logits
https://www.tensorflow.org/api_docs/python/tf/nn/sigmoid_cross_entropy_with_logits).
Log Loss - Pérdida de registro 🐣

La función de pérdida (#loss-function) utilizada en la regresión logística (#logistic_regression) binaria.
La siguiente fórmula calcula la pérdida de registro:
dónde:
● es el conjunto de datos que contiene muchos ejemplos etiquetados, que son

pares
● es la etiqueta en un ejemplo etiquetado. Como se trata de una regresión logística, cada valor de
debe ser 0 o 1.
● es el valor predicho (en algún lugar entre 0 y 1, exclusivo), dado el conjunto de características
en .
log-odds - registro de probabilidades 🐣

El logaritmo de las probabilidades de algún evento.
Si el evento es una probabilidad binaria, entonces la probabilidad se refiere a la relación entre la

probabilidad de éxito ( p ) y la probabilidad de fracaso (1- p ). Por ejemplo, suponga que un evento
dado tiene un 90% de probabilidad de éxito y un 10% de probabilidad de fracaso. En este caso, la cuota se
calcula de la siguiente manera:
El log-odds es simplemente el logaritmo de las probabilidades. Por convención, "logaritmo" se refiere al
logaritmo natural (https://wikipedia.org/wiki/Natural_logarithm) , pero el logaritmo en realidad podría
ser cualquier base mayor que 1. Siguiendo con la convención, las probabilidades logarítmicas de nuestro
ejemplo son, por lo tanto:
La función log-odds es la inversa de la función sigmoidea (#sigmoid-function).
Long Short-Term Memory (LSTM) - Memoria a largo plazo 🔺➡ 🟦➡🟡

Un tipo de celda en una red neuronal recurrente (#recurrent_neural_network) que se utiliza para
procesar secuencias de datos en aplicaciones tales como reconocimiento de escritura a mano, traducción
automática y subtítulos de imágenes. Los LSTM abordan el problema del gradiente de fuga
(#vanishing_gradient_problem) que ocurre cuando se entrenan RNN debido a secuencias de datos largas
al mantener el historial en un estado de memoria interna basado en nuevas entradas y contexto de celdas
anteriores en el RNN.
loss - pérdida 🐣
Durante el entrenamiento (#training) de un modelo supervisado (#supervised_machine_learning), una
medida de qué tan lejos está la predicción (#prediction) de un modelo de su etiqueta (#label).
Una función de pérdida (#loss-function) calcula la pérdida.
loss curve - curva de pérdida 🐣

Una gráfica de pérdida (#loss) en función del número de iteraciones (#iteration) de entrenamiento . La
siguiente gráfica muestra una curva de pérdida típica:
Las curvas de pérdida pueden ayudarlo a determinar cuándo su modelo está convergiendo (#convergence)
o sobreajustándose (#overfitting).
Las curvas de pérdida pueden trazar todos los siguientes tipos de pérdida:
● pérdida de entrenamiento (#training-loss)

● pérdida de validación (#validation-loss)
● pérdida de prueba (#test-loss)
Véase también curva de generalización (#generalization_curve).
loss function - función de pérdida 🐣

Durante el entrenamiento (#training) o la prueba, una función matemática que calcula la pérdida en un
lote (#batch) de ejemplos. Una función de pérdida devuelve una pérdida menor para los modelos que
hacen buenas predicciones que para los modelos que hacen malas predicciones.
El objetivo del entrenamiento suele ser minimizar la pérdida que devuelve una función de pérdida.
Existen muchos tipos diferentes de funciones de pérdida. Elija la función de pérdida apropiada para el tipo
de modelo que está construyendo. Por ejemplo:
● La pérdida L2 (#L2_loss) (o error cuadrático medio (#MSE)) es la función de pérdida para la

regresión lineal (#linear_regression).
● Log Loss (#Log_Loss) es la función de pérdida para la regresión logística (#logistic_regression).
loss surface - superficie de pérdida
Un gráfico de peso(s) vs. pérdida. El descenso de gradiente (#gradient_descent) tiene como objetivo
encontrar los pesos para los cuales la superficie de pérdida está en un mínimo local.
LSTM 🔺➡ 🟦➡🟡
Abreviatura de memoria a largo plazo (#Long_Short-Term_Memory).
M
machine learning - aprendizaje automático 🐣

Un programa o sistema que entrena (#training) un modelo (#model) a partir de datos de entrada. El
modelo entrenado puede hacer predicciones útiles a partir de datos nuevos (nunca antes vistos) extraídos
de la misma distribución que la que se usó para entrenar el modelo.
El aprendizaje automático también se refiere al campo de estudio relacionado con estos programas o
sistemas.
majority class - clase mayoritaria 🐣

La etiqueta más común en un conjunto de datos de clase desequilibrada (#class_imbalanced_data_set).
Por ejemplo, dado un conjunto de datos que contiene 99% de etiquetas negativas y 1% de etiquetas
positivas, las etiquetas negativas son la clase mayoritaria.
Contrasta con clase minoritaria (#minority_class).
Markov decision process (MDP) - Proceso de decisión de Markov RL

Un gráfico que representa el modelo de toma de decisiones en el que se toman decisiones (o acciones
(#action)) para navegar por una secuencia de estados (#state) bajo el supuesto de que se cumple la
propiedad de Markov (#Markov_property). En el aprendizaje por refuerzo (#reinforcement_learning),
estas transiciones entre estados devuelven una recompensa (#reward) numérica .
Markov property - Propiedad de Markov RL

Una propiedad de ciertos entornos (#environment), donde las transiciones de estado están totalmente
determinadas por la información implícita en el estado (#state) actual y la acción (#action) del agente.
masked language model - modelo de lenguaje enmascarado 🔤

Un modelo de lenguaje (#language-model) que predice la probabilidad de que los tokens candidatos
llenen los espacios en blanco en una secuencia. Por ejemplo, un modelo de lenguaje enmascarado puede
calcular las probabilidades de que las palabras candidatas reemplacen el subrayado en la siguiente oración:
El ____ en el sombrero volvió.

La literatura generalmente usa la cadena "MASK" en lugar de un subrayado. Por ejemplo:
La "MASCARILLA" en el sombrero volvió.
La mayoría de los modelos modernos de lenguaje enmascarado son bidireccionales (#bidirectional).
matplotlib 👎👍
Una biblioteca de trazado 2D de Python de código abierto matplotlib (https://matplotlib.org/) lo ayuda a
visualizar diferentes aspectos del aprendizaje automático.
matrix factorization - factorización de matrices 👎👍

En matemáticas, un mecanismo para encontrar las matrices cuyo producto escalar se aproxima a una
matriz objetivo.
En los sistemas de recomendación (#recommendation_system), la matriz de objetivos a menudo

contiene las calificaciones de los usuarios sobre los elementos (#items). Por ejemplo, la matriz de destino
para un sistema de recomendación de películas podría parecerse a lo siguiente, donde los números enteros
positivos son calificaciones de los usuarios y 0 significa que el usuario no calificó la película:
Casablanca The Philadelphia Story Black Panther Wonder Woman Pulp Fiction
User 1 5.0 3.0 0.0 2.0 0.0
User 2 4.0 0.0 0.0 1.0 5.0
User 3 3.0 1.0 4.0 5.0 0.0
El sistema de recomendación de películas tiene como objetivo predecir las calificaciones de los usuarios
para películas sin calificación. Por ejemplo, ¿al usuario 1 le gustará Black Panther?
Un enfoque para los sistemas de recomendación es utilizar la factorización de matrices para generar las
siguientes dos matrices:
● Una matriz de usuarios (#user_matrix), con la forma del número de usuarios X el número de
dimensiones incrustadas.
● Una matriz de elementos (#item_matrix), con la forma del número de dimensiones incrustadas X
el número de elementos.
Por ejemplo, el uso de la factorización matricial en nuestros tres usuarios y cinco elementos podría generar
la siguiente matriz de usuario y matriz de elementos:
El producto escalar de la matriz de usuarios y la matriz de elementos genera una matriz de
recomendaciones que contiene no sólo las calificaciones originales de los usuarios, sino también
predicciones para las películas que cada usuario no ha visto. Por ejemplo, considere la calificación del
Usuario 1 de Casablanca, que fue 5.0. Se espera que el producto escalar correspondiente a esa celda en
la matriz de recomendación sea alrededor de 5.0, y es:
(1.1 * 0.9) + (2.3 * 1.7) = 4.9
Más importante aún, ¿al usuario 1 le gustará Black Panther ? Tomando el producto escalar correspondiente
a la primera fila y la tercera columna se obtiene una calificación pronosticada de 4.3:
(1.1 * 1.4) + (2.3 * 1.2) = 4.3
La factorización de matrices generalmente produce una matriz de usuario y una matriz de elementos que,
juntas, son significativamente más compactas que la matriz de destino.
Mean Absolute Error (MAE) - Error absoluto medio
La pérdida promedio por ejemplo cuando se usa la pérdida L1 (#L1_loss). Calcule el error absoluto medio
de la siguiente manera:
1. Calcule la pérdida de L1 para un lote.
2. Divida la pérdida de L1 por el número de ejemplos en el lote.
dónde:
For example, consider the calculation of L1 loss on the following batch of five examples:
Actual value of example Model’s predicted value Loss (difference between actual and predicted)
7 6 1
5 4 1
8 11 3
4 6 2
9 8 1
8 = L1 loss
Entonces, la pérdida de L1 es 8 y el número de ejemplos es 5. Por lo tanto, el error absoluto medio es:
Mean Absolute Error = L1 loss / Number of Examples

Mean Absolute Error = 8/5 = 1.6
Contraste el error absoluto medio con el error cuadrático medio (#MSE) y la raíz del error cuadrático
medio (#RMSE).
Mean Squared Error (MSE) - Error cuadrático medio
La pérdida promedio por ejemplo cuando se usa la pérdida L2 (#L2_loss). Calcule el error cuadrático
medio de la siguiente manera:
1. Calcule la pérdida de L2 para un lote.
2. Divida la pérdida de L2 por el número de ejemplos en el lote.
dónde:
For example, consider the loss on the following batch of five examples:
Actual value Model’s predicted Loss Squared loss
7 6 1 1
5 4 1 1
8 11 3 9
4 6 2 4
9 8 1 1
16 = L2 loss
Por lo tanto, el error cuadrático medio es:
Mean Squared Error = L2 loss / Number of Examples

Mean Squared Error = 16/5 = 3.2
Mean Squared Error es un optimizador (#optimizer) de entrenamiento popular, particularmente para la

regresión lineal (#linear_regression).
Contraste el error cuadrático medio con el error absoluto medio (#MAE) y el error cuadrático medio
(#RMSE).
TensorFlow Playground (#TensorFlow_Playground) usa el error cuadrático medio para calcular los valores
de pérdida.
Haga clic en el icono para ver más detalles sobre los valores atípicos.
Los valores atípicos (#outliers) influyen fuertemente en el error cuadrático medio. Por ejemplo, una
pérdida de 1 es una pérdida de 1 al cuadrado, pero una pérdida de 3 es una pérdida de 9 al cuadrado.
En la tabla anterior, el ejemplo con una pérdida de 3 representa ~56% del error cuadrático medio,
mientras que cada uno de los ejemplos con una pérdida de 1 representa solo el 6% del error cuadrático
medio.
Los valores atípicos no influyen tanto en el error absoluto medio como en el error cuadrático medio. Por
ejemplo, una pérdida de 3 representa solo ~38% del error absoluto medio.
El recorte (#clipping) es una forma de evitar que los valores atípicos extremos dañen la capacidad
predictiva de su modelo.
metric - métrico
Una estadística que te importa.
Un objetivo (#objective) es una métrica que un sistema de aprendizaje automático intenta optimizar.
meta-learning - meta-aprendizaje 🔤
Un subconjunto de aprendizaje automático que descubre o mejora un algoritmo de aprendizaje. Un
sistema de metaaprendizaje también puede apuntar a entrenar un modelo para que aprenda rápidamente
una nueva tarea a partir de una pequeña cantidad de datos o de la experiencia adquirida en tareas
anteriores. Los algoritmos de metaaprendizaje generalmente intentan lograr lo siguiente:
● Mejorar/aprender funciones diseñadas a mano (como un inicializador o un optimizador).

● Sea más eficiente en datos y computación.
● Mejorar la generalización.
El metaaprendizaje está relacionado con el aprendizaje de pocos disparos (#few-shot_learning).
Metrics API (tf.metrics) - API de métricas
Una API de TensorFlow para evaluar modelos. Por ejemplo, tf.metrics.accuracy determina la
frecuencia con la que las predicciones de un modelo coinciden con las etiquetas.
mini-batch - mini-lote 🐣
Un pequeño subconjunto seleccionado al azar de un lote (#batch) procesado en una iteración (#iteration).
El tamaño de lote (#batch_size) de un mini lote suele estar entre 10 y 1,000 ejemplos.
Por ejemplo, suponga que todo el conjunto de entrenamiento (el lote completo) consta de 1,000
ejemplos. Además, suponga que establece el tamaño de lote (#batch_size) de cada mini lote en 20. Por
lo tanto, cada iteración determina la pérdida en 20 de los 1,000 ejemplos aleatorios y luego ajusta los
pesos (#weight) y sesgos (#bias) en consecuencia.
Es mucho más eficiente calcular la pérdida en un mini lote que la pérdida en todos los ejemplos del lote
completo.
mini-batch stochastic gradient descent - descenso de gradiente estocástico

de mini lotes
Un algoritmo de descenso de gradiente (#gradient_descent) que utiliza mini lotes (#mini-batch). En

otras palabras, el descenso de gradiente estocástico de mini lotes estima el gradiente en función de un
pequeño subconjunto de los datos de entrenamiento. El descenso de gradiente estocástico (#SGD) regular
utiliza un mini lote de tamaño 1.
minimax loss - pérdida minimax
Una función de pérdida para redes antagónicas generativas (#generative_adversarial_network), basada

en la entropía cruzada (#cross-entropy) entre la distribución de los datos generados y los datos reales.
La pérdida Minimax se utiliza en el primer artículo (https://arxiv.org/pdf/1406.2661.pdf) para describir las

redes antagónicas generativas.
minority class - clase minoritaria 🐣

La etiqueta menos común en un conjunto de datos de clase desequilibrada
(#class_imbalanced_data_set). Por ejemplo, dado un conjunto de datos que contiene 99% de etiquetas
negativas y 1% de etiquetas positivas, las etiquetas positivas son la clase minoritaria.
Contrasta con clase mayoritaria (#majority_class).
Un conjunto de entrenamiento con un millón de ejemplos (#example) suena impresionante. Sin embargo,
si la clase minoritaria está mal representada, incluso un conjunto de entrenamiento muy grande podría ser
insuficiente. Concéntrese menos en la cantidad total de ejemplos en el conjunto de datos y más en la
cantidad de ejemplos en la clase minoritaria.
Si su conjunto de datos no contiene suficientes ejemplos de clases minoritarias, considere usar la
reducción de muestreo (#downsampling) (la definición en la segunda viñeta) para complementar la clase
minoritaria.
ML
Abreviatura de aprendizaje automático (#machine_learning).
MNIST 🖼️
Un conjunto de datos de dominio público compilado por LeCun, Cortes y Burges que contiene 60,000
imágenes, cada una de las cuales muestra cómo un ser humano escribió manualmente un dígito particular
del 0 al 9. Cada imagen se almacena como una matriz de enteros de 28x28, donde cada entero es un
valor en escala de grises entre 0 y 255, inclusive.
MNIST es un conjunto de datos canónico para el aprendizaje automático, que a menudo se usa para probar
nuevos enfoques de aprendizaje automático. Para obtener más información, consulte la base de datos
MNIST de dígitos escritos a mano (http://yann.lecun.com/exdb/mnist/).
modality - modalidad 🔤
Una categoría de datos de alto nivel. Por ejemplo, números, texto, imágenes, video y audio son cinco
modalidades diferentes.
model - modelo 🐣
En general, cualquier construcción matemática que procesa datos de entrada y devuelve resultados.
Expresado de otra manera, un modelo es el conjunto de parámetros y estructura necesarios para que un
sistema haga predicciones. En el aprendizaje automático supervisado (#supervised_machine_learning),
un modelo toma un ejemplo (#example) como entrada e infiere una predicción (#prediction) como
salida. Dentro del aprendizaje automático supervisado, los modelos difieren un poco. Por ejemplo:
● Un modelo de regresión lineal consta de un conjunto de pesos (#weight) y un sesgo (#bias).
● Un modelo de red neuronal (#neural-network) consta de:
● Un conjunto de capas ocultas (#hidden_layer), cada una de las cuales contiene una o más
neuronas (#neuron).
● Los pesos y sesgos asociados a cada neurona.
● Un modelo de árbol de decisión (#decision-tree) consta de:
● La forma del árbol; es decir, el patrón en el que se conectan las condiciones y las hojas.
● Las condiciones y las hojas.
Puede guardar, restaurar o hacer copias de un modelo.
El aprendizaje automático no supervisado (#unsupervised_machine_learning) también genera modelos,

generalmente una función que puede asignar un ejemplo de entrada al clúster (#clustering) más
apropiado.
Haga clic en el icono para comparar funciones algebraicas y de programación con modelos ML.
Una función algebraica como la siguiente es un modelo:

f(x, y) = 3x -5xy + y2 + 17
La función anterior asigna valores de entrada ( x e y ) a la salida.
De manera similar, una función de programación como la siguiente también es un modelo:
def half_of_greater(x, y):

if (x > y):
return(x / 2)
else
return(y / 2)
Una persona que llama pasa argumentos a la función de Python anterior, y la función de Python genera
resultados (a través de la instrucción de retorno).
Aunque una red neuronal profunda (#deep_neural_network) tiene una estructura matemática muy
diferente a la de una función algebraica o de programación, una red neuronal profunda aún toma entradas
(un ejemplo) y devuelve salidas (una predicción).
Un programador humano codifica una función de programación manualmente. Por el contrario, un modelo
de aprendizaje automático aprende gradualmente los parámetros óptimos durante el entrenamiento
automatizado.
model capacity - capacidad del modelo
La complejidad de los problemas que un modelo puede aprender. Cuanto más complejos sean los
problemas que un modelo puede aprender, mayor será la capacidad del modelo. La capacidad de un
modelo normalmente aumenta con el número de parámetros del modelo. Para obtener una definición
formal de la capacidad del clasificador, consulte la dimensión VC (https://wikipedia.org/wiki/VC_dimension).
model parallelism - modelo de paralelismo 🔤
Una forma de escalar el entrenamiento o la inferencia que coloca diferentes partes de un modelo en
diferentes dispositivos. El paralelismo de modelos permite modelos que son demasiado grandes para caber
en un solo dispositivo.
Véase también paralelismo de datos (#data-parallelism).
model training - entrenamiento modelo
El proceso de determinación del mejor modelo (#model).
Momentum - Impulso
Un sofisticado algoritmo de descenso de gradiente en el que un paso de aprendizaje depende no solo de la

derivada en el paso actual, sino también de las derivadas de los pasos que lo precedieron inmediatamente.
El impulso implica calcular un promedio móvil ponderado exponencialmente de los gradientes a lo largo del
tiempo, de forma análoga al impulso en la física. El impulso a veces evita que el aprendizaje se quede
atascado en los mínimos locales.
multi-class classification - clasificación multiclase 🐣

En el aprendizaje supervisado, un problema de clasificación (#classification_model) en el que el conjunto
de datos contiene más de dos clases (#class) de etiquetas. Por ejemplo, las etiquetas en el conjunto de
datos Iris deben ser una de las siguientes tres clases:
● Iris setosa
● Iris virgen
● Iris versicolor
Un modelo entrenado en el conjunto de datos de Iris que predice el tipo de Iris en nuevos ejemplos está
realizando una clasificación de varias clases.
Por el contrario, los problemas de clasificación que distinguen exactamente dos clases son modelos de
clasificación binarios (#binary_classification) . Por ejemplo, un modelo de correo electrónico que predice
el correo no deseado o no es un modelo de clasificación binaria.
En los problemas de agrupamiento, la clasificación multiclase se refiere a más de dos agrupamientos.

multi-class logistic regression - regresión logística multiclase
Uso de la regresión logística (#logistic_regression) en problemas de clasificación multiclase

(#multi-class).
multi-head self-attention - autoatención de múltiples cabezas 🔤

Una extensión de autoatención (#self-attention) que aplica el mecanismo de autoatención varias veces
para cada posición en la secuencia de entrada.
Los transformadores (#Transformer) introdujeron la autoatención de múltiples cabezas.
multimodal model - modelo multimodal 🔤

Un modelo cuyas entradas y/o salidas incluyen más de una modalidad (#modality). Por ejemplo, considere
un modelo que toma una imagen y una leyenda de texto (dos modalidades) como características
(#feature) y genera una puntuación que indica qué tan apropiada es la leyenda de texto para la imagen.
Entonces, las entradas de este modelo son multimodales y la salida es unimodal.
multinomial classification - clasificación multinomial

Sinónimo de clasificación multiclase (#multi-class).
multinomial regression - regresión multinomial
Sinónimo de regresión logística multiclase (#multi-class_logistic_regression).

N
NaN trap - trampa NaN
Cuando un número en su modelo se convierte en NaN (https://wikipedia.org/wiki/NaN) durante el

entrenamiento, lo que hace que muchos o todos los demás números en su modelo eventualmente se
conviertan en NaN.
NaN es una abreviatura de No a Número (Not a Number).
natural language understanding - comprensión del lenguaje natural 🔤

Determinar las intenciones de un usuario en función de lo que escribió o dijo. Por ejemplo, un motor de
búsqueda utiliza la comprensión del lenguaje natural para determinar qué está buscando el usuario en
función de lo que escribió o dijo.
negative class - clase negativa 🐣

En la clasificación binaria (#binary_classification), una clase se denomina positiva y la otra se denomina
negativa. La clase positiva es la cosa o evento que el modelo está probando y la clase negativa es la otra
posibilidad. Por ejemplo:
● La clase negativa en una prueba médica podría ser "no tumoral".

● La clase negativa en un clasificador de correo electrónico podría ser "no spam".
Contrasta con clase positiva (#positive_class).
neural network - red neuronal 🐣

Un modelo (#model) que contiene al menos una capa oculta (#hidden_layer). Una red neuronal
profunda (#deep_neural_network) es un tipo de red neuronal que contiene más de una capa oculta. Por
ejemplo, el siguiente diagrama muestra una red neuronal profunda que contiene dos capas ocultas.
Cada neurona de una red neuronal se conecta a todos los nodos de la siguiente capa. Por ejemplo, en el
diagrama anterior, observe que cada una de las tres neuronas de la primera capa oculta se conecta por
separado a las dos neuronas de la segunda capa oculta.
Las redes neuronales implementadas en computadoras a veces se denominan redes neuronales artificiales
para diferenciarlas de las redes neuronales que se encuentran en el cerebro y otros sistemas nerviosos.
Algunas redes neuronales pueden imitar relaciones no lineales extremadamente complejas entre diferentes
características y la etiqueta.
Véase también red neuronal convolucional (#convolutional_neural_network) y red neuronal recurrente
(#recurrent_neural_network).
neuron - neurona 🐣
En el aprendizaje automático, una unidad distinta dentro de una capa oculta (#hidden_layer) de una red
neuronal (#neural_network) . Cada neurona realiza la siguiente acción de dos pasos:
1. Calcula la suma ponderada (#weighted_sum) de los valores de entrada multiplicada por sus pesos
correspondientes.
2. Pasa la suma ponderada como entrada a una función de activación (#activation_function).
Una neurona en la primera capa oculta acepta entradas de los valores de características en la capa de
entrada (#input_layer). Una neurona en cualquier capa oculta más allá de la primera acepta entradas de
las neuronas en la capa oculta anterior. Por ejemplo, una neurona en la segunda capa oculta acepta
entradas de las neuronas en la primera capa oculta.
Una neurona en una red neuronal imita el comportamiento de las neuronas en el cerebro y otras partes del
sistema nervioso.
La siguiente ilustración destaca dos neuronas y sus entradas.

N-gram - N-grama 🔺➡ 🟦➡🟡 🔤
Una secuencia ordenada de N palabras. Por ejemplo, verdaderamente loco es un 2 gramos. Debido a que
el orden es relevante, madly verdaderamente es un 2-gramos diferente a verdaderamente locamente.
N Name(s) for this kind of N-gram Examples

2 bigram or 2-gram to go, go to, eat lunch, eat dinner
3 trigram or 3-gram ate too much, three blind mice, the bell tolls
4 4-gram walk in the park, dust in the wind, the boy ate lentils
Muchos modelos de comprensión del lenguaje natural (#natural_language_understanding) se basan en

N-gramas para predecir la siguiente palabra que el usuario escribirá o dirá. Por ejemplo, suponga que un
usuario escribió tres ciegos . Un modelo NLU basado en trigramas probablemente predeciría que el usuario
luego escribirá ratones .
Contraste los N-gramas con la bolsa de palabras (#bag_of_words), que son conjuntos desordenados de
palabras.
NLU 🔤
Abreviatura de comprensión del lenguaje natural (#natural_language_understanding).
node (neural network) - nodo (red neuronal) 🐣
Una neurona (#neuron) en una capa oculta (#hidden_layer).
node (TensorFlow graph) - nodo (gráfico de TensorFlow)
Una operación en un gráfico (#graph) de TensorFlow.
node (decision tree) - nodo (árbol de decisión) 🌳🌲🌳

En un árbol de decisión (#decision-tree) , cualquier condición (#condition) u hoja (#leaf).
noise - ruido
En términos generales, cualquier cosa que oscurezca la señal en un conjunto de datos. El ruido se puede
introducir en los datos de varias maneras. Por ejemplo:
● Los evaluadores humanos cometen errores al etiquetar.

● Los humanos y los instrumentos registran mal u omiten los valores de las características.
non-binary condition - condición no binaria 🌳🌲🌳
Una condición (#condition) que contiene más de dos resultados posibles. Por ejemplo, la siguiente
condición no binaria contiene tres resultados posibles:
nonlinear - no lineal 🐣
Una relación entre dos o más variables que no se puede representar únicamente mediante la suma y la
multiplicación. Una relación lineal se puede representar como una línea; una relación no lineal no se
puede representar como una línea. Por ejemplo, considere dos modelos en los que cada uno relacione una
sola característica con una sola etiqueta. El modelo de la izquierda es lineal y el modelo de la derecha es
no lineal:
non-response bias - sesgo de no respuesta ⚖️

nonstationarity - no estacionariedad 🐣
Una característica cuyos valores cambian en una o más dimensiones, generalmente el tiempo. Por ejemplo,
considere los siguientes ejemplos de no estacionariedad:
● La cantidad de trajes de baño vendidos en una tienda en particular varía según la temporada.
● La cantidad de una fruta en particular cosechada en una región en particular es cero durante gran
parte del año, pero grande durante un breve período.
● Debido al cambio climático, las temperaturas medias anuales están cambiando.
Contrasta con la estacionariedad (#stationarity).

normalization - normalización 🐣
En términos generales, el proceso de convertir el rango de valores real de una variable en un rango de
valores estándar, como:
● -1 a +1
● 0 a 1
● la distribución normal
Por ejemplo, suponga que el rango real de valores de una determinada característica es de 800 a
2,400. Como parte de la ingeniería de características (#feature_engineering) , puede normalizar los
valores reales a un rango estándar, como -1 a +1.
La normalización es una tarea común en la ingeniería de características (#feature_engineering). Los

modelos generalmente se entrenan más rápido (y producen mejores predicciones) cuando cada
característica numérica en el vector de características (#feature_vector) tiene aproximadamente el
mismo rango.
novelty detection - detección de novedad
El proceso de determinar si un nuevo ejemplo (novedoso) proviene de la misma distribución que el

conjunto de entrenamiento (#training_set) . En otras palabras, después del entrenamiento en el
conjunto de entrenamiento, la detección de novedades determina si un nuevo ejemplo (durante la
inferencia o durante el entrenamiento adicional) es un valor atípico (#outliers).
Contrasta con la detección de valores atípicos (#outlier-detection).
numerical data - Datos numéricos 🐣

Características (#feature) representadas como enteros o números con valores reales. Por ejemplo, un
modelo de valoración de una casa probablemente representaría el tamaño de una casa (en pies cuadrados
o metros cuadrados) como datos numéricos. Representar una característica como datos numéricos indica
que los valores de la característica tienen una relación matemática con la etiqueta. Es decir, la cantidad
de metros cuadrados en una casa probablemente tenga alguna relación matemática con el valor de la casa.
No todos los datos enteros deben representarse como datos numéricos. Por ejemplo, los códigos postales
en algunas partes del mundo son números enteros; sin embargo, los códigos postales enteros no deben
representarse como datos numéricos en los modelos. Esto se debe a que un código postal de 20000 no
es el doble (o la mitad) de potente que un código postal de 10000. Además, aunque diferentes códigos
postales se correlacionan con diferentes valores inmobiliarios, no podemos suponer que los valores
inmobiliarios en el código postal 20000 son dos veces más valioso que los valores inmobiliarios en el
código postal 10000. En su lugar, los códigos postales deben representarse como datos categóricos
(#categorical_data).
Las características numéricas a veces se denominan características continuas (#continuous_feature).

NumPy
Una biblioteca matemática de código abierto (http://www.numpy.org/) que proporciona operaciones de
matriz eficientes en Python. pandas (#pandas) se basa en NumPy.
O
objective - objetivo
Una métrica que su algoritmo está tratando de optimizar.
objective function - función objetiva
La fórmula matemática o métrica (#metric) que un modelo pretende optimizar. Por ejemplo, la función
objetivo para la regresión lineal (#linear_regression) suele ser Mean Squared Loss (#MSE) . Por lo tanto,
al entrenar un modelo de regresión lineal, el objetivo del entrenamiento es minimizar la pérdida
cuadrática media.
En algunos casos, el objetivo es maximizar la función objetivo. Por ejemplo, si la función objetivo es la
precisión, el objetivo es maximizar la precisión.
Véase también pérdida (#loss).
oblique condition - condición oblicua 🌳🌲🌳

En un árbol de decisión (#decision-tree), una condición (#condition) que involucra más de una
característica (#feature). Por ejemplo, si tanto la altura como el ancho son características, la siguiente es
una condición oblicua:
height > width
Contraste con la condición alineada con el eje (#axis-aligned-condition).
offline - desconectado 🐣
Sinónimo de estático (#static).
offline inference - inferencia sin conexión 🐣

El proceso de un modelo que genera un lote de predicciones (#prediction) y luego almacena en caché
(guarda) esas predicciones. Luego, las aplicaciones pueden acceder a la predicción deseada desde el caché
en lugar de volver a ejecutar el modelo.
Por ejemplo, considere un modelo que genera pronósticos meteorológicos locales (predicciones) una vez
cada cuatro horas. Después de cada ejecución del modelo, el sistema almacena en caché todos los
pronósticos meteorológicos locales. Las aplicaciones meteorológicas recuperan los pronósticos del caché.
La inferencia sin conexión también se denomina inferencia estática.
Contraste con la inferencia en línea (#online_inference).
one-hot encoding - codificación one-hot 🐣

Representar datos categóricos como un vector en el que:
● Un elemento se establece en 1.
● Todos los demás elementos se establecen en 0.
La codificación one-hot se usa comúnmente para representar cadenas o identificadores que tienen un
conjunto finito de valores posibles.
Por ejemplo, supongamos que una característica categórica determinada Scandinaviatiene cinco valores
posibles:
● "Dinamarca"
● "Suecia"
● "Noruega"
● "Finlandia"
● "Islandia"
La codificación one-hot podría representar cada uno de los cinco valores de la siguiente manera:
One-hot encoding could represent of the five values as follows:
Country Vector
“Denmark” 1 0 0 0 0
“Sweden” 0 1 0 0 0
“Norway” 0 0 1 0 0
“Finland” 0 0 0 1 0
“Iceland” 0 0 0 0 1
Gracias a la codificación one-hot, un modelo puede aprender diferentes conexiones basadas en cada uno
de los cinco países.
Representar una característica como datos numéricos (#numerical_data) es una alternativa a la

codificación one-hot. Desafortunadamente, representar numéricamente a los países escandinavos no es
una buena opción. Por ejemplo, considere la siguiente representación numérica:
● "Dinamarca" es 0
● "Suecia" es 1
● "Noruega" es 2
● "Finlandia" es 3
● "Islandia" es 4
Con la codificación numérica, un modelo interpretaría matemáticamente los números sin procesar y
trataría de entrenar con esos números. Sin embargo, Islandia no es en realidad el doble (o la mitad) de
algo que Noruega, por lo que el modelo llegaría a algunas conclusiones extrañas.
one-shot learning - aprendizaje de una sola vez
Un enfoque de aprendizaje automático, a menudo utilizado para la clasificación de objetos, diseñado para
aprender clasificadores efectivos a partir de un solo ejemplo de entrenamiento.
Véase también aprendizaje de pocos disparos (#few-shot_learning).
one-vs.-all - uno vs todos 🐣

Dado un problema de clasificación con N clases, una solución que consta de N clasificadores binarios
(#binary_classification) separados: un clasificador binario para cada resultado posible. Por ejemplo, dado
un modelo que clasifica los ejemplos como animales, vegetales o minerales, una solución de uno contra
todos proporcionaría los siguientes tres clasificadores binarios separados:
● animal vs. no animal

● verdura vs. no verdura
● mineral vs. no mineral
online - en línea 🐣
Sinónimo de dinámico (#dynamic).
online inference - inferencia en línea 🐣

Generación de predicciones (#prediction) bajo demanda. Por ejemplo, suponga que una aplicación pasa la
entrada a un modelo y emite una solicitud de predicción. Un sistema que utiliza la inferencia en línea
responde a la solicitud ejecutando el modelo (y devolviendo la predicción a la aplicación).
Contrasta con la inferencia fuera de línea (#offline_inference).

operation (op) - operación (op)
En TensorFlow, cualquier procedimiento que crea, manipula o destruye un Tensor (#tensor) . Por ejemplo,
una multiplicación de matrices es una operación que toma dos tensores como entrada y genera un tensor
como salida
out-of-bag evaluation (OOB evaluation) - evaluación fuera de bolsa 🌳🌲🌳

Un mecanismo para evaluar la calidad de un bosque de decisión (#decision-forest) al probar cada árbol
de decisión (#decision-tree) con los ejemplos (#example) no utilizados durante el entrenamiento
(#training) de ese árbol de decisión. Por ejemplo, en el siguiente diagrama, observe que el sistema
entrena cada árbol de decisión en aproximadamente dos tercios de los ejemplos y luego evalúa con el
tercio restante de los ejemplos.
La evaluación out-of-bag es una aproximación computacionalmente eficiente y conservadora del

mecanismo de validación cruzada (#cross-validation). En la validación cruzada, se entrena un modelo
para cada ronda de validación cruzada (por ejemplo, se entrenan 10 modelos en una validación cruzada
de 10 veces). Con la evaluación OOB, se entrena un solo modelo. Debido a que el embolsado (#bagging)
retiene algunos datos de cada árbol durante el entrenamiento, la evaluación OOB puede usar esos datos
para aproximar la validación cruzada.
optimizer - optimizador
Una implementación específica del algoritmo de descenso de gradiente (#gradient_descent). Los
optimizadores populares incluyen:
● AdaGrad (#AdaGrad) , que significa descenso de GRADIENTE ADAPTABLE.

● Adam, que significa ADAptive con Momentum.
out-group homogeneity bias - sesgo de homogeneidad del grupo externo ⚖️

La tendencia a ver a los miembros del grupo externo como más parecidos que los miembros del grupo
interno cuando se comparan actitudes, valores, rasgos de personalidad y otras características. En grupo se
refiere a las personas con las que interactúas regularmente; el grupo externo se refiere a las personas con
las que no interactúa regularmente. Si crea un conjunto de datos pidiendo a las personas que proporcionen
atributos sobre grupos externos, esos atributos pueden tener menos matices y ser más estereotipados que
los atributos que los participantes enumeran para las personas de su grupo interno.
Por ejemplo, los liliputienses podrían describir las casas de otros liliputienses con gran detalle, citando
pequeñas diferencias en estilos arquitectónicos, ventanas, puertas y tamaños. Sin embargo, los mismos
liliputienses podrían simplemente declarar que todos los brobdingnagianos viven en casas idénticas.
El sesgo de homogeneidad fuera del grupo es una forma de sesgo de atribución grupal
(#group_attribution_bias).
Véase también sesgo endogrupo (#in-group_bias).
outlier detection - detección de valores atípicos
El proceso de identificación de valores atípicos (#outliers) en un conjunto de entrenamiento

(#training_set).
Contrasta con detección de novedad (#novelty-detection).
outliers - valores atípicos
Valores distantes de la mayoría de los demás valores. En el aprendizaje automático, cualquiera de los
siguientes son valores atípicos:
● Datos de entrada cuyos valores son más de aproximadamente 3 desviaciones estándar de la media.
● Pesos (#weight) con valores absolutos altos.

● Valores pronosticados relativamente alejados de los valores reales.
Por ejemplo, supongamos que widget-price es una característica de cierto modelo. Suponga que la
media widget-price es 7 euros con una desviación estándar de 1 euro. Por lo tanto, los ejemplos que
contienen un valor widget-price de 12 euros o 2 euros se considerarían valores atípicos porque cada
uno de esos precios tiene cinco desviaciones estándar de la media.
Los valores atípicos a menudo son causados por errores tipográficos u otros errores de entrada. En otros
casos, los valores atípicos no son errores; después de todo, los valores a cinco desviaciones estándar de la
media son raros pero casi imposibles.
Los valores atípicos a menudo causan problemas en el entrenamiento del modelo. El recorte (#clipping)
es una forma de gestionar los valores atípicos.
output layer - capa de salida 🐣

La capa "final" de una red neuronal. La capa de salida contiene la predicción.
La siguiente ilustración muestra una pequeña red neuronal profunda con una capa de entrada, dos capas
ocultas y una capa de salida:
overfitting - sobreajuste 🐣
Crear un modelo (#model) que coincida tanto con los datos de entrenamiento (#training_set) que el
modelo no pueda hacer predicciones correctas sobre nuevos datos.
La regularización (#regularization) puede reducir el sobreajuste. El entrenamiento en un conjunto de

entrenamiento grande y diverso también puede reducir el sobreajuste.
El sobreajuste es como seguir estrictamente los consejos de tu profesor favorito. Probablemente tendrá
éxito en la clase de ese maestro, pero podría "sobreajustarse" a las ideas de ese maestro y no tener éxito
en otras clases. Seguir los consejos de una mezcla de profesores te permitirá adaptarte mejor a las nuevas
situaciones.
oversampling - sobremuestreo
Reutilizar los ejemplos (#example) de una clase minoritaria (#minority_class) en un conjunto de datos
de clase desequilibrada (#class_imbalanced_data_set) para crear un conjunto de entrenamiento
(#training_set) más equilibrado .
Por ejemplo, considere un problema de clasificación binaria (#binary_classification) en el que la relación

entre la clase mayoritaria (#majority_class) y la clase minoritaria es de 5000:1. Si el conjunto de datos
contiene un millón de ejemplos, entonces el conjunto de datos contiene sólo alrededor de 200 ejemplos
de la clase minoritaria, lo que podría ser muy pocos ejemplos para un entrenamiento efectivo. Para
superar esta deficiencia, puede sobremuestrear (reutilizar) esos 200 ejemplos varias veces, lo que
posiblemente produzca suficientes ejemplos para una capacitación útil.
Debe tener cuidado con el sobreajuste (#overfitting) al sobremuestrear.
Contraste con submuestreo (#undersampling) .

P
pandas 🐣
Una API de análisis de datos orientada a columnas construida sobre numpy (#numpy). Muchos marcos de
aprendizaje automático, incluido TensorFlow, admiten estructuras de datos de pandas como entradas.
Consulte la documentación de pandas (http://pandas.pydata.org/) para obtener más información.
parameter - parámetro 🐣
Los pesos (#weight) y sesgos (#bias) que un modelo aprende durante el entrenamiento (#training). Por
ejemplo, en un modelo de regresión lineal (#linear_regression), los parámetros consisten en el sesgo (b)
y todos los pesos ( w1, w2, etc.) en la siguiente fórmula:
Por el contrario, los hiperparámetros (#hyperparameter) son los valores que usted (o un servicio de
conversión de hiperparámetros) proporciona al modelo. Por ejemplo, la tasa de aprendizaje
(#learning_rate) es un hiperparámetro.
Parameter Server (PS) - Servidor de parámetros
Un trabajo que realiza un seguimiento de los parámetros (#parameter) de un modelo en una configuración
distribuida.
parameter update - actualización de parámetros
La operación de ajustar los parámetros (#parameter) de un modelo durante el entrenamiento,

generalmente dentro de una única iteración de descenso de gradiente (#gradient_descent).
partial derivative - derivada parcial
Una derivada en la que todas menos una de las variables se consideran constantes. Por ejemplo, la
derivada parcial de f(x, y) con respecto a x es la derivada de f considerada como función de x
solamente (es decir, manteniendo y constante). La derivada parcial de f con respecto a x se enfoca solo
en cómo está cambiando x e ignora todas las demás variables en la ecuación.
participation bias - sesgo de participación ⚖️
Sinónimo de sesgo de no respuesta. Véase sesgo de selección (#selection_bias).
partitioning strategy - estrategia de partición
El algoritmo mediante el cual las variables se dividen entre servidores de parámetros

(#Parameter_Server).
perceptron - perceptrón
Un sistema (ya sea hardware o software) que toma uno o más valores de entrada, ejecuta una función en
la suma ponderada de las entradas y calcula un único valor de salida. En el aprendizaje automático, la
función suele ser no lineal, como ReLU (#ReLU), sigmoid (#sigmoid-function) o tanh
(https://wikipedia.org/wiki/Hyperbolic_functions) . Por ejemplo, el siguiente perceptrón se basa en la
función sigmoidea para procesar tres valores de entrada:
En la siguiente ilustración, el perceptrón toma tres entradas, cada una de las cuales es modificada por un
peso antes de ingresar al perceptrón:
Los perceptrones son las neuronas (#neuron) de las redes neuronales (#neural-network).
performance - actuación
Término sobrecargado con los siguientes significados:
● El significado tradicional dentro de la ingeniería de software. A saber: ¿Qué tan rápido (o

eficientemente) se ejecuta este software?
● El significado dentro del aprendizaje automático. Aquí, el rendimiento responde a la siguiente

pregunta: ¿Qué tan correcto es este modelo (#model)? Es decir, ¿qué tan buenas son las
predicciones del modelo?
permutation variable importances - importancia de las variables de

permutación 🌳🌲🌳
Un tipo de importancia variable (#variable-importances) que evalúa el aumento en el error de predicción
de un modelo después de permutar los valores de la característica. La importancia de la variable de
permutación es una métrica independiente del modelo.
perplexity - perplejidad
Una medida de qué tan bien un modelo (#model) está realizando su tarea. Por ejemplo, suponga que su
tarea es leer las primeras letras de una palabra que un usuario está escribiendo en el teclado de un
teléfono inteligente y ofrecer una lista de posibles palabras para completar. La perplejidad, P, para esta
tarea es aproximadamente el número de conjeturas que necesita ofrecer para que su lista contenga la
palabra real que el usuario está tratando de escribir.
La perplejidad está relacionada con la entropía cruzada (#cross-entropy) de la siguiente manera:
pipeline - tubería
La infraestructura que rodea a un algoritmo de aprendizaje automático. Una canalización incluye la

recopilación de datos, la colocación de los datos en archivos de datos de entrenamiento, el entrenamiento
de uno o más modelos y la exportación de los modelos a producción.
pipelining - canalización 🔤
Una forma de paralelismo de modelos (#model-parallelism) en la que el procesamiento de un modelo se
divide en etapas consecutivas y cada etapa se ejecuta en un dispositivo diferente. Mientras una etapa
procesa un lote, la etapa anterior puede trabajar en el siguiente lote.
Véase también formación por etapas (#staged-training).
policy - política RL
En el aprendizaje por refuerzo, el mapeo probabilístico de un agente (#agent) de estados (#state) a
acciones (#action).
pooling - puesta en común 🖼️

Reducir una matriz (o matrices) creada por una capa convolucional (#convolutional_layer) anterior a una
matriz más pequeña. La agrupación generalmente implica tomar el valor máximo o promedio en el área
agrupada. Por ejemplo, supongamos que tenemos la siguiente matriz de 3x3:
Una operación de agrupación, al igual que una operación convolucional, divide esa matriz en rebanadas y
luego desliza esa operación convolucional a pasos agigantados (#stride) . Por ejemplo, suponga que la
operación de agrupación divide la matriz convolucional en rebanadas de 2x2 con un paso de 1x1. Como
ilustra el siguiente diagrama, se llevan a cabo cuatro operaciones de agrupación. Imagine que cada
operación de agrupación elige el valor máximo de los cuatro en ese segmento:
La agrupación ayuda a hacer cumplir la invariancia traslacional (#translational_invariance) en la matriz

de entrada.
La agrupación para aplicaciones de visión se conoce más formalmente como agrupación espacial. Las
aplicaciones de series de tiempo generalmente se refieren a la agrupación como agrupación temporal.
Menos formalmente, la agrupación a menudo se denomina submuestreo o reducción de muestreo.
positive class - clase positiva 🐣
La clase para la que está probando. Por ejemplo, la clase positiva en un modelo de cáncer podría ser
"tumor". La clase positiva en un clasificador de correo electrónico podría ser "spam".
Contrasta con clase negativa (#negative_class).
El término clase positiva puede resultar confuso porque el resultado "positivo" de muchas pruebas suele
ser un resultado indeseable. Por ejemplo, la clase positiva en muchas pruebas médicas corresponde a
tumores o enfermedades. En general, desea que un médico le diga: "¡Felicitaciones! Los resultados de su
prueba fueron negativos". Independientemente, la clase positiva es el evento que la prueba busca
encontrar.
Es cierto que está probando simultáneamente las clases positivas y negativas.
post-processing - Postprocesamiento ⚖️🐣

Ajuste de la salida de un modelo después de que se haya ejecutado el modelo. El posprocesamiento se
puede utilizar para hacer cumplir las restricciones de equidad sin modificar los propios modelos.
Por ejemplo, se podría aplicar el posprocesamiento a un clasificador binario estableciendo un umbral de

clasificación tal que se mantenga la igualdad de oportunidades (#equality_of_opportunity) para algún
atributo al verificar que la tasa positiva verdadera (#TP_rate) sea la misma para todos los valores de ese
atributo.
PR AUC (area under the PR curve) - (área bajo la curva PR)
Área bajo la curva de precisión-recuperación (#precision-recall_curve) interpolada , obtenida al graficar

(recuperación, precisión) puntos para diferentes valores del umbral de clasificación
(#classification_threshold). Dependiendo de cómo se calcule, PR AUC puede ser equivalente a la
precisión promedio (#average_precision) del modelo.
precision - precisión
Una métrica para modelos de clasificación (#classification_model) que responde a la siguiente pregunta:
Cuando el modelo predijo la clase positiva (#positive_class), ¿qué porcentaje de las predicciones fueron
correctas?
Aquí está la fórmula:

dónde:
● verdadero positivo significa que el modelo predijo correctamente la clase positiva.

● falso positivo significa que el modelo predijo erróneamente la clase positiva.
Por ejemplo, suponga que un modelo hizo 200 predicciones positivas. De estas 200 predicciones positivas:
● 150 fueron verdaderos positivos.

● 50 fueron falsos positivos.
En este caso:
Contrasta con exactitud (#accuracy) y recuerdo (#recall).
precision-recall curve - curva de recuperación de precisión
Una curva de precisión (#precision) frente a recuperación (#recall) en diferentes umbrales de

clasificación (#classification_threshold).
prediction - predicción 🐣
La salida de un modelo. Por ejemplo:
● La predicción de un modelo de clasificación binaria es la clase positiva o la clase negativa.
● La predicción de un modelo de clasificación multiclase es una clase.
● La predicción de un modelo de regresión lineal es un número.
prediction bias - sesgo de predicción
Un valor que indica qué tan lejos está el promedio de predicciones (#prediction) del promedio de
etiquetas (#label) en el conjunto de datos.
No debe confundirse con el término sesgo (#bias) en los modelos de aprendizaje automático o con el sesgo
en ética y equidad (#bias_ethics).
predictive parity - paridad predictiva ⚖️
Una métrica de equidad (#fairness_metric) que verifica si, para un clasificador dado, las tasas de
precisión (#precision) son equivalentes para los subgrupos en consideración.
Por ejemplo, un modelo que predice la aceptación en la universidad satisfaría la paridad predictiva de la
nacionalidad si su índice de precisión es el mismo para los liliputienses y los brobdingnagianos.
La paridad predictiva a veces también se denomina paridad de tasa predictiva.
Consulte "Explicación de las definiciones de equidad" (http://fairware.cs.umass.edu/papers/Verma.pdf)

(sección 3.2.1) para obtener una discusión más detallada de la paridad predictiva.
predictive rate parity - paridad de tasa predictiva ⚖️

Otro nombre para la paridad predictiva (#predictive_parity).
preprocessing - preprocesamiento ⚖️
Procesamiento de datos antes de que se usen para entrenar un modelo. El preprocesamiento podría ser tan
simple como eliminar palabras de un corpus de texto en inglés que no aparecen en el diccionario de inglés,
o podría ser tan complejo como volver a expresar puntos de datos de una manera que elimine la mayor
cantidad posible de atributos que están correlacionados con atributos confidenciales
(#sensitive_attribute).
El preprocesamiento puede ayudar a satisfacer las restricciones de equidad (#fairness_constraint).
pre-trained model - modelo pre-entrenado
Modelos o componentes del modelo (como el vector incrustado (#embedding_vector)) que ya se han
entrenado. A veces, alimentará vectores de incrustación previamente entrenados en una red neuronal
(#neural_network). Otras veces, su modelo entrenará los vectores de incrustación en sí mismo en lugar de
depender de las incrustaciones pre-entrenadas.
prior belief - creencia previa
Lo que cree acerca de los datos antes de comenzar a entrenar con ellos. Por ejemplo, la regularización de
L2 (#L2_regularization) se basa en la creencia previa de que los pesos (#weight) deben ser pequeños y
normalmente distribuidos alrededor de cero.
probabilistic regression model - modelo de regresión probabilística
Un modelo de regresión (#regression_model) que usa no solo los pesos (#weight) para cada
característica (#feature), sino también la incertidumbre de esos pesos. Un modelo de regresión
probabilística genera una predicción y la incertidumbre de esa predicción. Por ejemplo, un modelo de
regresión probabilística podría arrojar una predicción de 325 con una desviación estándar de 12. Para
obtener más información sobre los modelos de regresión probabilística, consulte este Colab en
tensorflow.org (https://www.tensorflow.org/probability/examples/Probabilistic_Layers_Regression).
proxy (sensitive attributes) - (atributos sensibles) ⚖️

Un atributo utilizado como sustituto de un atributo sensible (#sensitive_attribute). Por ejemplo, el
código postal de una persona puede usarse como indicador de sus ingresos, raza o etnia.
proxy labels - etiquetas de proxy 🐣

Datos utilizados para aproximar etiquetas que no están disponibles directamente en un conjunto de datos.
Por ejemplo, suponga que debe entrenar un modelo para predecir el nivel de estrés de los empleados. Su
conjunto de datos contiene muchas características predictivas, pero no contiene una etiqueta denominada
nivel de estrés. Sin desanimarse, elige "accidentes en el lugar de trabajo" como una etiqueta indirecta
para el nivel de estrés. Después de todo, los empleados bajo mucho estrés tienen más accidentes que los
empleados tranquilos. ¿O ellos? Tal vez los accidentes laborales en realidad aumentan y disminuyen por
múltiples razones.
Como segundo ejemplo, suponga que quiere ¿está lloviendo? ser una etiqueta booleana para su conjunto de
datos, pero su conjunto de datos no contiene datos de lluvia. Si hay fotografías disponibles, puede
establecer imágenes de personas que llevan paraguas como una etiqueta indirecta de ¿está lloviendo? ¿Es
esa una buena etiqueta de proxy? Posiblemente, pero es más probable que las personas en algunas culturas
lleven paraguas para protegerse del sol que de la lluvia.
Las etiquetas de proxy a menudo son imperfectas. Cuando sea posible, elija etiquetas reales en lugar de
etiquetas proxy. Dicho esto, cuando no haya una etiqueta real, elija la etiqueta proxy con mucho cuidado,
eligiendo el candidato a etiqueta proxy menos horrible.
Q
Q-function - Función Q RL
En el aprendizaje por refuerzo (#reinforcement_learning), la función que predice el rendimiento
(#return) esperado de realizar una acción (#action) en un estado (#state) y luego seguir una política
(#policy) dada .
La función Q también se conoce como función de valor de acción de estado.
Q-learning - Q-aprendizaje RL
En el aprendizaje por refuerzo (#reinforcement_learning) , un algoritmo que permite a un agente
(#agent) aprender la función Q (#q-function) óptima de un proceso de decisión de Markov
(#markov_decision_process) mediante la aplicación de la ecuación de Bellman (#bellman_equation). El
proceso de decisión de Markov modela un entorno (#environment).
quantile - cuantil
Cada depósito en la clasificación por cuantiles (#quantile_bucketing).
quantile bucketing - agrupamiento por cuantiles
Distribuir los valores de una característica en depósitos (#bucketing) para que cada depósito contenga el
mismo (o casi el mismo) número de ejemplos. Por ejemplo, la siguiente figura divide 44 puntos en 4
cubos, cada uno de los cuales contiene 11 puntos. Para que cada cubo en la figura contenga la misma
cantidad de puntos, algunos cubos abarcan un ancho diferente de valores x.
quantization - cuantización
Algoritmo que implementa la agrupación de cuantiles (#quantile_bucketing) en una característica

(#feature) particular de un conjunto de datos (#data_set).
queue - cola
Una operación (#Operation) de TensorFlow que implementa una estructura de datos de cola.
Normalmente se utiliza en E/S.
R
random forest - bosque aleatorio 🌳🌲🌳

Un conjunto (#ensemble) de árboles de decisión (#decision-tree) en el que cada árbol de decisión se
entrena con un ruido aleatorio específico, como embolsado (#bagging).
Los bosques aleatorios son un tipo de bosque de decisión (#decision-forest).
random policy - política aleatoria RL

En el aprendizaje por refuerzo (#reinforcement_learning), una política (#policy) que elige una acción
(#action) al azar.
ranking - clasificación
Un tipo de aprendizaje supervisado (#supervised_machine_learning) cuyo objetivo es ordenar una lista

de elementos.
rank (ordinality) - rango (ordinalidad)
La posición ordinal de una clase en un problema de aprendizaje automático que clasifica las clases de
mayor a menor. Por ejemplo, un sistema de clasificación de comportamiento podría clasificar las
recompensas de un perro desde la más alta (un bistec) a la más baja (col rizada marchita).
rank (Tensor) - rango (tensor)
El número de dimensiones en un Tensor (#tensor). Por ejemplo, un escalar tiene rango 0, un vector tiene
rango 1 y una matriz tiene rango 2.
No debe confundirse con rango (ordinalidad) (#rank_ordinality).

rater - apreciador 🐣
Un ser humano que proporciona etiquetas (#label) para ejemplos (#example). "Anotador" es otro nombre
para calificador.
recall - recuerdo
Una métrica para modelos de clasificación (#classification_model) que responde a la siguiente pregunta:
Cuando la verdad fundamental (#ground_truth) fue la clase positiva (#positive_class), ¿qué porcentaje
de predicciones identificó correctamente el modelo como la clase positiva?
Aquí está la fórmula:
dónde:
● verdadero positivo significa que el modelo predijo correctamente la clase positiva.

● falso negativo significa que el modelo predijo erróneamente la clase negativa (#negative_class).
Por ejemplo, suponga que su modelo hizo 200 predicciones sobre ejemplos para los cuales la verdad
fundamental era la clase positiva. De estas 200 predicciones:
● 180 fueron verdaderos positivos.

● 20 fueron falsos negativos.
En este caso:
Haga clic en el icono para obtener notas sobre conjuntos de datos desequilibrados de clase.
La recuperación es particularmente útil para determinar el poder predictivo de los modelos de

clasificación en los que la clase positiva es rara. Por ejemplo, considere un conjunto de datos de clase
desequilibrada (#class_imbalanced_data_set) en el que la clase positiva para una determinada
enfermedad ocurre en sólo 10 pacientes de un millón. Suponga que su modelo hace cinco millones de
predicciones que arrojan los siguientes resultados:
● 30 Verdaderos Positivos
● 20 falsos negativos
● 4,999,000 Verdaderos Negativos
● 950 falsos positivos
Por lo tanto, la retirada de este modelo es:
recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%
Por el contrario, la precisión (#accuracy) de este modelo es:
accuracy = (TP + TN) / (TP + TN + FP + FN)

accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%
Ese alto valor de precisión parece impresionante, pero esencialmente no tiene sentido. La recuperación es
una métrica mucho más útil para conjuntos de datos de clase desequilibrada que la precisión.
recommendation system - sistema de recomendación 👎👍

Un sistema que selecciona para cada usuario un conjunto relativamente pequeño de elementos (#items)
deseables de un gran corpus. Por ejemplo, un sistema de recomendación de videos podría recomendar dos
videos de un corpus de 100 000 videos, seleccionando Casablanca y The Philadelphia Story para un
usuario, y Wonder Woman y Black Panther para otro. Un sistema de recomendación de videos puede basar
sus recomendaciones en factores como:
● Películas que usuarios similares han calificado o visto.

● Género, directores, actores, grupo demográfico objetivo…
Rectified Linear Unit (ReLU) - Unidad lineal rectificada (ReLU) 🐣

Una función de activación (#activation_function) con el siguiente comportamiento:
● Si la entrada es negativa o cero, entonces la salida es 0.
● Si la entrada es positiva, entonces la salida es igual a la entrada.
Por ejemplo:
● Si la entrada es -3, entonces la salida es 0.
● Si la entrada es +3, entonces la salida es 3.0.
Aquí hay una trama de ReLU:

ReLU es una función de activación muy popular. A pesar de su comportamiento simple, ReLU aún permite
que una red neuronal aprenda relaciones no lineales (#nonlinear) entre las características (#feature) y la
etiqueta (#label).
recurrent neural network - red neuronal recurrente 🔺➡ 🟦➡🟡

Una red neuronal (#neural_network) que se ejecuta intencionalmente varias veces, donde partes de cada
ejecución alimentan la siguiente ejecución. Específicamente, las capas ocultas de la ejecución anterior
proporcionan parte de la entrada a la misma capa oculta en la siguiente ejecución. Las redes neuronales
recurrentes son particularmente útiles para evaluar secuencias, de modo que las capas ocultas puedan
aprender de ejecuciones anteriores de la red neuronal en partes anteriores de la secuencia,
Por ejemplo, la siguiente figura muestra una red neuronal recurrente que se ejecuta cuatro veces. Observe
que los valores aprendidos en las capas ocultas de la primera ejecución pasan a formar parte de la entrada
de las mismas capas ocultas en la segunda ejecución. De manera similar, los valores aprendidos en la capa
oculta en la segunda ejecución pasan a formar parte de la entrada de la misma capa oculta en la tercera
ejecución. De esta manera, la red neuronal recurrente entrena y predice gradualmente el significado de
toda la secuencia en lugar de solo el significado de las palabras individuales.
regression model - Modelo de regresión 🐣
Informalmente, un modelo que genera una predicción numérica. (Por el contrario, un modelo de
clasificación (#classification_model) genera una predicción de clase). Por ejemplo, los siguientes son
todos modelos de regresión:
● Un modelo que predice el valor de una determinada casa, como 423,000 euros.
● Un modelo que predice la esperanza de vida de cierto árbol, como 23.2 años.
● Un modelo que predice la cantidad de lluvia que caerá en una determinada ciudad durante las
próximas seis horas, como 0.18 pulgadas.
Dos tipos comunes de modelos de regresión son:
● Regresión lineal (#linear_regression), que encuentra la línea que mejor se ajusta a los valores de
las etiquetas para las características.
● Regresión logística (#logistic_regression), que genera una probabilidad entre 0.0 y 1.0 de que
un sistema normalmente se asigne a una predicción de clase.
No todos los modelos que generan predicciones numéricas son modelos de regresión. En algunos casos, una
predicción numérica es realmente sólo un modelo de clasificación que tiene nombres de clase numéricos.
Por ejemplo, un modelo que predice un código postal numérico es un modelo de clasificación, no un
modelo de regresión.
regularization - regularización 🐣
Cualquier mecanismo que reduzca el sobreajuste (#overfitting) . Los tipos populares de regularización
incluyen:
● L1 regularización (#L1_regularization)
● regularización de la deserción (#dropout_regularization)
● parada temprana (#early_stopping) (este no es un método de regularización formal, pero puede

limitar efectivamente el sobreajuste)
La regularización también se puede definir como la penalización de la complejidad de un modelo.
La regularización es contradictoria. El aumento de la regularización generalmente aumenta la pérdida de

entrenamiento, lo cual es confuso porque, bueno, ¿no es el objetivo minimizar la pérdida de
entrenamiento?
En realidad no. El objetivo no es minimizar la pérdida de entrenamiento. El objetivo es hacer excelentes

predicciones sobre ejemplos del mundo real. Sorprendentemente, aunque el aumento de la regularización
aumenta la pérdida de entrenamiento, generalmente ayuda a los modelos a hacer mejores predicciones en
ejemplos del mundo real.
regularization rate - tasa de regularización 🐣

Un número que especifica la importancia relativa de la regularización (#regularization) durante el
entrenamiento. El aumento de la tasa de regularización reduce el sobreajuste (#overfitting) , pero puede
reducir el poder predictivo del modelo. Por el contrario, reducir u omitir la tasa de regularización aumenta
el sobreajuste.
La tasa de regularización se suele representar con la letra griega lambda. La siguiente ecuación de
pérdida (#loss) simplificada muestra la influencia de lambda:
donde la regularización es cualquier mecanismo de regularización, incluyendo;
reinforcement learning (RL) - aprendizaje por refuerzo RL

Una familia de algoritmos que aprenden una política (#policy) óptima , cuyo objetivo es maximizar el
retorno (#return) al interactuar con un entorno (#environment). Por ejemplo, la recompensa final de la
mayoría de los juegos es la victoria. Los sistemas de aprendizaje por refuerzo pueden volverse expertos en
jugar juegos complejos mediante la evaluación de secuencias de movimientos de juegos anteriores que
finalmente llevaron a victorias y secuencias que finalmente llevaron a pérdidas.
ReLU 🐣
Abreviatura de Unidad Lineal Rectificada (#ReLU).
replay buffer - búfer de reproducción RL

En algoritmos similares a DQN (#deep_q-network), la memoria utilizada por el agente para almacenar
transiciones de estado para su uso en la reproducción de experiencias (#experience_replay).
reporting bias - sesgo de informe ⚖️
El hecho de que la frecuencia con la que las personas escriben sobre acciones, resultados o propiedades no
es un reflejo de sus frecuencias en el mundo real o del grado en que una propiedad es característica de
una clase de individuos. El sesgo de informes puede influir en la composición de los datos de los que
aprenden los sistemas de aprendizaje automático.
Por ejemplo, en los libros, la palabra reía prevalece más que respiraba. Un modelo de aprendizaje
automático que estime la frecuencia relativa de reír y respirar de un corpus de libros probablemente
determinaría que reír es más común que respirar.
representation - representación
El proceso de asignación de datos a características (#feature) útiles.
re-ranking - reclasificación 👎👍
La etapa final de un sistema de recomendación (#recommendation_system), durante la cual los
elementos puntuados pueden volver a calificarse de acuerdo con algún otro algoritmo (normalmente, no
ML). La reclasificación evalúa la lista de elementos generados por la fase de puntuación (#scoring),
tomando acciones como:
● Eliminar artículos que el usuario ya ha comprado.
● Aumentar la puntuación de artículos más frescos.
return - devolver RL
En el aprendizaje por refuerzo, dada una determinada política y un determinado estado, el retorno es la
suma de todas las recompensas (#reward) que el agente (#agent) espera recibir al seguir la política
(#policy) desde el estado (#state) hasta el final del episodio (#episode). El agente explica la naturaleza
retrasada de las recompensas esperadas descontando las recompensas de acuerdo con las transiciones de
estado requeridas para obtener la recompensa.
Por lo tanto, si el factor de descuento es , y denote las recompensas hasta el final del
episodio, luego el cálculo de retorno es el siguiente:
reward - premio RL
En el aprendizaje por refuerzo, el resultado numérico de realizar una acción (#action) en un estado
(#state) definido por el entorno (#environment).
ridge regularization - regularización de crestas
Sinónimo de regularización L2 (#L2_regularization). El término regularización de crestas se usa con más

frecuencia en contextos de estadísticas puras, mientras que la regularización L2 se usa con más frecuencia
en el aprendizaje automático.
RNN 🔺➡ 🟦➡🟡
Abreviatura de redes neuronales recurrentes (#recurrent_neural_network).
ROC (receiver operating characteristic) Curve - Curva ROC (característica

operativa del receptor) 🐣
Un gráfico de la tasa de verdaderos positivos (#TP_rate) frente a la tasa de falsos positivos (#FP_rate)
para diferentes umbrales de clasificación (#classification_threshold) en la clasificación binaria.
La forma de una curva ROC sugiere la capacidad de un modelo de clasificación binaria para separar las
clases positivas de las clases negativas. Supongamos, por ejemplo, que un modelo de clasificación binaria
separa perfectamente todas las clases negativas de todas las clases positivas:
La curva ROC para el modelo anterior tiene el siguiente aspecto:

Por el contrario, la siguiente ilustración representa gráficamente los valores de regresión logística sin
procesar para un modelo terrible que no puede separar las clases negativas de las clases positivas en
absoluto:
La curva ROC para este modelo es la siguiente:
Mientras tanto, en el mundo real, la mayoría de los modelos de clasificación binaria separan las clases
positivas y negativas hasta cierto punto, pero por lo general no a la perfección. Entonces, una curva ROC
típica se encuentra en algún lugar entre los dos extremos:
El punto de una curva ROC más cercano a (0.0,1.0) identifica teóricamente el umbral de clasificación
ideal. Sin embargo, varios otros problemas del mundo real influyen en la selección del umbral de
clasificación ideal. Por ejemplo, quizás los falsos negativos causen mucho más dolor que los falsos
positivos.
Una métrica numérica llamada AUC (#AUC) resume la curva ROC en un solo valor de punto flotante.
root - raíz 🌳🌲🌳

El nodo (#node-decision-tree) inicial (la primera condición (#condition)) en un árbol de decisión
(#decision-tree) . Por convención, los diagramas colocan la raíz en la parte superior del árbol de decisión.
Por ejemplo:
root directory - directorio raíz
El directorio que especificas para hospedar subdirectorios del punto de control de TensorFlow y archivos de
eventos de varios modelos.
Root Mean Squared Error (RMSE) - Raìz cuadrada del error cuadrático medio 🐣
La raíz cuadrada del error cuadrático medio (#MSE).
rotational invariance - invariancia rotacional 🖼️

En un problema de clasificación de imágenes, la capacidad de un algoritmo para clasificar correctamente
imágenes incluso cuando cambia la orientación de la imagen. Por ejemplo, el algoritmo aún puede
identificar una raqueta de tenis si está apuntando hacia arriba, hacia los lados o hacia abajo. Tenga en
cuenta que la invariancia rotacional no siempre es deseable; por ejemplo, un 9 al revés no debe
clasificarse como un 9.
Véase también invariancia traslacional (#translational_invariance) e invariancia de tamaño

(#size_invariance).
S
sampling bias - sesgo de muestreo ⚖️

sampling with replacement - muestreo con reemplazo 🌳🌲🌳

Método de selección de artículos de un conjunto de artículos candidatos en el que el mismo artículo se
puede seleccionar varias veces. La frase "con reemplazo" significa que después de cada selección, el
elemento seleccionado se devuelve al grupo de elementos candidatos. El método inverso, muestreo sin
reemplazo, significa que un artículo candidato solo se puede seleccionar una vez.
Por ejemplo, considere el siguiente conjunto de frutas:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Supongamos que el sistema selecciona aleatoriamente fig como primer elemento. Si usa muestreo con
reemplazo, entonces el sistema selecciona el segundo artículo del siguiente conjunto:
fruit = {kiwi, apple, pear, fig, cherry, lime, mango}
Sí, ese es el mismo conjunto que antes, por lo que el sistema podría elegir fig nuevamente.
Si se usa el muestreo sin reemplazo, una vez recolectada, la muestra no se puede recolectar nuevamente.
Por ejemplo, si el sistema elige aleatoriamente fig como la primera muestra, fig no se puede volver a
elegir. Por lo tanto, el sistema toma la segunda muestra del siguiente conjunto (reducido):
fruit = {kiwi, apple, pear, cherry, lime, mango}
La palabra reemplazo en muestreo con reemplazo confunde a muchas personas. En inglés, reemplazo
significa "sustitución". Sin embargo, el muestreo con reemplazo en realidad usa la definición francesa de
reemplazo , que significa "devolver algo". La palabra inglesa replace se traduce como la palabra francesa
replacement.
SavedModel - Modelo guardado
El formato recomendado para guardar y recuperar modelos de TensorFlow. SavedModel es un formato de

serialización recuperable e independiente del lenguaje, que permite que los sistemas y herramientas de
nivel superior produzcan, consuman y transformen modelos de TensorFlow.
Consulte el capítulo Guardar y restaurar (https://www.tensorflow.org/guide/saved_model) en la Guía del

programador de TensorFlow para obtener detalles completos.
Saver - Ahorrador
Un objeto de TensorFlow (https://www.tensorflow.org/api_docs/python/tf/compat/v1/train/Saver) responsable
de guardar los puntos de control del modelo.
scalar - escalar
Un solo número o una sola cadena que se puede representar como un tensor (#tensor) de rango (#rank)
0. Por ejemplo, cada una de las siguientes líneas de código crea un escalar en TensorFlow:
breed = tf.Variable("poodle", tf.string)

temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)
scaling - escalada
Cualquier transformación matemática o técnica que cambie el rango de una etiqueta y/o valor de
característica. Algunas formas de escalado son muy útiles para transformaciones como la normalización
(#normalization).
Las formas comunes de escalado útiles en Machine Learning incluyen:
● escala lineal, que generalmente usa una combinación de resta y división para reemplazar el valor
original con un número entre -1 y +1 o entre 0 y 1.
● escala logarítmica, que reemplaza el valor original con su logaritmo.
● Normalización de puntuación Z (#Z-score-normalization), que reemplaza el valor original con un

valor de punto flotante que representa el número de desviaciones estándar de la media de esa
característica.
scikit-learn
Una popular plataforma de aprendizaje automático de código abierto. Consulte scikit-learn.org

(http://scikit-learn.org/).
scoring - puntuación 👎👍
La parte de un sistema de recomendación (#recommendation_system) que proporciona un valor o
clasificación para cada elemento producido por la fase de generación de candidatos.
(#candidate_generation).
selection bias - Sesgo de selección ⚖️

Errores en las conclusiones extraídas de los datos muestreados debido a un proceso de selección que
genera diferencias sistemáticas entre las muestras observadas en los datos y las no observadas. Existen las
siguientes formas de sesgo de selección:
● sesgo de cobertura : la población representada en el conjunto de datos no coincide con la

población sobre la que el modelo de aprendizaje automático hace predicciones.
● sesgo de muestreo : los datos no se recopilan al azar del grupo objetivo.
● sesgo de no respuesta (también llamado sesgo de participación ): los usuarios de ciertos grupos
optan por no participar en las encuestas en porcentajes diferentes a los usuarios de otros grupos.
Por ejemplo, suponga que está creando un modelo de aprendizaje automático que predice el disfrute de
una película por parte de las personas. Para recopilar datos de capacitación, entrega una encuesta a todos
los que se encuentran en la primera fila de un cine que muestra la película. De entrada, esto puede sonar
como una forma razonable de recopilar un conjunto de datos; sin embargo, esta forma de recopilación de
datos puede introducir las siguientes formas de sesgo de selección:
● sesgo de cobertura: al tomar muestras de una población que optó por ver la película, es posible
que las predicciones de su modelo no se generalicen a las personas que aún no expresaron ese nivel
de interés en la película.
● sesgo de muestreo: en lugar de muestrear aleatoriamente de la población prevista (todas las

personas en la película), muestreó sólo a las personas en la primera fila. Es posible que las
personas sentadas en la primera fila estuvieran más interesadas en la película que las de otras
filas.
● sesgo de no respuesta: en general, las personas con opiniones fuertes tienden a responder
encuestas opcionales con más frecuencia que las personas con opiniones moderadas. Dado que la
encuesta de la película es opcional, es más probable que las respuestas formen una distribución
bimodal (https://wikipedia.org/wiki/Multimodal_distribution) que una distribución normal (en forma de
campana)
self-attention (also called self-attention layer) - autoatención (también
llamada capa de autoatención) 🔤
Una capa de red neuronal que transforma una secuencia de incrustaciones (por ejemplo, incrustaciones de
tokens (#token)) en otra secuencia de incrustaciones. Cada incrustación en la secuencia de salida se
construye integrando información de los elementos de la secuencia de entrada a través de un mecanismo
de atención (#attention).
La parte propia de la autoatención se refiere a la secuencia que se presta atención a sí misma en lugar de
a algún otro contexto. La autoatención es uno de los principales bloques de construcción de Transformers
(#Transformer) y utiliza terminología de búsqueda de diccionario, como "consulta", "clave" y "valor".
Una capa de autoatención comienza con una secuencia de representaciones de entrada, una para cada
palabra. La representación de entrada de una palabra puede ser una simple incrustación. Para cada
palabra en una secuencia de entrada, la red califica la relevancia de la palabra para cada elemento en la
secuencia completa de palabras. Las puntuaciones de relevancia determinan cuánto incorpora la
representación final de la palabra las representaciones de otras palabras.
Por ejemplo, considere la siguiente oración:
El animal no cruzó la calle porque estaba demasiado cansado.
La siguiente ilustración (de Transformer: una nueva arquitectura de red neuronal para la comprensión del
lenguaje (https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html)) muestra un patrón de
atención de una capa de autoatención para el pronombre it , con la oscuridad de cada línea que indica
cuánto contribuye cada palabra a la representación:
La capa de autoatención resalta las palabras que son relevantes para "eso". En este caso, la capa de
atención ha aprendido a resaltar palabras a las que podría hacer referencia, asignando el mayor peso a
animal.
Para una secuencia de n tokens (#token) , la autoatención transforma una secuencia de incrustaciones n
veces separadas, una vez en cada posición de la secuencia.
Consulte también la atención (#attention) y la autoatención de múltiples cabezas

(#multi-head-self-attention).
self-supervised learning - aprendizaje autosupervisado
Una familia de técnicas para convertir un problema de aprendizaje automático no supervisado

(#unsupervised_machine_learning) en un problema de aprendizaje automático supervisado
(#supervised_machine_learning) mediante la creación de etiquetas (#label) sustitutas a partir de
ejemplos no etiquetados (#unlabeled_example).
Algunos modelos basados en Transformer (#Transformer), como BERT (#BERT) , utilizan el aprendizaje
autosupervisado.
El entrenamiento autosupervisado es un enfoque de aprendizaje semisupervisado

(#semi-supervised_learning).
self-training - Auto-entrenamiento
Una variante del aprendizaje autosupervisado (#self-supervised-learning) que es particularmente útil

cuando se cumplen todas las condiciones siguientes:
● La proporción de ejemplos sin etiquetar (#unlabeled_example) a ejemplos etiquetados

(#labeled_example) en el conjunto de datos es alta.
● Este es un problema de clasificación (#classification_model).
El autoaprendizaje funciona mediante la iteración de los siguientes dos pasos hasta que el modelo deja de
mejorar:
1. 1. Utilice el aprendizaje automático supervisado (#supervised_machine_learning) para entrenar

un modelo en los ejemplos etiquetados.
2. 2. Utilice el modelo creado en el Paso 1 para generar predicciones (etiquetas) en los ejemplos sin
etiqueta, moviendo aquellos en los que hay un alto nivel de confianza a los ejemplos etiquetados
con la etiqueta predicha.
Tenga en cuenta que cada iteración del Paso 2 agrega más ejemplos etiquetados para que el Paso 1
entrene.
semi-supervised learning - aprendizaje semi-supervisado
Entrenamiento de un modelo en datos donde algunos de los ejemplos de entrenamiento tienen etiquetas
pero otros no. Una técnica para el aprendizaje semisupervisado es inferir etiquetas para los ejemplos no
etiquetados y luego entrenar con las etiquetas inferidas para crear un nuevo modelo. El aprendizaje
semisupervisado puede ser útil si las etiquetas son costosas de obtener, pero abundan los ejemplos no
etiquetados.
El autoaprendizaje (#self-training) es una técnica para el aprendizaje semisupervisado.
sensitive attribute - atributo sensible ⚖️
Un atributo humano al que se le puede dar una consideración especial por razones legales, éticas, sociales
o personales.
sentiment analysis - análisis de los sentimientos 🔤

Usar algoritmos estadísticos o de aprendizaje automático para determinar la actitud general de un grupo
(positiva o negativa) hacia un servicio, producto, organización o tema. Por ejemplo, utilizando la
comprensión del lenguaje natural (#natural_language_understanding) , un algoritmo podría realizar un
análisis de opinión sobre los comentarios textuales de un curso universitario para determinar el grado en
que a los estudiantes les gustó o no el curso en general.
sequence model - modelo de secuencia 🔺➡ 🟦➡🟡

Un modelo cuyas entradas tienen una dependencia secuencial. Por ejemplo, predecir el próximo video
visto a partir de una secuencia de videos vistos anteriormente.
sequence-to-sequence task - tarea de secuencia a secuencia 🔤

Una tarea que convierte una secuencia de tokens de entrada en una secuencia de tokens (#token) de
salida. Por ejemplo, dos tipos populares de tareas de secuencia a secuencia son:
● Traductores:
● Ejemplo de secuencia de entrada: "Te amo".
● Ejemplo de secuencia de salida: "Je t'aime".
● Respuesta a la pregunta:
● Ejemplo de secuencia de entrada: "¿Necesito mi automóvil en la ciudad de Nueva York?"
● Secuencia de salida de muestra: "No. Mantenga su automóvil en casa".
serving - servicio
Un sinónimo para inferir (#inference).

shape (Tensor) - forma (tensor)
El número de elementos en cada dimensión (#dimensions) de un tensor. La forma se representa como una
lista de enteros. Por ejemplo, el siguiente tensor bidimensional tiene una forma de [3,4]:
[[5, 7, 6, 4],
[2, 9, 4, 8],
[3, 6, 5, 1]]
TensorFlow usa el formato de fila principal (estilo C) para representar el orden de las dimensiones, por lo
que la forma en TensorFlow es [3,4] en lugar de [4,3]. En otras palabras, en un TensorFlow Tensor
bidimensional, la forma es [ número de filas , número de columnas ].
shrinkage - contracción 🌳🌲🌳

Un hiperparámetro (#hyperparameter) en el aumento de gradiente (#gradient-boosting) que controla el
sobreajuste (#overfitting). La contracción en el aumento de gradiente es análoga a la tasa de
aprendizaje (#learning_rate) en el descenso de gradiente (#gradient_descent). La contracción es un
valor decimal entre 0,0 y 1,0. Un valor de contracción más bajo reduce el sobreajuste más que un valor
de contracción mayor.
sigmoid function - función sigmoidea 🐣

Una función matemática que "comprime" un valor de entrada en un rango restringido, normalmente de 0 a
1 o de -1 a +1. Es decir, puede pasar cualquier número (dos, un millón, menos mil millones, lo que sea) a
un sigmoide y la salida seguirá estando en el rango restringido. Una gráfica de la función de activación
sigmoidea se ve de la siguiente manera:
La función sigmoidea tiene varios usos en el aprendizaje automático, que incluyen:
Convertir el resultado sin procesar de una regresión logística (#logistic_regression) o una regresión
multinomial (#multinomial-regression) en una probabilidad.
Actuando como una función de activación (#activation_function) en algunas redes neuronales.

La función sigmoidea sobre un número de entrada x tiene la siguiente fórmula:
En el aprendizaje automático, x generalmente es una suma ponderada (#weighted_sum).
similarity measure - medida de similitud 🍇

En los algoritmos de agrupamiento (#clustering) , la métrica utilizada para determinar qué tan parecidos
(qué tan similares) son dos ejemplos.
size invariance - invariancia de tamaño 🖼️

imágenes incluso cuando cambia el tamaño de la imagen. Por ejemplo, el algoritmo aún puede identificar a
un gato si consume 2M píxeles o 200K píxeles. Tenga en cuenta que incluso los mejores algoritmos de
clasificación de imágenes todavía tienen límites prácticos en la invariancia del tamaño. Por ejemplo, es
poco probable que un algoritmo (o un ser humano) clasifique correctamente una imagen de gato que
consuma solo 20 píxeles.
Véase también invariancia traslacional (#translational_invariance) e invariancia rotacional

(#rotational_invariance).
sketching - dibujando 🍇
En el aprendizaje automático no supervisado (#unsupervised_machine_learning), una categoría de
algoritmos que realizan un análisis de similitud preliminar en ejemplos. Los algoritmos de esbozo usan una
función hash sensible a la localidad (https://wikipedia.org/wiki/Locality-sensitive_hashing) para
identificar puntos que probablemente sean similares y luego los agrupan en cubos.
La creación de bocetos reduce el cálculo necesario para los cálculos de similitud en grandes conjuntos de
datos. En lugar de calcular la similitud para cada par de ejemplos en el conjunto de datos, calculamos la
similitud solo para cada par de puntos dentro de cada cubo.
softmax 🐣
Una función que determina las probabilidades para cada clase posible en un modelo de clasificación de
clases múltiples (#multi-class). Las probabilidades suman exactamente 1.0. Por ejemplo, la siguiente
tabla muestra cómo softmax distribuye varias probabilidades:
Image is a … Probability
dog .85
cat .13
horse .02
Softmax también se llama softmax completo.
Contraste con el muestreo de candidatos (#candidate_sampling) .
La ecuación softmax es la siguiente:
dónde:
● es el vector de salida. Cada elemento del vector de salida especifica la probabilidad de este
elemento. La suma de todos los elementos en el vector de salida es 1.0. El vector de salida
contiene el mismo número de elementos que el vector de entrada, .
● es el vector de entrada. Cada elemento del vector de entrada contiene un valor de coma
flotante.
● es el número de elementos en el vector de entrada (y el vector de salida).
Por ejemplo, supongamos que el vector de entrada es:
[1.2, 2.5, 1.8]
Por lo tanto, softmax calcula el denominador de la siguiente manera:
Por lo tanto, la probabilidad softmax de cada elemento es:

Entonces, el vector de salida es por lo tanto:
La suma de los tres elementos en es 1.0. ¡Uf!
sparse feature - característica escasa 🔤🐣

Una característica (#feature) cuyos valores son predominantemente cero o vacíos. Por ejemplo, una
característica que contiene un solo valor 1 y un millón de valores 0 es escasa.
Por el contrario, una característica densa (#dense_feature) tiene valores que predominantemente no son
cero o están vacíos.
En el aprendizaje automático, una cantidad sorprendente de características son características escasas.

Las características categóricas suelen ser características escasas. Por ejemplo, de las 300 especies de
árboles posibles en un bosque, un solo ejemplo podría identificar solo un árbol de arce (maple). O bien, de
los millones de vídeos posibles en una biblioteca de videos, un solo ejemplo podría identificar solo
"Casablanca".
En un modelo, normalmente representa características dispersas con codificación one-hot

(#one-hot_encoding) . Si la codificación one-hot es grande, puede colocar una capa de incrustación
(#embedding_layer) encima de la codificación one-hot para una mayor eficiencia.
sparse representation - representación escasa 🔤🐣

Almacenar sólo la(s) posición(es) de elementos distintos de cero en una característica dispersa.
Por ejemplo, suponga que una característica categórica con nombre species identifica las 36 especies
de árboles en un bosque en particular. Suponga además que cada ejemplo (#example) identifica una sola
especie.
Podrías usar un vector one-hot para representar las especies de árboles en cada ejemplo. Un vector
caliente contendría un solo 1 (para representar la especie de árbol en particular en ese ejemplo) y 35 0s
(para representar las 35 especies de árboles que no están en ese ejemplo). Entonces, la representación
one-hot de maple podría ser algo como lo siguiente:
Alternativamente, la representación escasa simplemente identificaría la posición de la especie en

particular. Si maple está en la posición 24, entonces la escasa representación de maple sería
simplemente:
24
Tenga en cuenta que la representación dispersa es mucho más compacta que la representación única.
Nota: No debe pasar una representación dispersa como una entrada de función directa a un modelo. En su lugar, debe
convertir la representación dispersa en una representación única antes de entrenarla.
Haga clic en el icono para ver un ejemplo un poco más complejo.
Suponga que cada ejemplo en su modelo debe representar las palabras, pero no el orden de esas palabras,
en una oración en inglés. El inglés consta de unas 170,000 palabras, por lo que el inglés es una
característica categórica con unos 170,000 elementos. La mayoría de las oraciones en inglés usan una
fracción extremadamente pequeña de esas 170,000 palabras, por lo que el conjunto de palabras en un
solo ejemplo seguramente serán datos escasos.
Considere la siguiente oración:
My dog is a great dog
Podrías usar una variante del vector one-hot para representar las palabras en esta oración. En esta
variante, varias celdas del vector pueden contener un valor distinto de cero. Además, en esta variante,
una celda puede contener un número entero distinto de uno. Aunque las palabras "mi", "es", "un" y "gran"
aparecen solo una vez en la oración, la palabra "perro" aparece dos veces. El uso de esta variante de
vectores one-hot para representar las palabras en esta oración produce el siguiente vector de 170,000
elementos:
Una representación escasa de la misma oración sería simplemente:
0: 1
26100: 2
45770: 1
58906: 1
91520: 1
Haga clic en el icono si está confundido.

El término "representación dispersa" confunde a mucha gente porque la representación dispersa en sí
misma no es un vector disperso . Más bien, la representación dispersa es en realidad una representación
densa de un vector disperso. La representación del índice de sinónimos es un poco más clara que la
"representación escasa".
sparse vector - vector escaso 🐣

Un vector cuyos valores son en su mayoría ceros. Véase también característica escasa (#sparse_features)
y escasez (#sparsity).
sparsity - escasez
El número de elementos establecidos en cero (o nulo) en un vector o matriz dividido por el número total
de entradas en ese vector o matriz. Por ejemplo, considere una matriz de 100 elementos en la que 98
celdas contienen cero. El cálculo de la dispersión es el siguiente:
La escasez de características se refiere a la escasez de un vector de características; la escasez del

modelo se refiere a la escasez de los pesos del modelo.
spatial pooling - agrupación espacial 🖼️

Véase puesta (#pooling) en común.
split - separar 🌳🌲🌳

En un árbol de decisiones (#decision-tree), otro nombre para una condición (#condition).
splitter - disidente 🌳🌲🌳

Mientras se entrena un árbol de decisión (#decision-tree) , la rutina (y el algoritmo) se encarga de
encontrar la mejor condición (#condition) en cada nodo (#node-decision-tree).
squared hinge loss - pérdida de bisagra al cuadrado
El cuadrado de la pérdida de bisagra (#hinge-loss). La pérdida de bisagra cuadrada penaliza los valores
atípicos con más dureza que la pérdida de bisagra normal.
squared loss - pérdida al cuadrado 🐣

Sinónimo de pérdida de L2 (#L2_loss).
staged training - entrenamiento por etapas 🔤

Una táctica de entrenar un modelo en una secuencia de etapas discretas. El objetivo puede ser acelerar el
proceso de entrenamiento o lograr una mejor calidad del modelo.
A continuación se muestra una ilustración del enfoque de apilamiento progresivo:
● La etapa 1 contiene 3 capas ocultas, la etapa 2 contiene 6 capas ocultas y la etapa 3 contiene
12 capas ocultas.
● La Etapa 2 comienza a entrenar con los pesos aprendidos en las 3 capas ocultas de la Etapa 1. La
Etapa 3 comienza a entrenar con los pesos aprendidos en las 6 capas ocultas de la Etapa 2.
Véase también canalización (#pipelining).

state - estado RL
En el aprendizaje por refuerzo, los valores de los parámetros que describen la configuración actual del
entorno, que el agente (#agent) utiliza para elegir una acción (#action).
state-action value function - función de valor de acción de estado RL

Sinónimo de función Q. (#q-function)
static - estático 🐣
Algo hecho una vez en lugar de continuamente. Los términos estático y fuera de línea son sinónimos. Los
siguientes son usos comunes de estático y fuera de línea en el aprendizaje automático:
● El modelo estático (o modelo fuera de línea) es un modelo entrenado una vez y luego usado por
un tiempo.
● El entrenamiento estático (o entrenamiento fuera de línea) es el proceso de entrenar un modelo

estático.
● La inferencia estática (o inferencia fuera de línea) es un proceso en el que un modelo genera un

lote de predicciones a la vez.
Contrasta con dinámico (#dynamic).
static inference - inferencia estática 🐣

Sinónimo de inferencia fuera de línea (#offline_inference).
stationarity - estacionariedad 🐣
Una característica cuyos valores no cambian en una o más dimensiones, generalmente el tiempo. Por
ejemplo, una característica cuyos valores se ven casi iguales en 2020 y 2022 exhibe estacionariedad.
En el mundo real, muy pocas características exhiben estacionariedad. Incluso las características que son
sinónimo de estabilidad (como el nivel del mar) cambian con el tiempo.
Contraste con no estacionariedad (#nonstationarity).

step - paso
Un pase hacia adelante y un pase hacia atrás de un lote (#batch).
Consulte la propagación (#backpropagation) hacia atrás para obtener más información sobre el pase hacia
adelante y el pase hacia atrás.
step size - Numero de pie

Sinónimo de tasa de aprendizaje (#learning_rate).
stochastic gradient descent (SGD) - descenso de gradiente estocástico 🐣

Un algoritmo de descenso de gradiente (#gradient_descent) en el que el tamaño del lote (#batch_size)
es uno. En otras palabras, SGD entrena en un solo ejemplo elegido uniformemente al azar de un conjunto
de entrenamiento (#training_set).
stride - paso 🖼️
En una operación convolucional o agrupación, el delta en cada dimensión de la siguiente serie de
segmentos de entrada. Por ejemplo, la siguiente animación muestra un paso (1,1) durante una operación
convolucional. Por lo tanto, el siguiente segmento de entrada comienza una posición a la derecha del
segmento de entrada anterior. Cuando la operación alcanza el borde derecho, el siguiente corte está
completamente hacia la izquierda pero una posición hacia abajo.
El ejemplo anterior demuestra una zancada bidimensional. Si la matriz de entrada es tridimensional, la

zancada también sería tridimensional.
structural risk minimization (SRM) - minimización del riesgo estructura
Un algoritmo que equilibra dos objetivos:
● El deseo de construir el modelo más predictivo (por ejemplo, la pérdida más baja).
● El deseo de mantener el modelo lo más simple posible (por ejemplo, una fuerte regularización).
Por ejemplo, una función que minimiza la pérdida + regularización en el conjunto de

entrenamiento es un algoritmo de minimización de riesgos estructurales.
Contraste con la minimización empírica del riesgo (#ERM).
subsampling - submuestreo 🖼️
Véase puesta (#pooling) en común.
summary - resumen
En TensorFlow, un valor o conjunto de valores calculados en un paso (#step) particular , generalmente

usado para rastrear métricas de modelos durante el entrenamiento.
supervised machine learning - aprendizaje automático supervisado 🐣

Entrenamiento de un modelo (#model) a partir de características (#feature) y sus etiquetas (#label)
correspondientes . El aprendizaje automático supervisado es análogo a aprender un tema mediante el
estudio de un conjunto de preguntas y sus respuestas correspondientes.
Después de dominar el mapeo entre preguntas y respuestas, un estudiante puede proporcionar respuestas a
preguntas nuevas (nunca antes vistas) sobre el mismo tema.
Compare con el aprendizaje automático no supervisado (#unsupervised_machine_learning).
synthetic feature - característica sintética 🐣

Una entidad (#feature) no presente entre las entidades de entrada, pero ensamblada a partir de una o
más de ellas. Los métodos para crear características sintéticas incluyen lo siguiente:
● Agrupación (#bucketing) de una característica continua en contenedores de rango.

●
● Creación de un cruce de características (#feature_cross).
● Multiplicar (o dividir) el valor de una característica por otro(s) valor(es) de característica o por sí
mismo. Por ejemplo, si a y b son características de entrada, los siguientes son ejemplos de
características sintéticas:
○ ab
○ a2
● Aplicar una función trascendental a un valor de característica. Por ejemplo, si c es una

característica de entrada, los siguientes son ejemplos de características sintéticas:
○ sin(c)
○ ln(c)
Las entidades creadas mediante normalización (#normalization) o escalado (#scaling) únicamente no se

consideran entidades sintéticas.
T
tabular Q-learning - Q-learning tabular RL

En el aprendizaje por refuerzo (#reinforcement_learning), implementar Q-learning (#q-learning)
mediante el uso de una tabla para almacenar las funciones Q (#q-function) para cada combinación de
estado (#state) y acción (#action).
target - objetivo
Sinónimo de etiqueta (#label).
target network - red objetivo RL

En Deep Q-learning (#q-learning), una red neuronal que es una aproximación estable de la red neuronal
principal, donde la red neuronal principal implementa una función Q (#q-function) o una política
(#policy). Luego, puede entrenar la red principal en los valores Q predichos por la red de destino. Por lo
tanto, evita el ciclo de retroalimentación que ocurre cuando la red principal se entrena con los valores Q
predichos por sí misma. Al evitar esta retroalimentación, aumenta la estabilidad del entrenamiento.
temporal data - datos temporales
Datos registrados en diferentes momentos. Por ejemplo, las ventas de abrigos de invierno registradas para
cada día del año serían datos temporales.
Tensor
La estructura de datos principal en los programas de TensorFlow. Los tensores son estructuras de datos
N-dimensionales (donde N podría ser muy grande), más comúnmente escalares, vectores o matrices. Los
elementos de un tensor pueden contener valores enteros, de punto flotante o de cadena.
TensorBoard - TensorTablero
El tablero que muestra los resúmenes guardados durante la ejecución de uno o más programas de
TensorFlow.
TensorFlow
Una plataforma de aprendizaje automático distribuida a gran escala. El término también hace referencia a
la capa base de la API en la pila de TensorFlow, que admite el cálculo general en gráficos de flujo de
datos.
Aunque TensorFlow se usa principalmente para el aprendizaje automático, también puede usar TensorFlow
para tareas que no sean de ML que requieran cálculos numéricos mediante gráficos de flujo de datos.
TensorFlow Playground - Zona de juegos TensorFlow
Un programa que visualiza cómo diferentes hiperparámetros (#hyperparameter) influyen en el

entrenamiento del modelo (principalmente de la red neuronal). Vaya a http://playground.tensorflow.org
(http://playground.tensorflow.org) para experimentar con TensorFlow Playground.
TensorFlow Serving - Servicio de TensorFlow
Una plataforma para implementar modelos entrenados en producción.
Tensor Processing Unit (TPU) - Unidad de procesamiento de tensores
Un circuito integrado específico de la aplicación (ASIC) que optimiza el rendimiento de las cargas de
trabajo de aprendizaje automático. Estos ASIC se implementan como varios chips de TPU (#TPU_chip) en
un dispositivo de TPU (#TPU_device).
Tensor rank - rango de tensor
Ver rango (Tensor) (#rank_Tensor).
Tensor shape - forma de tensor
El número de elementos que contiene un Tensor (#tensor) en varias dimensiones. Por ejemplo, un tensor
[5, 10] tiene forma de 5 en una dimensión y de 10 en otra.
Tensor size - Tamaño del tensor
El número total de escalares que contiene un tensor (#tensor). Por ejemplo, un tensor [5, 10] tiene
un tamaño de 50.
termination condition - condición de terminación RL

En el aprendizaje por refuerzo (#reinforcement_learning) , las condiciones que determinan cuándo
finaliza un episodio (#episode) , como cuando el agente alcanza un determinado estado o supera un
número umbral de transiciones de estado. Por ejemplo, en tic-tac-toe
(https://wikipedia.org/wiki/Tic-tac-toe) (también conocido como tres en raya), un episodio termina cuando un
jugador marca tres espacios consecutivos o cuando todos los espacios están marcados.
test - prueba 🌳🌲🌳

En un árbol de decisiones (#decision-tree) , otro nombre para una condición (#condition).
test loss - pérdida de prueba 🐣

Una métrica (#metric) que representa la pérdida (#loss) de un modelo frente al conjunto de prueba
(#test_set) . Al construir un modelo (#model) , normalmente intenta minimizar la pérdida de prueba. Esto
se debe a que una pérdida de prueba baja es una señal de calidad más fuerte que una pérdida de
entrenamiento baja (#training-loss) o una pérdida de validación baja (#validation-loss).
Una gran brecha entre la pérdida de prueba y la pérdida de capacitación o pérdida de validación a veces
sugiere que necesita aumentar la tasa de regularización (#regularization_rate)
test set - equipo de prueba
Un subconjunto del conjunto de datos (#dataset) reservado para probar un modelo (#model) entrenado.
Tradicionalmente, los ejemplos del conjunto de datos se dividen en los siguientes tres subconjuntos
distintos:
● un conjunto de entrenamiento (#training_set)

● un conjunto de validación (#validation_set)
● un conjunto de prueba
Cada ejemplo en un conjunto de datos debe pertenecer solo a uno de los subconjuntos anteriores. Por
ejemplo, un solo ejemplo no debe pertenecer tanto al conjunto de entrenamiento como al conjunto de
prueba.
El conjunto de entrenamiento y el conjunto de validación están estrechamente relacionados con el

entrenamiento de un modelo. Debido a que el conjunto de prueba solo se asocia indirectamente con el
entrenamiento, la pérdida de prueba (#test-loss) es una métrica menos sesgada y de mayor calidad que la
pérdida de entrenamiento (#training-loss) o la pérdida de validación (#validation-loss).
tf.Example
Un búfer de protocolo (https://developers.google.com/protocol-buffers/) estándar para describir los datos de

entrada para el entrenamiento o la inferencia del modelo de aprendizaje automático.
tf.keras
Una implementación de Keras (#Keras) integrada en TensorFlow (#TensorFlow).
threshold (for decision trees) - umbral (para árboles de decisión) 🌳🌲🌳

En una condición alineada con el eje (#axis-aligned-condition), el valor con el que se compara una
entidad (#feature). Por ejemplo, 75 es el valor de umbral en la siguiente condición:
grade >= 75
Esta forma del término umbral es diferente del umbral de clasificación (#classification_threshold).
time series analysis - análisis de series temporales 🍇

Un subcampo de aprendizaje automático y estadísticas que analiza datos temporales (#temporal_data).
Muchos tipos de problemas de aprendizaje automático requieren análisis de series temporales, incluida la
clasificación, la agrupación, la previsión y la detección de anomalías. Por ejemplo, podría utilizar el
análisis de series temporales para pronosticar las ventas futuras de abrigos de invierno por mes en función
de los datos históricos de ventas.
timestep - hora de caminar 🔺➡ 🟦➡🟡
Una celda "desenrollada" dentro de una red neuronal recurrente (#recurrent_neural_network). Por
ejemplo, la siguiente figura muestra tres intervalos de tiempo (etiquetados con los subíndices t-1, t y
t+1):
token - simbólico 🔤
En un modelo de lenguaje (#language-model) , la unidad atómica en la que el modelo está entrenando y
haciendo predicciones. Un token suele ser uno de los siguientes:
● una palabra; por ejemplo, la frase "a los perros les gustan los gatos" consta de tres tokens de
palabras: "perros", "me gusta" y "gatos".
● un carácter; por ejemplo, la frase "pez en bicicleta" consta de nueve fichas de carácter. (Tenga en
cuenta que el espacio en blanco cuenta como uno de los tokens).
● subpalabras: en las que una sola palabra puede ser un solo token o varios tokens. Una subpalabra
consta de una palabra raíz, un prefijo o un sufijo. Por ejemplo, un modelo de lenguaje que usa
subpalabras como tokens podría ver la palabra "dogs" como dos tokens (la raíz de la palabra "dog" y
el sufijo plural "s"). Ese mismo modelo de lenguaje podría ver la sola palabra "más alto" como dos
subpalabras (la raíz de la palabra "alto" y el sufijo "er").
En dominios fuera de los modelos de lenguaje, los tokens pueden representar otros tipos de unidades
atómicas. Por ejemplo, en visión artificial, un token puede ser un subconjunto de una imagen.
tower - torre
Un componente de una red neuronal profunda (#deep_neural_network) que es en sí misma una red
neuronal profunda sin una capa de salida. Por lo general, cada torre lee desde una fuente de datos
independiente. Las torres son independientes hasta que su salida se combina en una capa final.
TPU
Abreviatura de Unidad de procesamiento de tensores (#TPU).
TPU chip - microprocesador de TPU
Un acelerador de álgebra lineal programable con memoria de alto ancho de banda en chip que está
optimizado para cargas de trabajo de aprendizaje automático. Se implementan varios chips de TPU en un
dispositivo de TPU (#TPU_device).
TPU device - dispositivo de TPU
Una placa de circuito impreso (PCB) con varios chips de TPU (#TPU_chip), interfaces de red de gran ancho
de banda y hardware de refrigeración del sistema.
TPU master - Maestro de TPU
El proceso de coordinación central que se ejecuta en una máquina host que envía y recibe datos,
resultados, programas, rendimiento e información sobre el estado del sistema a los trabajadores de la TPU
(#TPU_worker). El maestro de TPU también administra la configuración y el apagado de los dispositivos
de TPU (#TPU_device) .
TPU node - nodo de TPU

Un recurso de TPU en Google Cloud Platform con un tipo de TPU (#TPU_type) específico. El nodo de TPU
se conecta a tu red de VPC (https://cloud.google.com/vpc/docs/) desde una red de VPC
(https://cloud.google.com/vpc/docs/vpc-peering) del mismo nivel . Los nodos de TPU son un recurso definido
en la API de Cloud TPU
(https://cloud.google.com/tpu/docs/reference/rest/v1/projects.locations.nodes).
TPU Pod - Cápsula de TPU
Una configuración específica de dispositivos TPU (#TPU_device) en un centro de datos de Google. Todos
los dispositivos en un pod de TPU están conectados entre sí a través de una red de alta velocidad
dedicada. Un pod de TPU es la configuración más grande de dispositivos de TPU (#TPU_device)
disponibles para una versión específica de TPU.
TPU resource - recurso de TPU
Una entidad de TPU en Google Cloud Platform que creas, administras o consumes. Por ejemplo, los nodos
de TPU (#TPU_node) y los tipos de TPU (#TPU_type) son recursos de TPU.
TPU slice - rebanada de TPU
Una porción de TPU es una porción fraccionaria de los dispositivos de TPU (#TPU_device) en un pod de
TPU (#TPU_Pod). Todos los dispositivos en un segmento de TPU están conectados entre sí a través de una
red de alta velocidad dedicada.
TPU type - tipo de TPU
Una configuración de uno o más dispositivos de TPU (#TPU_device) con una versión de hardware de TPU
específica. Selecciona un tipo de TPU cuando crea un nodo de TPU (#TPU_node) en Google Cloud
Platform. Por ejemplo, un v2-8 tipo de TPU es un solo dispositivo TPU v2 con 8 núcleos. Un v3-2048
tipo de TPU tiene 256 dispositivos TPU v3 en red y un total de 2048 núcleos. Los tipos de TPU son un
recurso definido en la API de Cloud TPU
(https://cloud.google.com/tpu/docs/reference/rest/v1/projects.locations.acceleratorTypes) .
TPU worker - trabajador de TPU
Un proceso que se ejecuta en una máquina host y ejecuta programas de aprendizaje automático en
dispositivos TPU (#TPU_device).
training - capacitación 🐣
El proceso de determinar los parámetros (#parameter) ideales (pesos y sesgos) que componen un modelo
(#model). Durante el entrenamiento, un sistema lee ejemplos (#example) y ajusta gradualmente los
parámetros. El entrenamiento utiliza cada ejemplo desde unas pocas veces hasta miles de millones de
veces.
training loss - pérdida de entrenamiento 🐣

Una métrica (#metric) que representa la pérdida (#loss) de un modelo durante una iteración de
entrenamiento particular. Por ejemplo, suponga que la función de pérdida es Error cuadrático medio
(#MSE). Tal vez la pérdida de entrenamiento (el error cuadrático medio) para la décima iteración sea 2.2
y la pérdida de entrenamiento para la iteración número 100 sea 1.9.
Una curva de pérdida (#loss_curve) traza la pérdida de entrenamiento frente al número de iteraciones.
Una curva de pérdida proporciona los siguientes consejos sobre el entrenamiento:
● Una pendiente descendente implica que el modelo está mejorando.

● Una pendiente ascendente implica que el modelo está empeorando.
● Una pendiente plana implica que el modelo ha alcanzado la convergencia (#convergence).
Por ejemplo, la siguiente curva de pérdida (#loss_curve) algo idealizada muestra:
● Una fuerte pendiente descendente durante las iteraciones iniciales, lo que implica una rápida
mejora del modelo.
● Una pendiente que se aplana gradualmente (pero aún hacia abajo) hasta cerca del final del
entrenamiento, lo que implica una mejora continua del modelo a un ritmo algo más lento que
durante las iteraciones iniciales.
● Una pendiente plana hacia el final del entrenamiento, lo que sugiere convergencia.
Aunque la pérdida de entrenamiento es importante, véase también generalización (#generalization).

training-serving skew - sesgo de servicio de entrenamiento 🐣
La diferencia entre el rendimiento de un modelo durante el entrenamiento (#training) y el rendimiento de
ese mismo modelo durante el servicio (#serving).
training set - conjunto de entrenamiento 🐣

El subconjunto del conjunto de datos (#dataset) utilizado para entrenar un modelo (#model).
Tradicionalmente, los ejemplos en el conjunto de datos se dividen en los siguientes tres subconjuntos
distintos:
● un conjunto de entrenamiento
● un conjunto de validación (#validation_set)
● un conjunto de prueba (#test_set)
Idealmente, cada ejemplo en el conjunto de datos debe pertenecer solo a uno de los subconjuntos
anteriores. Por ejemplo, un solo ejemplo no debe pertenecer tanto al conjunto de entrenamiento como al
conjunto de validación.
trajectory - trayectoria RL
En el aprendizaje por refuerzo (#reinforcement_learning), una secuencia de tuplas
(https://wikipedia.org/wiki/Tuple) que representan una secuencia de transiciones de estado (#state) del
agente (#agent), donde cada tupla corresponde al estado, la acción (#action), la recompensa (#reward)
y el siguiente estado para una transición de estado determinada.
transfer learning - transferir el aprendizaje
Transferir información de una tarea de aprendizaje automático a otra. Por ejemplo, en el aprendizaje
multitarea, un solo modelo resuelve múltiples tareas, como un modelo profundo (#deep_model) que tiene
diferentes nodos de salida para diferentes tareas. El aprendizaje por transferencia puede implicar la
transferencia de conocimientos de la solución de una tarea más simple a una más compleja, o la
transferencia de conocimientos de una tarea en la que hay más datos a otra en la que hay menos datos.
La mayoría de los sistemas de aprendizaje automático resuelven una sola tarea. El aprendizaje por
transferencia es un pequeño paso hacia la inteligencia artificial en el que un solo programa puede resolver
múltiples tareas.
Transformer - Transformador 🔤
Una arquitectura de red neuronal (#neural_network) desarrollada en Google que se basa en mecanismos
de autoatención (#self-attention) para transformar una secuencia de incrustaciones de entrada en una
secuencia de incrustaciones de salida sin depender de convoluciones (#convolution) o redes neuronales
recurrentes (#recurrent_neural_network). Un transformador puede verse como una pila de capas de
atención propia.
Un transformador puede incluir cualquiera de los siguientes:
● un codificador (#encoder)
● un decodificador (#decoder)
● tanto un codificador como un decodificador
Un codificador transforma una secuencia de incrustaciones en una nueva secuencia de la misma longitud.
Un codificador incluye N capas idénticas, cada una de las cuales contiene dos subcapas. Estas dos subcapas
se aplican en cada posición de la secuencia de incrustación de entrada, transformando cada elemento de
la secuencia en una nueva incrustación. La primera subcapa del codificador agrega información de toda la
secuencia de entrada. La segunda subcapa del codificador transforma la información agregada en una
incrustación de salida.
Un decodificador transforma una secuencia de incrustaciones de entrada en una secuencia de

incrustaciones de salida, posiblemente con una longitud diferente. Un decodificador también incluye N
capas idénticas con tres subcapas, dos de las cuales son similares a las subcapas del codificador. La tercera
subcapa del decodificador toma la salida del codificador y aplica el mecanismo de autoatención
(#self-attention) para recopilar información de él.
La publicación de blog Transformer: una nueva arquitectura de red neuronal para la comprensión del
lenguaje (https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html) proporciona una buena
introducción a Transformers.
translational invariance - invariancia traslacional 🖼️

las imágenes incluso cuando cambia la posición de los objetos dentro de la imagen. Por ejemplo, el
algoritmo aún puede identificar un perro, ya sea que esté en el centro del marco o en el extremo izquierdo
del mismo.
Véase también invariancia de tamaño (#size_invariance) e invariancia rotacional

(#rotational_invariance).
trigram - trigrama 🔺➡ 🟦➡🟡 🔤

Un N-grama (#N-gram) en el que N=3.
true negative (TN) - verdadero negativo (VN) 🐣
Un ejemplo en el que el modelo predice correctamente la clase negativa (#negative_class). Por ejemplo,
el modelo infiere que un mensaje de correo electrónico en particular no es spam y que ese mensaje de
correo electrónico realmente no es spam .
true positive (TP) - verdadero positivo (VP) 🐣

Un ejemplo en el que el modelo predice correctamente la clase positiva (#positive_class). Por ejemplo, el
modelo infiere que un mensaje de correo electrónico en particular es spam y que ese mensaje de correo
electrónico realmente es spam.
true positive rate (TPR) - Tasa de verdaderos positivos (TPR) 🐣

Sinónimo de recordar (#recall) . Eso es:
La tasa positiva verdadera es el eje y en una curva ROC (#ROC).

U
unawareness (to a sensitive attribute) - desconocimiento (a un atributo

sensible) ⚖️
Una situación en la que los atributos sensibles (#sensitive_attribute) están presentes, pero no incluidos
en los datos de entrenamiento. Debido a que los atributos confidenciales a menudo se correlacionan con
otros atributos de los datos de uno, un modelo entrenado con desconocimiento de un atributo confidencial
aún podría tener un impacto dispar (#disparate_impact) con respecto a ese atributo o violar otras
restricciones de equidad (#fairness_constraint).
underfitting - desajustar 🐣
Producir un modelo (#model) con poca capacidad predictiva porque el modelo no ha capturado
completamente la complejidad de los datos de entrenamiento. Muchos problemas pueden causar un ajuste
insuficiente, incluidos:
● Capacitación sobre el conjunto incorrecto de características (#feature).
● Entrenamiento para muy pocas épocas (#epoch) o con una tasa de aprendizaje (#learning_rate)
demasiado baja.
● Formación con un índice de regularización (#regularization_rate) demasiado elevado.
● Proporcionar muy pocas capas ocultas (#hidden_layer) en una red neuronal profunda.
undersampling - submuestreo
Eliminar ejemplos (#example) de la clase mayoritaria (#majority_class) en un conjunto de datos de

clase desequilibrada (#class_imbalanced_data_set) para crear un conjunto de entrenamiento
(#training_set) más equilibrado.
Por ejemplo, considere un conjunto de datos en el que la relación entre la clase mayoritaria y la clase
minoritaria (#minority_class) es de 20:1. Para superar este desequilibrio de clases, puede crear un
conjunto de entrenamiento que consista en todos los ejemplos de clases minoritarias pero solo una décima
parte de los ejemplos de clases mayoritarias, lo que crearía una proporción de clases de conjuntos de
entrenamiento de 2:1. Gracias al submuestreo, este conjunto de entrenamiento más equilibrado podría
producir un mejor modelo. Alternativamente, este conjunto de entrenamiento más equilibrado podría
contener ejemplos insuficientes para entrenar un modelo efectivo.
Contraste con sobremuestreo (#oversampling).

unidirectional - unidireccional 🔤
Un sistema que solo evalúa el texto que precede a una sección de texto de destino. Por el contrario, un
sistema bidireccional evalúa tanto el texto que precede como el que sigue a una sección de texto de
destino.
Ver bidireccional (#bidirectional) para más detalles.
unidirectional language model - modelo de lenguaje unidireccional 🔤

Un modelo de lenguaje (#language-model) que basa sus probabilidades solo en las fichas (#token) que
aparecen antes , no después , de las fichas de destino. Contrasta con el modelo de lenguaje bidireccional
(#bidirectional-language-model).
unlabeled example - ejemplo sin etiqueta 🐣

Un ejemplo que contiene características (#feature) pero no una etiqueta (#label). Por ejemplo, la
siguiente tabla muestra tres ejemplos sin etiquetar de un modelo de valoración de viviendas, cada uno con
tres características pero sin valor de vivienda:
Number of bedrooms Number of bathrooms House age

3 2 15
2 1 72
4 2 34
En el aprendizaje automático supervisado (#supervised_machine_learning) , los modelos se entrenan en

ejemplos etiquetados y hacen predicciones en ejemplos no etiquetados (#unlabeled_example).
En el aprendizaje semisupervisado (#semi-supervised_learning) y no supervisado

(#unsupervised_machine_learning), se utilizan ejemplos no etiquetados durante el entrenamiento.
Contraste el ejemplo no etiquetado con el ejemplo etiquetado (#labeled_example).
unsupervised machine learning - aprendizaje automático no supervisado 🍇🐣

Entrenamiento de un modelo (#model) para encontrar patrones en un conjunto de datos, normalmente un
conjunto de datos sin etiquetar.
El uso más común del aprendizaje automático no supervisado es agrupar (#clustering) datos en grupos de
ejemplos similares. Por ejemplo, un algoritmo de aprendizaje automático no supervisado puede agrupar
canciones en función de varias propiedades de la música. Los clústeres resultantes pueden convertirse en
una entrada para otros algoritmos de aprendizaje automático (por ejemplo, para un servicio de
recomendación de música). El agrupamiento puede ayudar cuando las etiquetas útiles son escasas o están
ausentes. Por ejemplo, en dominios como la lucha contra el abuso y el fraude, los clústeres pueden ayudar
a los humanos a comprender mejor los datos.
Contrasta con el aprendizaje automático supervisado (#supervised_machine_learning).
Otro ejemplo de aprendizaje automático no supervisado es el análisis de componentes principales (PCA)

(https://wikipedia.org/wiki/Principal_component_analysis) . Por ejemplo, la aplicación de PCA en un
conjunto de datos que contiene el contenido de millones de carritos de compras podría revelar que los
carritos de compras que contienen limones con frecuencia también contienen antiácidos.
uplift modeling - modelado de elevación
Una técnica de modelado, comúnmente utilizada en marketing, que modela el "efecto causal" (también
conocido como "impacto incremental") de un "tratamiento" en un "individuo". Aquí hay dos ejemplos:
● Los médicos pueden usar modelos de mejora para predecir la disminución de la mortalidad (efecto
causal) de un procedimiento médico (tratamiento) según la edad y el historial médico de un
paciente (individual).
● Los especialistas en marketing pueden usar modelos de aumento para predecir el aumento en la
probabilidad de una compra (efecto causal) debido a un anuncio (tratamiento) en una persona
(individuo).
El modelo de mejora difiere de la clasificación (#classification_model) o la regresión

(#regression_model) en que algunas etiquetas (por ejemplo, la mitad de las etiquetas en los tratamientos
binarios) siempre faltan en el modelo de mejora. Por ejemplo, un paciente puede recibir o no recibir un
tratamiento; por tanto, sólo podemos observar si el paciente va a curar o no en una sola de estas dos
situaciones (pero nunca en ambas). La principal ventaja de un modelo uplift es que puede generar
predicciones para la situación no observada (el contrafactual) y usarla para calcular el efecto causal.
upweighting - ponderación
Aplicar un peso a la clase reducida (#downsampling) de tamaño igual al factor por el cual se redujo la
muestra.
user matrix - matriz de usuarios 👎👍
En los sistemas de recomendación (#recommendation_system), un vector de incrustación
(#embedding_vector) generado por factorización matricial (#matrix_factorization) que contiene señales
latentes sobre las preferencias del usuario. Cada fila de la matriz de usuarios contiene información sobre
la fuerza relativa de varias señales latentes para un solo usuario. Por ejemplo, considere un sistema de
recomendación de películas. En este sistema, las señales latentes en la matriz de usuarios pueden
representar el interés de cada usuario en géneros particulares, o pueden ser señales más difíciles de
interpretar que involucran interacciones complejas entre múltiples factores.
La matriz de usuarios tiene una columna para cada función latente y una fila para cada usuario. Es decir, la
matriz de usuario tiene el mismo número de filas que la matriz de destino que se factoriza. Por ejemplo,
dado un sistema de recomendación de películas para 1,000,000 de usuarios, la matriz de usuarios
tendrá 1,000,000 de filas.
V
validation - validación 🐣
La evaluación inicial de la calidad de un modelo. La validación verifica la calidad de las predicciones de un
modelo contra el conjunto de validación (#validation_set).
Debido a que el conjunto de validación difiere del conjunto de entrenamiento (#training_set), la

validación ayuda a evitar el sobreajuste (#overfitting).
Podría pensar en evaluar el modelo contra el conjunto de validación como la primera ronda de pruebas y
evaluar el modelo contra el conjunto de pruebas (#test_set) como la segunda ronda de pruebas.
validation loss - pérdida de validación 🐣

Una métrica (#metric) que representa la pérdida (#loss) de un modelo en el conjunto de validación
(#validation_set) durante una iteración (#iteration) particular de entrenamiento.
Véase también curva de generalización (#generalization_curve).
validation set - conjunto de validación 🐣

El subconjunto del conjunto de datos (#dataset) que realiza la evaluación inicial contra un modelo
(#model) entrenado. Por lo general, evalúa el modelo entrenado con el conjunto de validación
(#validation_set) varias veces antes de evaluar el modelo con el conjunto de prueba (#test_set).
Tradicionalmente, divide los ejemplos en el conjunto de datos en los siguientes tres subconjuntos distintos:
● un conjunto de entrenamiento (#training_set)

● un conjunto de validación
● un conjunto de prueba (#test_set)
Idealmente, cada ejemplo en el conjunto de datos debe pertenecer solo a uno de los subconjuntos
anteriores. Por ejemplo, un solo ejemplo no debe pertenecer tanto al conjunto de entrenamiento como al
conjunto de validación.
vanishing gradient problem - problema del gradiente de fuga 🔺➡ 🟦➡🟡
La tendencia de los gradientes de las primeras capas ocultas (#hidden_layer) de algunas redes
neuronales profundas (#deep_neural_network) a volverse sorprendentemente planos (bajos). Los
gradientes cada vez más bajos dan como resultado cambios cada vez más pequeños en los pesos de los
nodos en una red neuronal profunda, lo que lleva a un aprendizaje escaso o nulo. Los modelos que sufren
el problema del gradiente de fuga se vuelven difíciles o imposibles de entrenar. Las celdas de memoria a
corto plazo (#Long_Short-Term_Memory) abordan este problema.
Comparar con el problema del gradiente explosivo (#exploding_gradient_problem).
variable importances - importancias variables 🌳🌲🌳

Un conjunto de puntuaciones que indica la importancia relativa de cada característica (#feature) para el
modelo.
Por ejemplo, considere un árbol de decisiones (#decision-tree) que estima los precios de las casas.
Suponga que este árbol de decisiones utiliza tres características: tamaño, antigüedad y estilo. Si se calcula
que un conjunto de importancias variables para las tres características es {tamaño = 5.8, edad =
2.5, estilo = 4.7}, entonces el tamaño es más importante para el árbol de decisión que la edad o
el estilo.
Existen diferentes métricas de importancia variable, que pueden informar a los expertos de ML sobre
diferentes aspectos de los modelos.
W
Wasserstein loss - Pérdida de Wasserstein
Una de las funciones de pérdida comúnmente utilizada en las redes adversarias generativas
(#generative_adversarial_network), basada en la distancia del movimiento de tierra
(#earth-movers-distance) entre la distribución de los datos generados y los datos reales.
weight - peso 🐣
Un valor que un modelo multiplica por otro valor. El entrenamiento (#training) es el proceso de
determinar los pesos ideales de un modelo; la inferencia (#inference) es el proceso de usar esos pesos
aprendidos para hacer predicciones.
Haga clic en el icono para ver un ejemplo de pesos en un modelo lineal.
Imagine un modelo lineal (#linear_model) con dos características. Supongamos que el entrenamiento
determina los siguientes pesos (y sesgos (#bias)):
● El sesgo, b, tiene un valor de 2.2

● El peso, w1 asociado con una característica es 1.5.
● El peso, w2 asociado con la otra característica es 0.4.
Ahora imagine un ejemplo (#example) con los siguientes valores de característica:
● El valor de una característica, x1 , es 6.

● El valor de la otra característica, x2 , es 10.
Este modelo lineal utiliza la siguiente fórmula para generar una predicción, y':
Por lo tanto, la predicción es:
Si un peso es 0, entonces la característica correspondiente no contribuye al modelo. Por ejemplo, si w1 es

0, entonces el valor de x1 es irrelevante.
Weighted Alternating Least Squares (WALS) - Mínimos cuadrados alternos
ponderados 👎👍
Un algoritmo para minimizar la función objetivo durante la factorización de matrices
(#matrix_factorization) en los sistemas de recomendación (#recommendation_system), que permite
reducir la ponderación de los ejemplos que faltan. WALS minimiza el error cuadrático ponderado entre la
matriz original y la reconstrucción al alternar entre fijar la factorización de filas y la factorización de
columnas. Cada una de estas optimizaciones se puede resolver mediante la optimización convexa
(#convex_optimization) de mínimos cuadrados . Para obtener más información, consulte el curso Sistemas
de recomendación (/machine-learning/recommendation/collaborative/matrix) .
weighted sum - suma ponderada 🐣

La suma de todos los valores de entrada relevantes multiplicada por sus pesos correspondientes. Por
ejemplo, suponga que las entradas relevantes consisten en lo siguiente:
input value input weight
2 -1.3
-1 0.6
3 0.4
La suma ponderada es por lo tanto:
weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0
Una suma ponderada es el argumento de entrada de una función de activación (#activation_function).
wide model - modelo ancho
Un modelo lineal que normalmente tiene muchas características de entrada dispersas

(#sparse_features). Nos referimos a él como "ancho" ya que dicho modelo es un tipo especial de red
neuronal (#neural_network) con una gran cantidad de entradas que se conectan directamente al nodo de
salida. Los modelos amplios suelen ser más fáciles de depurar e inspeccionar que los modelos profundos
(#deep_model). Si bien los modelos amplios no pueden expresar las no linealidades a través de capas
ocultas (#hidden_layer), los modelos amplios pueden usar transformaciones como el cruce de
características (#feature_cross) y la segmentación (#bucketing) para modelar las no linealidades de
diferentes maneras.
Contraste con el modelo profundo (#deep_model).

width - ancho
El número de neuronas (#neuron) en una capa (#layer) particular de una red neuronal
(#neural_network).
wisdom of the crowd - sabiduría de la multitud 🌳🌲🌳

La idea de que promediar las opiniones o estimaciones de un gran grupo de personas ("la multitud") a
menudo produce resultados sorprendentemente buenos. Por ejemplo, considere un juego en el que las
personas adivinen la cantidad de gominolas que hay en un frasco grande. Aunque la mayoría de las
conjeturas individuales serán inexactas, se ha demostrado empíricamente que el promedio de todas las
conjeturas es sorprendentemente cercano al número real de gominolas en el frasco.
Los conjuntos (#ensemble) son un software análogo a la sabiduría de la multitud. Incluso si los modelos
individuales hacen predicciones muy imprecisas, promediar las predicciones de muchos modelos a menudo
genera predicciones sorprendentemente buenas. Por ejemplo, aunque un árbol de decisiones
(#decision-tree) individual puede hacer malas predicciones, un bosque de decisiones (#decision-forest) a
menudo hace muy buenas predicciones.
word embedding - incrustación de palabras 🔤

Representar (#representation) cada palabra en un conjunto de palabras dentro de un vector de
incrustación (#embedding_vector); es decir, representando cada palabra como un vector de valores de
punto flotante entre 0.0 y 1.0. Las palabras con significados similares tienen representaciones más
similares que las palabras con significados diferentes. Por ejemplo, las zanahorias , el apio y los pepinos
tendrían representaciones relativamente similares, que serían muy diferentes de las representaciones del
avión , las gafas de sol y la pasta de dientes.
Z
Z-score normalization - Normalización de puntuación Z 🐣

Una técnica de escalado (#scaling) que reemplaza un valor de característica (#feature) sin procesar con
un valor de punto flotante que representa el número de desviaciones estándar de la media de esa
característica. Por ejemplo, considere una característica cuya media es 800 y cuya desviación estándar es
100. La siguiente tabla muestra cómo la normalización del puntaje Z asignaría el valor bruto a su puntaje
Z:
Raw value Z-score
800 0
950 +1.5
575 -2.25
Luego, el modelo de aprendizaje automático se entrena en los puntajes Z para esa función en lugar de los
valores sin procesar.

Glosario ML 002

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Glosario ML 002

Cargado por

Copyright:

Formatos disponibles

GLOSARIO DE TÉRMINOS ML

A/B testing - Pruebas A / B

La clasificación binaria (#binary_classification) proporciona nombres específicos para las diferentes

Compare y contraste la precisión con la precisión (#precision) y la recuperación (#recall).

Click the icon for additional notes.

Por lo tanto, la precisión de este modelo es:

accuracy = (TP + TN) / (TP + TN + FP + FN)

Aunque el 99,93% de precisión parece un porcentaje impresionante, el modelo en realidad no tiene

Las funciones de activación populares incluyen:

Una gráfica de la función de activación sigmoidea se ve de la siguiente manera:

Click the icon to see an example.

input value input weight

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

active learning - aprendizaje activo

agglomerative clustering - agrupamiento aglomerativo 🍇

anomaly detection - detección de anomalías

area under the PR curve - área bajo la cura PR

area under the ROC curve - área bajo la curva ROC

artificial intelligence - inteligencia artificial 🐣

Formalmente, el aprendizaje automático (#machine_learning) es un subcampo de la inteligencia

Consulte también la autoatención (#self-attention) y la autoatención de varios cabezales

En la equidad del aprendizaje automático, los atributos a menudo se refieren a características

AUC (Area under the ROC curve) 🐣

Sí, el modelo anterior tiene un AUC de 0.5, no de 0.0.

Una curva ROC más típica se ve aproximadamente como la siguiente:

Click the icon for a more formal definition of AUC.

augmented reality - realidad aumentada 🖼️

automation bias - sesgo de automatización ⚖️

average precision - precisión media

Véase también Área bajo la curva PR (#area_under_the_pr_curve).

axis-aligned condition - condición alineada con el eje 🌳🌲🌳

area > 200

Contraste con condición oblicua (#oblique-condition).

En términos de cálculo, la retropropagación implementa la regla de la cadena de cálculo -chain rule-.

El término bagging es la abreviatura de bootstrap agg regating .

bag of words - bolsa de palabras 🔤

● Un 1 para indicar la presencia de una palabra.

batch normalization - normalización por lotes

Normalizando (#normalization) la entrada o salida de las funciones de activación

batch size - tamaño por lote 🐣

Las siguientes son estrategias populares de tamaño de lote:

● Descenso de gradiente estocástico (SGD) (#SGD), en el que el tamaño del lote es 1.

Una red neuronal (#neural_network) probabilística que da cuenta de la incertidumbre en pesos

Bayesian optimization - optimización bayesiana

Una técnica de modelo de regresión probabilística para optimizar (#probabilistic-regression-model)

Bellman equation - Ecuación de Bellman RL

BERT tiene las siguientes características:

● Utiliza la arquitectura Transformer (#Transformer) y, por lo tanto, se basa en la autoatención

Las variantes de BERT incluyen:

● ALBERT (https://ai.googleblog.com/2019/12/albert-lite-bert-for-self-supervised.html), que es un

bias (ethics/fairness) - sesgo (ética/equidad) ⚖️🐣

● sesgo de automatización (#automation_bias)

● sesgo de cobertura (#selection_bias)

bias (math) or bias term - sesgo o término de sesgo 🐣

Por ejemplo, el sesgo es la b en la siguiente fórmula:

bigram - bigrama 🔺➡ 🟦➡🟡 🔤

Por ejemplo, considere un modelo de lenguaje enmascarado (#masked-language-model) que debe

bidirectional language model - modelo de lenguaje bidireccional 🔤

binary classification - clasificación binaria 🐣

● la clase positiva (#positive_class)

Contrasta con la clasificación multiclase (#multi-class) . Véase también regresión logística

Contraste con condición no binaria (#non-binary-condition) .

BLEU (Bilingual Evaluation Understudy)-(Suplente de evaluación bilingüe) 🔤

Expandir la forma de un operando en una operación matemática matricial a dimensiones (#dimensions)