AI Dictionary PDF

Diccionario Inglés-Español
de
Términos Técnicos
en
Inteligencia Artificial (IA)
Spanish-English Dictionary
of
Technical Terms
in
Artificial Intelligence (AI)
Omar U. Florez, PhD

San Francisco, California
USA
(c) 2018 Capital One Services, LLC This work

is licensed under the Creative Commons Attribution 4.0 In-
ternational License. To view a copy of this license, visit
https://creativecommons.org/licenses/by/4.0/legalcode.
1
Contents
1 Prefacio 4
2 Preface 5
3 Diccionario 6
A . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
B . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
C . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
D. . . . . . . . . . . . . . . . . . . . . . . . . . . 9
E . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
F . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
G. . . . . . . . . . . . . . . . . . . . . . . . . . . 12
H. . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
J . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
K . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
L . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
M . . . . . . . . . . . . . . . . . . . . . . . . . . 15
N. . . . . . . . . . . . . . . . . . . . . . . . . . . 16
O. . . . . . . . . . . . . . . . . . . . . . . . . . . 16
P . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Q. . . . . . . . . . . . . . . . . . . . . . . . . . . 17
R . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
S . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
T . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
U. . . . . . . . . . . . . . . . . . . . . . . . . . . 19
V . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2
CONTENTS CONTENTS
W . . . . . . . . . . . . . . . . . . . . . . . . . . 20
X . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Y . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Z . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3
Prefacio
Una gran parte del conocimiento relacionado a la

Inteligencia Artificial esta disponible sólo en Inglés. Esto
previene que la información se compartan entre los
hablantes de Espanol e Inglés, y llegue a todos con la
misma igualdad de oportunidades.
Con el fin de apoyar al entendimiento de la Inteligencia

Artificial en la comunidad de Latinos y Latinas, se ha
creado el Primer Diccionario Inglés-Español de
Términos Técnicos en Inteligencia Artificial (IA).
Usuarios que pueden beneficiarse de este diccionario son
estudiantes, periodistas, y divulgadores cientı́ficos que
necesiten un acceso directo a conceptos de IA y que
puedan compartirse fácilmente en un lenguaje simple.
Por ese motivo, la primera definición de cada concepto

corresponde a una descripción en alto nivel. Las
siguientes explicaciones proveen detalles técnicos y
matemáticos para lectores interesados en profundizar su
comprensión. El formato de cada entrada es el siguiente;
Concepto [Traducción] -tipo Explicación
simple del término técnico. Segundo nivel
de detalle de este concepto.
Espero os sea útil.
Omar U. Florez, PhD

Diciembre del 2018
4
Preface
A major part of knowledge related to Artificial

Intelligence is only available in English. This prevents
information and recent discoveries from being equally
shared among Spanish and non-Spanish speakers.
With the goal of supporting the understanding of Artificial

Intelligence in the LatinX community, it has been created
the First English-Spanish Dictionary of Technical Terms
in Artificial Intelligence (AI). Users that may benefit
from this dictionary are students, media professionals, and
scientific disseminators who need quick and direct access
to AI concepts that can be easily shared.
The first definition of each concept corresponds to a

high-level description. Following explanations provide
technical details and mathematical formulations behind
the concepts for readers interested in obtaining an
advanced understanding. The format of each entry
follows;
Concept [Translation] -type Simple

explanation of the technical term. Second
level of detail for this concept.
Hope you find it useful.
Omar U. Florez, PhD

December of 2018
5
Diccionario
A hı́perbólico (Tanh), Recti-

fied linear unit (ReLU), y Ex-
ponential Linear Unit (ELU)
Accuracy [Exactitud] -n. Es una
métrica del rendimiento de Algorithm [Algoritmo] -n. Es una
un clasificador y se rep- secuencia de operaciones
resenta como el número que resuelven una conjunto
de clasificaciones correc- de problemas y que involu-
tas (True Positives y True cran el procesamiento de
Negatives) dividido por el datos, el cálculo de op-
número total de elementos eraciones matemáticas, o
en el dataset de training, la predicción de resultados
testing, o validación (True basados en evidencia. Un al-
Positives, True Negatives, goritmo puede ser definido
False Positives, False Nega- en un lenguaje de progra-
tives). mación y expresado como
una función con datos de
Activation Function [Función de entrada y de salida.
Activación] -n. Es una trans- Artificial Intelligence (AI)
formación matemática que [Inteligencia Artificial] -
sucede a la salida de una n. Es la capacidad de las
neurona artificial. Esta op- maquinas de demostrar in-
eración sucede después de teligencia o imitar capaci-
haber calculado la combi- dades cognitivas propias de
nación lineal de los datos de seres inteligentes. Estas ca-
entrada con los respectivos pacidades incluyen razonar,
pesos de la neurona. representar conocimiento,
La función de activación aprender en base a eviden-
esta inspirada en la influen- cias, planear en base a ob-
cia del campo eléctrico ex- jetivos, tener curiosidad, y
tracelular sobre un conjunto entender el lenguaje natu-
de neuronas biológicas. ral.
Ejemplos populares de fun- La implementación de in-
ciones de activación inteligencia artificial se basa
cluyen: Sigmoid, Tangente en métodos de optimización
6
Attributes Bias
matemática, inferencia es- La técnica Gradient Descent

tadı́stica, y abstracción com- (ref. Gradient Descent) uti-
putacional. liza back propagation para
Actualmente la Inteligen- actualizar los pesos de una
cia Artificial (IA) recibe red neuronal con un vector
influencia de diver- llamado gradiente, el cual
sos campos incluyendo comúnmente corresponde a
lingüı́stica, biologı́a, psi- la primera derivada de la
cologı́a, economı́a, y mu- función de costo con re-
chos otros. specto a sus pesos. El valor
y dirección de la gradiente
Attributes [Caracterı́sticas] - guı́a la optimización de los
n. Representan las pesos hacia el valor máximo
propiedades de un objeto. de la función de costo. De-
Cuando son observables, se bido a que back propagation
pueden medir de forma au- tiene como objetivo reducir
tomática con sensores (e.g., la noción de error (loss func-
los pixeles de un objeto, el tion) en el sistema, los pe-
espectro de frecuencias de sos se actualizan con el valor
un audio, o las palabras de negativo de la gradiente.
un tweet) o de forma man-
ual (e.g., el nombre de una Bias [Sesgo/Prejuicio] -n. Un al-
persona o el tipo de música goritmo de aprendizaje su-
de una canción). Cuando pervisado muestra un alto
no son observables, se les bias cuando predice de
denomina latentes y se les forma frecuente resultados
representa como un vector incorrectos para cierta clase
numérico en cierto espacio de observaciones.
matemático llamado embed- Existe un balance entre el
ding (e.g. la salida de una bias y el variance (ref.
capa en una red neuronal) Variance) al momento de
diseñar la solución a un
problema de aprendizaje su-
B pervisado: un algoritmo con
poca capacidad (ref. Ca-
pacity) puede ser poco flex-
Back Propagation [Retro- ible al aprender un número
propagación] -n. Es una pequeño de interacciones en
técnica de optimización los datos de entrenamiento,
matemática que se utiliza mostrando ası́ un alto bias y
para entrenar una red neu- un menor variance.
ronal. Este algoritmo em- Por el contrario, un al-
pieza por calcular el error goritmo con alta capaci-
en la capa de salida de la red dad puede llegar a ser de-
y luego propaga esta infor- masiado flexible al apren-
mación hacia las capas ante- der interacciones complejas
riores utilizando la regla de en distintas regiones del es-
la cadena sobre cada capa pacio de los datos e in-
(ref. Chain Rule). cluso aprender el ruido pre-
7
C Convolution
sente en los datos de en- entre los valores sucesivos

tranamiento. El resultado es de la función de costo es
que el modelo se comporta casi constante, el ciclo de
de forma distinta con difer- entrenamiento alcanza un
entes datasets, mostrando máximo número de pasos,
un bajo bias pero un alto o las funciones de costo de
variance. los datos de entrenamiento
y validación dejan de dis-
minuir de forma conjunta.
Muchas veces seguir en-
C trando a partir del punto
de convergencia conduce al
Capacity [Capacidad] -n. Es un modelo a aprender el ruido
valor numérico que mide presente en los datos de en-
la complejidad de un mod- trenamiento y generar over-
elo para reconocer la pres- fiting.
encia de distintas clases en
Convolution [Convolución] -n. Es
los datos. Dicha compleji-
una operación matemática
dad obedece a las interac-
entre dos señales f y g que
ciones entre las variables de
expresa la transformación
entrada, latentes, y de sal-
de f cuando se le desplaza
ida que componen un mod-
por encima g. Por ejem-
elo. Mientras más grande
plo, imagine los pixeles de
sea la capacidad, el modelo
un imagen f que contiene
puede aproximar funciones
el rostro de una persona y
más complejas y no-lineales.
un conjunto de pesos g de
En redes neuronales, la una red neuronal que multi-
capacidad es comúnmente plica partes consecutivas de
proporcional al número de la imagen con el objetivo
pesos que exhibe su arqui- de calcular similaridades en
tectura y los cuales repre- toda la señal. El resultado
sentan los parámetros en- es la convolución (f ∗ g)
trenables del modelo . y consiste en una secuen-
Una medida más teórica cia de valores que expresan
de la capacidad es el VC que partes del rostro reac-
Dimension (ref. VC Di- cionan más a la señal g,
mension), la cual mide el resaltando en este proceso
número máximo de obser- esquinas, bordes, texturas,
vaciones que un clasificador y otras caracterı́sticas (ref.
puede asignarles etiquetas Feature).
de forma correcta.
Note que la convolución an-
Convergence [Convergencia] -n. terior recibe datos de en-
Es un estado de estabilidad trada en dos dimensiones
dentro del proceso de entre- en la función f , mas es
namiento de un modelo de muy frecuente usar también
aprendizaje automático. señales unidimensionales,
Podemos observar conver- como por ejemplo en el
gencia cuando la diferencia análisis de series de tiempo.
8
Convolutional Neural Network (CNN) Deep Neural Networks
Si los datos son discretos, relacionadas a un prob-

es posible acelerar el calculo lema determinado. Ejem-
de la convolución mediante plos conocidos incluyen
el computo del Fast Fourier una colección de imágenes
Transform (FFT) para cada que contienen objetos fre-
señal f y g independiente- cuentes (ImageNet dataset),
mente, luego se multiplica las noticias de una agen-
ambas transformaciones el- cia internacional (Reuters-
emento por elemento, y fi- 21578 dataset), una lista de
nalmente se calcula la in- canciones (1 Million Songs
versa del FFT de este pro- dataset), o las preferencias
ducto. de varios usuarios sobre de-
Convolutional Neural Network (CNN) terminadas pelı́culas (Net-
[Red Neuronal Convolu- flix dataset). El dataset más
cional] -n. Un tipo de red conocido en algoritmos de
neuronal profunda que uti- aprendizaje profundo (ref.
liza operaciones de con- Deep Learning) es ImageNet
volución (ref. Convolution) y consiste de más de un
a través de una jerarquı́a de millón de observaciones,
capas sobre los datos de en- categorizadas en 1000 tipos
trada para imitar el efecto de objetos.
de los campos receptivos Cuando el dataset se al-
en la visión humana. Dicha macena en una matriz, las
transformación aprende una columnas representan los
representación de los datos diferentes atributos de un
en cada capa generando problema (ref. Feature) y
caracterı́sticas más comple- las filas representan los vec-
jas mientras más profunda tores de atributos u obser-
sea la arquitectura de la red vaciones de distintas instan-
neuronal. cias del problema (ref. Fea-
Este modelo ha sido in- ture Vector).
spirado por el trabajo de Para datos textuales, al
Hubel y Wiesel en proce- dataset también se le de-
samiento de información nomina corpus.
en el córtex visual, en
donde se manifiesta los Deep Neural Networks [Redes
beneficios de explotar las Neuronales Profundas] -
correlaciones espaciales en n. Son redes neuronales
imágenes. Esto añade ro- que contiene más de una
bustez a las transforma- capa escondida, lo cual in-
ciones tales como cambios crementa la capacidad del
de orientación y escala. modelo para aproximar fun-
ciones más complejas (Ref.
Capacity).
D El éxito actual de las redes

neuronales profundas rad-
ica en aplicar optimización
Dataset -n. Es una colección basada en gradientes (Ref.
de datos u observaciones Gradients) a modelos pro-
9
Deep Learning Entropy
fundos que tienen una gran estadı́sticas en los datos de

capacidad para identificar entrada como la voz hu-
distintas interacciones en mana o las palabras en un
los datos de entrada (pa- tweet suelen ser aprendi-
trones). De esta manera, das con una red neuronal
la arquitectura del modelo llamada Long Short-Term
es proporcional a su de- Memory (LSTM), y recon-
sempeño, si se le alimenta strucciones de los datos de
con una gran cantidad de in- entrada con el fin de com-
formación y muestra una ca- primir la información o seg-
pacidad adecuada. mentarla se representan con
Variational Auto Encoders
Deep Learning [Aprendizaje Pro- (VAE).
fundo] -n. Es una técnica
de aprendizaje automático
basado en redes neuronales
profundas (ref. Deep Neu- E
ral Networks) que tiene la
propiedad de aprender car-
Entropy [Entropia] -n. Es una me-
acterı́sticas o features du-
dida de información que in-
rante su proceso de entre-
dica el grado de desorden
namiento. Esto la difer-
en un conjunto o la canti-
encia de otras técnicas de
dad de ruido en una señal.
aprendizaje automático que
En teorı́a de la información,
requieren una selección de
la entropı́a se mide en bits y
caracterı́sticas manual o au-
representa el porcentaje de
tomatizada por propiedades
información generado por
estadı́sticas.
un proceso estocástico (re-
La clasificación realizada fer. Stochastic).
por un algoritmo de deep La entropı́a se define
learning muestra un mejor Matemáticamente como el
rendimiento debido a que valor esperado del logar-
encuentra de forma itera- itmo negativo de los ele-
tiva el espacio matemático mentos de una distribución
en donde la función de per- discreta.
dida (ref. Loss Function) se
minimiza. X
H=− Pi ln Pi
La capacidad del algo-
ritmo para recordar pa- i
trones se relaciona directa- Interesantemente, la en-

mente con su arquitectura. tropı́a utiliza el logaritmo
Por ejemplo, patrones es- negativo para cuantificar la
paciales como texturas en mayor cantidad de infor-
imágenes pueden ser apren- mación presente en eventos
didos por una red neuronal menos probables y la mul-
profunda llamada Convo- tiplica por la probabilidad
lutional Neural Network de su ocurrencia calculando
(CNN), patrones temporales ası́ su valor esperado (ref.
que muestran dependencias Expected Value).
10
Expected Value Feature Vector
El concepto de entropı́a en particular asociada a un

la información fue intro- fenómeno, el cual puede ser
ducido por Claude Shan- observable o escondido (la-
non en su trabajo titulado tente). Ejemplos de car-
”A Mathematical Theory of acterı́sticas observables in-
Communication” en 1948. cluyen los pixeles de una im-
agen, las frecuencias de un
Expected Value [Valor Esperado]
audio, las palabras de un
-n. Es el valor predicho
texto, o incluso las conex-
de una variable y corre-
iones en una red social. Una
sponde a la suma del valor
caracterı́stica latente es el
de cada observación multi-
valor de salida (activación)
plicada por la probabilidad
de una neurona dentro de
de su ocurrencia.
una capa.
Matemáticamente, si x rep-
resenta el valor de la vari- Al proceso de escoger o
able X y p(x) es su prob- crear caracterı́sticas que
abilidad de ocurrencia, el sean estadı́sticamente in-
valor esperado de X se de- formativas, no muestren
fine como, redundancia, y discrimi-
nen correctamente se le
denomina feature engineer-
k
X ing (ingenierı́a de carac-
E[X] = xi p(xi ) terı́sticas) y es muy impor-
tante para obtener modelos
i=1
de regresión, clasificación,
La regla de los números lar- y clustering que funcionen
gos (law of large numbers) de forma más exacta y sean
establece que el promedio robustos al ruido.
de los valores de una vari- La salida de un modelo
able casi seguramente con- también se le puede usar
verge a su valor esperado si como una caracterı́stica y se
el número de repeticiones es le denomina meta-data.
casi infinito.
Feature Vector [Vector de Carac-
Cuando un algoritmo de terı́sticas] -n. Es el conjunto
aprendizaje automático pro- de distintas caracterı́sticas
duce predicciones cuyo (ref. Feature) asociadas al
valor esperado es igual al mismo fenómeno.
valor real de la variable, se
dice que no muestra bias y El número de dimensiones
es por lo tanto un unbiased de este vector representa la
estimator. cantidad de caracterı́sticas
que describen el estado de
cierto fenómeno. La dimen-
sionalidad o número de car-
F acterı́sticas de este vector no
deberı́a ser muy largo, de-
bido al llamado curse of di-
Feature [Caracterı́stica] -n. Es mensionality (maldición de
el valor de una propiedad la alta dimensionalidad), la
11
G Gradient Descent
cual representa la dificultad diferentes, por ejemplo un

en separar vectores de alta perro.
dimensionalidad en distin- En el aprendizaje au-
tas clases. Por otro lado, el tomático, se utiliza el ter-
número de vectores de car- mino inferencia (ref. Infer-
acterı́sticas indica el tamaño ence) para referirse a esta
del dataset con el que pode- propiedad.
mos entrenar y validar un Gradient [Gradiente] -n. La gra-
modelo. diente de una función es un
Los algoritmos de inteligen- vector que apunta en la di-
cia artificial usualmente re- rección donde su función se
quieren de un vector de car- maximiza. A la magnitud
acterı́sticas para facilitar el de la gradiente se le conoce
proceso numérico de encon- como pendiente.
trar patrones en los datos. Matemáticamente, a la gra-
A menudo un vector de car- diente de la función difer-
acterı́sticas puede contener enciable f en el punto x0
valores faltantes (ref. Miss- se le denota como ∇f (x0 ) y
ing Values), lo cual suele in- representa la tangente de la
dicar que no todas las carac- función en ese punto, es de-
terı́sticas son observables al cir es la mejor aproximación
mismo tiempo. lineal a f en x0 . Tal aproxi-
mación se le calcula como
G f (x) = f (x0 )+∇f (x0 )·(x−x0 )

para un x muy cercano a x0
Generalization [Generalización] Gradient Ascent -n. Es una
-n Es la propiedad de los técnica de optimización
seres humanos y animales matemática que actualiza
de utilizar aprendizaje sucesivamente las variable
pasado para responder a entrenables de un modelo
situaciones presentes, si el en la dirección de la gradi-
contexto y los estı́mulos son ente de una función objetivo
similares. con el objetivo de encontrar
el máximo de tal función.
El cerebro realiza con-
stantemente general- Gradient Descent -n. Es una
ización cuando extrae las técnica de optimización
propiedades comunes de matemática que itera en
múltiples observaciones y la dirección opuesta a la
las abstrae en un concepto gradiente para encontrar
más general. Ası́, los pixeles mı́nimos locales de una
de una imagen que corre- función de costo. La actual-
sponde a un gato pueden ización de los pesos de una
generalizarse bajo el con- red neuronal θ usando gra-
cepto de un animal, a pesar dient descent tiene la sigu-
de que otras instancias del iente forma:
mismo concepto luzcan muy θ = θ − α∇J(θ)
12
H Kernel
donde la función L(θ) es el número de capas escondi-

una medida de error de das, la velocidad de apren-
predicción asociada a la red dizaje, y el rango de los val-
neuronal (ref. Loss func- ores de inicialización de los
tion) y α es la velocidad de pesos de una red neuronal.
aprendizaje (ref. Learning Usualmente se ajusta los
rate). hı́per-parámetros calcu-
lando los valores que re-
sultan en una rendimiento
H óptimo del modelo en un
subconjunto de los datos
llamado el dataset de vali-
Hidden Layer [Capa Escondida] - dación.
n. Una capa de neuronas
dentro de la arquitectura de
una red neuronal que no
está expuesta a los datos de I
entrada ni a los datos de sal-
ida.
Inference [Inferencia] -n. Es el
Hill Climbing -n. Es un algo-
proceso de obtener hipótesis
ritmo de optimización que
en base a evidencia o con-
estima los valores de los
clusiones lógicas.
parámetros entrenables de
un modelo, por ejemplo los En redes neuronales, este
pesos de una red neuronal. paso corresponde a la
Hill Climbing añade sucesi- predicción realizada por
vamente una pequeña can- un modelo entrenado
tidad de ruido con el fin de para saber a que clase le
proponer un modelo que de pertenece una observación
un mejor rendimiento y op- en los datasets de testing
timice una función objetivo. o validación. Los tipos de
Si tal cambio produce una inferencia incluyen: de-
mejor solución, otro cam- ducción, inducción, y ab-
bio incremental se produce ducción.
encima de la nueva solución
hasta que no se encuentren
mejoras sucesivas.
Hyper-Parameter [Hı́per- J
Parámetro] -n. Son los
parámetros externos a un
modelo de aprendizaje au- K
tomático cuyos valores no
se calculan mediante un
proceso de optimización Kernel -n. Es una función que
matemática sino a través pondera los datos de en-
de una búsqueda manual trada de una señal durante
o heurı́stica. Ejemplos de la operación de convolución
hı́per-parámetros incluyen (ref. Convolution).
13
L Long Short-Term Memory (LSTM)
Estadı́sticamente, es un tre las neuronas y el apren-

función de densidad prob- dizaje se da a través de un
abilı́stica que normaliza los proceso iterativo que actual-
valores de una variable. iza los pesos con el objetivo
de minimizar una métrica
de error o loss function.
Learning Rate [Velocidad de
L Aprendizaje] -n. Es
un hı́per-parámetro (ref.
Hyper-Parameter) que rep-
Label [Etiqueta] -n. Es el valor
resenta el ratio con el cual
real asignado a una obser-
se modifican los pesos de
vación en un dataset (ref.
una red neuronal. Mien-
dataset). A menudo cada
tras un learning rate actu-
observación posee una eti-
aliza rápidamente los pe-
queta la cual ha sido otor-
sos, puede no converger en
gada por una persona de-
un mı́nimo local adecuado.
spués de observar sus carac-
Por otro lado, un valor muy
terı́sticas (ref. Feature). Por
bajo puede hacer que el en-
ejemplo, a los pixeles de una
trenamiento converja lenta-
imágenes se les puede otor-
mente, pero también dejar
gar una etiqueta que indica
de explorar otras regiones
el objeto que representan.
del espacio de solución
Para reducir la subjetividad
que podrı́an minimizar la
en su definición, se suele
función de costo (ref. Loss
pedir a varias personas que
Function).
definan una etiqueta para
la misma observación y ası́ Se le representa con la le-
obtener más robustez en su tra α y usualmente se de-
definición. La clasificación fine como una función del
de observaciones que con- tiempo con la idea de dis-
tienen más de una etiqueta minuir su valor mientras
al mismo tiempo, se le de- el entrenamiento se desar-
nomina multi-label classifi- rolla.
cation. Linear Kernel [Kernel Lineal] -n.
Learning [Aprendizaje] -n. Es Un kernel lineal es la sim-
el proceso de actualizar los ple suma de la multipli-
parámetros entrenables de cación de cada una de las
un modelo matemático o entradas de dos vectores
estadı́stico con el fin de de igual tamaño. El ter-
optimizar una función ob- mino matemático para esto
jetivo (Ref. Loss Func- se le llama producto punto
tion) y de esa manera re- y también se le define como
solver una tarea determi- el coseno del ángulo de dos
nada (e.g., clasificación, re- vectores multiplicado por el
gresión, clustering). En producto de sus longitudes.
el caso de las redes neu- Long Short-Term Memory (LSTM)
ronales, los parámetros en- -n. Es un tipo de red neu-
trenables son los pesos en- ronal recurrente (ref. Re-
14
Loss Function Multi-Layer Perceptron (MLP)
current Neural Network)

que resuelve explı́citamente
M
el problema del desvanec-
imiento de gradientes (van- Machine Learning [Aprendizaje
ishing gradients) mediante Automático] -n. Es la
el uso de compuertas en- predicción del futuro con
trenables que controlan el datos, evidencia, y patrones
flujo de gradientes dentro del pasado usando una com-
de una unidad de proce- putadora.
samiento. Esto se realiza Mapping -n. Transformación
mediante un conjunto de matemática que consiste
operaciones sobre la memo- en llevar los datos a una
ria interna de cada unidad. espacio en donde ciertas
Por ejemplo, LSTM puede propiedades se cumplen.
aprender a escribir, leer, y Por ejemplo, que cada di-
sobrescribir patrones en la mensión sea ortogonal o que
memoria utilizando com- la separación entre clases
puertas llamadas input (en- sea más larga.
trada), output (salida), and
forget (olvido), respectiva- Memory [Memoria] -n. Conjunto
mente. de pesos de una red neu-
ronal que se activan de
A diferencia de otros mode- forma similar en presencia
los como RNN y HMM, que de la misma observación.
también representan depen-
dencias temporales, LSTM Multi-Layer Perceptron (MLP)
no suele ser sensible a [Red Neuronal Multi-capa]
la presencia de intervalos -n. Es un tipo de red neu-
entre patrones dentro de ronal que esta organizada
largas señales de entrada, en una capa de entrada, una
de ahı́ el termino long-term o mas capas escondidas, y
(largo-plazo). una capa de salida. Las ca-
pas de esta red neuronal
Loss Function [Función de Costo] se conectan a través de sus
-n. Es un valor numérico sinapsis, cada una asociada
que representa el costo a un valor numérico lla-
o error asociado a una mado peso y que representa
predicción. En redes neu- su intensidad.
ronales, una observación Un MLP se utiliza principal-
genera una distribución de mente como un clasificador
clases en la capa de sal- con el fin de aprender un es-
ida, este valor representa pacio matemático donde la
la diferencia entre tal dis- representación de los datos
tribución y la clase asig- de entrada es fácilmente
nada a esta observación. Un separable en clases. Debido
método común para medir a su capacidad de aproxi-
esta discrepancia es el de- mar funciones muy comple-
nominado error cuadrado: jas, se les denomina aprox-
imadores universal de fun-
J(θ) = (y − f (x, θ))2 ciones (universal function
15
N Perceptron
approximators) La lógica de esta heurı́stica

Cada capa de un MLP es es que si la optimización
un conjunto de neuronas de modelos de aprendizaje
que propagan la señal hacia suele ser no-convexa, en-
la siguiente capa, creando tonces siempre existirán
nuevas representaciones, y modelos más complejos, y
finalmente proyectándolas a menos interpretables, que
la capa de salida, la cual provean resultados simi-
tiene un numero de neu- lares. Ante la existencia de
ronas igual al numero de alternativas más complejas,
clases a aprender. El valor se elige los modelos más
optimo de los pesos de una simples debido a que sus
de un MLP se realiza ajus- desempeños son más fáciles
tando los pesos mediante la de evaluar o consumen una
técnica llamada back propa- menor cantidad de recursos.
gation (ref. Back Propaga- Optimization [Optimización] -n.
tion). Es la elección del mejor con-
junto de parámetros entren-
ables de un modelo con el
fin de maximizar su función
N objetivo (ref. Objective
Function).
Neural Networks [Redes Neu-
ronales] -n. Un modelo
matemático cuya arquitec-
tura contiene varias capas P
de neuronas las cuales con-
struyen progresivamente
representaciones más ab- Parameters [Parámetros] -n. Val-
stractas de información di- ores que influyen en el com-
rectamente desde los datos portamiento y desempeño
de entrada. de un modelo entrenable.
Por ejemplo, los parámetros
de una red neuronal son sus
pesos.
O Perceptron [Perceptrón] -n. Es un
clasificador que aprende a
categorizar entre dos clases
Objective function [Función Ob-
(0 y 1) multiplicando un
jetivo] -n. Ref. Loss Func-
peso por cada dimensión de
tion.
los datos de entrada y le
Occam’s Razor -n. Es una suma a esta operación una
heurı́stica utilizada en cien- constante llamada bias que
cia que aconseja la elección mueve la decisión lejos del
de modelos más simples so- origen. Si los datos de en-
bre modelos complejos o trada son x, los pesos del pe-
con mayor capacidad (ref. sos del perceptron son w y el
Capacity). termino bias es b, el percep-
16
Precision Recurrent Neural Network (RNN)
tron retornará 1 si Recurrent Neural Network (RNN)

[Red Neuronal Recurrente]
w·x+b>0 -n. Es un tipo de red neu-
y 0 en caso contrario. ronal profunda (ref. Deep
Neural Network) que pre-
Precision [Precisión] -n. senta sinapsis y pesos en-
Aunque se suele uti- tre cada unidad interna de
lizar comúnmente como procesamiento (memoria),
sinónimo de exactitud, su cada cual alimentada por
definición es diferente en un dato de entrada den-
el contexto del método tro de una secuencia. Esta
cientı́fico. La precisión es el propiedad las hace ade-
grado de similaridad entre cuadas para modelar datos
las predicciones correctas temporales como la voz hu-
otorgadas por un modelo de mana, música, documentos
aprendizaje automático. Si de texto, y videos.
estas predicciones muestran Las RNNs reciben el nombre
variabilidad entre ellas, el de recurrentes por su capaci-
modelo no será preciso. dad de definir su memoria
Se le suele definir como el en términos de estados de
número de predicciones cor- memoria anteriores. Es de-
rectas (True Positive) divi- cir, la salida de cada unidad
dido por el número total ct+1 es una función de la
de predicciones (True Posi- entrada actual xt y el valor
tive y False Positive). Un actual de su memoria ct ,
modelo puedo ser preciso,
mas no exacto y también
ct+1 = f (ct , xt )
ser poco preciso y exacto si-
multáneamente. La forma mas común de en-
Policy -n. Es una función que de- trenar una red neuronal re-
fine el comportamiento de currente es usando gradi-
un agente que interactúa entes con la técnica llamada
a través de acciones con Back Propagation Through
un ambiente determinado. Time (BPTT), la cual es simi-
El policy π(a|s) describe la lar a la técnica llamada Back
probabilidad de tomar la Propagation (ref. Back Prop-
acción a cuando el agente se agation) usada para entre-
encuentra en el estado s. nar modelos de aprendizaje
profundo.
La principal diferencia es
que BPTT desenvuelve la es-
Q tructura temporal de la RNN
en una secuencia donde to-
das las unidades comparten
R los mismos parámetros y
memoria. Luego, se calcula
la señal de error (error sig-
Recurrence [Recurrencia] -n. Ref. nal) después de proyectar la
Recurrence salida de la ultima unidad
17
Reinforcement Learning Stochastic
–a manera de predicción–
y compararla con la corre-
S
spondiente etiqueta de los
datos de entrada. Este es Softmax -n. Es una funcion de
el inicio del proceso de retro activacion (ref. Activation
propagación y va en el sen- Function) que a menudo se
tido opuesto a la secuen- coloca en la capa de salida
cia, actualizando los pesos de una red neuronal. Dada
de toda la red neuronal en una capa de una red neu-
ese orden. ronal, la funcion Softmax
normaliza cada valor entre
Entrenar este tipo de mode-
0.0 y 1.0 con la condicion
los puede presentar compli-
que la suma de estos val-
caciones cuando se memo-
ores sea 1.0. El resultado
rizan patrones en señales de
en un vector que representa
larga duración. La multipli-
la probabilidad de que un
cación de gradientes en una
dato de entrada pertenezca
secuencia larga hace que
a cada clase disponible con
el producto final converja
cierto nivel de probabilidad.
rápidamente a 0 si las gradi-
entes son menores a 1, o se Matematicamente, la ecua-
incremente rápidamente si cion de esta funcion se de-
la gradientes son mayores a fine como:
1. Ambos problemas reciben
el nombre de desvanec- efyi
imiento (vanishing) o ex- S(fyi ) = P fyj
plosión ( exploding), respec- j
e
tivamente; y su estudio ha
donde fyi representa el vec-
conducido a diseñar redes
tor que contiene los datos de
recurrentes que controlan
la capa de salida de una red
el flujo de gradientes en
neuronal.
base a compuertas entren-
ables llamadas redes LSTM Stochastic [Estocástico] -n. Es la
(ref. Long Short Term Mem- cualidad de un evento de
ory). ser determinado aleatoria-
mente.
Reinforcement Learning Cuando un proceso es es-
[Aprendizaje por Refuerzo] tocástico, se dice que es
-n. Conjunto de algoritmos un proceso aleatorio (ran-
que entrenan a un agente a dom process) en el cual
interactuar con un ambiente los valores de sus vari-
a través de una secuencia ables están especificados
de estados , acciones, y pre- por una función de dis-
mios (rewards). El agente tribución probabilı́stica. Por
es entrenado con el objetivo ejemplo, el proceso de tirar
de maximizar el valor acu- un dado esta definido por
mulado de futuros rewards una función que asigna una
durante la secuencia de ac- probabilidad a cada resul-
ciones que suceden durante tado del experimento. De-
un episodio. spués de un gran número de
18
Supervised Learning Unsupervised Learning
intentos, dicha distribución predicción de que clase le

mostrará la misma proba- corresponde a x0 . Este pro-
bilidad para cada valor del ceso de inferencia en base
dado ( 16 ). a evidencias tiene similitud
al proceso de generalización
Supervised Learning [Aprendizaje que sucede en el cerebro hu-
Supervisado] -n. Es un mano (ref. Generalization)
problema del aprendizaje
automático que consiste en
aprender una función que
transforme los datos de en-
trada (nuestra observación T
del fenómeno) hacia una
etiqueta, la cual representa
la clase a la que pertenece Training [Entrenamiento] -n. Ac-
dicha observación y que ha tualización iterativa de los
sido anotada manualmente. parámetros entrenables de
Los parámetros entren- un modelo de aprendizaje
ables θ de dicha función automático en la dirección
f (x, θ) = y son ajusta- en la cual la función de er-
dos en un proceso llamado ror se minimiza.
entrenamiento (ref. Train-
Trainable Parameters [Parámetros
ing), el cual calcula la cor-
Entrenables] -n. Conjunto
respondencia matemática
de parámetros que pueden
entre los elementos de en-
cambiar durante un proceso
trada x y las etiquetas y.
de entrenamiento con el fin
Estadı́sticamente, en algo-
de optimizar una función de
ritmos como las Redes Neu-
costo (ref. Loss Function)
ronales, esta relación toma
la forma de la probabilidad
condicional de las etique-
tas dado los valores de en-
trada y parámetros entre- U
nados, P (y|x, θ∗ ) también
llamado likelihood; mientras
que en el caso de las Redes Unsupervised Learning
Bayesianas, dicha relación [Aprendizaje No Super-
se aproxima mediante la visado] -n. Es un tipo de
probabilidad conjunta entre aprendizaje que no requiere
∗
estos elementos P (x, y, θ ). el etiquetado de observa-
La predicción de nuevos el- ciones y que funciona en
ementos de entrada x0 es base a identificar la pres-
simplemente la ejecución de encia de relaciones entre
la función f (x0 , θ∗ ), ya con grupos de observaciones.
sus parámetros entrenados Tales relaciones pueden in-
θ∗ . El resultado es una cluir las medidas de similar-
distribución sobre el con- idad, densidad, asociación,
junto de etiquetas, cuyo o jerarquı́a entre las obser-
valor máximo representa la vaciones.
19
V Weights
V peso corresponde al valor de

la sinapsis entre dos neu-
ronales y representa el nivel
Variance [Varianza] -n. Un al- de activación de la neurona
goritmo de aprendizaje su- en presencia de sus datos de
pervisado tiene un alto vari- entrada.
ance cuando predice distin-
tos resultados para difer- Los pesos son usualmente
entes datasets. los valores entrenables de
una red neuronal.
Por ejemplo, si un modelo
entrenado exhibe una ex-
actitud muy diferente para
datasets de entrenamiento y
validación, entonces se dice X
que muestra un alto vari-
ance.
Y
W
Z
Weights [Pesos] -n. En una
red neuronal artificial, un
20

AI Dictionary PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

AI Dictionary PDF

Cargado por

Copyright:

Formatos disponibles

Diccionario Inglés-Español

Omar U. Florez, PhD

(c) 2018 Capital One Services, LLC This work

Una gran parte del conocimiento relacionado a la

Con el fin de apoyar al entendimiento de la Inteligencia

Por ese motivo, la primera definición de cada concepto

Omar U. Florez, PhD

A major part of knowledge related to Artificial

With the goal of supporting the understanding of Artificial

The first definition of each concept corresponds to a

Concept [Translation] -type Simple

Hope you find it useful.

Omar U. Florez, PhD

A hı́perbólico (Tanh), Recti-

matemática, inferencia es- La técnica Gradient Descent

sente en los datos de en- entre los valores sucesivos

Si los datos son discretos, relacionadas a un prob-

D El éxito actual de las redes

fundos que tienen una gran estadı́sticas en los datos de

trones se relaciona directa- Interesantemente, la en-

El concepto de entropı́a en particular asociada a un

cual representa la dificultad diferentes, por ejemplo un

G f (x) = f (x0 )+∇f (x0 )·(x−x0 )

donde la función L(θ) es el número de capas escondi-

Estadı́sticamente, es un tre las neuronas y el apren-

current Neural Network)

approximators) La lógica de esta heurı́stica

tron retornará 1 si Recurrent Neural Network (RNN)

intentos, dicha distribución predicción de que clase le

V peso corresponde al valor de

También podría gustarte