Está en la página 1de 20

Diccionario Inglés-Español

de
Términos Técnicos
en
Inteligencia Artificial (IA)

Spanish-English Dictionary
of
Technical Terms
in
Artificial Intelligence (AI)

Omar U. Florez, PhD


San Francisco, California
USA

(c) 2018 Capital One Services, LLC This work


is licensed under the Creative Commons Attribution 4.0 In-
ternational License. To view a copy of this license, visit
https://creativecommons.org/licenses/by/4.0/legalcode.

1
Contents

1 Prefacio 4

2 Preface 5

3 Diccionario 6
A . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
B . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
C . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
D. . . . . . . . . . . . . . . . . . . . . . . . . . . 9
E . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
F . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
G. . . . . . . . . . . . . . . . . . . . . . . . . . . 12
H. . . . . . . . . . . . . . . . . . . . . . . . . . . 13
I . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
J . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
K . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
L . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
M . . . . . . . . . . . . . . . . . . . . . . . . . . 15
N. . . . . . . . . . . . . . . . . . . . . . . . . . . 16
O. . . . . . . . . . . . . . . . . . . . . . . . . . . 16
P . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Q. . . . . . . . . . . . . . . . . . . . . . . . . . . 17
R . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
S . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
T . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
U. . . . . . . . . . . . . . . . . . . . . . . . . . . 19
V . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2
CONTENTS CONTENTS

W . . . . . . . . . . . . . . . . . . . . . . . . . . 20
X . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Y . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Z . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3
Prefacio

Una gran parte del conocimiento relacionado a la


Inteligencia Artificial esta disponible sólo en Inglés. Esto
previene que la información se compartan entre los
hablantes de Espanol e Inglés, y llegue a todos con la
misma igualdad de oportunidades.

Con el fin de apoyar al entendimiento de la Inteligencia


Artificial en la comunidad de Latinos y Latinas, se ha
creado el Primer Diccionario Inglés-Español de
Términos Técnicos en Inteligencia Artificial (IA).
Usuarios que pueden beneficiarse de este diccionario son
estudiantes, periodistas, y divulgadores cientı́ficos que
necesiten un acceso directo a conceptos de IA y que
puedan compartirse fácilmente en un lenguaje simple.

Por ese motivo, la primera definición de cada concepto


corresponde a una descripción en alto nivel. Las
siguientes explicaciones proveen detalles técnicos y
matemáticos para lectores interesados en profundizar su
comprensión. El formato de cada entrada es el siguiente;
Concepto [Traducción] -tipo Explicación
simple del término técnico. Segundo nivel
de detalle de este concepto.
Espero os sea útil.

Omar U. Florez, PhD


Diciembre del 2018

4
Preface

A major part of knowledge related to Artificial


Intelligence is only available in English. This prevents
information and recent discoveries from being equally
shared among Spanish and non-Spanish speakers.

With the goal of supporting the understanding of Artificial


Intelligence in the LatinX community, it has been created
the First English-Spanish Dictionary of Technical Terms
in Artificial Intelligence (AI). Users that may benefit
from this dictionary are students, media professionals, and
scientific disseminators who need quick and direct access
to AI concepts that can be easily shared.

The first definition of each concept corresponds to a


high-level description. Following explanations provide
technical details and mathematical formulations behind
the concepts for readers interested in obtaining an
advanced understanding. The format of each entry
follows;

Concept [Translation] -type Simple


explanation of the technical term. Second
level of detail for this concept.

Hope you find it useful.

Omar U. Florez, PhD


December of 2018

5
Diccionario

A hı́perbólico (Tanh), Recti-


fied linear unit (ReLU), y Ex-
ponential Linear Unit (ELU)
Accuracy [Exactitud] -n. Es una
métrica del rendimiento de Algorithm [Algoritmo] -n. Es una
un clasificador y se rep- secuencia de operaciones
resenta como el número que resuelven una conjunto
de clasificaciones correc- de problemas y que involu-
tas (True Positives y True cran el procesamiento de
Negatives) dividido por el datos, el cálculo de op-
número total de elementos eraciones matemáticas, o
en el dataset de training, la predicción de resultados
testing, o validación (True basados en evidencia. Un al-
Positives, True Negatives, goritmo puede ser definido
False Positives, False Nega- en un lenguaje de progra-
tives). mación y expresado como
una función con datos de
Activation Function [Función de entrada y de salida.
Activación] -n. Es una trans- Artificial Intelligence (AI)
formación matemática que [Inteligencia Artificial] -
sucede a la salida de una n. Es la capacidad de las
neurona artificial. Esta op- maquinas de demostrar in-
eración sucede después de teligencia o imitar capaci-
haber calculado la combi- dades cognitivas propias de
nación lineal de los datos de seres inteligentes. Estas ca-
entrada con los respectivos pacidades incluyen razonar,
pesos de la neurona. representar conocimiento,
La función de activación aprender en base a eviden-
esta inspirada en la influen- cias, planear en base a ob-
cia del campo eléctrico ex- jetivos, tener curiosidad, y
tracelular sobre un conjunto entender el lenguaje natu-
de neuronas biológicas. ral.
Ejemplos populares de fun- La implementación de in-
ciones de activación in- teligencia artificial se basa
cluyen: Sigmoid, Tangente en métodos de optimización

6
Attributes Bias

matemática, inferencia es- La técnica Gradient Descent


tadı́stica, y abstracción com- (ref. Gradient Descent) uti-
putacional. liza back propagation para
Actualmente la Inteligen- actualizar los pesos de una
cia Artificial (IA) recibe red neuronal con un vector
influencia de diver- llamado gradiente, el cual
sos campos incluyendo comúnmente corresponde a
lingüı́stica, biologı́a, psi- la primera derivada de la
cologı́a, economı́a, y mu- función de costo con re-
chos otros. specto a sus pesos. El valor
y dirección de la gradiente
Attributes [Caracterı́sticas] - guı́a la optimización de los
n. Representan las pesos hacia el valor máximo
propiedades de un objeto. de la función de costo. De-
Cuando son observables, se bido a que back propagation
pueden medir de forma au- tiene como objetivo reducir
tomática con sensores (e.g., la noción de error (loss func-
los pixeles de un objeto, el tion) en el sistema, los pe-
espectro de frecuencias de sos se actualizan con el valor
un audio, o las palabras de negativo de la gradiente.
un tweet) o de forma man-
ual (e.g., el nombre de una Bias [Sesgo/Prejuicio] -n. Un al-
persona o el tipo de música goritmo de aprendizaje su-
de una canción). Cuando pervisado muestra un alto
no son observables, se les bias cuando predice de
denomina latentes y se les forma frecuente resultados
representa como un vector incorrectos para cierta clase
numérico en cierto espacio de observaciones.
matemático llamado embed- Existe un balance entre el
ding (e.g. la salida de una bias y el variance (ref.
capa en una red neuronal) Variance) al momento de
diseñar la solución a un
problema de aprendizaje su-
B pervisado: un algoritmo con
poca capacidad (ref. Ca-
pacity) puede ser poco flex-
Back Propagation [Retro- ible al aprender un número
propagación] -n. Es una pequeño de interacciones en
técnica de optimización los datos de entrenamiento,
matemática que se utiliza mostrando ası́ un alto bias y
para entrenar una red neu- un menor variance.
ronal. Este algoritmo em- Por el contrario, un al-
pieza por calcular el error goritmo con alta capaci-
en la capa de salida de la red dad puede llegar a ser de-
y luego propaga esta infor- masiado flexible al apren-
mación hacia las capas ante- der interacciones complejas
riores utilizando la regla de en distintas regiones del es-
la cadena sobre cada capa pacio de los datos e in-
(ref. Chain Rule). cluso aprender el ruido pre-

7
C Convolution

sente en los datos de en- entre los valores sucesivos


tranamiento. El resultado es de la función de costo es
que el modelo se comporta casi constante, el ciclo de
de forma distinta con difer- entrenamiento alcanza un
entes datasets, mostrando máximo número de pasos,
un bajo bias pero un alto o las funciones de costo de
variance. los datos de entrenamiento
y validación dejan de dis-
minuir de forma conjunta.
Muchas veces seguir en-
C trando a partir del punto
de convergencia conduce al
Capacity [Capacidad] -n. Es un modelo a aprender el ruido
valor numérico que mide presente en los datos de en-
la complejidad de un mod- trenamiento y generar over-
elo para reconocer la pres- fiting.
encia de distintas clases en
Convolution [Convolución] -n. Es
los datos. Dicha compleji-
una operación matemática
dad obedece a las interac-
entre dos señales f y g que
ciones entre las variables de
expresa la transformación
entrada, latentes, y de sal-
de f cuando se le desplaza
ida que componen un mod-
por encima g. Por ejem-
elo. Mientras más grande
plo, imagine los pixeles de
sea la capacidad, el modelo
un imagen f que contiene
puede aproximar funciones
el rostro de una persona y
más complejas y no-lineales.
un conjunto de pesos g de
En redes neuronales, la una red neuronal que multi-
capacidad es comúnmente plica partes consecutivas de
proporcional al número de la imagen con el objetivo
pesos que exhibe su arqui- de calcular similaridades en
tectura y los cuales repre- toda la señal. El resultado
sentan los parámetros en- es la convolución (f ∗ g)
trenables del modelo . y consiste en una secuen-
Una medida más teórica cia de valores que expresan
de la capacidad es el VC que partes del rostro reac-
Dimension (ref. VC Di- cionan más a la señal g,
mension), la cual mide el resaltando en este proceso
número máximo de obser- esquinas, bordes, texturas,
vaciones que un clasificador y otras caracterı́sticas (ref.
puede asignarles etiquetas Feature).
de forma correcta.
Note que la convolución an-
Convergence [Convergencia] -n. terior recibe datos de en-
Es un estado de estabilidad trada en dos dimensiones
dentro del proceso de entre- en la función f , mas es
namiento de un modelo de muy frecuente usar también
aprendizaje automático. señales unidimensionales,
Podemos observar conver- como por ejemplo en el
gencia cuando la diferencia análisis de series de tiempo.

8
Convolutional Neural Network (CNN) Deep Neural Networks

Si los datos son discretos, relacionadas a un prob-


es posible acelerar el calculo lema determinado. Ejem-
de la convolución mediante plos conocidos incluyen
el computo del Fast Fourier una colección de imágenes
Transform (FFT) para cada que contienen objetos fre-
señal f y g independiente- cuentes (ImageNet dataset),
mente, luego se multiplica las noticias de una agen-
ambas transformaciones el- cia internacional (Reuters-
emento por elemento, y fi- 21578 dataset), una lista de
nalmente se calcula la in- canciones (1 Million Songs
versa del FFT de este pro- dataset), o las preferencias
ducto. de varios usuarios sobre de-
Convolutional Neural Network (CNN) terminadas pelı́culas (Net-
[Red Neuronal Convolu- flix dataset). El dataset más
cional] -n. Un tipo de red conocido en algoritmos de
neuronal profunda que uti- aprendizaje profundo (ref.
liza operaciones de con- Deep Learning) es ImageNet
volución (ref. Convolution) y consiste de más de un
a través de una jerarquı́a de millón de observaciones,
capas sobre los datos de en- categorizadas en 1000 tipos
trada para imitar el efecto de objetos.
de los campos receptivos Cuando el dataset se al-
en la visión humana. Dicha macena en una matriz, las
transformación aprende una columnas representan los
representación de los datos diferentes atributos de un
en cada capa generando problema (ref. Feature) y
caracterı́sticas más comple- las filas representan los vec-
jas mientras más profunda tores de atributos u obser-
sea la arquitectura de la red vaciones de distintas instan-
neuronal. cias del problema (ref. Fea-
Este modelo ha sido in- ture Vector).
spirado por el trabajo de Para datos textuales, al
Hubel y Wiesel en proce- dataset también se le de-
samiento de información nomina corpus.
en el córtex visual, en
donde se manifiesta los Deep Neural Networks [Redes
beneficios de explotar las Neuronales Profundas] -
correlaciones espaciales en n. Son redes neuronales
imágenes. Esto añade ro- que contiene más de una
bustez a las transforma- capa escondida, lo cual in-
ciones tales como cambios crementa la capacidad del
de orientación y escala. modelo para aproximar fun-
ciones más complejas (Ref.
Capacity).

D El éxito actual de las redes


neuronales profundas rad-
ica en aplicar optimización
Dataset -n. Es una colección basada en gradientes (Ref.
de datos u observaciones Gradients) a modelos pro-

9
Deep Learning Entropy

fundos que tienen una gran estadı́sticas en los datos de


capacidad para identificar entrada como la voz hu-
distintas interacciones en mana o las palabras en un
los datos de entrada (pa- tweet suelen ser aprendi-
trones). De esta manera, das con una red neuronal
la arquitectura del modelo llamada Long Short-Term
es proporcional a su de- Memory (LSTM), y recon-
sempeño, si se le alimenta strucciones de los datos de
con una gran cantidad de in- entrada con el fin de com-
formación y muestra una ca- primir la información o seg-
pacidad adecuada. mentarla se representan con
Variational Auto Encoders
Deep Learning [Aprendizaje Pro- (VAE).
fundo] -n. Es una técnica
de aprendizaje automático
basado en redes neuronales
profundas (ref. Deep Neu- E
ral Networks) que tiene la
propiedad de aprender car-
Entropy [Entropia] -n. Es una me-
acterı́sticas o features du-
dida de información que in-
rante su proceso de entre-
dica el grado de desorden
namiento. Esto la difer-
en un conjunto o la canti-
encia de otras técnicas de
dad de ruido en una señal.
aprendizaje automático que
En teorı́a de la información,
requieren una selección de
la entropı́a se mide en bits y
caracterı́sticas manual o au-
representa el porcentaje de
tomatizada por propiedades
información generado por
estadı́sticas.
un proceso estocástico (re-
La clasificación realizada fer. Stochastic).
por un algoritmo de deep La entropı́a se define
learning muestra un mejor Matemáticamente como el
rendimiento debido a que valor esperado del logar-
encuentra de forma itera- itmo negativo de los ele-
tiva el espacio matemático mentos de una distribución
en donde la función de per- discreta.
dida (ref. Loss Function) se
minimiza. X
H=− Pi ln Pi
La capacidad del algo-
ritmo para recordar pa- i

trones se relaciona directa- Interesantemente, la en-


mente con su arquitectura. tropı́a utiliza el logaritmo
Por ejemplo, patrones es- negativo para cuantificar la
paciales como texturas en mayor cantidad de infor-
imágenes pueden ser apren- mación presente en eventos
didos por una red neuronal menos probables y la mul-
profunda llamada Convo- tiplica por la probabilidad
lutional Neural Network de su ocurrencia calculando
(CNN), patrones temporales ası́ su valor esperado (ref.
que muestran dependencias Expected Value).

10
Expected Value Feature Vector

El concepto de entropı́a en particular asociada a un


la información fue intro- fenómeno, el cual puede ser
ducido por Claude Shan- observable o escondido (la-
non en su trabajo titulado tente). Ejemplos de car-
”A Mathematical Theory of acterı́sticas observables in-
Communication” en 1948. cluyen los pixeles de una im-
agen, las frecuencias de un
Expected Value [Valor Esperado]
audio, las palabras de un
-n. Es el valor predicho
texto, o incluso las conex-
de una variable y corre-
iones en una red social. Una
sponde a la suma del valor
caracterı́stica latente es el
de cada observación multi-
valor de salida (activación)
plicada por la probabilidad
de una neurona dentro de
de su ocurrencia.
una capa.
Matemáticamente, si x rep-
resenta el valor de la vari- Al proceso de escoger o
able X y p(x) es su prob- crear caracterı́sticas que
abilidad de ocurrencia, el sean estadı́sticamente in-
valor esperado de X se de- formativas, no muestren
fine como, redundancia, y discrimi-
nen correctamente se le
denomina feature engineer-
k
X ing (ingenierı́a de carac-
E[X] = xi p(xi ) terı́sticas) y es muy impor-
tante para obtener modelos
i=1
de regresión, clasificación,
La regla de los números lar- y clustering que funcionen
gos (law of large numbers) de forma más exacta y sean
establece que el promedio robustos al ruido.
de los valores de una vari- La salida de un modelo
able casi seguramente con- también se le puede usar
verge a su valor esperado si como una caracterı́stica y se
el número de repeticiones es le denomina meta-data.
casi infinito.
Feature Vector [Vector de Carac-
Cuando un algoritmo de terı́sticas] -n. Es el conjunto
aprendizaje automático pro- de distintas caracterı́sticas
duce predicciones cuyo (ref. Feature) asociadas al
valor esperado es igual al mismo fenómeno.
valor real de la variable, se
dice que no muestra bias y El número de dimensiones
es por lo tanto un unbiased de este vector representa la
estimator. cantidad de caracterı́sticas
que describen el estado de
cierto fenómeno. La dimen-
sionalidad o número de car-
F acterı́sticas de este vector no
deberı́a ser muy largo, de-
bido al llamado curse of di-
Feature [Caracterı́stica] -n. Es mensionality (maldición de
el valor de una propiedad la alta dimensionalidad), la

11
G Gradient Descent

cual representa la dificultad diferentes, por ejemplo un


en separar vectores de alta perro.
dimensionalidad en distin- En el aprendizaje au-
tas clases. Por otro lado, el tomático, se utiliza el ter-
número de vectores de car- mino inferencia (ref. Infer-
acterı́sticas indica el tamaño ence) para referirse a esta
del dataset con el que pode- propiedad.
mos entrenar y validar un Gradient [Gradiente] -n. La gra-
modelo. diente de una función es un
Los algoritmos de inteligen- vector que apunta en la di-
cia artificial usualmente re- rección donde su función se
quieren de un vector de car- maximiza. A la magnitud
acterı́sticas para facilitar el de la gradiente se le conoce
proceso numérico de encon- como pendiente.
trar patrones en los datos. Matemáticamente, a la gra-
A menudo un vector de car- diente de la función difer-
acterı́sticas puede contener enciable f en el punto x0
valores faltantes (ref. Miss- se le denota como ∇f (x0 ) y
ing Values), lo cual suele in- representa la tangente de la
dicar que no todas las carac- función en ese punto, es de-
terı́sticas son observables al cir es la mejor aproximación
mismo tiempo. lineal a f en x0 . Tal aproxi-
mación se le calcula como

G f (x) = f (x0 )+∇f (x0 )·(x−x0 )


para un x muy cercano a x0
Generalization [Generalización] Gradient Ascent -n. Es una
-n Es la propiedad de los técnica de optimización
seres humanos y animales matemática que actualiza
de utilizar aprendizaje sucesivamente las variable
pasado para responder a entrenables de un modelo
situaciones presentes, si el en la dirección de la gradi-
contexto y los estı́mulos son ente de una función objetivo
similares. con el objetivo de encontrar
el máximo de tal función.
El cerebro realiza con-
stantemente general- Gradient Descent -n. Es una
ización cuando extrae las técnica de optimización
propiedades comunes de matemática que itera en
múltiples observaciones y la dirección opuesta a la
las abstrae en un concepto gradiente para encontrar
más general. Ası́, los pixeles mı́nimos locales de una
de una imagen que corre- función de costo. La actual-
sponde a un gato pueden ización de los pesos de una
generalizarse bajo el con- red neuronal θ usando gra-
cepto de un animal, a pesar dient descent tiene la sigu-
de que otras instancias del iente forma:
mismo concepto luzcan muy θ = θ − α∇J(θ)

12
H Kernel

donde la función L(θ) es el número de capas escondi-


una medida de error de das, la velocidad de apren-
predicción asociada a la red dizaje, y el rango de los val-
neuronal (ref. Loss func- ores de inicialización de los
tion) y α es la velocidad de pesos de una red neuronal.
aprendizaje (ref. Learning Usualmente se ajusta los
rate). hı́per-parámetros calcu-
lando los valores que re-
sultan en una rendimiento
H óptimo del modelo en un
subconjunto de los datos
llamado el dataset de vali-
Hidden Layer [Capa Escondida] - dación.
n. Una capa de neuronas
dentro de la arquitectura de
una red neuronal que no
está expuesta a los datos de I
entrada ni a los datos de sal-
ida.
Inference [Inferencia] -n. Es el
Hill Climbing -n. Es un algo-
proceso de obtener hipótesis
ritmo de optimización que
en base a evidencia o con-
estima los valores de los
clusiones lógicas.
parámetros entrenables de
un modelo, por ejemplo los En redes neuronales, este
pesos de una red neuronal. paso corresponde a la
Hill Climbing añade sucesi- predicción realizada por
vamente una pequeña can- un modelo entrenado
tidad de ruido con el fin de para saber a que clase le
proponer un modelo que de pertenece una observación
un mejor rendimiento y op- en los datasets de testing
timice una función objetivo. o validación. Los tipos de
Si tal cambio produce una inferencia incluyen: de-
mejor solución, otro cam- ducción, inducción, y ab-
bio incremental se produce ducción.
encima de la nueva solución
hasta que no se encuentren
mejoras sucesivas.
Hyper-Parameter [Hı́per- J
Parámetro] -n. Son los
parámetros externos a un
modelo de aprendizaje au- K
tomático cuyos valores no
se calculan mediante un
proceso de optimización Kernel -n. Es una función que
matemática sino a través pondera los datos de en-
de una búsqueda manual trada de una señal durante
o heurı́stica. Ejemplos de la operación de convolución
hı́per-parámetros incluyen (ref. Convolution).

13
L Long Short-Term Memory (LSTM)

Estadı́sticamente, es un tre las neuronas y el apren-


función de densidad prob- dizaje se da a través de un
abilı́stica que normaliza los proceso iterativo que actual-
valores de una variable. iza los pesos con el objetivo
de minimizar una métrica
de error o loss function.
Learning Rate [Velocidad de
L Aprendizaje] -n. Es
un hı́per-parámetro (ref.
Hyper-Parameter) que rep-
Label [Etiqueta] -n. Es el valor
resenta el ratio con el cual
real asignado a una obser-
se modifican los pesos de
vación en un dataset (ref.
una red neuronal. Mien-
dataset). A menudo cada
tras un learning rate actu-
observación posee una eti-
aliza rápidamente los pe-
queta la cual ha sido otor-
sos, puede no converger en
gada por una persona de-
un mı́nimo local adecuado.
spués de observar sus carac-
Por otro lado, un valor muy
terı́sticas (ref. Feature). Por
bajo puede hacer que el en-
ejemplo, a los pixeles de una
trenamiento converja lenta-
imágenes se les puede otor-
mente, pero también dejar
gar una etiqueta que indica
de explorar otras regiones
el objeto que representan.
del espacio de solución
Para reducir la subjetividad
que podrı́an minimizar la
en su definición, se suele
función de costo (ref. Loss
pedir a varias personas que
Function).
definan una etiqueta para
la misma observación y ası́ Se le representa con la le-
obtener más robustez en su tra α y usualmente se de-
definición. La clasificación fine como una función del
de observaciones que con- tiempo con la idea de dis-
tienen más de una etiqueta minuir su valor mientras
al mismo tiempo, se le de- el entrenamiento se desar-
nomina multi-label classifi- rolla.
cation. Linear Kernel [Kernel Lineal] -n.
Learning [Aprendizaje] -n. Es Un kernel lineal es la sim-
el proceso de actualizar los ple suma de la multipli-
parámetros entrenables de cación de cada una de las
un modelo matemático o entradas de dos vectores
estadı́stico con el fin de de igual tamaño. El ter-
optimizar una función ob- mino matemático para esto
jetivo (Ref. Loss Func- se le llama producto punto
tion) y de esa manera re- y también se le define como
solver una tarea determi- el coseno del ángulo de dos
nada (e.g., clasificación, re- vectores multiplicado por el
gresión, clustering). En producto de sus longitudes.
el caso de las redes neu- Long Short-Term Memory (LSTM)
ronales, los parámetros en- -n. Es un tipo de red neu-
trenables son los pesos en- ronal recurrente (ref. Re-

14
Loss Function Multi-Layer Perceptron (MLP)

current Neural Network)


que resuelve explı́citamente
M
el problema del desvanec-
imiento de gradientes (van- Machine Learning [Aprendizaje
ishing gradients) mediante Automático] -n. Es la
el uso de compuertas en- predicción del futuro con
trenables que controlan el datos, evidencia, y patrones
flujo de gradientes dentro del pasado usando una com-
de una unidad de proce- putadora.
samiento. Esto se realiza Mapping -n. Transformación
mediante un conjunto de matemática que consiste
operaciones sobre la memo- en llevar los datos a una
ria interna de cada unidad. espacio en donde ciertas
Por ejemplo, LSTM puede propiedades se cumplen.
aprender a escribir, leer, y Por ejemplo, que cada di-
sobrescribir patrones en la mensión sea ortogonal o que
memoria utilizando com- la separación entre clases
puertas llamadas input (en- sea más larga.
trada), output (salida), and
forget (olvido), respectiva- Memory [Memoria] -n. Conjunto
mente. de pesos de una red neu-
ronal que se activan de
A diferencia de otros mode- forma similar en presencia
los como RNN y HMM, que de la misma observación.
también representan depen-
dencias temporales, LSTM Multi-Layer Perceptron (MLP)
no suele ser sensible a [Red Neuronal Multi-capa]
la presencia de intervalos -n. Es un tipo de red neu-
entre patrones dentro de ronal que esta organizada
largas señales de entrada, en una capa de entrada, una
de ahı́ el termino long-term o mas capas escondidas, y
(largo-plazo). una capa de salida. Las ca-
pas de esta red neuronal
Loss Function [Función de Costo] se conectan a través de sus
-n. Es un valor numérico sinapsis, cada una asociada
que representa el costo a un valor numérico lla-
o error asociado a una mado peso y que representa
predicción. En redes neu- su intensidad.
ronales, una observación Un MLP se utiliza principal-
genera una distribución de mente como un clasificador
clases en la capa de sal- con el fin de aprender un es-
ida, este valor representa pacio matemático donde la
la diferencia entre tal dis- representación de los datos
tribución y la clase asig- de entrada es fácilmente
nada a esta observación. Un separable en clases. Debido
método común para medir a su capacidad de aproxi-
esta discrepancia es el de- mar funciones muy comple-
nominado error cuadrado: jas, se les denomina aprox-
imadores universal de fun-
J(θ) = (y − f (x, θ))2 ciones (universal function

15
N Perceptron

approximators) La lógica de esta heurı́stica


Cada capa de un MLP es es que si la optimización
un conjunto de neuronas de modelos de aprendizaje
que propagan la señal hacia suele ser no-convexa, en-
la siguiente capa, creando tonces siempre existirán
nuevas representaciones, y modelos más complejos, y
finalmente proyectándolas a menos interpretables, que
la capa de salida, la cual provean resultados simi-
tiene un numero de neu- lares. Ante la existencia de
ronas igual al numero de alternativas más complejas,
clases a aprender. El valor se elige los modelos más
optimo de los pesos de una simples debido a que sus
de un MLP se realiza ajus- desempeños son más fáciles
tando los pesos mediante la de evaluar o consumen una
técnica llamada back propa- menor cantidad de recursos.
gation (ref. Back Propaga- Optimization [Optimización] -n.
tion). Es la elección del mejor con-
junto de parámetros entren-
ables de un modelo con el
fin de maximizar su función
N objetivo (ref. Objective
Function).
Neural Networks [Redes Neu-
ronales] -n. Un modelo
matemático cuya arquitec-
tura contiene varias capas P
de neuronas las cuales con-
struyen progresivamente
representaciones más ab- Parameters [Parámetros] -n. Val-
stractas de información di- ores que influyen en el com-
rectamente desde los datos portamiento y desempeño
de entrada. de un modelo entrenable.
Por ejemplo, los parámetros
de una red neuronal son sus
pesos.
O Perceptron [Perceptrón] -n. Es un
clasificador que aprende a
categorizar entre dos clases
Objective function [Función Ob-
(0 y 1) multiplicando un
jetivo] -n. Ref. Loss Func-
peso por cada dimensión de
tion.
los datos de entrada y le
Occam’s Razor -n. Es una suma a esta operación una
heurı́stica utilizada en cien- constante llamada bias que
cia que aconseja la elección mueve la decisión lejos del
de modelos más simples so- origen. Si los datos de en-
bre modelos complejos o trada son x, los pesos del pe-
con mayor capacidad (ref. sos del perceptron son w y el
Capacity). termino bias es b, el percep-

16
Precision Recurrent Neural Network (RNN)

tron retornará 1 si Recurrent Neural Network (RNN)


[Red Neuronal Recurrente]
w·x+b>0 -n. Es un tipo de red neu-
y 0 en caso contrario. ronal profunda (ref. Deep
Neural Network) que pre-
Precision [Precisión] -n. senta sinapsis y pesos en-
Aunque se suele uti- tre cada unidad interna de
lizar comúnmente como procesamiento (memoria),
sinónimo de exactitud, su cada cual alimentada por
definición es diferente en un dato de entrada den-
el contexto del método tro de una secuencia. Esta
cientı́fico. La precisión es el propiedad las hace ade-
grado de similaridad entre cuadas para modelar datos
las predicciones correctas temporales como la voz hu-
otorgadas por un modelo de mana, música, documentos
aprendizaje automático. Si de texto, y videos.
estas predicciones muestran Las RNNs reciben el nombre
variabilidad entre ellas, el de recurrentes por su capaci-
modelo no será preciso. dad de definir su memoria
Se le suele definir como el en términos de estados de
número de predicciones cor- memoria anteriores. Es de-
rectas (True Positive) divi- cir, la salida de cada unidad
dido por el número total ct+1 es una función de la
de predicciones (True Posi- entrada actual xt y el valor
tive y False Positive). Un actual de su memoria ct ,
modelo puedo ser preciso,
mas no exacto y también
ct+1 = f (ct , xt )
ser poco preciso y exacto si-
multáneamente. La forma mas común de en-
Policy -n. Es una función que de- trenar una red neuronal re-
fine el comportamiento de currente es usando gradi-
un agente que interactúa entes con la técnica llamada
a través de acciones con Back Propagation Through
un ambiente determinado. Time (BPTT), la cual es simi-
El policy π(a|s) describe la lar a la técnica llamada Back
probabilidad de tomar la Propagation (ref. Back Prop-
acción a cuando el agente se agation) usada para entre-
encuentra en el estado s. nar modelos de aprendizaje
profundo.
La principal diferencia es
que BPTT desenvuelve la es-
Q tructura temporal de la RNN
en una secuencia donde to-
das las unidades comparten
R los mismos parámetros y
memoria. Luego, se calcula
la señal de error (error sig-
Recurrence [Recurrencia] -n. Ref. nal) después de proyectar la
Recurrence salida de la ultima unidad

17
Reinforcement Learning Stochastic

–a manera de predicción–
y compararla con la corre-
S
spondiente etiqueta de los
datos de entrada. Este es Softmax -n. Es una funcion de
el inicio del proceso de retro activacion (ref. Activation
propagación y va en el sen- Function) que a menudo se
tido opuesto a la secuen- coloca en la capa de salida
cia, actualizando los pesos de una red neuronal. Dada
de toda la red neuronal en una capa de una red neu-
ese orden. ronal, la funcion Softmax
normaliza cada valor entre
Entrenar este tipo de mode-
0.0 y 1.0 con la condicion
los puede presentar compli-
que la suma de estos val-
caciones cuando se memo-
ores sea 1.0. El resultado
rizan patrones en señales de
en un vector que representa
larga duración. La multipli-
la probabilidad de que un
cación de gradientes en una
dato de entrada pertenezca
secuencia larga hace que
a cada clase disponible con
el producto final converja
cierto nivel de probabilidad.
rápidamente a 0 si las gradi-
entes son menores a 1, o se Matematicamente, la ecua-
incremente rápidamente si cion de esta funcion se de-
la gradientes son mayores a fine como:
1. Ambos problemas reciben
el nombre de desvanec- efyi
imiento (vanishing) o ex- S(fyi ) = P fyj
plosión ( exploding), respec- j
e
tivamente; y su estudio ha
donde fyi representa el vec-
conducido a diseñar redes
tor que contiene los datos de
recurrentes que controlan
la capa de salida de una red
el flujo de gradientes en
neuronal.
base a compuertas entren-
ables llamadas redes LSTM Stochastic [Estocástico] -n. Es la
(ref. Long Short Term Mem- cualidad de un evento de
ory). ser determinado aleatoria-
mente.
Reinforcement Learning Cuando un proceso es es-
[Aprendizaje por Refuerzo] tocástico, se dice que es
-n. Conjunto de algoritmos un proceso aleatorio (ran-
que entrenan a un agente a dom process) en el cual
interactuar con un ambiente los valores de sus vari-
a través de una secuencia ables están especificados
de estados , acciones, y pre- por una función de dis-
mios (rewards). El agente tribución probabilı́stica. Por
es entrenado con el objetivo ejemplo, el proceso de tirar
de maximizar el valor acu- un dado esta definido por
mulado de futuros rewards una función que asigna una
durante la secuencia de ac- probabilidad a cada resul-
ciones que suceden durante tado del experimento. De-
un episodio. spués de un gran número de

18
Supervised Learning Unsupervised Learning

intentos, dicha distribución predicción de que clase le


mostrará la misma proba- corresponde a x0 . Este pro-
bilidad para cada valor del ceso de inferencia en base
dado ( 16 ). a evidencias tiene similitud
al proceso de generalización
Supervised Learning [Aprendizaje que sucede en el cerebro hu-
Supervisado] -n. Es un mano (ref. Generalization)
problema del aprendizaje
automático que consiste en
aprender una función que
transforme los datos de en-
trada (nuestra observación T
del fenómeno) hacia una
etiqueta, la cual representa
la clase a la que pertenece Training [Entrenamiento] -n. Ac-
dicha observación y que ha tualización iterativa de los
sido anotada manualmente. parámetros entrenables de
Los parámetros entren- un modelo de aprendizaje
ables θ de dicha función automático en la dirección
f (x, θ) = y son ajusta- en la cual la función de er-
dos en un proceso llamado ror se minimiza.
entrenamiento (ref. Train-
Trainable Parameters [Parámetros
ing), el cual calcula la cor-
Entrenables] -n. Conjunto
respondencia matemática
de parámetros que pueden
entre los elementos de en-
cambiar durante un proceso
trada x y las etiquetas y.
de entrenamiento con el fin
Estadı́sticamente, en algo-
de optimizar una función de
ritmos como las Redes Neu-
costo (ref. Loss Function)
ronales, esta relación toma
la forma de la probabilidad
condicional de las etique-
tas dado los valores de en-
trada y parámetros entre- U
nados, P (y|x, θ∗ ) también
llamado likelihood; mientras
que en el caso de las Redes Unsupervised Learning
Bayesianas, dicha relación [Aprendizaje No Super-
se aproxima mediante la visado] -n. Es un tipo de
probabilidad conjunta entre aprendizaje que no requiere

estos elementos P (x, y, θ ). el etiquetado de observa-
La predicción de nuevos el- ciones y que funciona en
ementos de entrada x0 es base a identificar la pres-
simplemente la ejecución de encia de relaciones entre
la función f (x0 , θ∗ ), ya con grupos de observaciones.
sus parámetros entrenados Tales relaciones pueden in-
θ∗ . El resultado es una cluir las medidas de similar-
distribución sobre el con- idad, densidad, asociación,
junto de etiquetas, cuyo o jerarquı́a entre las obser-
valor máximo representa la vaciones.

19
V Weights

V peso corresponde al valor de


la sinapsis entre dos neu-
ronales y representa el nivel
Variance [Varianza] -n. Un al- de activación de la neurona
goritmo de aprendizaje su- en presencia de sus datos de
pervisado tiene un alto vari- entrada.
ance cuando predice distin-
tos resultados para difer- Los pesos son usualmente
entes datasets. los valores entrenables de
una red neuronal.
Por ejemplo, si un modelo
entrenado exhibe una ex-
actitud muy diferente para
datasets de entrenamiento y
validación, entonces se dice X
que muestra un alto vari-
ance.

Y
W
Z
Weights [Pesos] -n. En una
red neuronal artificial, un

20

También podría gustarte