Conceptos Clave Sobre Inteligencia Artificial

Módulo 2.
Conceptos clave sobre

inteligencia artificial
Inteligencia del conocimiento y Machine Learning
MÓDULO 2. CONCEPTOS CLAVE SOBRE INTELIGENCIA ARTIFICIAL
Introducción
En el presente documento se hace una presentación general a la ingeniería del
conocimiento y el machine learning durante la cual se exploran sus relaciones con
la estadística tradicional. Concluye con una discusión sobre los problemas más
importantes en los que se aplica y una breve introducción a los métodos más
conocidos.
¿Sabemos qué significa ‘ingeniería del conocimiento’?
Históricamente la ingeniería ha proporcionado artilugios que extendían

habilidades humanas puramente físicas: sabemos trasladarnos, hacer agujeros en
el suelo o coser, pero nunca tan eficazmente como con el concurso de máquinas
como el automóvil, la excavadora o la Singer. Máquinas estúpidas, a las que nadie
asociaría capacidad alguna concerniente al conocimiento, pero sin duda útiles.
Más recientemente la ingeniería ha comenzado a proporcionar dispositivos y

procedimientos para extender otras habilidades humanas no meramente físicas.
Piénsese en herramienta tan tontas como las hojas de cálculo. Facilitan
operaciones intelectuales, sí, pero repetitivas: sumar cifras, etc.
La llamada ingeniería del conocimiento tiene como objetivo desarrollar

herramientas que incrementen la producitividad del ser humano --hasta aquí
nada distinto de la ingernía tradicional-- en actividades consideradas como
intelectuales. En la práctica, dejando al margen las ensoñaciones de algunos, no
hablamos tanto de diseñar y preparar cursos de Machine Learning o componer
sinfonías como identificar objetos en fotos, traducir textos o recomendar
películas. Y, efectivamente, ha sido capaz de construir y hacer funcionar algunas
esas herramientas. Son --¿todavía?-- herramientas tontas: hacen una cosa y la
hacen bien, como la máquina de coser. La que traduce no tiene siquiera manera
de leer una foto y a la que es capaz de identificar los loros en una imagen, no le
preguntes en qué idioma están escrito el cartel sobre el que están posados o, por
supuesto, le plantees jugar una partida de Go; pero aquello para lo que fueron
diseñadas lo hacen sorprendentemente bien.
No obstante su estupidez, son herramientas apasionantes. Igual que nos

fascinaban antaño los engranajes de nuestro cochecito de juguete a pilas cuando
le abríamos las tripas, nos fascinan hoy las entrañas de esas cajas tontas.
Queremos descubrir cómo funcionan por dentro y cómo podemos mejorarlas y
extenderlas.
Ingeniería del conocimiento y Machine Learning

2
Por supuesto, sigue viva la aspiración a construir una metamáquina, una

máquina que las sea todas, que, dejada a su suerte, pueda aprender cualquier
tarea por su cuenta. Es uno de los grandes objetivos de la ingeniería del
conocimiento del que, en el mejor de los casos, tardaremos en ver realizaciones
concretas. Nosotros nos ocuparemos más bien del problema de enseñar a
máquinas a resolver lo más eficazmente posible un problema concreto.
Aprendizaje automático
A pesar de las similitudes discutidas más arriba, existe una diferencia sustancial
entre un automóvil y un sistema de recomendación: el primero puede circular
desde el primer momento. Un sistema de recomendación tiene que ser adaptado
a un contexto, a una situación real. Un sistema de recomendación o una red
neuronal no son sino promesas de un sistema de recomendación o de una red
neuronal: para poder ser usadas tienen que entrenarse.
Aprendizaje automático es una malísima traducción de machine learning, que ya

en sí mismo es un término dudoso. Sugieren ambos una habilidad de la que
carecen nuestras herramientas: la de aprender en la denominación anglosajona y
de hacerlo, además, automáticamente en su traducción. Sin embargo, la iniciativa
no es de la máquina: a la máquina se le enseña. Alguien distinto de ella, un
humano, se ocupa de adaptarla para que opere en un contexto determinado. La
analogía más próxima sería la de los ordenadores: sin sistema operativo, sin
programas, son máquinas solo potencialmente útiles; plenamente útiles
únicamente lo serán cuando se les hayan instalado las herramientas auxiliares
necesarias.
La mayor parte de --no me atrevo a decir todas-- las herramientas de las que se
ocupa el machine learning son funciones matemáticas que dependen de
parámetros subyacentes. En principio están indeterminados. Solo cuando se las
aplica en un contexto determinado, como, p.e.,
▶ Tomar un texto e indicar en qué idioma está escrito.
▶ Traducir del ruso al español.
▶ Identificar el mal funcionamiento de una instalación fotovoltaica.
▶ Recomendar a los clientes argentinos películas de Netflix.

3
▶ Tomar una imagen de tamaño 224 x 224 e indicar si contiene alguno de los
objetos contenidos en una lista de varios miles de ellos.
▶ Etc.
Es necesario darles un valor determinado: aquel para el que el sistema funciona

mejor, con menos errores.
Un ejemplo sumamente simple puede servir para ilustrar este proceso: el

uso del modelo lineal para aprender la relación entre la velocidad y la
distancia de frenado de unos vehículos en un entorno de pruebas del que
se han extraído los datos que se muestran a continuación:
El modelo lineal está dado por la función 𝑑 = 𝑎 + 𝑏𝑣, que relaciona linealmente
la distancia con la velocidad. El modelo depende de dos parámetros
desconocidos a priori, 𝑎 y 𝑏. Utilizando esos datos y algunas técnicas de álgebra
lineal, se pueden calcular sus valores óptimos, que son los que corresponden a la
recta que aparece en rojo en la gráfica anterior.

4
El aprendizaje se ha realizado en este caso en una fracción de segundo en un

ordenador no particularmente potente. El modelo resultante resume la relación
entre la velocidad y la distancia y permite realizar también predicciones y, con
mucha cautela, extrapolaciones. Y para ello, internamente, solo necesita dos
parámetros, dos números, 16 bytes en total.
En comparación, el fichero que almacena los coeficientes de uno de los modelos

más sofisticados existentes hoy en día para el reconocimiento de objetos en fotos,
una red neuronal desarrollada por Google, Inception (v3), ocupa 129 MB, y
contiene unos 20 millones de parámetros. Dicho de otra manera, es necesario
aprender una cantidad de información similar a 100 volúmenes similares al
Quijote en tamaño para distinguir objetos en una foto. Además, hace falta un
clúster de máquinas no al alcance de cualquiera (y bastante paciencia) para
entrenar ese tipo de modelos.
¿Y la estadística?
La estadística es una disciplina que se ocupa de asuntos similares a los descritos

más arriba. De hecho, el modelo simple descrito en la sección anterior se ha
construido usando una técnica estadística muy habitual: la regresión lineal. Sin
embargo, el machine learning ha evolucionado, en gran medida, al margen e
independientemente de la estadística.
Las mayores diferencias entre ambas disciplinas se refieren a los objetivos, los
enfoques y, en gran medida debido a todo lo anterior, los campos de aplicación.
En cuanto a los objetivos, el análisis de datos tiene dos fundamentales: predecir
y entender. Para el aprendizaje automático, el fundamental es el primero: que las
películas recomendadas sean efectivamente las que interesan al cliente, que la
traducción de un texto sea correcta, etc. No tiene ningún tipo de problema con
las cajas negras. La estadística, sin embargo, presta más atención a la explicación
de los fenómenos: ¿qué variables son más importantes?, ¿cómo interactúan entre
sí?, etc.
Predicción y comprensión son el blanco y el negro, extremos en una escala de

grises y, por supuesto, un modelo explicativo sería sospechoso si no tuviese una
tasa aceptable de acierto. Por su parte, un modelo de caja negra es solo
parcialmente útil si no puede ayudarnos a comprender el fenómeno al que se
aplica.
En cuanto a su enfoque, la estadística se caracteriza por estar asentada sobre un

sustrato teórico matemático potente y por una aproximación pesimista a los

5
problemas. Por un lado, le preocupa la modelización matemática de los

fenómenos: si las cosas ocurren de la manera en que lo hacen es por unos motivos
que estarán gobernados por determinadas ecuaciones que le interesa revelar.
Pero, a la vez, es pesimista: se esfuerza en no dar por bueno un modelo que tal
vez sea falso. Está contagiada del muy sano escepticismo propio de la ciencia, el
que trata de ponernos a resguardo del error.
El machine learning es mucho más optimista: le preocupa más el construir que el

cuestionar. Utiliza además herramientas agnósticas (por ejemplo, redes
neuronales o random forests) acerca del mecanismo físico o matemático
subyacente porque pueden simular cualquier tipo de relación entre variables sin
necesidad de ser teorizada de antemano.
Finalmente, y en gran medida como consecuencia de todo lo anterior, la

estadística y el machine learning tienen ámbitos de aplicación distintos. La
estadística, que es más antigua, está a decir de algunos encasillada en una serie
de campos de aplicación tradicionales que comparten rasgos tales como:
▶ Una teoría subyacente rica (por ejemplo, la predicción del PIB o el

comportamiento de determinados sistemas físicos).
▶ Control experimental, de modo que los datos extraen cuidadosamente y ad

hoc. Una de las consecuencias de esto es que los datos, habitualmente
obtenidos mediante un proceso costoso, tienden a ser escasos.
▶ Como consecuencia parcial de lo anterior, el predominio los modelos simples

y muy explicativos.
▶ Interés en validar, es decir, dar o no por buenas, hipótesis planteadas por

terceros.
▶ Predominio del análisis sobre lo computacional.
El machine learning, por otro lado, es una disciplina más joven y que no tiene
reparos en enfrentarse a problemas que habían sido dejados de lado por la
estadística tradicional, donde predomina el interés por la predicción, se tiende a
hacer un uso más intensivo de los recursos computacionales y abundan los datos
observacionales.

6
Por ejemplo, algunos estadísticos (de la subespecie que recibe el nombre de

económetras) prestan gran atención a la modelización y ajuste de unas cuantas
series temporales: PIB, inflación, etc. Usan modelos sofisticados y, generalmente,
ad hoc basados en el conocimiento previo del comportamiento de estos
indicadores. Sin embargo, las grandes cadenas de distribución (Carrefour, Tesco,
etc.) construyen modelos para predecir simultáneamente cientos de miles de
series temporales: las ventas de sus distintas referencias de productos, con o sin
desglose geográfico. Obviamente, es imposible dedicar el mismo esfuerzo y
atención por parte de un experto humano al ajuste de una serie individual en el
segundo contexto que en el primero. La predicción masiva exige automatizar el
proceso de ajuste y predicción y para ello, el 90% de la teoría contenida en los
manuales de estadística clásica para el análisis de series temporales es poco
relevante.
La calidad del ajuste (y las predicciones) del PIB es muy superior a la de las series
ajustadas masivamente, pero la diferencia fundamental reside en que uno de los
procedimientos escala y el otro no.
No obstante, aunque en lo anterior se ha hecho hincapié en las diferencias entre

la estadística y el machine learning, las disciplinas no son mutuamente estancas.
De hecho, se trabaja activamente en las sinergias entre ellas. Por un lado, ha
nacido una nueva disciplina híbrida y muy fecunda, el statistical learning,
preocupado en analizar las técnicas empleadas en machine learning desde un
punto de vista estadístico. Esta revisión crítica y teórica no se ha quedado en una
mera descripción de los fundamentos de las técnicas usadas en machine learning,
sino que han servido, además, para, desde lo aprendido, replantearlas e incluso
crear otras nuevas. Así, por ejemplo, algunos de los algoritmos más usados
actualmente en machine learning, los GBM (gradient boosting machines) tienen su
origen en esa escuela.
Otro de los grandes movimientos que están desenvolviendo actualmente en la

frontera entre ambos mundos es la emergencia de los modelos bayesianos
aplicados al big data, que compiten con creciente éxito con los derivados del
machine learning por dos motivos:
▶ Porque son generativos: explican el mecanismo por el que los datos obtenidos
son como son.
▶ Porque aunque muy intensivos computacionalmente, la experiencia adquirida

en los métodos de computación masiva (gracias, en parte también, al machine
learning) permiten aplicarlos en contextos que hace unos años habrían sido
impensables.

7
Big data y la memoria de los modelos
El machine learning está muy vinculado a otra tecnología emergente: el big data.
Big data puede significar, esencialmente, dos cosas (no exclusivas): muchas
variables o muchas observaciones. El problema --falso problema, según algunos-
- de la abundancia de variables ha sido abordado desde ambas perspectivas, la
de la estadística y la del machine learning, y existen técnicas poderosas tanto para
seleccionar subconjuntos pequeños y manejables de variables como para crear
modelos robustos frente a las variaciones de las menos relevantes.
Existen clases de modelos, incluso, para los que la abundancia de variables no

presenta otros problemas que los meramente computacionales. Por ejemplo, una
red neuronal que clasifica fotos de tamaño 1000x1000 admite necesariamente
como entrada un vector con tres millones de variables: los tres canales RGB para
cada uno de los píxels de la imagen.
En cuanto al problema de la abundancia de registros, los modelos más

interesantes ensayan aproximaciones basadas en la factorización: no se trata
tanto de crear un único y gran modelo global como familias de modelos, uno por
cada sujeto de interés, interrelacionados entre sí. Por ejemplo, para la
recomendación de películas se puede (y de hecho, se hace) crear un modelo
simple por cliente basado en su histórico de preferencias. Pero ese modelo básico
puede enriquecerse con la información procedente de otros, típicamente los que
corresponden a otros clientes similares en términos del sexo, edad, etc. Esta
aproximación es general: muchos modelos avanzados permiten predecir el
comportamiento de un sujeto determinado combinando dos fuentes de
información: la propia del sujeto y la de sus --en la terminología usualmente
empleada-- almas afines. De nuevo, para combinar ambas fuentes de
información, es usual recurrir a las técnicas bayesianas.
Como resultado, un modelo (o un sistema de modelos que contiene múltiples

modelos individuales) contiene mucha información, típicamente en forma de
coeficientes. Una de las diferencias más notables entre los modelos más simples
de los estadísticos y descritos más arriba es es cantidad de memoria --aquí se está
usando memoria no como capacidad para recordar en el tiempo sino para
almacenar más información-- de la que disponen: de unos cuantos bytes en los
modelos estadísticos más simples a conjuntos de coeficientes que podrían
considerarse big data en sí mismos.
Desde luego, un modelo que describa la relación entre unas pocas variables en
un modelo físico no tiene por qué ser complejo ni contener demasiada
información. Lo contrario ocurre con sistema que aprenda las peculiaridades de

8
cada una de las cientos de miles de series temporales de ventas de productos en

una gran cadena de distribución o los gustos cinematográficos de cada uno de
los clientes de Netflix: potencialmente contendrá millones de parámetros.
Una discusión de problemas y algoritmos
Esta última sección presenta una selección de problemas y algoritmos usados en

machine learning, haciendo especial énfasis en los más habituales.
Una clasificación de los problemas más importantes del machine learning
Los dos problemas más importantes del machine learning son los de la regresión
y la clasificación. La regresión está relacionada con la predicción de una variable
continua como, por ejemplo, la edad de un cliente o la potencia a la que opera
una planta fotovoltaica.
En cambio, la clasificación tiene que ver con la predicción de una etiqueta,

típicamente binaria: fraude o no fraude, spam o no spam, etc. Aunque en
ocasiones el número de etiquetas es mayor: ¿en qué categoría de productos
comprará nuestro cliente? Existen incluso problemas de clasificación con miles e
incluso millones de etiquetas potenciales.
Aparte de los anteriores, los más habituales, existen otros menos frecuentes y
conocidos pero útiles en la práctica. Por ejemplo, el de los conteos: cuántas veces
visitará un cliente la tienda en un mes o cuántos productos compra cada vez.
Nótese que el tipo de datos es distinto al considerado en problemas de regresión
(no existen valores fraccionarios ni negativos) o de clasificación (el número de
eventos no está necesariamente acotado). Existen técnicas ad hoc, muchas de las
cuales tienen que ver con la distribución de Poisson, que pueden ser aplicadas
con éxito en estos contextos.
El segundo es el de los llamados problemas de supervivencia: la estimación del

tiempo que transcurrirá hasta que suceda algo. Aunque la mayor parte de las
aplicaciones más citadas en la literatura de estas técnicas se encuentran en el
mundo de la medicina y de los seguros (y de ahí su nombre: en esos contextos
interesa estimar el tiempo discurrido hasta el fallecimiento de los sujetos), es
evidente que esas técnicas pueden trasladarse a problemas habituales en fuera de
ellos, como el del churn o la recencia.

9
Otro tipo de problemas especiales de los que no se ocupa tradicionalmente el

machine learning son los que tienen que ver con series temporales. En estos casos,
las observaciones no son independientes entre sí (una suposición habitual en la
mayor parte de las técnicas corrientes de machine learning) sino que guardan una
dependencia relacionada con el orden en que fueron obtenidas.
Y si la relación entre las observaciones no tiene que ver con su orden temporal
sino con su ubicación en el espacio (bi o tridimensional), lo que induce una
estructura de correlación más compleja, aparecen problemas de estadística
espacial un campo de creciente importancia tanto por su interés intrínseco como
por sus aplicaciones.
Algunos algoritmos de machine learning:
Modelos lineales, GLM's y sus generalizaciones
El modelo lineal básico tiene una historia de más de 200 años y estudia una
relación lineal entre la variable objetivo y una serie de variables predictoras en
problemas de regresión, i.e., trata de estimar 𝑦 en función de las variables 𝑥𝑖
mediante una relación del tipo.
𝑦 ∼ 𝑎0 + 𝑎1 𝑥1 + ⋯ + 𝑎𝑛 𝑥𝑛 .
Los modelos lineales generalizados (formalizados solo en 1972) los extienden a

modelos de clasificación, conteos y otros.
Aunque viejos y superados por desarrollos posteriores, son importantes por dos
motivos:
▶ Aún se usan frecuentemente, sobre todo en ámbitos como la industria del

seguro.
▶ Muchos algoritmos modernos son generalizaciones suyas.
De entre las generalizaciones más promisorias de este tipo de modelos están los
de las regresiones ridge, lasso y, especialmente, glmnet que resuelve de manera
casi automática problemas asociados a los modelos lineales como el de la
selección de variables o la inestabilidad asociada los outliers. Todos ellos pueden
usarse además en contextos tanto de regresión como de clasificación.

10
Los modelos basados en árboles
Los árboles de decisión son herramientas modernas, de mediados de los ochenta.

Están basados en la idea partir recursivamente el espacio de variables para ir
dejando juntos en los nodos terminales aquellos sujetos que tienen un
comportamiento similar con respecto a una variable de interés.
En el caso que se representa gráficamente a continuación, se utiliza un árbol para

clasificar 100 observaciones en dos categorías (versicolor o virgínica) en función
de una serie de variables predictoras. El modelo distingue tres nodos finales (de
46, 46 y 8 observaciones respectivamente), dos de las cuales, las más grandes, son
más puras (contienen principalmente observaciones de una clase u otra) y la más
pequeña contiene observaciones difícilmente clasificables, las de la zona gris.
Los árboles son fáciles de interpretar: del ejemplo anterior se deduce

rápidamente una regla sencilla para distinguir versicolor y virgínica en función
de la longitud y anchura del pétalo.
La interpretabilidad tiene una contraparte negativa: no son modelos buenos en

la práctica. Pero existen extensiones de estos modelos que, perdiendo

11
interpretabilidad, ganan poder predictivo. Existen dos generalizaciones muy

aplicadas en la práctica:
▶ Los bosques aleatorios, que están basados en la idea de crear muchos árboles
sobre versiones (de otro modo todos serían iguales) de los datos originales y
promediarlos.
▶ GBM (gradient boosting machines) 1 que es una técnica para refinar

iterativamente un modelo con árboles que intentan corrigir los errores de
que comete aquel.
De hecho, los dos tipos de modelos descritos encima son de los más empleados
en competiciones de análisis de datos como las de Kaggle y se encuentran a
menudo entre los empleados por quienes los ganan.
Las redes neuronales
Las redes neuronales tienen una larga historia que se remonta al perceptrón de
1957. No obstante, durante muchos años el interés en ellas decayó grandemente
y solo ha sido recientemente, durante el presente siglo, que han vuelto a recobrar
el protagonismo perdido. El principal motivo es que durante años no se dispuso
de la capacidad de cálculo que necesitan estos modelos para poder ser
implementados con éxito.
Y, de hecho, están triunfando en problemas de reconocimiento de dígitos,

identificación de objetos en fotografías o fonemas en discursos hablados. Pero
tienen una limitación importante: no está claro cómo pueden ser utilizados fuera
de una serie de ámbitos muy concretos y donde los datos tienen características
muy específicas.
En los casos de uso que aparecen más arriba, los modelos operan sobre
fotografías o grabaciones de sonido. En ese tipo de datos, aunque altamente
dimensionales, los valores son homogéneos (p.e., corresponden todos a
intensidades de color en una imagen) y tienen una estructura muy concreta. De
hecho, algunos de los avances más notables en el campo de las redes neuronales
y que subyacen a sus últimos éxitos están asociados a desarrollos teóricos como
1Los GBM no son propiamente generalizaciones de los árboles y aunque no es

necesario, sí es típico que se construyan a partir de árboles.

12
los de las redes neuronales de convolución, específicamente pensados para su

aplicación al análisis de imágenes o las recursivas, para texto.
No está nada claro cómo podrían extenderse este tipo de técnicas a contextos
distintos como, por ejemplo, los relacionados con el comportamiento de
personas, en los que existe información heterogénea en la naturaleza y el tipo:
mezclas de variables continuas con categóricas, etc.
Clústering
Mención especial merecen en esta serie los métodos de clústering. De hecho, el

objetivo final real de muchos proyectos de machine learning en la práctica es la
construcción de algún clustering (de clientes, de empresas, de procesos, etc.). El
clústering consiste en la identificación de subgrupos con propiedades comunes
dentro de una población dada y se usan frecuentemente en márketing (aunque el
clústering encuentra también, por supuesto, aplicaciones en otros campos, como
el del procesamiento de imágenes) para, por ejemplo, personalizar campañas.
Propiamente, el clústering es una técnica para comprender la estructura una

población y goza de un desmerecido predicamento. Generalmente, disponer de
una segmentación (p.e., de usuarios) aporta muy poca información sobre la
población subyacente: ¿qué enseña globalmente saber que existen siete u ocho
grupos subyacentes, de los que se conocen generalidades como la edad media,
etc.? Además, típicamente, los clústers son demasiado gruesos como para poder
describir las particularidades de sus integrantes.
Un algoritmo de clústering típico propone unos cuantos sujetos característicos y

asimila cada uno de los de la población subyacente al que se le parezca más. Es
problemático, sin embargo, suponer que las preferencias de un sujeto
determinado vayan a ser similares a las de ese representante ideal de su clúster.
Existen alternativas al clústering más poderosas desde el punto de vista

operacional. Los sistemas de recomendación, por ejemplo, en lugar de predefinir
grupos y asumir que sus integrantes comparten gustos, operan (al menos, cierta
parte de ellos) a la inversa: para cada sujeto identifican su entorno, es decir,
aquellos otros sujetos que más se le parecen (de acuerdo con cierto número de
criterios) y son las preferencias de esos sujetos los que se le pueden presumir a
aquel. De esta manera, cada sujeto es siempre el centro de su, por llamarlo de
alguna manera, clúster.

13
Conclusión
La ingeniería del conocimiento ha llegado para extender las capacidades

cognitivas de las personas de la misma manera que la ingeniería tradicional
permitía extender las físicas. Cada vez son más los ámbitos en los que las
máquinas van a desplazar a los humanos en tareas con un componente
intelectual, como reconocer dígitos, predecir los gustos de los clientes o detectar
el mal funcionamiento de un sistema complejo.
El machine learning es un complemento a la estadística que la extiende y permite

aplicar el análisis de datos a ámbitos que esta no contemplaba. A la conjunción
de ambas disciplinas debemos métodos avanzados para analizar información
para comprender mejor sus mecanismos subyacentes y realizar predicciones.
Bibliografía
Breiman, L. Statistical Modeling: The Two Cultures.
Hastie T. et al., An Introduction to Statistical Learning.
Szegedy, C. et al., Rethinking the Inception Architecture for Computer Vision

http://arxiv.org/pdf/1512.00567v3.pdf

14

Conceptos Clave Sobre Inteligencia Artificial

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Conceptos Clave Sobre Inteligencia Artificial

Cargado por

Copyright:

Formatos disponibles

Módulo 2.

Conceptos clave sobre

¿Sabemos qué significa ‘ingeniería del conocimiento’?

Históricamente la ingeniería ha proporcionado artilugios que extendían

Más recientemente la ingeniería ha comenzado a proporcionar dispositivos y

La llamada ingeniería del conocimiento tiene como objetivo desarrollar

No obstante su estupidez, son herramientas apasionantes. Igual que nos

Ingeniería del conocimiento y Machine Learning

Por supuesto, sigue viva la aspiración a construir una metamáquina, una

Aprendizaje automático es una malísima traducción de machine learning, que ya

▶ Tomar un texto e indicar en qué idioma está escrito.

▶ Traducir del ruso al español.

▶ Identificar el mal funcionamiento de una instalación fotovoltaica.

▶ Recomendar a los clientes argentinos películas de Netflix.

Ingeniería del conocimiento y Machine Learning

Es necesario darles un valor determinado: aquel para el que el sistema funciona

Un ejemplo sumamente simple puede servir para ilustrar este proceso: el

Ingeniería del conocimiento y Machine Learning

El aprendizaje se ha realizado en este caso en una fracción de segundo en un

En comparación, el fichero que almacena los coeficientes de uno de los modelos

La estadística es una disciplina que se ocupa de asuntos similares a los descritos

Predicción y comprensión son el blanco y el negro, extremos en una escala de

En cuanto a su enfoque, la estadística se caracteriza por estar asentada sobre un

Ingeniería del conocimiento y Machine Learning

problemas. Por un lado, le preocupa la modelización matemática de los

El machine learning es mucho más optimista: le preocupa más el construir que el

Finalmente, y en gran medida como consecuencia de todo lo anterior, la

▶ Una teoría subyacente rica (por ejemplo, la predicción del PIB o el

▶ Control experimental, de modo que los datos extraen cuidadosamente y ad

▶ Como consecuencia parcial de lo anterior, el predominio los modelos simples

▶ Interés en validar, es decir, dar o no por buenas, hipótesis planteadas por

▶ Predominio del análisis sobre lo computacional.

Ingeniería del conocimiento y Machine Learning

Por ejemplo, algunos estadísticos (de la subespecie que recibe el nombre de

No obstante, aunque en lo anterior se ha hecho hincapié en las diferencias entre

Otro de los grandes movimientos que están desenvolviendo actualmente en la

▶ Porque aunque muy intensivos computacionalmente, la experiencia adquirida

Ingeniería del conocimiento y Machine Learning

Big data y la memoria de los modelos

Existen clases de modelos, incluso, para los que la abundancia de variables no

En cuanto al problema de la abundancia de registros, los modelos más

Como resultado, un modelo (o un sistema de modelos que contiene múltiples

Ingeniería del conocimiento y Machine Learning

cada una de las cientos de miles de series temporales de ventas de productos en

Una discusión de problemas y algoritmos

Esta última sección presenta una selección de problemas y algoritmos usados en

Una clasificación de los problemas más importantes del machine learning

En cambio, la clasificación tiene que ver con la predicción de una etiqueta,

El segundo es el de los llamados problemas de supervivencia: la estimación del

Ingeniería del conocimiento y Machine Learning

Otro tipo de problemas especiales de los que no se ocupa tradicionalmente el

Algunos algoritmos de machine learning:

Modelos lineales, GLM's y sus generalizaciones

Los modelos lineales generalizados (formalizados solo en 1972) los extienden a

▶ Aún se usan frecuentemente, sobre todo en ámbitos como la industria del

▶ Muchos algoritmos modernos son generalizaciones suyas.

Ingeniería del conocimiento y Machine Learning

Los modelos basados en árboles

Los árboles de decisión son herramientas modernas, de mediados de los ochenta.

En el caso que se representa gráficamente a continuación, se utiliza un árbol para

Los árboles son fáciles de interpretar: del ejemplo anterior se deduce

La interpretabilidad tiene una contraparte negativa: no son modelos buenos en

Ingeniería del conocimiento y Machine Learning