Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Introducción
En el presente documento se hace una presentación general a la ingeniería del
conocimiento y el machine learning durante la cual se exploran sus relaciones con
la estadística tradicional. Concluye con una discusión sobre los problemas más
importantes en los que se aplica y una breve introducción a los métodos más
conocidos.
Aprendizaje automático
A pesar de las similitudes discutidas más arriba, existe una diferencia sustancial
entre un automóvil y un sistema de recomendación: el primero puede circular
desde el primer momento. Un sistema de recomendación tiene que ser adaptado
a un contexto, a una situación real. Un sistema de recomendación o una red
neuronal no son sino promesas de un sistema de recomendación o de una red
neuronal: para poder ser usadas tienen que entrenarse.
La mayor parte de --no me atrevo a decir todas-- las herramientas de las que se
ocupa el machine learning son funciones matemáticas que dependen de
parámetros subyacentes. En principio están indeterminados. Solo cuando se las
aplica en un contexto determinado, como, p.e.,
▶ Tomar una imagen de tamaño 224 x 224 e indicar si contiene alguno de los
objetos contenidos en una lista de varios miles de ellos.
▶ Etc.
El modelo lineal está dado por la función 𝑑 = 𝑎 + 𝑏𝑣, que relaciona linealmente
la distancia con la velocidad. El modelo depende de dos parámetros
desconocidos a priori, 𝑎 y 𝑏. Utilizando esos datos y algunas técnicas de álgebra
lineal, se pueden calcular sus valores óptimos, que son los que corresponden a la
recta que aparece en rojo en la gráfica anterior.
¿Y la estadística?
Las mayores diferencias entre ambas disciplinas se refieren a los objetivos, los
enfoques y, en gran medida debido a todo lo anterior, los campos de aplicación.
En cuanto a los objetivos, el análisis de datos tiene dos fundamentales: predecir
y entender. Para el aprendizaje automático, el fundamental es el primero: que las
películas recomendadas sean efectivamente las que interesan al cliente, que la
traducción de un texto sea correcta, etc. No tiene ningún tipo de problema con
las cajas negras. La estadística, sin embargo, presta más atención a la explicación
de los fenómenos: ¿qué variables son más importantes?, ¿cómo interactúan entre
sí?, etc.
El machine learning, por otro lado, es una disciplina más joven y que no tiene
reparos en enfrentarse a problemas que habían sido dejados de lado por la
estadística tradicional, donde predomina el interés por la predicción, se tiende a
hacer un uso más intensivo de los recursos computacionales y abundan los datos
observacionales.
La calidad del ajuste (y las predicciones) del PIB es muy superior a la de las series
ajustadas masivamente, pero la diferencia fundamental reside en que uno de los
procedimientos escala y el otro no.
▶ Porque son generativos: explican el mecanismo por el que los datos obtenidos
son como son.
El machine learning está muy vinculado a otra tecnología emergente: el big data.
Big data puede significar, esencialmente, dos cosas (no exclusivas): muchas
variables o muchas observaciones. El problema --falso problema, según algunos-
- de la abundancia de variables ha sido abordado desde ambas perspectivas, la
de la estadística y la del machine learning, y existen técnicas poderosas tanto para
seleccionar subconjuntos pequeños y manejables de variables como para crear
modelos robustos frente a las variaciones de las menos relevantes.
Desde luego, un modelo que describa la relación entre unas pocas variables en
un modelo físico no tiene por qué ser complejo ni contener demasiada
información. Lo contrario ocurre con sistema que aprenda las peculiaridades de
Los dos problemas más importantes del machine learning son los de la regresión
y la clasificación. La regresión está relacionada con la predicción de una variable
continua como, por ejemplo, la edad de un cliente o la potencia a la que opera
una planta fotovoltaica.
Aparte de los anteriores, los más habituales, existen otros menos frecuentes y
conocidos pero útiles en la práctica. Por ejemplo, el de los conteos: cuántas veces
visitará un cliente la tienda en un mes o cuántos productos compra cada vez.
Nótese que el tipo de datos es distinto al considerado en problemas de regresión
(no existen valores fraccionarios ni negativos) o de clasificación (el número de
eventos no está necesariamente acotado). Existen técnicas ad hoc, muchas de las
cuales tienen que ver con la distribución de Poisson, que pueden ser aplicadas
con éxito en estos contextos.
Y si la relación entre las observaciones no tiene que ver con su orden temporal
sino con su ubicación en el espacio (bi o tridimensional), lo que induce una
estructura de correlación más compleja, aparecen problemas de estadística
espacial un campo de creciente importancia tanto por su interés intrínseco como
por sus aplicaciones.
El modelo lineal básico tiene una historia de más de 200 años y estudia una
relación lineal entre la variable objetivo y una serie de variables predictoras en
problemas de regresión, i.e., trata de estimar 𝑦 en función de las variables 𝑥𝑖
mediante una relación del tipo.
𝑦 ∼ 𝑎0 + 𝑎1 𝑥1 + ⋯ + 𝑎𝑛 𝑥𝑛 .
Aunque viejos y superados por desarrollos posteriores, son importantes por dos
motivos:
De entre las generalizaciones más promisorias de este tipo de modelos están los
de las regresiones ridge, lasso y, especialmente, glmnet que resuelve de manera
casi automática problemas asociados a los modelos lineales como el de la
selección de variables o la inestabilidad asociada los outliers. Todos ellos pueden
usarse además en contextos tanto de regresión como de clasificación.
▶ Los bosques aleatorios, que están basados en la idea de crear muchos árboles
sobre versiones (de otro modo todos serían iguales) de los datos originales y
promediarlos.
De hecho, los dos tipos de modelos descritos encima son de los más empleados
en competiciones de análisis de datos como las de Kaggle y se encuentran a
menudo entre los empleados por quienes los ganan.
Las redes neuronales tienen una larga historia que se remonta al perceptrón de
1957. No obstante, durante muchos años el interés en ellas decayó grandemente
y solo ha sido recientemente, durante el presente siglo, que han vuelto a recobrar
el protagonismo perdido. El principal motivo es que durante años no se dispuso
de la capacidad de cálculo que necesitan estos modelos para poder ser
implementados con éxito.
En los casos de uso que aparecen más arriba, los modelos operan sobre
fotografías o grabaciones de sonido. En ese tipo de datos, aunque altamente
dimensionales, los valores son homogéneos (p.e., corresponden todos a
intensidades de color en una imagen) y tienen una estructura muy concreta. De
hecho, algunos de los avances más notables en el campo de las redes neuronales
y que subyacen a sus últimos éxitos están asociados a desarrollos teóricos como
No está nada claro cómo podrían extenderse este tipo de técnicas a contextos
distintos como, por ejemplo, los relacionados con el comportamiento de
personas, en los que existe información heterogénea en la naturaleza y el tipo:
mezclas de variables continuas con categóricas, etc.
Clústering
Conclusión
Bibliografía