Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Aprendizaje Automático
Sesión 2
INTRODUCCIÓN
¡Hola de nuevo!
Ya estamos en la sesión 2 del curso de IA. A continuación, retomaremos el tema del aprendizaje automático para
entender su funcionamiento
¿Qué aprenderemos?
Veremos el concepto de aprendizaje automático (Machine Learning), analizaremos 2 grandes tipos de estrategias
que posee, y cómo funcionan
¡Comencemos!
Sesión 2
¿Qué es?
Aprendizaje automático, del inglés Machine Learning, se refiere a un conjunto de modelos matemáticos capaces de
homologar el “aprendizaje” por medio de la identificación de patrones en los datos, sobre todo datos de carácter masivo.
Dicho de otra forma, existe una combinación o función específica entre el tamaño y
tiempo de domesticación asociada a estos animales, que permite predecir si el animal
es un perro o un gato, con base a los datos que tenemos.
Los dueños de gatos podrán confirmarlo, en general los gatos parecen más indiferentes
a nuestras órdenes que los perros. Pero esto no siempre es así, puede ocurrir el caso
de que gatos puedan ser obedientes y perros muy porfiados, y este componente es
capturado en el error, que de manera intuitiva en este contexto son como “las
excepciones a la regla”.
Sesión 2
Aprendizaje supervisado
Una forma de hacerse una idea, es viendo directamente los datos, los que generalmente se presentan en tablas.
Si ponemos los datos en una gráfica, se puede observar claramente que se distinguen los perros de gatos, no obstante uno de los
gatos de este ejemplo, es sorpresivamente manso, y se escapa de la tendencia, el cual, dependiendo de cómo se diseñe o
implemente el algoritmo de aprendizaje, puede hacer que la máquina lo clasifique equivocadamente como un perro.
Sesión 2
Aprendizaje supervisado - clasificación
Se conoce como modelos o problemas de clasificación, esto es, entrenar a la máquina para que aprenda a reconocer o discriminar
elementos de la realidad, tales como perros de gatos, tipos de vehículos, cáncer u otros; problemas que impliquen lograr que el
computador pueda determinar y clasificar un objeto en una categoría predefinida.
El ejemplo anterior de un gato confundido por un perro puede parecer un poco absurdo, pero es un problema bastante común en el
aprendizaje de máquina e IA. Una muestra de ello es la clasificación de objetos similares, como diferenciar un chihuahua de un muffin
(imagen a) o pollo frito de un labradoodle (imagen b); este tipo de clasificaciones son muy problemáticas para el aprendizaje automático.
Fuente:
Togootogtokh, E. & Amartuvshin, A. (2018). Deep Learning Approach for
Very Similar Objects Recognition Application on Chihuahua and Muffin
Problem. arXiv:1801.09573
Sesión 2
Aprendizaje supervisado - Regresión
Si bien el problema de clasificación muestra la capacidad de discriminar o clasificar objetos ¿qué ocurre con objetos que no son fácilmente
categorizable? Por ejemplo, si para el caso de los datos de tamaño y domesticación, quisiéramos estimar el consumo de calorías diarias en
vez de si el animal es perro o gato ¿nos sirve esta estrategia?
Pensemos en si un animal consume 1500 kilo calorías diarias, uno que consume 1500,01 kilo calorías ¿pertenece a otra categoría? Una
forma de resolver esto, es usando un modelo de regresión.
Distinto del problema de clasificación, donde lo que se busca predecir es una categoría a la que un objeto pertenece en función de ciertas
variables que lo describen (en nuestro caso la domesticación y la estatura), en el problema de regresión, lo que se busca predecir es un
valor numérico o expresión cuantitativa que esté asociada a la combinación de estas variables. En este caso, intentaremos estimar el
consumo calórico del animal en un modelo similar al visto en el caso de la clasificación, pero con una variable a predecir distinta.
Sesión 2
Aprendizaje supervisado - Regresión
En este caso también tenemos una suerte de “respuesta” que buscamos estimar según nuestras variables, y como se
aprecia, existiría cierta combinación que lo permitiría, tales como la estatura, animales más grandes consumen más
alimento, pero ¿qué relación tiene la domesticación?
Esto parece menos obvio ¿qué tiene que ver la domesticación con el consumo calórico? Técnicamente no hay tal
relación, pero se da producto de la asociación entre domesticación con estatura. En este ejemplo ocurre que los
animales más pequeños son los gatos, y estos tienden a ser más difíciles de domesticar, y al revés ocurre con los perros;
de ahí que se genera la relación de domesticación y consumo calórico, aún cuando ambos elementos no debieran tener
una relación aparente.
Sesión 2
Aprendizaje supervisado - Regresión
Esto es lo que se conoce como relación o correlación espuria, y similar al caso de muffin o chihuahua que se vio en el caso de los
problemas de clasificación, esta es otra de las debilidades del aprendizaje automático, la capacidad de correlacionar cosas sin sentido.
Buenos ejemplos de esto pueden encontrarse en el sitio www.tylervigen.com/spurious-correlations, donde se registran varias
correlaciones extrañas y un tanto extravagantes, como esta:
Ahogos
Ahogados en piscinas
Nicholas Cage
Ahogos en piscinas
Sesión 2
Aprendizaje supervisado
¿Crees que con base a este tipo de predicciones pudieras saber cuanta comida darle a tu mascota? o ¿deberías confiar
en estas estimaciones para saber las porciones diarias que servir?
Reflexiona un momento, elabora un argumento de por qué crees que sí o por qué crees que no.
Sesión 2
Aprendizaje supervisado - Predicción y recomendación
Si bien un modelo de regresión podría predecir el consumo calórico de un grupo de mascotas ¿qué
pasaría si hubiera una hambruna y la gente no pudiera alimentar bien a las mascotas o estas no pudieran
conseguir alimentos fácilmente?
Los datos reflejarían un consumo calórico mucho más bajo, o lo contrario ocurriría si las personas
sobrealimentan a las mascotas. Esta es la diferencia entre predicción y recomendación.
Cuando se predice con aprendizaje automático, simplemente se está replicando lo que existe en la
realidad, tal y como ésta está reflejada en los datos y las variables que se tienen en un momento dado,
elementos que sirvieron para que nuestro modelo “aprendiera”.
Así, si recibe nuevos datos que no ha visto antes, con base a los que ya tiene, podrá saber o intentar adivinar si un animal es perro o
gato o su grado de consumo calórico diario, aún si no se lo indican.
No obstante la causalidad tiene otra connotación un poco más filosófica, y tiene que ver con la relación o grado de dependencia que
existe entre elementos, generalmente expresada en que si un elemento A está presente, un elemento B estará presente, y si tal
elemento A no está presente, tampoco lo estará B (ojo, este es un tema mucho más amplio que recomendamos investigar un poco,
mientras, te dejamos este video de referencia www.youtube.com/watch?v=iADwK7_wPSE&ab_channel=Aula42).
En las zonas áridas o desérticas llueve menos, distinto de otras zonas, por lo tanto, es esperable que la gente tenga
menos paraguas en sus casas, si es que alguno.
Si hiciéramos una encuesta y preguntamos cuántos paraguas tiene la gente en su casa en zonas selváticas, de clima frío,
tropical, además de las áridas, veríamos que la cantidad de paraguas guardaría una relación con el nivel de lluvias, y al
entrenar un modelo en estos datos, veríamos que se lograría capacidad predictiva.
Pero los paraguas no son la causa de la lluvia, sino su consecuencia. Las causas de la lluvia se encuentran en un
conjunto de variables climáticas y geográficas cuya interacción produce ciertas condiciones para la lluvia, las cuales
también podrían ser predichas por la cantidad de paraguas.
Sesión 2
Aprendizaje supervisado
Si quieres una mirada general sobre el proceso de entrenamiento o aprendizaje supervisado de la máquina y los
dilemas y reflexiones que supone, te recomendamos visitar la página de Code.org, y probar el juego del siguiente
enlace:
https://studio.code.org/s/oceans/stage/1/puzzle/2
Sesión 2
Aprendizaje no supervisado
Ahora, tal como vimos, los modelos de aprendizaje supervisado cuentan con una “respuesta correcta”, y se pueden expresar de manera
más general de esta forma
Pero ¿qué pasa si no hay una respuesta correcta? ¿pueden emerger patrones o regularidades a partir de los mismos datos? Esto es
¿podríamos expresar un problema en éstos términos?
Esto es lo que se conoce como aprendizaje no supervisado. Puede parecer extraño, cómo es posible aprender sin respuestas correctas, sin
embargo, es la forma natural en cómo aprendemos de niños. Por ejemplo, nadie nace sabiendo el significado de perro o gato, o de
cualquier otro animal, sin embargo se nos van presentando progresivamente rasgos distintivos que entre sí presentan cierta coherencia,
por ejemplo “la vaca dice mu”, “el perro dice guau”, “la vaca es grande y tiene cuernos”, “el perro no es tan grande, y no tiene cuernos”,
etc.
La organización o disposición interna de estos rasgos entre sí, permiten agruparlos en una categoría consistente que identificamos como
perro o vaca.
Sesión 2
Aprendizaje no supervisado
Un ejemplo más concreto de esto es el fenómeno psicológico de la “pareidolia”, ver caras donde no las hay.
La “respuesta correcta” aquí sigue siendo que estas no son caras, sin embargo, no podemos evitar verlas, ya que corresponden
visualmente con la disposición que asociamos los humanos a las caras: 2 ojos paralelos, y una boca debajo, en algunos casos, hasta una
nariz o lengua de por medio. Es importante notar que es ésta organización la que nos permite ver caras, si los “ojos” o “boca” estuvieran
en otro orden, el efecto no se da.
Sesión 2
Aprendizaje no supervisado
Un ejemplo práctico de esto, sería un algoritmo que recomienda música. Aunque
pertenece a ciertos géneros, estas categorías son difusas, muchas de estas siendo una a Escuchan
música
combinación de categorías, tal como {opera, rock}, {reggae, hip hop, latino}, etc. úsi c
nm latina
ha
s cuc ggae
E re
No obstante, ciertos grupos de personas tienden a escuchar cierto tipo de bandas
similares. Esto a grandes escalas genera un patrón detectable por algoritmos, que
permite agrupar a ciertas bandas entre sí. Estos patrones pueden emerger no sólo por
relación entre agrupaciones, sino también, por variables sociales, como el rango etario,
el género, el país, el lenguaje, entre otros.
A partir del cruce de todas estas variables, pueden emerger múltiples grupos o
Música para
regularidades, y es la forma en que operan muchas de las famosas plataformas. Porrecomendar
ejemplo, si escuchaste y te gustaron ciertas bandas, Spotify verá qué otras bandas les
gustan a las personas que les gustan esas agrupaciones, acorde a otras variables que hop
Escuchan hip
les hayas entregado, y generará recomendaciones para que escuches. La misma lógica
aplica para Youtube. Si has usado alguna vez esos servicios ¿cómo crees que han
funcionado en tu caso?
Sesión 2
Aprendizaje no supervisado
Algo similar ocurre a nivel de los datos en el aprendizaje no supervisado. Estos también pueden presentar cierta
organización, disposición o patrón, que refleje algún atributo de la realidad, o que pueda “emerger” a partir de éstos.
Y al igual que en el caso del aprendizaje supervisado, el cual contaba con 2 tipos de problemas o modelos (de
clasificación y regresión), el aprendizaje no supervisado, cuenta con los suyos:
1) La reducción de dimensiones
2) La aglomeración/agrupamiento, o del inglés, clustering
La comprensión de estas técnicas requiere un manejo matemático un poco más avanzado que excede lo que se puede
cubrir en este curso, pero si te interesa, puedes pedir recomendaciones al equipo tutor enviando correos o comentando
en foros, pero es necesario precisar que gran parte del material sobre estos temas está en inglés.
Sesión 2
Aprendizaje no supervisado
Un último detalle sobre el aprendizaje automático, sea supervisado o no, es que los “datos” no tienen porqué ser solo números
como se vio antes. Perfectamente pueden ser fotografías, texto, sonidos, u otros.
Lo relevante es mantener esta estrategia de datos, modelo y resultados, a lo cual incorporamos una actividad más, que es la
iteración y adaptación, esto es, el proceso predictivo se va mejorando en función de nuevos datos, o nuevos modelos producto
del progreso científico
Entrenamiento
Algoritmo/ Nuevos
Datos Resultado datos
Modelo
Resultados
En esta sesión vimos qué es el aprendizaje automático o machine learning, el cual es la aproximación con la cual se
construyen inteligencias artificiales. Revisamos algunos de sus conceptos centrales y la lógica de cómo funciona o se usa
para “entrenar” a un computador, junto con las debilidades que tiene para para distinguir objetos como ocurría en el caso
de la confusión de Muffins por Chihuahuas. También vimos como la predicción que estos modelos generan no debe
confundirse con causalidad.
En la próxima sesión veremos algunos ejemplos de cómo se ha usado esta herramienta, y qué tan lejos ha llegado