Está en la página 1de 20

Aprendizaje a partir de

observaciones
Modelo general de agentes que aprenden
Estandar de desempeño

Crítico Sensores
A
Retroali- M
mentación Cambios
B
Elemento
Elemento de Retroali-
de I
Aprendizaje mentación
desempeño E
Conocim.
Objetivos de
aprendizaje
N
Generador
Efectores T
de Problemas
Agente
E
Componentes conceptuales del modelo

• Elemento de aprendizaje: responsable de realizar mejo-


ras.
• Elemento de desempeño: responsable de seleccionar ac-
ciones externas.
• Crítico: diseñado para decirle al elemento de aprendiza-
je cuan bien se desempeña el agente. Usa un estandar de
desempeño fijo (conceptualmente fuera del agente).
• Generador de problemas: responsable de sugerir accio-
nes que llevarán a experiencias nuevas e informativas.
Factores que afectan el diseño del elemento
de aprendizaje

• Qué componentes del elemento de desempeño van a ser


mejorados
• Qué representación se usa para esos componentes
• Qué retroalimentación hay disponible
• Qué información previa hay disponible
Componentes del elemento de desempeño
Cada uno de los siete componentes del elemento de desempeño puede
ser descripto matemáticamente como una función. El punto clave es
que todo el aprendizaje puede verse como aprender la representación
de una función.
• Un mapeo directo de condiciones en el estado actual, a acciones.
• Un medio para inferir propiedades relevantes del mundo a partir de la secuencia
de percepciones.
• Información acerca del modo en que evoluciona el mundo.
• Información acerca de los resultados de posibles acciones que puede realizar el
agente.
• Información de utilidad indicando cuan deseables son los estados del mundo.
• Información del valor de cada acción indicando cuan deseables son las acciones
particulares en estados particulares.
• Objetivos que describen clases de estados cuyos desenvolvimientos maximizan
la utilidad del agente.
Crítico, Generador de problemas

Crítico: diseñado para informar al elemento de


aprendizaje cuan bien está haciendo las cosas el
agente. Usa un estándar de desempeño fijo.
Generador de problemas: responsable de sugerir
acciones que llevarán a nuevas experiencias
informativas. Si el agente explora un poco, y realiza
algunas acciones tal vez subóptimas en el corto
plazo, puede descubrir acciones mucho mejores en
el largo plazo.
Aprendizaje inductivo
Un ejemplo es un par (x, f(x)), donde x es la entrada y f(x) es la
salida de la función aplicada a x.
Inducción. Dada una colección de ejemplos de f, su tarea es devolver
una función h, la hipótesis, que sea aproximadamente igual a f.
Cualquier preferencia por una hipótesis sobre otra, más allá de la
mera consistencia con los ejemplos, se denomina ´bias´(desvío).
Todos los algoritmos exhiben algún grado de desvío dado que casi
siempre hay un gran número de hipótesis consistentes posibles.
En el aprendizaje hay una solución de compromiso fundamental en-
tre expresividad -¿es la función deseada representable en el lenguaje
de representación?- y eficiencia -¿será el problema de aprendizaje
tratable para una elección dada del lenguaje de representación?-
Aprendizaje por árboles de decisión

La inducción por árbol de decisión es una de las más sim-


ples y más exitosas formas de algoritmo de aprendizaje.
Arboles de decisión como elemento de desempeño
Un árbol de decisión toma como entrada un objeto o situa-
ción descripto por un conjunto de propiedades, y da como
salida una ´decisión´ si/no.
Cada nodo interno en el árbol corresponde a una prueba del
valor de una de las propiedades, y las ramas desde el nodo
están etiquetadas con los valores posibles del test. Cada
nodo hoja en el árbol especifica el valor Booleano que se
retornará si esa hoja es alcanzada.
Ejemplo: Arbol de decisión para decidir si
esperar por una mesa en un restaurant
¿Gente en el
Restaurante?
Ning. Lleno
Algunos
¿Espera
No Si estimada?
>60 30 - 60 10 - 30 0 - 10
¿Restaurante
No alternativo?
¿Hambriento? Si
No Si No Si
¿Restaurante
¿Reservaciones? Vi/Sa Si alternativo?
No Si No Si No Si
¿Bar? Si No Si Si ¿Llueve?
No Si No Si
No Si No Si
Expresividad de los árboles de decisión

Los árboles de decisión no pueden representar nin-


gún conjunto, dado que son implícitamente limita-
dos a hablar de un solo objeto. El lenguaje del árbol
es esencialmente proposicional, siendo cada prueba
de atributo una proposición.
No hay ningún tipo de representación que sea efi-
ciente para todos los tipos de función.
Inducción de árboles de decisión a partir de ejemplos
Un ejemplo es descripto por los valores de los atributos y el valor del
predicado objetivo.
Navaja de Ockham, principio general de aprendizaje induc-tivo: La
hipótesis más probable es la más simple que sea consistente con todas
las observaciones.
Desafortunadamente, encontrar el árbol de decisión más pe-queño es
un problema intratable, pero con algunas heurísti-cas simples, podemos
hacer un buen trabajo encontrando uno pequeño. La idea básica detrás
del algoritmo de aprendizaje por medio del árbol de decisión es probar
el atributo más im-portante primero (el atributo que hace la mayor
diferencia en la clasificación de un ejemplo).
Después de que la prueba del primer atributo divide los ejemplos, ca-
da resultado es un problema de aprendizaje por árbol de decisión en sí
mismo, con menos ejemplos y un atributo menos.
Atributos Objetivo
Ejemplos
Esperará
Alt Bar Vie Ham Gente Precio Llueve Reser Tipo Espera

X1 Si No No Si Alg $$$ No Si Frnc 0-10 Si


X2 Si No No Si Llen $ No No Thai 30-60 No
X3 No Si No No Alg $ No No Brgr 0-10 Si
X4 Si No Si Si Llen $ No No Thai 10-30 Si
X5 Si No Si No Llen $$$ No Si Frnc >60 No
X6 No Si No Si Alg $$ Si Si Ital 0-10 Si
X7 No Si No No Nng $ Si No Brgr 0-10 No
X8 No No No Si Alg $$ Si Si Thai 0-10 Si
X9 No Si Si No Llen $ Si No Brgr >60 No
X10 Si Si Si Si Llen $$$ No Si Ital 10-30 No
X11 No No No No Nng $ No No Thai 0-10 No
X12 Si Si Si Si Llen $ No No Brgr 30-60 Si
Casos a considerar
1. Si hay algunos ejemplos positivos o negativos, elegir el mejor atributo para
dividirlos.
2. Si todos los ejemplos que restan son positivos ( o todos negativos), hemos
terminado: podemos contestar Si o No.
3. Si no quedan ejemplos, significa que no se ha observado tal tipo de ejemplo,
y devolvemos un valor por omisión calculado a partir de la clasificación de
mayoría en el padre del nodo.
4. Si no quedan atributos, pero sí ejemplos positivos y negativos, tenemos un
problema. Significa que estos ejemplos tienen exactamente la misma descrip-
ción, pero clasificaciones diferentes. Esto ocurre cuando algunos de estos da-
tos son incorrectos; decimos que hay ruido en la información. También suce-
de cuando los atributos no dan suficiente información para describir comple-
tamente la situación, o cuando el dominio es verdaderamente no determinís-
tico. Una forma simple de salir de este problema es usar el voto de mayoría.
Arbol resultante
Clientes en el
Restaurante
Ning. Lleno
Algunos
No Si Tiene hambre

Si No
Tipo No
Franc Italiano Thai Burger
Si No Vie/Sáb Si
No Si
No Si

El árbol es diferente del árbol original. El algoritmo de aprendizaje ve


los ejemplos, no la función correcta, y de hecho, su hipótesis no solo
concuerda con todos los ejemplos, sino que es considerablemente más
simple que el árbol original.
Evaluación del rendimiento del algoritmo de apredizaje
Un algoritmo de aprendizaje es bueno si produce una hipótesis
que predice bien la clasificación de ejemplos aún no vistos.
Una metodología posible para evaluar las predicciones es la sig.:
1. Recolectar un gran conjunto de ejemplos.
2. Dividirlo en dos conjuntos ´disjuntos´: el conjunto de entrena-
miento y el conjunto de prueba.
3. Usar el algoritmo de aprendizaje con el conjunto de entrena-
miento como ejemplos para generar una hipótesis H.
4. Medir el porcentaje de ejemplos, en el conjunto de prueba, que
son correctamente clasificados por H.
5. Repetir los pasos 1 a 4 para diferentes tamaños de conjuntos de
entrenamiento y diferentes conj.de entrenam de cada tamaño, se-
leccionados al azar. (ver fig. 18.9 Curva de aprendizaje)
Hipótesis lógicamente consistente
Dos enfoques que encuentran hipótesis lógicamente consistentes son:
1. Búsqueda según la mejor hipótesis actual.
2. Búsqueda con mínimo compromiso.

Búsqueda según la mejor hipótesis actual mantiene una hipótesis, y


la ajusta a medida que llegan nuevos ejemplos, para mantener la con-
sistencia.
-- - - -- - - -- - - -- - - -- - -
+ + + + + + + + + +
- - - - - - - - - -
+ + + + +
- + + + - - + + + - - + + + - - - - -
+ + + + + +
- (+) - +
+ + + + +
- - - - - - - (-) - - - -
- - - (a) - - - (b) - - - (c) - - - (d) - - - (e)
(a) Hipótesis consistente. (b) falso negativo. (c) La hipótesis es
generalizada. (d) falso positivo. (e) La hipótesis es especializada.
Hipótesis lógicamente consistente (continuación)
Búsqueda con mínimo compromiso mantiene todas las hipótesis
consistentes con toda la información acumulada hasta el momento. El
espacio de hipótesis original se puede ver como una oración disyunti-
va H1  H2  H3  H4  ...  Hn

A medida que encontramos que varias hipótesis son inconsistentes con


los ejemplos, la disyunción se reduce. Una propiedad importante de
este enfoque es que es incremental: uno nunca debe volver y reexami-
nar los ejemplos anteriores. Todas la hipótesis que quedan son consis-
tentes con ellos.
Tenemos un orden en el espacio de hipótesis, generalización/espe-
cialización. Este es un orden parcial, cada límite no será un punto sino
un conjunto de hipótesis llamado conjunto límite.
Podemos representar el espacio de versión completo usando sólo dos
espacios límite: Límite más general (conj-G) y Límite más específico
(conj-E), todo lo que esté entre ellos será consistente con los ejemplos.
Hipótesis lógicamente consistente (continuación)
El espacio de versión inicial (antes de haber visto algún ejemplo)
represente todas las hipótesis posibles: conj-G =V (la hipótesis que
contiene todo),y conj-E = F (la hipótesis cuya extensión está vacía).
-- - - - - - - -
- - - - - -
- - - G1 -
- - -
+ + +
- - + ++ + G2 -
+ +
- - - -
- - - - - -

Extensión de los miembros de G y E. Ningún ejemplo conocido se


encuentra entre los conjuntos G yE.
Uso de la Teoría de la Información

Un árbol de decisión examina el conjunto de datos, y usa teoría de la


información para determinar cuál es el atributo que contiene la mayor
información sobre la cual basar una decisión.

Teoría de la Información
En general, si las posibles respuestas vi tienen probabilidad P(vi),
entonces la cantidad de información I de la respuesta real es obtenida
de la siguiente manera:
n

I(P(v1), P(v2),..., P(vn)) =  -P(vi)log2P(vi)


i=1

esto es el contenido de información promedio de los distintos eventos


(el término -log2P) multiplicado por la probabilidad de cada evento.
Uso de la Teoría de la Información (continuación)
En el caso de árboles de decisión se debe hallar la respuesta a la pre-
gunta ¿para un ejemplo dado, cuál es la clasificación correcta? Una
estimación de las probabilidades de una respuesta posible, antes de
haber probado algún atributo, está dada por la proporción de ejemplos
positivos y negativos en el conjunto de entrenamiento:
I(p/(p+n), n/(p+n))= - (p/(p+n)).log2(p/(p+n)) - (n/(p+n)). log2(n/(p+n))
(p/(p+n)) probabilidad de que ocurra un caso positivo
-log2(p/(p+n)) contenido de información de ese evento
En promedio, luego de probar un atributo A, todavía necesitaremos
para v valores distintos de A:
v

Resto(A) =  ((pi + ni)/(p+n)).I(pi/(pi + ni), ni/(pi + ni))


i=1

bits de información, donde i va desde 1 hasta v.


Ganancia(A) = I(p/(p + n), n/(p + n)) – Resto(A)
Siendo I(p/(p + n), n/(p + n)) el requerimiento original de información.

También podría gustarte