Está en la página 1de 37

Inteligencia Artificial

Unidad IV
Aprendizaje Automático

José David Ortega Pacheco

Instituto Politécnico Nacional


Escuela Superior de Cómputo
Departamento de Ingeniería en Sistemas Computacionales
Academia de Ingeniería de Software
Tel. 57 29 6000, Ext. 52032
david82d@hotmail.com
Orden de la presentación
4.1 Introducción al aprendizaje automático
4.1.1 Conceptos y fundamentos

4.2 Aprendizaje mediante árboles de decisión


4.2.1 Representación de árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3
4.2.2.2 C4.5

IPN, ESCOM, José David Ortega Pacheco,


2
david82d@hotmail.com
Orden de la presentación
4.3 Aprendizaje mediante redes neuronales
4.3.1 Introducción a las redes neuronales
4.3.2 Perceptron, Redes Multicapa, BAM y Hopfield
4.3.3 Algoritmos de entrenamiento
4.3.4 Aplicaciones

4.4 Algoritmos genéticos


4.4.1 Introducción
4.4.2 Elementos, operadores y parámetros
4.4.3 Aplicaciones
IPN, ESCOM, José David Ortega Pacheco,
3
david82d@hotmail.com
Orden de la presentación
4.5 Otros tipos de aprendizaje
4.5.1 Aprendizaje bayesiano
4.5.2 Modelos ocultos de Markov

IPN, ESCOM, José David Ortega Pacheco,


4
david82d@hotmail.com
4.1 Introducción al aprendizaje automático
4.1.1 Conceptos y fundamentos

Se tiene:

• Conjunto de experiencia E
• Conjunto de tareas T
• Medida de desempeño P

Si el desempeño en las tareas T, medido mediante P, mejora a partir del


conjunto de experiencia E, se puede decir que el un algoritmo aprende.

IPN, ESCOM, José David Ortega Pacheco,


5
david82d@hotmail.com
4.1 Introducción al aprendizaje automático
4.1.1 Conceptos y fundamentos

Algunos problemas en donde se necesita aprendizaje:

• Reconocimiento de palabras
• Manejar un automóvil
• Jugar ajedrez
• Clasificación de objetos

Para cada problema necesitamos definir los elementos mencionados


anteriormente: Tareas, Medida de evaluación y Experiencia.

IPN, ESCOM, José David Ortega Pacheco,


6
david82d@hotmail.com
4.1 Introducción al aprendizaje automático
4.1.1 Conceptos y fundamentos

Algunos conceptos:

• Instancia/patrón: Conjunto de atributos representados comúnmente


mediante un vector
• Clase/decisión: Conjunto de valores posibles para una tarea

IPN, ESCOM, José David Ortega Pacheco,


7
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.1 Representación de árboles de decisión

En un árbol de decisión cada nodo representa un atributo a ser evaluado en


el patrón o instancia a ser clasificada, y cada rama representa el valor de
uno de los posibles valores que puede tomar dicho atributo.

Una instancia o patrón se clasifica recorriendo el árbol desde el nodo raíz,


evaluando el atributo que representa y bajando sobre el mismo
dependiendo el valor que se tenga para dicho atributo. Lo mismo se repite
para el nodo al que se llegue y se toma una decisión cuando se llega a una
hoja del árbol.

IPN, ESCOM, José David Ortega Pacheco,


8
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.1 Representación de árboles de decisión

De manera general, los árboles de decisión son recomendados para


problemas con las siguientes características:

• Cada patrón o instancia es representado por un conjunto fijo de


atributos y sus valores correspondientes.
• La tarea de decisión tiene valores discretos (aunque es relativamente
fácil extenderlos).
• Se requiere una representación disjunta.
• Los datos de entrenamiento pueden contener errores.
• Los datos de entrenamiento pueden no tener valores en algún/os
atributos.
IPN, ESCOM, José David Ortega Pacheco,
9
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3
• Desarrollado en 1986 por J. Ross Quinlan
• Diseño Top-Down:

1. Se busca la raíz del árbol (Atributo más relevante)


2. Una vez definida la raíz, se buscan los nodos de derivación a partir
de cada posible valor del atributo que representa el nodo raíz, dicho
procedimiento se repite tomando cada nodo derivado como un sub-
nodo raíz.
3. Todo lo anterior se obtiene mediante el análisis de los datos de
entrenamiento. IPN, ESCOM, José David Ortega Pacheco,
10
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3
El algoritmo se basa en la utilización de dos conceptos:

1. Entropía: Índice de que tan homogéneo o heterogéneo es un


conjunto de datos.

2. Ganancia de información: Determina el grado de discriminación que


un atributo puede proporcionar para la toma de decisiones.

IPN, ESCOM, José David Ortega Pacheco,


11
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3
Entropía

𝐸 𝑆 = −𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖
𝑖=1

donde 𝑆 es el conjunto de datos a analizar, 𝑝𝑖 es la proporción de 𝑆 que


pertenece a la clase 𝑖, 𝐶 es el número de decisiones y 𝑙𝑜𝑔2 es el logaritmo
con base 2 debido a que la entropía es una medida de la longitud en bits
estimada para codificar bits.
IPN, ESCOM, José David Ortega Pacheco,
12
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3
Entropía

El valor de entropía es 0 cuando todos los elementos en 𝑆 pertenecen a la


misma clase/decisión. Por ejemplo, si se tienen las clases/decisiones Sí y
No, y todos los elementos en 𝑆 pertenecen a Sí (𝑝𝑠í = 1 y 𝑝𝑁𝑜 = 0),
entonces:
𝐸 𝑆 = −1 𝑙𝑜𝑔2 1 − 0 𝑙𝑜𝑔2 0 = 0

Cabe señalar que se define 0 𝑙𝑜𝑔2 0 = 0

IPN, ESCOM, José David Ortega Pacheco,


13
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3
Entropía

El valor de entropía es 1 cuando en 𝑆 se tiene la misma cantidad de


elementos para cada clase/decisión: Por ejemplo, si se tienen las
clases/decisiones Sí y No, y 𝑝𝑠í = 0.5 y 𝑝𝑁𝑜 = 0.5, entonces:

𝐸 𝑆 = −0.5 𝑙𝑜𝑔2 0.5 − 0.5 𝑙𝑜𝑔2 0.5 = 1

IPN, ESCOM, José David Ortega Pacheco,


14
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3
Entropía

Para casos diferentes a los anteriores, el valor de entropía se encuentra en


el rango de 0,1 . Si se tienen dos posibles decisiones/clases (Sí/No) sobre
un conjunto de 14 datos, y 9 son para Sí y 5 para No:
2

𝐸 𝑆[9(𝑆í), 5(𝑁𝑜)] = −𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖


𝑖=1
9 9 5 5
𝐸 𝑆[9+, 5−] = − 𝑙𝑜𝑔2 − 𝑙𝑜𝑔2 = 0.940
14 14 14 14
IPN, ESCOM, José David Ortega Pacheco,
15
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3
Entropía

1.0

𝐸(𝑆)
0.5

0.0 0.5 1.0


𝑝𝑖
Figura 1. Gráfica de la entropía para clasificación booleana.
IPN, ESCOM, José David Ortega Pacheco,
16
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3 Ganancia de información

𝐶
𝑆𝑣
𝐺 𝑆, 𝐴 = 𝐸 𝑆 − 𝐸(𝑆𝑣 )
𝑆
𝑣∈𝑉(𝐴)

donde, 𝑉(𝐴) es el conjunto de todos los posibles valores para el atributo 𝐴,


𝑆𝑣 es el subconjunto de 𝑆 para el que el atributo A tiene el valor 𝑣, 𝐸 𝑆 es el
valor de la entropía para el conjunto de datos 𝑆, 𝐸 𝑆𝑣 es el valor de
entropía para el conjunto de datos 𝑆𝑣 , 𝑆𝑣 es la cantidad de elementos en el
conjunto 𝑆𝑣 y 𝑆 es la cantidad de elementos en el conjunto 𝑆.
IPN, ESCOM, José David Ortega Pacheco,
17
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3
Ganancia de información

Supongamos que tenemos un conjunto 𝑆 que tiene 14 datos, de los cuales


9 datos pertenecen a la decisión/clase de Sí y 5 datos a la decisión/clase
No. Se desea obtener la ganancia de entropía para el atributo A, el cual
puede tener los valores W o K. Si se sabe que 6 de los datos de Sí y 2 de
los datos de No tienen en el atributo A el valor de W, que 3 de los datos de
Sí y 3 de los datos de No tienen en el atributo A el valor de K, y que el valor
de 𝐸 𝑆 es de 0.940.

IPN, ESCOM, José David Ortega Pacheco,


18
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3
Ganancia de información

𝑆 = [9 𝑆í , 5(𝑁𝑜)] 𝑆 = 14 𝑆𝑊 = [6(𝑆í), 2(𝑁𝑜)] 𝑆𝑊 = 8

𝑆𝐾 = [3(𝑆í), 3(𝑁𝑜)] 𝑆𝐾 = 6 𝑉 𝐴 = {𝑊, 𝐾} 𝐶=2

𝑐
𝑆𝑣 8 6
𝐺 𝑆, 𝐴 = 𝐸 𝑆 − 𝐸 𝑆𝑣 = 0.940 − 𝐸 𝑆𝑊 − 𝐸 𝑆𝐾
𝑆 14 14
𝑣∈𝑉 𝐴

IPN, ESCOM, José David Ortega Pacheco,


19
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3
Ganancia de información
6 6 2 2
𝑆𝑊 = [6(𝑆í), 2(𝑁𝑜)] 𝐸 𝑆𝑊 = − 𝑙𝑜𝑔2 − 𝑙𝑜𝑔2 = 0.811
8 8 8 8
3 3 3 3
𝑆𝐾 = [3(𝑆í), 3(𝑁𝑜)] 𝐸 𝑆𝐾 = − 𝑙𝑜𝑔2 − 𝑙𝑜𝑔2 = 1.0
6 6 6 6
8 6
𝐺 𝑆, 𝐴 = 0.940 − 0.811 − 1.0 = 0.048
14 14

IPN, ESCOM, José David Ortega Pacheco,


20
david82d@hotmail.com
4.2 Aprendizaje mediante árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.2 C4.5

IPN, ESCOM, José David Ortega Pacheco,


21
david82d@hotmail.com
4.3 Aprendizaje mediante redes neuronales
4.3.1 Introducción a las redes neuronales
Bases biológicas

El elemento estructural y funcional más esencial del sistema de


comunicación neuronal, es la neurona. Las neuronas de manera general
realizan lo siguiente:

• Recibir información de otras neuronas o de receptores.


• Integrar la información recibida en un código de activación neuronal.
• Transmitir la activación en forma de impulsos mediante su axón.
• La información se distribuye en las ramificaciones del axón.
• La información se transmite a otras neuronas o a células efectoras.
IPN, ESCOM, José David Ortega Pacheco,
22
david82d@hotmail.com
4.3 Aprendizaje mediante redes neuronales
4.3.1 Introducción a las redes neuronales
Bases biológicas

IPN, ESCOM, José David Ortega Pacheco,


23
david82d@hotmail.com
4.3 Aprendizaje mediante redes neuronales
4.3.2 Perceptron, Redes Multicapa, BAM y Hopfield

IPN, ESCOM, José David Ortega Pacheco,


24
david82d@hotmail.com
4.3 Aprendizaje mediante redes neuronales
4.3.3 Algoritmos de entrenamiento

Los

IPN, ESCOM, José David Ortega Pacheco,


25
david82d@hotmail.com
4.3 Aprendizaje mediante redes neuronales
4.3.4 Aplicaciones

Los

IPN, ESCOM, José David Ortega Pacheco,


26
david82d@hotmail.com
4.4 Algoritmos genéticos
4.4.1 Introducción

IPN, ESCOM, José David Ortega Pacheco,


27
david82d@hotmail.com
4.4 Algoritmos genéticos
4.4.2 Elementos, operadores y parámetros

IPN, ESCOM, José David Ortega Pacheco,


28
david82d@hotmail.com
4.4 Algoritmos genéticos
4.4.3 Aplicaciones

IPN, ESCOM, José David Ortega Pacheco,


29
david82d@hotmail.com
4.5 Otros tipos de aprendizaje
4.5.1 Aprendizaje Bayesiano

Se basa en decir cual es la hipótesis (Decisión) más probable.

• P(h): Probabilidad de una hipótesis/decisión h (Prior Probability)


• P(D): Probabilidad de un dato D
• P(D|h): Probabilidad de un dato D dada la hipótesis h
• P(h|D): Probabilidad de una hipótesis h dado un dato D (Posterior
Probability)

𝑃(𝐷|ℎ)𝑃 ℎ
Teorema de Bayes: 𝑃 ℎ 𝐷 =
𝑃(𝐷)

IPN, ESCOM, José David Ortega Pacheco,


30
david82d@hotmail.com
4.5 Otros tipos de aprendizaje
4.5.1 Aprendizaje Bayesiano

Maximum A Posteriori (MAP)

ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻 𝑃 ℎ 𝐷

𝑃(𝐷|ℎ)𝑃 ℎ
ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻
𝑃(𝐷)

ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻 𝑃 𝐷 ℎ 𝑃 ℎ

𝑃 𝐷 puede eliminarse debido a que su valor es independiente de h


IPN, ESCOM, José David Ortega Pacheco,
31
david82d@hotmail.com
4.5 Otros tipos de aprendizaje
4.5.1 Aprendizaje Bayesiano

Maximum Likelihood (ML): Cada hipótesis en H tiene la misma


probabilidad, por lo que se utiliza únicamente 𝑃 ℎ 𝐷

ℎ𝑀𝐿 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻 𝑃 𝐷 ℎ

IPN, ESCOM, José David Ortega Pacheco,


32
david82d@hotmail.com
4.5 Otros tipos de aprendizaje
4.5.1 Aprendizaje Bayesiano

Naive Bayes: Se aplica cuando las instancias de un problema están


representadas mediante un vector de atributos 𝑎1 , 𝑎2 , … , 𝑎𝑛 , donde el
valor h representa el valor de la decisión tomada en un conjunto finito H

ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻 𝑃 ℎ𝑗 𝑎1 , 𝑎2 , … , 𝑎𝑛

𝑃 𝑎1 , 𝑎2 , … , 𝑎𝑛 ℎ𝑗 𝑃(ℎ𝑗 )
ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻
𝑃(𝑎1 , 𝑎2 , … , 𝑎𝑛 )

IPN, ESCOM, José David Ortega Pacheco,


33
david82d@hotmail.com
4.5 Otros tipos de aprendizaje
4.5.1 Aprendizaje Bayesiano

Naive Bayes

ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻 𝑃 𝑎1 , 𝑎2 , … , 𝑎𝑛 ℎ𝑗 𝑃 ℎ𝑗

ℎ𝑁𝑎𝑖𝑣𝑒𝐵𝑎𝑦𝑒𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻 𝑃(ℎ𝑗 ) 𝑃 𝑎𝑖 ℎ𝑗


𝑖

IPN, ESCOM, José David Ortega Pacheco,


34
david82d@hotmail.com
4.5 Otros tipos de aprendizaje
4.5.1 Aprendizaje Bayesiano

KNN

IPN, ESCOM, José David Ortega Pacheco,


35
david82d@hotmail.com
4.5 Otros tipos de aprendizaje
4.5.1 Aprendizaje Bayesiano

Estimador de probabilidad

𝑛𝑐 + 𝑚𝑝
𝑛+𝑚
1
m (diferente de cero) es el tamaño de muestra equivalente, 𝑝 = , donde k
𝑘
es el número de posibles valores del atributo analizado

IPN, ESCOM, José David Ortega Pacheco,


36
david82d@hotmail.com
4.5 Otros tipos de aprendizaje
4.5.2 Modelos ocultos de Markov

IPN, ESCOM, José David Ortega Pacheco,


37
david82d@hotmail.com

También podría gustarte