IV AprendizajeAutomatico

Inteligencia Artificial
Unidad IV
Aprendizaje Automático
José David Ortega Pacheco
Instituto Politécnico Nacional

Escuela Superior de Cómputo
Departamento de Ingeniería en Sistemas Computacionales
Academia de Ingeniería de Software
Tel. 57 29 6000, Ext. 52032
david82d@hotmail.com
Orden de la presentación
4.1 Introducción al aprendizaje automático
4.1.1 Conceptos y fundamentos
4.2 Aprendizaje mediante árboles de decisión

4.2.1 Representación de árboles de decisión
4.2.2 Algoritmos de aprendizaje
4.2.2.1 ID3
4.2.2.2 C4.5
IPN, ESCOM, José David Ortega Pacheco,

2
4.3 Aprendizaje mediante redes neuronales
4.3.1 Introducción a las redes neuronales
4.3.2 Perceptron, Redes Multicapa, BAM y Hopfield
4.3.3 Algoritmos de entrenamiento
4.3.4 Aplicaciones
4.4 Algoritmos genéticos

4.4.1 Introducción
4.4.2 Elementos, operadores y parámetros
4.4.3 Aplicaciones
3
4.5 Otros tipos de aprendizaje
4.5.1 Aprendizaje bayesiano
4.5.2 Modelos ocultos de Markov

4
Se tiene:
• Conjunto de experiencia E
• Conjunto de tareas T
• Medida de desempeño P
Si el desempeño en las tareas T, medido mediante P, mejora a partir del

conjunto de experiencia E, se puede decir que el un algoritmo aprende.

5
Algunos problemas en donde se necesita aprendizaje:
• Reconocimiento de palabras
• Manejar un automóvil
• Jugar ajedrez
• Clasificación de objetos
Para cada problema necesitamos definir los elementos mencionados

anteriormente: Tareas, Medida de evaluación y Experiencia.

6
Algunos conceptos:
• Instancia/patrón: Conjunto de atributos representados comúnmente

mediante un vector
• Clase/decisión: Conjunto de valores posibles para una tarea

7
En un árbol de decisión cada nodo representa un atributo a ser evaluado en

el patrón o instancia a ser clasificada, y cada rama representa el valor de
uno de los posibles valores que puede tomar dicho atributo.
Una instancia o patrón se clasifica recorriendo el árbol desde el nodo raíz,

evaluando el atributo que representa y bajando sobre el mismo
dependiendo el valor que se tenga para dicho atributo. Lo mismo se repite
para el nodo al que se llegue y se toma una decisión cuando se llega a una
hoja del árbol.

8
De manera general, los árboles de decisión son recomendados para

problemas con las siguientes características:
• Cada patrón o instancia es representado por un conjunto fijo de

atributos y sus valores correspondientes.
• La tarea de decisión tiene valores discretos (aunque es relativamente
fácil extenderlos).
• Se requiere una representación disjunta.
• Los datos de entrenamiento pueden contener errores.
• Los datos de entrenamiento pueden no tener valores en algún/os
atributos.
9
4.2.2.1 ID3
• Desarrollado en 1986 por J. Ross Quinlan
• Diseño Top-Down:
1. Se busca la raíz del árbol (Atributo más relevante)

2. Una vez definida la raíz, se buscan los nodos de derivación a partir
de cada posible valor del atributo que representa el nodo raíz, dicho
procedimiento se repite tomando cada nodo derivado como un sub-
nodo raíz.
3. Todo lo anterior se obtiene mediante el análisis de los datos de
entrenamiento. IPN, ESCOM, José David Ortega Pacheco,
10
4.2.2.1 ID3
El algoritmo se basa en la utilización de dos conceptos:
1. Entropía: Índice de que tan homogéneo o heterogéneo es un

conjunto de datos.
2. Ganancia de información: Determina el grado de discriminación que

un atributo puede proporcionar para la toma de decisiones.

11
4.2.2.1 ID3
Entropía
𝐸 𝑆 = −𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖
𝑖=1
donde 𝑆 es el conjunto de datos a analizar, 𝑝𝑖 es la proporción de 𝑆 que

pertenece a la clase 𝑖, 𝐶 es el número de decisiones y 𝑙𝑜𝑔2 es el logaritmo
con base 2 debido a que la entropía es una medida de la longitud en bits
estimada para codificar bits.
12
4.2.2.1 ID3
Entropía
El valor de entropía es 0 cuando todos los elementos en 𝑆 pertenecen a la

misma clase/decisión. Por ejemplo, si se tienen las clases/decisiones Sí y
No, y todos los elementos en 𝑆 pertenecen a Sí (𝑝𝑠í = 1 y 𝑝𝑁𝑜 = 0),
entonces:
𝐸 𝑆 = −1 𝑙𝑜𝑔2 1 − 0 𝑙𝑜𝑔2 0 = 0
Cabe señalar que se define 0 𝑙𝑜𝑔2 0 = 0

13
4.2.2.1 ID3
Entropía
El valor de entropía es 1 cuando en 𝑆 se tiene la misma cantidad de

elementos para cada clase/decisión: Por ejemplo, si se tienen las
clases/decisiones Sí y No, y 𝑝𝑠í = 0.5 y 𝑝𝑁𝑜 = 0.5, entonces:
𝐸 𝑆 = −0.5 𝑙𝑜𝑔2 0.5 − 0.5 𝑙𝑜𝑔2 0.5 = 1

14
4.2.2.1 ID3
Entropía
Para casos diferentes a los anteriores, el valor de entropía se encuentra en

el rango de 0,1 . Si se tienen dos posibles decisiones/clases (Sí/No) sobre
un conjunto de 14 datos, y 9 son para Sí y 5 para No:
2
𝐸 𝑆[9(𝑆í), 5(𝑁𝑜)] = −𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖

𝑖=1
9 9 5 5
𝐸 𝑆[9+, 5−] = − 𝑙𝑜𝑔2 − 𝑙𝑜𝑔2 = 0.940
14 14 14 14
15
4.2.2.1 ID3
Entropía
1.0
𝐸(𝑆)
0.5
0.0 0.5 1.0

𝑝𝑖
Figura 1. Gráfica de la entropía para clasificación booleana.
16
4.2.2.1 ID3 Ganancia de información
𝐶
𝑆𝑣
𝐺 𝑆, 𝐴 = 𝐸 𝑆 − 𝐸(𝑆𝑣 )
𝑆
𝑣∈𝑉(𝐴)
donde, 𝑉(𝐴) es el conjunto de todos los posibles valores para el atributo 𝐴,

𝑆𝑣 es el subconjunto de 𝑆 para el que el atributo A tiene el valor 𝑣, 𝐸 𝑆 es el
valor de la entropía para el conjunto de datos 𝑆, 𝐸 𝑆𝑣 es el valor de
entropía para el conjunto de datos 𝑆𝑣 , 𝑆𝑣 es la cantidad de elementos en el
conjunto 𝑆𝑣 y 𝑆 es la cantidad de elementos en el conjunto 𝑆.
17
4.2.2.1 ID3
Ganancia de información
Supongamos que tenemos un conjunto 𝑆 que tiene 14 datos, de los cuales

9 datos pertenecen a la decisión/clase de Sí y 5 datos a la decisión/clase
No. Se desea obtener la ganancia de entropía para el atributo A, el cual
puede tener los valores W o K. Si se sabe que 6 de los datos de Sí y 2 de
los datos de No tienen en el atributo A el valor de W, que 3 de los datos de
Sí y 3 de los datos de No tienen en el atributo A el valor de K, y que el valor
de 𝐸 𝑆 es de 0.940.

18
4.2.2.1 ID3
𝑆 = [9 𝑆í , 5(𝑁𝑜)] 𝑆 = 14 𝑆𝑊 = [6(𝑆í), 2(𝑁𝑜)] 𝑆𝑊 = 8
𝑆𝐾 = [3(𝑆í), 3(𝑁𝑜)] 𝑆𝐾 = 6 𝑉 𝐴 = {𝑊, 𝐾} 𝐶=2
𝑐
𝑆𝑣 8 6
𝐺 𝑆, 𝐴 = 𝐸 𝑆 − 𝐸 𝑆𝑣 = 0.940 − 𝐸 𝑆𝑊 − 𝐸 𝑆𝐾
𝑆 14 14
𝑣∈𝑉 𝐴

19
4.2.2.1 ID3
6 6 2 2
𝑆𝑊 = [6(𝑆í), 2(𝑁𝑜)] 𝐸 𝑆𝑊 = − 𝑙𝑜𝑔2 − 𝑙𝑜𝑔2 = 0.811
8 8 8 8
3 3 3 3
𝑆𝐾 = [3(𝑆í), 3(𝑁𝑜)] 𝐸 𝑆𝐾 = − 𝑙𝑜𝑔2 − 𝑙𝑜𝑔2 = 1.0
6 6 6 6
8 6
𝐺 𝑆, 𝐴 = 0.940 − 0.811 − 1.0 = 0.048
14 14

20
4.2.2.2 C4.5

21
Bases biológicas
El elemento estructural y funcional más esencial del sistema de

comunicación neuronal, es la neurona. Las neuronas de manera general
realizan lo siguiente:
• Recibir información de otras neuronas o de receptores.

• Integrar la información recibida en un código de activación neuronal.
• Transmitir la activación en forma de impulsos mediante su axón.
• La información se distribuye en las ramificaciones del axón.
• La información se transmite a otras neuronas o a células efectoras.
22
Bases biológicas

23
4.3.2 Perceptron, Redes Multicapa, BAM y Hopfield

24
4.3.3 Algoritmos de entrenamiento
Los

25
4.3.4 Aplicaciones
Los

26
4.4.1 Introducción

27
4.4.2 Elementos, operadores y parámetros

28
4.4.3 Aplicaciones

29
4.5.1 Aprendizaje Bayesiano
Se basa en decir cual es la hipótesis (Decisión) más probable.
• P(h): Probabilidad de una hipótesis/decisión h (Prior Probability)

• P(D): Probabilidad de un dato D
• P(D|h): Probabilidad de un dato D dada la hipótesis h
• P(h|D): Probabilidad de una hipótesis h dado un dato D (Posterior
Probability)
𝑃(𝐷|ℎ)𝑃 ℎ
Teorema de Bayes: 𝑃 ℎ 𝐷 =
𝑃(𝐷)

30
Maximum A Posteriori (MAP)
ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻 𝑃 ℎ 𝐷
𝑃(𝐷|ℎ)𝑃 ℎ
ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻
𝑃(𝐷)
ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻 𝑃 𝐷 ℎ 𝑃 ℎ
𝑃 𝐷 puede eliminarse debido a que su valor es independiente de h

31
Maximum Likelihood (ML): Cada hipótesis en H tiene la misma

probabilidad, por lo que se utiliza únicamente 𝑃 ℎ 𝐷
ℎ𝑀𝐿 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ∈𝐻 𝑃 𝐷 ℎ

32
Naive Bayes: Se aplica cuando las instancias de un problema están

representadas mediante un vector de atributos 𝑎1 , 𝑎2 , … , 𝑎𝑛 , donde el
valor h representa el valor de la decisión tomada en un conjunto finito H
ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻 𝑃 ℎ𝑗 𝑎1 , 𝑎2 , … , 𝑎𝑛
𝑃 𝑎1 , 𝑎2 , … , 𝑎𝑛 ℎ𝑗 𝑃(ℎ𝑗 )
ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻
𝑃(𝑎1 , 𝑎2 , … , 𝑎𝑛 )

33
Naive Bayes
ℎ𝑀𝐴𝑃 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻 𝑃 𝑎1 , 𝑎2 , … , 𝑎𝑛 ℎ𝑗 𝑃 ℎ𝑗
ℎ𝑁𝑎𝑖𝑣𝑒𝐵𝑎𝑦𝑒𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻 𝑃(ℎ𝑗 ) 𝑃 𝑎𝑖 ℎ𝑗

𝑖

34
KNN

35
Estimador de probabilidad
𝑛𝑐 + 𝑚𝑝
𝑛+𝑚
1
m (diferente de cero) es el tamaño de muestra equivalente, 𝑝 = , donde k
𝑘
es el número de posibles valores del atributo analizado

36
4.5.2 Modelos ocultos de Markov

37

IV AprendizajeAutomatico

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

IV AprendizajeAutomatico

Cargado por

Copyright:

Formatos disponibles

Inteligencia Artificial

José David Ortega Pacheco

Instituto Politécnico Nacional

4.2 Aprendizaje mediante árboles de decisión

IPN, ESCOM, José David Ortega Pacheco,

4.4 Algoritmos genéticos

IPN, ESCOM, José David Ortega Pacheco,

Si el desempeño en las tareas T, medido mediante P, mejora a partir del

IPN, ESCOM, José David Ortega Pacheco,

Algunos problemas en donde se necesita aprendizaje:

Para cada problema necesitamos definir los elementos mencionados

IPN, ESCOM, José David Ortega Pacheco,

• Instancia/patrón: Conjunto de atributos representados comúnmente

IPN, ESCOM, José David Ortega Pacheco,

En un árbol de decisión cada nodo representa un atributo a ser evaluado en

Una instancia o patrón se clasifica recorriendo el árbol desde el nodo raíz,

IPN, ESCOM, José David Ortega Pacheco,

De manera general, los árboles de decisión son recomendados para

• Cada patrón o instancia es representado por un conjunto fijo de

1. Se busca la raíz del árbol (Atributo más relevante)

1. Entropía: Índice de que tan homogéneo o heterogéneo es un

2. Ganancia de información: Determina el grado de discriminación que

IPN, ESCOM, José David Ortega Pacheco,

donde 𝑆 es el conjunto de datos a analizar, 𝑝𝑖 es la proporción de 𝑆 que

El valor de entropía es 0 cuando todos los elementos en 𝑆 pertenecen a la

Cabe señalar que se define 0 𝑙𝑜𝑔2 0 = 0

IPN, ESCOM, José David Ortega Pacheco,

El valor de entropía es 1 cuando en 𝑆 se tiene la misma cantidad de

𝐸 𝑆 = −0.5 𝑙𝑜𝑔2 0.5 − 0.5 𝑙𝑜𝑔2 0.5 = 1

IPN, ESCOM, José David Ortega Pacheco,

Para casos diferentes a los anteriores, el valor de entropía se encuentra en

𝐸 𝑆[9(𝑆í), 5(𝑁𝑜)] = −𝑝𝑖 𝑙𝑜𝑔2 𝑝𝑖

0.0 0.5 1.0

donde, 𝑉(𝐴) es el conjunto de todos los posibles valores para el atributo 𝐴,

Supongamos que tenemos un conjunto 𝑆 que tiene 14 datos, de los cuales

IPN, ESCOM, José David Ortega Pacheco,

𝑆 = [9 𝑆í , 5(𝑁𝑜)] 𝑆 = 14 𝑆𝑊 = [6(𝑆í), 2(𝑁𝑜)] 𝑆𝑊 = 8

𝑆𝐾 = [3(𝑆í), 3(𝑁𝑜)] 𝑆𝐾 = 6 𝑉 𝐴 = {𝑊, 𝐾} 𝐶=2

IPN, ESCOM, José David Ortega Pacheco,

IPN, ESCOM, José David Ortega Pacheco,

IPN, ESCOM, José David Ortega Pacheco,

El elemento estructural y funcional más esencial del sistema de

• Recibir información de otras neuronas o de receptores.

IPN, ESCOM, José David Ortega Pacheco,

IPN, ESCOM, José David Ortega Pacheco,

IPN, ESCOM, José David Ortega Pacheco,

IPN, ESCOM, José David Ortega Pacheco,

IPN, ESCOM, José David Ortega Pacheco,

IPN, ESCOM, José David Ortega Pacheco,

IPN, ESCOM, José David Ortega Pacheco,

Se basa en decir cual es la hipótesis (Decisión) más probable.

• P(h): Probabilidad de una hipótesis/decisión h (Prior Probability)

IPN, ESCOM, José David Ortega Pacheco,

Maximum A Posteriori (MAP)

𝑃 𝐷 puede eliminarse debido a que su valor es independiente de h

Maximum Likelihood (ML): Cada hipótesis en H tiene la misma

IPN, ESCOM, José David Ortega Pacheco,

Naive Bayes: Se aplica cuando las instancias de un problema están

IPN, ESCOM, José David Ortega Pacheco,

ℎ𝑁𝑎𝑖𝑣𝑒𝐵𝑎𝑦𝑒𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥ℎ𝑗 ∈𝐻 𝑃(ℎ𝑗 ) 𝑃 𝑎𝑖 ℎ𝑗

IPN, ESCOM, José David Ortega Pacheco,

IPN, ESCOM, José David Ortega Pacheco,

IPN, ESCOM, José David Ortega Pacheco,

IPN, ESCOM, José David Ortega Pacheco,