Está en la página 1de 3

Clasificación arboles de decisión y bosques randomicos

Erika Viviana Quintana Rivera

1. ¿En qué consiste el aprendizaje inductivo en machine learning? Este consiste en el

descubrimiento de patrones a partir de ejemplos, se crean modelos de conceptos a partir de

la generalización de ejemplos y se buscan patrones comunes que los expliquen.

2. ¿Qué es y cómo trabaja el algoritmo ID3? Este algoritmo se usa para aprender árboles de

decisión, realiza una búsqueda por ascenso en el espacio de árboles:

a. Para cada nuevo nodo de decisión un atributo es elegido y los ejemplos son

distribuidos según sus valores.

b. Este procedimiento es repetido de forma recursiva hasta que todos los ejemplos sean

del mismo concepto

Ejemplo:

La selección de cada atributo se decide mediante una función heurística que tiene

preferencia a formar árboles de decisión

3. ¿Para que y porque se aplica la entropía y ganancia de información en un conjunto de datos?


a. Entropía: Teniendo (1) Un problema con dos clases positiva y negativa y (2) S => el

conjunto de ejemplos se define entropía como:

b. Ganancia: Es la diferencia entre la cantidad de información que se necesita para hacer

una clasificación antes de hacer la división y después. Se calcula determinando la

diferencia entre la entropía del conjunto de datos de partida y la suma ponderada de

las entropías una vez dividido el conjunto de ejemplos:

4. ¿Qué y cómo trabaja el algoritmo C4.5? Construye árboles de decisión desde un grupo de

datos de entrenamiento de la misma forma que ID3, usando el concepto de entropía de

información, el algoritmo consiste en:

5. ¿Qué y cómo trabaja el algoritmo J-48? Un árbol de decisión es básicamente una estructura

de árbol que tiene la forma de un diagrama de flujo. Se puede utilizar como método de

clasificación y predicción con una representación que utiliza nodos y entrenudos. La raíz y

los nodos internos son los casos de prueba. Nodos de hoja considerados como variables de

clase.

6. ¿Cuáles son las DIFERENCIAS COMPUTACIONALES entre C4.5, ID3 J-48?

Como se dice que el C4.5 es una mejora al ID3, se pueden describir ciertas mejoras:

• En vez de elegir los casos de entrenamiento de forma aleatoria para formar la “ventana”,

el árbol C4.5 sesga la selección para conseguir una distribución más uniforme de la clase

de la ventana inicial.
• En cuanto al límite de excepciones C4.5 incluye como mínimo un 50% de las

excepciones en la próxima ventana. El resultado es una convergencia más rápida hacia

el árbol definitivo.

• C4.5 termina la construcción del árbol sin tener que clasificar los datos en todas las

categorías (clases) posibles.

También podría gustarte