Está en la página 1de 6

Eliezer Garavi Cabezas

RANDOM FOREST
Ejercicio Práctico 5
Minería de Datos

En base del notebook “Random_Forest_1.ipynb” estudiado en clase:

• Obtener la predicción del conjunto de evaluación.

La predicción más precisa se obtuvo con un porcentaje de entrenamiento de 80%, y el restante


20% como datos de evaluación.

df['is_train'] = np.random.uniform(0, 1, len(df)) <= 0.8

• Llevar a cabo una cross-validation del conjunto total y obtener el promedio de


predicción, considerando 4-folds.

1
Eliezer Garavi Cabezas

• Evaluar y elabore un análisis sobre los resultados obtenidos al aplicar la validación


cruzada.

Los resultados obtenidos al realizar la validación cruzada corresponden justamente a los


resultados obtenidos sin segmentar la base de entrenamiento en 4 folds. Tienen relación con
los resultados del primer punto, pero al ser un sub-grupo dentro del grupo de entrenamiento,
los registros que se evaluaban no siempre cambiaban de clasificación, por eso en los resultados
se muestran a veces la evaluación de una sola especie.
Sin embargo, los resultados tienen relación con el porcentaje de acierto deseado en la
predicción.

En base del notebook “Random_Forest_2.ipynb” estudiado en clase:

• Visualizar el árbol de decisión que se genera al ejecutar el código.

2
Eliezer Garavi Cabezas

• Modificar el tamaño del conjunto de evaluación desde el 10% hasta el 40% de cinco en
cinco y evaluar cómo se modifica el árbol de decisión.

train_test_split(features_2, labels, test_size = 0.10, random_state=42)

train_test_split(features_2, labels, test_size = 0.15, random_state=42)

3
Eliezer Garavi Cabezas

train_test_split(features_2, labels, test_size = 0.20, random_state=42)

train_test_split(features_2, labels, test_size = 0.25, random_state=42)

4
Eliezer Garavi Cabezas

train_test_split(features_2, labels, test_size = 0.30, random_state=42)

train_test_split(features_2, labels, test_size = 0.35, random_state=42)

5
Eliezer Garavi Cabezas

train_test_split(features_2, labels, test_size = 0.40, random_state=42)

La variación en el tamaño del conjunto de evaluación secuencialmente modifica el árbol de


decisión desde el valor raíz, oscilando (por ejemplo) la variable “temp_1” entre +/- 60.
Así mismo, los otros valores se van modificando de acuerdo al aumento del porcentaje pero
las variables siguen oscilando entre +/- un valor medio.

También podría gustarte