Está en la página 1de 24

ÁRBOLES DE REGRESIÓN

Regresión Aplicada

Maria Gracia Becerra


Integrantes:
Sergio Diaz
Giancarlos Paredes
Fiorella Torres
Jean Pierre Uribe
Índice

1- Resumen del trabajo……………………………………………….….. pág. 3

2- Introducción…………………………………….………………….…. pág. 4

3- Desarrollo teorico………………………………….………………….. pág. 5

4- Aplicación…………………………………………………….…...….. pág. 13

5- Interpretacion de resultados………………………………………...… pág. 22

6- Conclusiones………………………………………………………….. pág. 23

7- Bibliografia……………………………………………………..…….. pág. 24

EPG: Facultad de Economia y Planificación 2


Resumen del trabajo

El presente trabajo tiene como finalidad desarrollar la metodología de árboles de regresión a


partir de un caso práctico cuyo objetivo consiste en predecir el salario de los jugadores de las
ligas mayores de béisbol (MBL) de los Estados Unidos de América de la temporada 1987.

Con la metodología aplicada determinaremos el patrón de comportamiento de un deportista


con un salario inferior o superior del promedio, para lograr ello se emplearan una serie de
pruebas, evaluaciones y ajustes para determinar que modelo es más óptimo para implementar.

EPG: Facultad de Economia y Planificación 3


Introducción

Los árboles de decisión construyen modelos de predicción a partir del uso de métodos
computacionales de machine learning y de inteligencia artificial (Wiley & Sons 2011). A partir
de nuestros datos, la técnica identifica reglas o construcciones lógicas que nos permite tomar
decisiones y resolver problemas, desde un punto de vista probabilístico (Beltran 2015; Chávez
2017).

Existen dos tipos de árboles de decisión: los árboles de clasificación y los árboles de regresión.
Por un lado, los árboles de clasificación están diseñados para variables dependientes
categóricas, con un error medido -típicamente- en términos del costo de la clasificación
errónea. Por el otro lado, los árboles de regresión están diseñados para variables numéricas
continuas, con un error medido -típicamente- por la diferencia entre el valor predicho y el valor
observado, elevada el cuadrado (Wiley & Sons 2011).

La estimación por medio de un árbol de regresión presenta diversas ventajas. Primeramente, la


aplicación de reglas que permitan presentar un valor estimado para una variable de interés en
función de los valores que presenten sus variables explicativas es un objetivo común en los
distintos métodos y modelos de regresión; sin embargo, a diferencia de los métodos
matemáticos la estimación por árboles de regresión tiene la ventaja de ser más sencilla en
cuanto a su entendimiento y explicación ya que está basada en algoritmos computacionales
mientras que los métodos matemáticos son el resultado de la optimización de algún estadístico
teórico.

Considerando ello, en el presente trabajo se aplica dicha metodología para explicar y predecir
el salario de los jugadores de las ligas mayores de béisbol (MBL) de los Estados Unidos de
América de la temporada 1987. Se presentan los principales hallazgos y conclusiones para
mejorar el modelo.

EPG: Facultad de Economia y Planificación 4


Desarrollo teórico

¿Qué son los árboles de decisión?

De acuerdo a lo señalado por Mitchell (2007), esta metodología pertenece al enfoque de


programación de “divide y vencerás”, en tanto los modelos de predicción se obtienen a partir
de la segmentación de los datos y el ajuste de un modelo de predicción simple dentro de cada
segmento o partición (Chávez 2017). Cada árbol de decisión comienza con un único nodo que
se ramifica en distintos resultados posibles. El siguiente gráfico, tomado de XXX, muestra un
ejemplo de árbol de decisión.

Figura Nº 1. Ejemplo de nodo de decisión.

Fuente: https://www.lucidchart.com/pages/es/que-es-un-diagrama-de-arbol-de-decision

De acuerdo a Cruiz (s/a), el árbol de decisión está conformado por los siguientes elementos:

● El nodo de probabilidad, representado en el ejemplo por los círculos, muestra la


probabilidad de que se generen ciertos resultados.
● El nodo de decisión, representado en el ejemplo por un cuadrado, muestra una decisión
que se tomará.
● El nodo terminal, representado en el ejemplo por un triángulo, muestra el resultado de
una ruta de decisión.
● Las ramas, representadas en el ejemplo por las líneas, muestran los caminos que son
consecuencia de una decisión o evento.

EPG: Facultad de Economia y Planificación 5


Teorema de Bayes y árboles de decisión

En su forma más sencilla podemos recurrir al teorema de Bayes para poder llevar a cabo la
representación de dicho árbol. Una ilustración bastante oportuna para entender lo mencionado
líneas arriba se encuentra en el trabajo de Maya (2018) en donde se explica la formalización
de un árbol de decisión y la aplicación del teorema de Bayes para un ejemplo aplicado al
problema de producción defectuosa de dos máquinas.

Fuente: Maya(2018)

En el ejemplo previo se tiene que elegir dos máquinas, la máquina A y la B, y los dos resultados
posibles de estas máquinas pueden ser defectuosos y no defectuosos. Para poder estimar la
probabilidad de que exista alguna unidad defectuosa se aplica el teorema de Bayes:

Mediante dicho teorema se calcula por separado la probabilidad de la producción defectuosa


para cada máquina.

EPG: Facultad de Economia y Planificación 6


Luego de ello se suman para obtener la probabilidad indistintamente de la máquina de la cual
salga dicho producto.

Finalmente se calcula la probabilidad de que una unidad defectuosa salga de alguna de las
máquinas:

Mediante el ejemplo desarrollado a partir de la información brindada en el primer árbol se


concluyó que la probabilidad de que exista algún producto defectuoso es del 3.3% así mismo
la probabilidad de que dicha unidad defectuosa provenga de la máquina A es del 77% mientras
que provenga de la máquina B es de 23%.

Finalmente, Maya (2008) finaliza con una serie de recomendaciones para el análisis de árboles
de decisión.

5- Se resuelve el
problema
estimando los
4-Calcular beneficios
puntuaciones
esperados de cada
finales de cada una opción.
3- Asignar de las alternativas
probabilidades en
las ramas.
2- Estructurar y
dibujar el árbol
1- Definir y
analizar el
problema.

EPG: Facultad de Economia y Planificación 7


Otro trabajo ilustrativo que mencionar es el realizado por Trujillano (2008) en donde nos
presenta un árbol de decisión explicado a partir de variables cuantitativas.

Fuente: Trujillano (2008)

En donde X e Y son variables explicativas y aunque se plasman en un diagrama de dispersión


el objetivo de esto no es explicar la relación entre ellas sino de ellas a una variable respuesta
dicotómica cada una de estas categorías se expresan en la forma del punto o círculo con una
cruz. Como se puede observar en la gráfica y el árbol se inicia con una población total de 20
de la primera categoría y 10 de la otra.

La variable X es el primer criterio para separar los datos, si X es mayor a tres entonces se espera
que los datos sean del primer grupo mientras que en el caso alterno habría que considerar el
valor de Y ya que si el valor de Y es menor a tres estos serían del primer grupo sin embargo de
ser mayor a tres los datos serían del segundo tipo.

EPG: Facultad de Economia y Planificación 8


Tipos de árboles de decisión

Es importante distinguir entre dos tipos de árboles de decisión: los árboles de clasificación y
los árboles de regresión. Por un lado, los árboles de clasificación están diseñados para
variables dependientes categóricas, con un error medido -típicamente- en términos del costo de
la clasificación errónea. Por el otro lado, los árboles de regresión están diseñados para variables
numéricas continuas, con un error medido -típicamente- por la diferencia entre el valor
predicho y el valor observado, elevada el cuadrado (Wiley & Sons 2011).

Árboles de clasificación:

Los árboles de clasificación sirven para establecer criterios que nos permitan estimar la
respuesta de una variable categórica en base a un conjunto de atributos o variables explicativas.
Para entender la metodología, es ilustrativo detallar un ejemplo sobre clasificación de
aplicantes a crédito entre cliente riesgoso y cliente no riesgoso. Para ello, se asigna un puntaje
de crédito a los nuevos solicitante en base a características tales como ingresos, edad y estado
civil. El ejemplo es tomado de Vakken (s/a).

Cuando llega un aplicante, es evaluado de acuerdo a sus características hasta llegar a un nodo
(hoja) asociado a sus características. Supongamos que llega un aplicante con las siguientes
características:

- Ingreso: 30,000
- Edad: 42
- Casado: no
- Género: hombre
- Propiedades: no

EPG: Facultad de Economia y Planificación 9


Para asignar al aplicante en una clase, empezamos realizando el test asociado al ingreso. Luego,
vamos a la derecha y realizamos el test asociado a la edad. El aplicante es enviado a la derecha
donde realizamos el test final sobre estado civil. Puesto que el aplicante no está casado, es
llevado al nodo de clasificación de alto riesgo y, por lo tanto, es rechazado (Vikken s/a).

Para construir el modelo que nos permita tomar la decisión sobre si aceptar o rechazar al
solicitante de crédito, se utiliza data histórica sobre préstamos ya realizados y su resultado
(bueno o malo). La base de datos se muestra a continuación. El objetivo es encontrar las
variables que nos permitan segmentar mejor a nuestros casos (Vikken s/a).

Para dar un ejemplo, si analizamos la variable género, podemos observar que, de 5 hombres en
nuestra base de datos, 3 de ellos resultaron malos clientes (60%). Por su parte, de 5 mujeres en
nuestra base de datos, 2 de ellas resultaron malas clientes (40%). La pregunta es: ¿qué
información sobre la clasificación de los clientes hemos ganado al preguntar sobre el género?
Si no tuviéramos información y tuviéramos que determinar si un cliente es bueno o malo,
podríamos equivocarnos un 50% de veces. Si sabemos el género, de cierta forma, podríamos
mejorar la predicción. Si es hombre, diríamos que es un mal cliente y acertaríamos el 60% de
las veces. Si es mujer, diríamos que es buena cliente y acertaríamos 60% de las veces. Nuestro
conocimiento sobre el género mejoró nuestra predicción de 50% a 60% (Vikken s/a).

Sin embargo, si comparamos con la información sobre los ingresos, encontramos que los 3
clientes con ingresos por encima de 36,000 son buenos clientes. Por su parte, 5 de los 7 clientes
con ingresos menores a 36,000 son malos clientes. Usando esta información, acertaríamos 80%
de las veces. Claramente, el test con el ingreso nos da mayor información sobre la clasificación
que el test con género (Vikken s/a).

Usando la data, computamos qué test (variable) nos da más información sobre la clasificación.
Cuando encontramos estas variables, dividimos la data en grupos que correspondan a diferentes
resultados del test. En cada uno de los grupos resultantes, buscamos información adicional
sobre la categoría. Continuamos hasta que los grupos contengan solamente información sobre
buenos o malos clientes (Vikken s/a).

De acuerdo a lo detallado, la construcción del árbol de clasificación implica escoger segmentos


(test) que permitan obtener la mayor información sobre las categorías de interés. Es decir,
segmentos que contengan predominantemente casos de una clase (categoría).

EPG: Facultad de Economia y Planificación 10


Árboles de regresión:

Una versión más extendida de los árboles de decisión son los árboles de regresión en donde la
variable dependiente es continua y, es predicha, a partir de otras variables continuas. Estas
variables explicativas pueden plasmarse en un diagrama de dispersión y para facilitar la
observación de la segmentación se trazan líneas verticales y horizontales los cuales servirán
como criterios de decisión en cada uno de los niveles del árbol.

Estimaciones de árboles de regresión

La estimación por medio de un árbol de regresión presenta diversas ventajas con los que otros
métodos no cuentan. Primeramente la aplicación de reglas o condiciones que permitan
presentar un valor estimado para una variable de interés en función de los valores que presenten
sus variables explicativas es un objetivo común en los distintos métodos y modelos de regresión
sin embargo a diferencia de los métodos matemáticos la estimación por árboles de regresión
tiene la ventaja de ser más sencilla en cuanto a su entendimiento y explicación ya que está
basada en algoritmos computacionales mientras que los métodos matemáticos son el resultado
de la optimización de algún estadístico teórico.

La sencillez del proceso general nos indica que solo se requieren dos pasos para poder estimar
el árbol de regresión. Primero está la segmentación del espacio de las variables predictivas en
j regiones o áreas de tal manera que se minimice la suma de las varianzas de cada región, la
cual vendría a ser la varianza de los errores.

En segundo lugar, se considera a la media regional como el valor predicho de las observaciones
en cada región.

Cómo la explicación antes mencionada trata sobre variables continuas se abre un infinito de
posibles regiones ya que la cantidad de valores entre uno u otro valor es infinita. Esta última
característica haría inviable la estimación por árboles de regresión desde un punto de vista más
formal sin embargo es posible aplicar el método de División binaria recursiva.

El método comienza en la etapa inicial del árbol en dónde aún no ha habido segmentación y
comienza a partir de seleccionar un conjunto o secuencia finita de puntos elige aquel que
minimice la suma de cuadrados del error luego de ello se vuelve a aplicar el proceso en cada
una de las nuevas regiones.

EPG: Facultad de Economia y Planificación 11


Tomado de Orellana(2018)

Orellana(2018) presenta de manera gráfica tanto el árbol de regresión como el espacio


particionado o dividido en lo que para esta explicación son 6 regiones. El primer criterio que
aprendió el árbol fue el dividir los datos a partir de si son mayores o menores que t1. para
cuando los datos tienen un x1 menor a t1 podrán pertenecer a las regiones 1 o 2, esto último
dependiendo complementariamente si x2 es mayor o menor de t2 respectivamente. mientras
que para la otra opción del primer criterio de decisión es decir el caso en que x1 es mayor que
t1 tendrá que volver a haber otra partición por parte de x1, este caso si los valores de x1 son
mayores o menores a t3.

en el primer caso podrían pertenecer a las regiones 3 o 4 dependiendo si x2 es menor o mayor


de t4 y en el segundo el de pertenecer a las regiones 5 y 6 dependiendo si x2 es menor o mayor
a t5. De este último ejemplo se muestra la versatilidad del poder predictivo de esta técnica de
predicción.

EPG: Facultad de Economia y Planificación 12


Aplicación

ARBOLES DE REGRESION
Caso práctico: Ligas de béisbol
En este ejemplo vamos a utilizar el conjunto de datos Hitters del paquete ISLR, que contiene
información sobre jugadores de béisbol, con el cual buscaremos predecir los salarios de los jugadores
usando los conceptos de arboles de regresión descritos previamente.

CARGA Y TRANSFORMACION DE DATOS


Paso 1: Cargar el conjunto de datos(Hitters) ubicado en la libreria ISLR

library(ISLR)
str(Hitters)
## 'data.frame': 322 obs. of 20 variables:
## $ AtBat : int 293 315 479 496 321 594 185 298 323 401 ...
## $ Hits : int 66 81 130 141 87 169 37 73 81 92 ...
## $ HmRun : int 1 7 18 20 10 4 1 0 6 17 ...
## $ Runs : int 30 24 66 65 39 74 23 24 26 49 ...
## $ RBI : int 29 38 72 78 42 51 8 24 32 66 ...
## $ Walks : int 14 39 76 37 30 35 21 7 8 65 ...
## $ Years : int 1 14 3 11 2 11 2 3 2 13 ...
## $ CAtBat : int 293 3449 1624 5628 396 4408 214 509 341 5206 ...
## $ CHits : int 66 835 457 1575 101 1133 42 108 86 1332 ...
## $ CHmRun : int 1 69 63 225 12 19 1 0 6 253 ...
## $ CRuns : int 30 321 224 828 48 501 30 41 32 784 ...
## $ CRBI : int 29 414 266 838 46 336 9 37 34 890 ...
## $ CWalks : int 14 375 263 354 33 194 24 12 8 866 ...
## $ League : Factor w/ 2 levels "A","N": 1 2 1 2 2 1 2 1 2 1 ...
## $ Division : Factor w/ 2 levels "E","W": 1 2 2 1 1 2 1 2 2 1 ...
## $ PutOuts : int 446 632 880 200 805 282 76 121 143 0 ...
## $ Assists : int 33 43 82 11 40 421 127 283 290 0 ...
## $ Errors : int 20 10 14 3 4 25 7 9 19 0 ...
## $ Salary : num NA 475 480 500 91.5 750 70 100 75 1100 ...
## $ NewLeague: Factor w/ 2 levels "A","N": 1 2 1 2 2 1 1 1 2 1 ...

EPG: Facultad de Economia y Planificación 13


Paso 2: Crear la base de datos filtrando los datos vacios en la variable respuesta.
datos.Hitters <- na.omit(Hitters)
attach(datos.Hitters)

Paso 3: Validamos si es necesario transformar alguna variable del modelo.

library(car)
## Loading required package: carData
library(carData)
library(alr3)
Transf <- powerTransform(cbind(AtBat, Hits, Years, CAtBat,CHits, CRBI, CWal
ks,Salary) ~ 1)
summary(Transf)
## bcPower Transformations to Multinormality
## Est Power Rounded Pwr Wald Lwr Bnd Wald Upr Bnd
## AtBat 0.7018 0.70 0.5460 0.8576
## Hits 0.5404 0.50 0.4438 0.6371
## Years 0.4898 0.50 0.3909 0.5888
## CAtBat 0.2198 0.22 0.1794 0.2602
## CHits 0.1842 0.18 0.1465 0.2220
## CRBI 0.1446 0.14 0.0981 0.1910
## CWalks 0.1766 0.18 0.1249 0.2283
## Salary -0.0113 0.00 -0.1308 0.1082
##
## Likelihood ratio test that transformation parameters are equal to 0
## (all log transformations)
## LRT df pval
## LR test, lambda = (0 0 0 0 0 0 0 0) 415.8473 8 < 2.22e-16
##
## Likelihood ratio test that no transformations are needed
## LRT df pval
## LR test, lambda = (1 1 1 1 1 1 1 1) 1733.314 8 < 2.22e-16

Paso 4: Trasformamos la variable Salario usando el logaritmo

datos.Hitters$Salary <- log(datos.Hitters$Salary)

EPG: Facultad de Economia y Planificación 14


Paso 5: Creamos el conjunto de datos de entrenamiento y de prueba
En nuestro caso dividimos el conjunto de datos en entrenamiento y prueba

# Índice observaciones de entrenamiento


Entrenamiento <- 1:200
# Datos entrenamiento
datos.H.Entrenamiento <- datos.Hitters[Entrenamiento, ]
# Datos test
datos.H.Prueba <- datos.Hitters[-Entrenamiento, ]

CREACION DEL ARBOL DE REGRESION


Paso 6: Creamos el arbol de regresión
Para realizar esto debemos de instalar el paquete rpart

library(rpart)
Hitters.m1 <- rpart(Salary ~ ., data = datos.H.Entrenamiento, method = "ano
va")
#Revisamos la estructura del modelo
Hitters.m1
## n= 200
## node), split, n, deviance, yval
## * denotes terminal node
## 1) root 200 166.4026000 5.940142
## 2) CAtBat< 1322 70 23.2976100 4.971397
## 4) CRuns< 92.5 43 12.6041600 4.696364 *
## 5) CRuns>=92.5 27 2.2606440 5.409412 *
## 3) CAtBat>=1322 130 42.0391300 6.461775
## 6) Walks< 48.5 80 20.2563400 6.232049
## 12) Hits< 98.5 41 9.8330460 6.019447 *
## 13) Hits>=98.5 39 6.6219100 6.455553
## 26) CHits< 590.5 12 1.8469430 6.117547 *
## 27) CHits>=590.5 27 2.7946750 6.605777 *
## 7) Walks>=48.5 50 10.8057700 6.829337
## 14) CRBI< 369.5 16 0.9873393 6.497548 *
## 15) CRBI>=369.5 34 7.2282270 6.985472
## 30) PutOuts< 286 20 2.6208010 6.786117 *
## 31) PutOuts>=286 14 2.6770760 7.270266 *

EPG: Facultad de Economia y Planificación 15


Graficamos el árbol
Otra manera de representar el modelo es graficandolo, para ello usaremos el paquete rpart.plot

library(rpart.plot)
rpart.plot(Hitters.m1, type = 2)

EPG: Facultad de Economia y Planificación 16


EVALUACION DEL MODELO
Para ello, ejecutaremos usando los datos de prueba y lo compararemos con el dato real.

pred.Hitters.m1 <- predict(object = Hitters.m1, newdata = datos.H.Prueba)

plot(x = pred.Hitters.m1, y = datos.H.Prueba$Salary,


main = "Predicción modelo vs valor real",
xlab = "predicciones",
col = "darkgrey", pch = 19)

abline(a = 0, b = 1, col = "blue")

Asimismo, otra forma de validar que tan bueno es nuestro modelo es calculando el MSE.

#MSE: Mean Square Error


test.MSE.Hitters.m1 <- mean((pred.Hitters.m1 - datos.H.Prueba$Salary)^2)
test.MSE.Hitters.m1
## [1] 0.3249202

EPG: Facultad de Economia y Planificación 17


AJUSTE DEL MODELO
Una vez evaluado que tan exacto es el modelo, podemos mejorarlo identificando donde podar el arbol.
Para ello nos apoyaremos de dos funciones printcp y plotcp.

printcp(Hitters.m1)
## Regression tree:
## rpart(formula = Salary ~ ., data = datos.H.Entrenamiento, method = "anov
a")
## Variables actually used in tree construction:
## [1] CAtBat CHits CRBI CRuns Hits PutOuts Walks
##
## Root node error: 166.4/200 = 0.83201
## n= 200
## CP nsplit rel error xerror xstd
## 1 0.607357 0 1.00000 1.00583 0.075036
## 2 0.065967 1 0.39264 0.41950 0.056330
## 3 0.050677 2 0.32668 0.38192 0.065093
## 4 0.022845 3 0.27600 0.34260 0.065215
## 5 0.015566 4 0.25315 0.33822 0.064932
## 6 0.011901 5 0.23759 0.33133 0.064198
## 7 0.011600 6 0.22569 0.33576 0.064443
## 8 0.010000 7 0.21409 0.33943 0.064606
plotcp(Hitters.m1)

EPG: Facultad de Economia y Planificación 18


Analizando los resultados obtenidos, podemos concluir que para mejorar el modelo debemos de podar
el arbol en el nodo 4. Esto se realiza usando la funcion prune.

# Podado del árbol


Hitters.m1.Pod<- prune(Hitters.m1, cp= 0.015566)
printcp(Hitters.m1.Pod)
##
## Regression tree:
## rpart(formula = Salary ~ ., data = datos.H.Entrenamiento, method = "anov
a")
##
## Variables actually used in tree construction:
## [1] CAtBat CRuns Hits Walks
##
## Root node error: 166.4/200 = 0.83201
##
## n= 200
##
## CP nsplit rel error xerror xstd
## 1 0.607357 0 1.00000 1.00583 0.075036
## 2 0.065967 1 0.39264 0.41950 0.056330
## 3 0.050677 2 0.32668 0.38192 0.065093
## 4 0.022845 3 0.27600 0.34260 0.065215
## 5 0.015566 4 0.25315 0.33822 0.064932
plotcp(Hitters.m1.Pod)

EPG: Facultad de Economia y Planificación 19


#Ploteo del árbol podado
rpart.plot(Hitters.m1.Pod, type = 2)

EPG: Facultad de Economia y Planificación 20


EVALUACION DEL ARBOL PODADO
#Evaluando el arbol
pred.Hitters.m1.Pod <- predict(object = Hitters.m1.Pod, newdata = datos.H.P
rueba)

test.MSE.Hitters.m2 <- mean((pred.Hitters.m1.Pod - datos.H.Prueba$Salary)^2


)
test.MSE.Hitters.m2
## [1] 0.3983201

Ploteamos los resultados con el nuevo modelo

plot(x = pred.Hitters.m1.Pod , y = datos.H.Prueba$Salary,


main = "Predicción modelo vs valor real",
xlab = "predicciones",
col = "darkgrey", pch = 19)

abline(a = 0, b = 1, col = "blue")

EPG: Facultad de Economia y Planificación 21


Interpretacion de resultados

● Con el fin de reducir la escala de la variables respuesta se decidió transformar la


variable aplicando un log, esta decisión se apoyó con los resultados obtenidos de la
función power tranfor y evaluando los resultados.

● De 20 variables predictoras en el árbol podado se utilizan sólo 4. En este caso al revisar


la estructura de los modelos, en el árbol podado la variable CAtBat<1322 sigue siendo
la de mayor relevancia. En el segundo nivel la variable CRuns<93 termina de dividir el
grupo de datos más pequeño en 2 nodos terminales. El grupo más grande de datos es
dividido por la variable Walks<49, y el grupo más pequeño que sale de esta división es
el que tiene en promedio el salario más alto de todos los jugadores. En el último nivel
la variable Hits<99 separa en nodos terminales los datos restantes.

● Utilizando esta información en el árbol podado se puede afirmar que un jugador que ha
bateado en su carrera más de 1322 veces y que ha ganado bases por bolas en más de 49
ocasiones pertenecerá al grupo de jugadores con mayor sueldo promedio.

● Con la validación cruzada nos permite determinar cuales el mejor escenario para
realizar la poda. Utilizando el indicador CP nos indica que debemos quedarnos con el
nodo 4.

● Comparando los 2 modelos obtenidos se observa un aumento entre el MSE en el árbol


podado. El error cuadrático medio (MSE) del primer árbol es 0.3249 y después de
realizar la poda, si bien se simplifica árbol y entiende mejor el modelo el MSE aumenta
a 0.3983.

EPG: Facultad de Economia y Planificación 22


Conclusiones

● El arbol de regresion a diferencia de otros modelos de regresion nos permite representar


el comportamiento de los datos de manera simple a traves de la segmentacion o
estratificacion.

● Si bien realizando la validacion cruzada y podando el arbol nos permite mejorar la


presicion de prediccion del modelo, podriamos utilizar metodos de aprendizajes
estadisticos tales como el bootstrap o de bagging para obtener el modelo mas optimo.

● Se recomienda realizar el ajuste del modelo a traves de la evaluacion y el podado de las


ramas del arbol, en cuanto a mejorar la interpretabilidad.

● Es recomendable la revision y posible transformacion del conjunto de datos, de tal


manera que nos permita mejorar la prediccion del modelo.

EPG: Facultad de Economia y Planificación 23


Bibliografía

Czajkownski, M .2016. The role of decision tree representation in regression problems – An


evolutionary perspective.Journal of Applied Social Computing (48). 458-475.

Maya, E. 2018. Los árboles de decisión como herramienta para el análisis de los riesgos de los
proyectos. Medellín. Universidad EAFIT.

Bollado, J; Villarrasa, I; Garcia, X. 2018. Por publicar.

Minshall, T; Deradjat, D. 2018. The role of decision tree representation in regression problems
– An evolutionary perspective.Journal of Manufacturing Science and Technology.

Fratello, M; Tagliaferri, R. 2018. Decision Trees and Random Forests. Salerno. Universitá
degli Studi di Salerno.

Adesina, K. 2018. Decision tree for modeling survival data for competing risks. .Journal of
Biomedical Engineering. Article in press.

Trujillano, J; Sarria, A; Esquerda, A .2008. Aproximación a la metodología basada en árboles


de decisión. Gac Sanit (22). 65-72.

Yoo, K; Kumar, S; Ahh, J; Oh K. 2016. Decision tree-based data mining. Journal of Cleaner
Production (122). 277-286.

Trabelsi, A; Eloedi, Z. Decision tree classifiers for evidential attributes. Sin publicar.

Vikken, A. Classification trees. Sin publicar.

Breiman, L; Friedman, J; Olshen, R. Classification and Regression Trees. Wadsworth.


California.

Quinlan, J. 1993. Programs for Machine Learning. Morgan Kaufmann. California.

Martinez, C. 2018. Árboles de decisión y métodos en ensamble. Disponible en:


https://rpubs.com/Cristina_Gil/arboles_ensemble

Chávez, V. 2017. Árboles de decisión. Disponible en: https://rpubs.com/elfenixsoy/arbol-


veronica

Bosco, J. 2018. Árboles de decisión con R. Disponible en:


https://rpubs.com/jboscomendoza/arboles_decision_clasificacion

Chávez, J. Aplicación del aprendizaje automático con árboles de decisión al estudio de las
variables del modelo de indicadores de gestión de las universidades públicas. Scientia et
Technica (18). 725-732.

Mitchel, T. 1997. Machine Learning. McGraw Hill.

Beltrán, T. 2015. Machine Learning and Data Sci3nce. Bogotá University in Zlín.

EPG: Facultad de Economia y Planificación 24