Artículo Árboles de Decisión V1

Primer borrador del artículo
Estrategias para fortalecer a las empresas gastronómicas en tiempos de

pandemia: una mirada desde las técnicas de aprendizaje de máquina
Resumen
Hacer al final
1. Introducción
Hacer al final
2. Conceptos relacionados
2.1 Inteligencia de negocios (Liliana)
2.2 Software Rapid mainer
2.3 Árboles de decisión (descripción de los bloques y parámetros del rapidminer)
Read Excel: Este operador se puede utilizar para cargar datos de hojas de cálculo
de Microsoft Excel. El usuario debe definir cuál de las hojas de cálculo del libro de
trabajo debe usarse como tabla de datos. La tabla debe tener un formato tal que
cada fila sea un ejemplo y cada columna represente un atributo. Tenga en cuenta
que la primera fila de la hoja de Excel se puede utilizar para nombres de atributos
que pueden indicarse mediante un parámetro. La tabla de datos se puede colocar
en cualquier lugar de la hoja y puede contener instrucciones de formato arbitrarias,
filas y columnas vacías. Los valores de datos que faltan en Excel deben indicarse
con celdas vacías o con celdas que solo contengan "?".
Este puerto entrega el archivo de Excel en forma tabular junto con los metadatos.
Esta salida es similar a la salida del operador Recuperar.
Parámetros:
Import Configuration Wizard: Esta opción le permite configurar este operador
mediante un asistente. Este asistente fácil de usar facilita el uso de este operador.
Excel file: Aquí se especifica la ruta del archivo de Excel. Puede seleccionarse con
el botón elegir un archivo.
Tipo: String
sheet selection (opcional): Esta opción le permite cambiar la selección de la hoja
entre el número de hoja y el nombre de la hoja.
Tipo: seleccion
Rango: número de hoja, nombre de hoja
Predeterminado: número de hoja
Sheet number (opcional): Aquí se debe especificar el número de la hoja que desea
importar.
Tipo: Entero
Rango: 1 - +
Predeterminado: 1
Sheet name (opcional): El nombre de la hoja que desea importar debe especificarse
aquí.
Tipo: String
imported cell range: Este es un parámetro obligatorio. Aquí se proporciona el rango
de celdas que se importarán de la hoja especificada. Se especifica en formato 'xm:
yn' donde 'x' es la columna de la primera celda del rango, 'm' es la fila de la primera
celda del rango, 'y' es la columna de la última celda del rango, 'n' es la fila de la
última celda del rango. 'A1: E10' seleccionará todas las celdas de las primeras cinco
columnas de la fila 1 a la 10.
Tipo: String
Predeterminado: A1
First row as names (opcional): Si esta opción se establece en verdadera, se asume
que la primera línea del archivo de Excel tiene los nombres de los atributos. Luego,
los atributos se nombran automáticamente y la primera línea del archivo de Excel no
se trata como una línea de datos.
Tipo: booleano
Predeterminado: verdadero
Annotations (opcional): Si la primera fila como parámetro de nombres no se
establece en verdadero, se pueden agregar anotaciones usando el botón 'Editar
lista' de este parámetro que abre un nuevo menú. Este menú le permite seleccionar
cualquier fila y asignarle una anotación. Se pueden asignar anotaciones de nombre,
comentario y unidad. Si a la fila 0 se le asigna una anotación de nombre, es
equivalente a establecer la primera fila como parámetro de nombres en verdadero.
Si desea ignorar alguna fila, puede anotarla como Comentario.
Tipo: lista
Date format (opcional): Aquí se especifica el formato de fecha y hora. Existen
muchas opciones predefinidas; los usuarios también pueden especificar un nuevo
formato. Si el texto de una columna de archivo de Excel coincide con este formato
de fecha, esa columna se convierte automáticamente al tipo de fecha. Algunas
correcciones se realizan automáticamente en los valores de tipo de fecha. Por
ejemplo, un valor '32 -March 'se convertirá automáticamente a' 1-April '. Las
columnas que contienen valores que no se pueden interpretar como números se
interpretarán como nominales, siempre que no coincidan con el patrón de fecha y
hora del parámetro de formato de fecha. Si lo hacen, esta columna del archivo de
Excel se analizará automáticamente como fecha y el atributo correspondiente será
del tipo de fecha.
Tipo: selección
Rango: MM / dd / aaaa, dd.MM.yyyy, MM / dd / aaaa h: mm a, aaaa / MM / dd, dd /
MM / aaaa, dd / MM / aaaa HH: mm, aaaa .MM.dd G 'en' HH: mm: ss z, EEE, MMM
d, '' aa, h: mm a, ...
Time zone (opcional): Este es un parámetro experto. Se proporciona una larga lista
de zonas horarias; los usuarios pueden seleccionar cualquiera de ellos.
Tipo: selección
Rango: SYSTEM, ACT, AET, AGT, ART, AST, Africa / Abidjan, Africa / Accra,
Africa / Addis_Ababa, Africa / Argel, ... Predeterminado: SYSTEM
locale (opcional): Este es un parámetro experto. Se proporciona una larga lista de
configuraciones regionales; los usuarios pueden seleccionar cualquiera de ellos.
Tipo: selección
Rango: albanés, albanés (Albania), árabe, árabe (Argelia), árabe (Bahréin), árabe
(Egipto), árabe (Irak), árabe (Jordania), árabe (Kuwait), ... Predeterminado: inglés
(United Estados).
read all values as polynominal (opcional): Esta opción le permite deshabilitar el
manejo de tipos para este operador. Cada columna se leerá como un atributo
polinominal. Para analizar una fecha de Excel después, use 'date_parse (86400000
* (parse (date_attribute) - 25569))' (- 24107 para Mac Excel 2007) en el operador
Generar atributos.
Tipo: booleano
Predeterminado: falso
Data set meta data information (opcional): esta opción es importante. Le permite
ajustar los metadatos del ExampleSet creado a partir del archivo de Excel
especificado. Aquí se pueden especificar el índice, el nombre, el tipo y la función de
la columna. El operador Leer Excel intenta determinar un tipo apropiado de atributos
leyendo las primeras líneas y verificando los valores que ocurren. Si todos los
valores son números enteros, el atributo se convertirá en un número entero. De
manera similar, si todos los valores son números reales, el atributo pasará a ser de
tipo real. Las columnas que contienen valores que no se pueden interpretar como
números se interpretarán como nominales, siempre que no coincidan con el patrón
de fecha y hora del parámetro de formato de fecha. Si lo hacen, esta columna del
archivo de Excel se analizará automáticamente como fecha y el atributo
correspondiente será de tipo fecha. Los tipos determinados automáticamente se
pueden anular utilizando este parámetro.
Tipo: lista
read not matching values as missings (opcional): si este valor se establece en
verdadero, los valores que no coinciden con el tipo de valor esperado se consideran
valores perdidos y se reemplazan por '?'. Por ejemplo, si 'abc' está escrito en una
columna de números enteros, se tratará como un valor faltante. Un signo de
interrogación (?) O una celda vacía en el archivo de Excel también se lee como un
valor faltante.
Tipo: booleano
Data management: este es un parámetro experto. Se proporciona una lista larga; los
usuarios pueden seleccionar cualquier opción de esta lista.
El rol de un atributo describe cómo otros operadores manejan este atributo. El rol
predeterminado es regular, otros roles se clasifican como especiales. Un
ExampleSet puede tener muchos atributos especiales, pero cada rol especial solo
puede aparecer una vez. Si se asigna un rol especial a más de un Atributo, todos los
roles se cambiarán a regulares excepto el último Atributo. Los diferentes tipos de
roles se explican a continuación en la sección de parámetros.
Parámetros
Attribute name: el nombre del atributo cuyo rol se debe cambiar. El nombre se
puede seleccionar en el menú desplegable o se puede escribir manualmente.
Tipo: cuerda
Target role (opcional): el rol de destino del atributo seleccionado es el nuevo rol que
se le asigna. Son posibles los siguientes roles de destino:
Regular: Atributos sin un rol especial. Los atributos regulares se utilizan como
variables de entrada para las tareas de aprendizaje.
ID: Este es un rol especial. Un atributo con el rol id actúa como identificador
de los ejemplos. Debe ser único para todos los ejemplos. Diferentes
Operadores de Mezcla (Unir, Unión, Transponer, Pivotar, ...) utilizan el
Atributo id para realizar sus tareas.
Label: este es un papel especial. Un Atributo con el rol de etiqueta actúa
como Atributo objetivo para aprender Operadores. La etiqueta también se
suele llamar "variable de destino" o "clase".
Prediction: este es un papel especial. Un atributo con función de predicción
es el resultado de la aplicación de un modelo de aprendizaje. El operador
Apply Model agrega, por ejemplo, un atributo de predicción al ExampleSet.
Para evaluar el rendimiento de un modelo, es necesaria una etiqueta y un
atributo de predicción.
cluster: este es un rol especial. Un atributo con el rol de clúster indica la
pertenencia de un ExampleSet a un clúster en particular. Por ejemplo, el
operador k-Means agrega un atributo con el rol de clúster.
Weight: este es un papel especial. Un Atributo con el rol de ponderación
indica la ponderación de los Ejemplos con respecto a la etiqueta. Los pesos
se utilizan en los procesos de aprendizaje para establecer la importancia de
los ejemplos. Los pesos también se pueden utilizar para evaluar el
rendimiento de los modelos; allí asignan una severidad para la clasificación
errónea de ejemplos individuales.
Batch: este es un papel especial. Un atributo con el rol de lote indica la
pertenencia a un lote específico.
User defined: cualquier rol se puede asignar a un atributo escribiendo en el
cuadro de texto. Los roles definidos por el usuario son roles especiales, por lo
que no se puede asignar un rol específico a más de un Atributo. Los atributos
con roles definidos por el usuario se ignoran en los procesos de aprendizaje.
Por lo tanto, un atributo con un rol definido por el usuario se ignora en un
proceso de aprendizaje, pero permanece en el ExampleSet.
Tipo: selección
Rango: regular, id, etiqueta, predicción, grupo, peso, lote Predeterminado:
regular
Set additional roles (opcional): Este parámetro se utiliza para establecer el rol de
más de un atributo a la vez. Un clic en Editar lista abre un menú con el nombre del
atributo y los pares de roles de destino. Se pueden utilizar de la misma forma que
los parámetros descritos anteriormente.
Tipo: lista
Este operador genera un modelo de árbol de decisión, que se puede utilizar para
clasificación y regresión.
Un árbol de decisión es una colección de nodos similar a un árbol que tiene como
objetivo crear una decisión sobre la afiliación de valores a una clase o una
estimación de un valor objetivo numérico. Cada nodo representa una regla de
división para un atributo específico. Para la clasificación esta regla separa los
valores pertenecientes a diferentes clases, para la regresión los separa con el fin de
reducir el error de manera óptima para el criterio del parámetro seleccionado.
La construcción de nuevos nodos se repite hasta que se cumplen los criterios de
detención. Se determina una predicción para el atributo de etiqueta de clase
dependiendo de la mayoría de los ejemplos que alcanzaron esta hoja durante la
generación, mientras que una estimación de un valor numérico se obtiene
promediando los valores en una hoja.
Este operador puede procesar conjuntos de ejemplos que contienen atributos tanto
nominales como numéricos. La etiqueta Atributo debe ser nominal para la
clasificación y numérica para la regresión.
Después de la generación, el modelo de árbol de decisión se puede aplicar a
nuevos ejemplos mediante el operador Aplicar modelo. Cada ejemplo sigue las
ramas del árbol de acuerdo con la regla de división hasta que se alcanza una hoja.
Para configurar el árbol de decisiones, lea la documentación sobre los parámetros
como se explica a continuación.
Parámetros
Criterio (opcional): Selecciona el criterio en el que se seleccionarán los Atributos
para dividir. Para cada uno de estos criterios, el valor de división se optimiza con
respecto al criterio elegido. Puede tener uno de los siguientes valores:
information_gain: Se calculan las entropías de todos los Atributos y se selecciona el
que tiene la menor entropía para dividirlo. Este método tiene un sesgo hacia la
selección de atributos con una gran cantidad de valores.
ganancia_ratio: Una variante de ganancia de información que ajusta la ganancia de
información para cada Atributo para permitir la amplitud y uniformidad de los valores
de Atributo.
gini_index: una medida de desigualdad entre las distribuciones de las características
de la etiqueta. Dividir en un Atributo elegido da como resultado una reducción en el
índice Gini promedio de los subconjuntos resultantes.
precisión: se selecciona un atributo para dividir, lo que maximiza la precisión de todo
el árbol.
mínimo_cuadrado: se selecciona un atributo para dividir, que minimiza la distancia al
cuadrado entre el promedio de valores en el nodo con respecto al valor verdadero.
Tipo: selección Rango: ganancia_ratio, información_ganancia, gini_index, precisión,
mínimo_cuadrado Predeterminado: ganancia_ratio
profundidad máxima (opcional): la profundidad de un árbol varía según el tamaño y
las características del ExampleSet. Este parámetro se utiliza para restringir la
profundidad del árbol de decisiones. Si su valor se establece en '-1', el parámetro de
profundidad máxima no establece ningún límite en la profundidad del árbol. En este
caso, el árbol se construye hasta que se cumplen otros criterios de detención. Si su
valor se establece en '1', se genera un árbol con un solo nodo.
Tipo: entero
Rango: -1 - + Predeterminado: 10
aplicar poda (opcional): el modelo de árbol de decisión se puede podar después de
la generación. Si se marca, algunas ramas se reemplazan por hojas de acuerdo con
el parámetro de confianza.
Tipo: booleano
confianza (opcional): este parámetro especifica el nivel de confianza utilizado para el
cálculo del error pesimista de la poda.
Tipo: rango real: 1.0E-7 - 0.5
Predeterminado: 0.1
aplicar prepoda (opcional): este parámetro especifica si se deben utilizar más
criterios de parada que la profundidad máxima durante la generación del modelo de
árbol de decisión. Si se marca, los parámetros ganancia mínima, tamaño mínimo de
hoja, tamaño mínimo para la división y número de alternativas de prepoda se utilizan
como criterios de detención.
Tipo: booleano
ganancia mínima (opcional): la ganancia de un nodo se calcula antes de dividirlo. El
nodo se divide si su ganancia es mayor que la ganancia mínima. Un valor más alto
de ganancia mínima da como resultado menos divisiones y, por lo tanto, un árbol
más pequeño. Un valor demasiado alto evitará completamente la división y se
generará un árbol con un solo nodo.
Tipo: real
Rango: 0.0 - +
Predeterminado: 0.01
tamaño mínimo de hoja (opcional): el tamaño de una hoja es el número de ejemplos
en su subconjunto. El árbol se genera de tal manera que cada hoja tiene al menos el
número mínimo de tamaño de hoja de los Ejemplos.
Tipo: entero
Rango: 1 - +
Predeterminado: 2
tamaño mínimo para división (opcional): el tamaño de un nodo es el número de
ejemplos en su subconjunto. Solo se dividen aquellos nodos cuyo tamaño sea
mayor o igual que el tamaño mínimo para el parámetro de división.
Tipo: entero
Rango: 1 - +
Predeterminado: 4
número de alternativas de prepoda (opcional): cuando se evita la división mediante
la poda previa en un determinado nodo, este parámetro ajustará el número de
nodos alternativos probados para la división. Ocurre cuando la poda previa se
ejecuta en paralelo al proceso de generación del árbol. Esto puede evitar la división
en ciertos nodos, cuando la división en ese nodo no aumenta el poder discriminativo
de todo el árbol. En tal caso, se prueban nodos alternativos para dividir.
Tipo: entero
Rango: 0 - +
Predeterminado: 3
3. Preparación de los datos para el análisis
Los datos se pueden encontrar en muchas formas y formatos, algunos pueden ser
numéricos, algunos pueden ser una descripción en texto, otros pueden ser figuras
como cuadros, mapas o gráficos.
La preparación de los datos puede implicar varias actividades, como juntar dos o
mas conjuntos de datos, reducir conjuntos de datos para que contengan solamente
la información relevante para el estudio, así como también se debe realizar una
depuración para dejar libre la base de datos de información faltante o incluso dar un
nuevo formato a los datos para que sean más consistentes.
De acuerdo a los parámetros del software Rapidminer se realiza la clasificación de

las variables de la encuesta para identificar las que se van a utilizar:
Las opciones de tipo de variable son las siguientes:
- Polynominal
- Binominal
- Real
- Integer
- Date_Time
- Date
- Time
La aplicación de los parámetros para clasificar las variables tiene como resultado el
siguiente cuadro:
Códig Tipo Códig Tipo Códig Tipo Códig Tipo Códig Tipo
o Variable o Variable o Variable o Variable o Variable
p1 Binomial p14 Polynominal p27 Polynominal p40 Polynominal p53 Polynominal
p2 Polynominal p15 Polynominal p28 Binomial p41 Polynominal p54 Polynominal
p4 Polynominal p17 Polynominal p30 Polynominal p43 Polynominal p56 Polynominal
p5 Polynominal p18 Polynominal p31 Polynominal p44 Polynominal p57 Real
p7 Real p20 Polynominal p33 Polynominal p46 Polynominal p59 Binomial
p8 Real p21 Real p34 Polynominal p47 Polynominal p60 Polynominal
p9 Real p22 Real p35 Binomial p48 Polynominal p61 Polynominal
p10 Real p23 Real p36 Polynominal p49 Polynominal p62 Polynominal
p11 Real p24 Real p37 Binomial p50 Polynominal p63 Polynominal
p12 Real p25 Polynominal p38 Polynominal p51 Polynominal

p13 Real p26 Polynominal p39 Polynominal p52 Polynominal
Para trabajar el árbol de decisión se eligen las variables Binomiales:
Variables que influyen en el modelo

P5, P15,
Descripción de la transformación de las variables
4. Implementación del modelo con árbol de decisión
Gráfico del modelo con las bolitas:

Pantallazos y descripción de las conexiones y los valores asignados a los
parámetros
Imágenes de los árboles
Análisis de los resultados
5. Resultados
6. Conclusiones

Artículo Árboles de Decisión V1

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Artículo Árboles de Decisión V1

Cargado por

Copyright:

Formatos disponibles

Primer borrador del artículo

Estrategias para fortalecer a las empresas gastronómicas en tiempos de

2.1 Inteligencia de negocios (Liliana)

2.2 Software Rapid mainer

2.3 Árboles de decisión (descripción de los bloques y parámetros del rapidminer)

3. Preparación de los datos para el análisis

De acuerdo a los parámetros del software Rapidminer se realiza la clasificación de

Las opciones de tipo de variable son las siguientes:

p1 Binomial p14 Polynominal p27 Polynominal p40 Polynominal p53 Polynominal

p2 Polynominal p15 Polynominal p28 Binomial p41 Polynominal p54 Polynominal

p3 Polynominal p16 Polynominal p29 Binomial p42 Polynominal p55 Polynominal

p4 Polynominal p17 Polynominal p30 Polynominal p43 Polynominal p56 Polynominal

p5 Polynominal p18 Polynominal p31 Polynominal p44 Polynominal p57 Real

p6 Polynominal p19 Polynominal p32 Binomial p45 Polynominal p58 Polynominal

p7 Real p20 Polynominal p33 Polynominal p46 Polynominal p59 Binomial

p8 Real p21 Real p34 Polynominal p47 Polynominal p60 Polynominal

p9 Real p22 Real p35 Binomial p48 Polynominal p61 Polynominal

p12 Real p25 Polynominal p38 Polynominal p51 Polynominal

Para trabajar el árbol de decisión se eligen las variables Binomiales:

Variables que influyen en el modelo

4. Implementación del modelo con árbol de decisión

Gráfico del modelo con las bolitas:

También podría gustarte