Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Prohibida su reproducción
ESTADÍSTICA MULTIVARIADA
Nancy Lacourly 1
(versión preliminar)
Ultima versión: 7 de julio de 2010
Documento de trabajo
1Mail: nlacourl@dim.uchile.cl
1
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
2
Índice general
Índice de figuras 5
Capítulo 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN 1
1.1. ¿Qué es un árbol de decisión? 1
1.2. División a partir de la variable de segmentación 4
1.3. Construcción del árbol de regresión 4
1.4. Construcción del árbol de clasificación 8
1.5. Resumen de la terminología 13
1.6. Ejercicios 14
Bibliografía 17
3
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
Índice de figuras
5
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
PREFACIO
Capítulo 1
Los árboles de clasificación y de regresión (CART) tienen el mismo propósito que la regresión lineal,
en el sentido que busca relacionar una variable respuesta (a explicar) a partir de un conjunto de
variables explicativas. Pero difiere en varios aspectos:
Las relaciones son no lineales,
Visualiza las relaciones,
Puede usar cualquier tipo de variables, nominales o numéricas, tanto para la variable
respuesta que las variables explicativas.
CART es un método que, mediante un árbol de decisión, permite mostrar como se relacionan
variables explicativas con la variable respuesta. Define subgrupos de la población en estudio a
partir de segmentaciones. Cada subgrupo define un perfil de sujetos de la población utilizando las
variables explicativas de tal manera que estos sujetos toman valores parecidos sobre la variable
respuesta.
Los modelos subyacentes no son tan simples como un modelo de regresión lineal múltiple. Es-
ta metodología requiere un software ad-hoc, tal que “R”, que se puede bajar gratuitamente de
Internet1.
Presentamos en primer lugar los árboles de decisión mediante dos ejemplos. Después definimos los
criterios de construcción de los árboles para seleccionar las variables explicativas más importantes
que explican la variable respuesta.
En términos generales, un árbol de decisión es el resultado gráfico de un método que permite tomar
“buenas” decisiones involucrando “riesgos” y “costos”. Utiliza un enfoque visual de agrupamientos de
datos mediante reglas fáciles de entender. En nuestro caso, los miembros de los agrupamientos, que
son definidos a partir de valores de las variables explicativas, se construyen mediante segmentaciones
de la población. Además en cada grupo, se estudia las características de la variable respuesta. Si,
dentro cada grupo, la variable respuesta es homogénea y, de un grupo a otro, toma valores diferentes,
podemos detectar un cierto efecto de las variables explicativas sobre la variable respuesta. Estas
variables explicativas, que identifican los miembros de los grupos, permitirán hacer predicciones de
la variable respuesta. Llamaremos variables de segmentación a las variables explicativas.
El uso de árboles de decisión tuvo su origen en las ciencias sociales con los trabajos de J. Sonquist
y J. Morgan (1964) de la Universidad de Michigan y al programa AID (Automatic Interaction
Detection), que fue uno de los primeros métodos de ajuste de los datos basados en árboles de
clasificación.
En estadística, Robert Kass (1980) introdujo un algoritmo recursivo de clasificación no binario, lla-
mado CHAID (Chi-square automatic interaction detection). Más tarde, L. Breiman, J. Friedman,
1R es un sofware gratuito especializado en métodos estadísticos. Se puede implementar la regresión múltiple o
el análisis en componentes principales también. Se encuentra en www.r-project.org/
1
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
2 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN
R. Olshen y C. Stone (1984) introdujeron un nuevo algoritmo para la construcción de arboles y los
aplicaron a problemas de regresión y clasificación. El método es conocido como CART (Classifica-
tion and regression trees) por sus siglas en inglés. 2
El método CART es parte de lo que se llama “Data Mining” o “Minería de Datos” que se puso de
moda en muchos tipos de instituciones y empresas. Por ejemplo, los registros de un banco contienen
muchas informaciones de sus clientes. Puede usarlas para determinar el perfil de los clientes morosos
y decidir si conceder o no un crédito a un nuevo solicitante. El Servicio de Impuestos Internos puede
tratar de caracterizar las empresas que hacen fraudes fiscales. El departamento de recursos humanos
de una multitienda puede examinar los procesos de contrataciones pasadas y determinar reglas de
decisión que hará más eficiente los procesos de contrataciones futuras.
Antes de presentar los criterios que permiten construir un árbol de decisión, describimos aquí los
elementos que lo componen, utilizando dos ejemplos simples. Dependiendo de la variable respuesta,
se distingue el árbol de regresión del árbol de clasificación.
2Casi al mismo tiempo el proceso de inducción mediante árboles de decisión comenzó a ser usado en “Machine
Learning” en ciencias de la computación y en “Pattern Recognition” en ingeniería eléctrica.
3Podemos hacer un test de hipótesis de comparación de media para comprobarlo.
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
1.1. ¿QUÉ ES UN ÁRBOL DE DECISIÓN? 3
(a) ¿Consuma el producto P? La respuesta, que es “SI” o “NO”, define la variable “Consumo”.
(b) ¿Nivel socio-economico? La respuesta, que es “ABC1” o “C2-C3”, define la variable “NSE”.
(c) ¿Clase de edad? La respuesta, que es “J”, si es menor de 35 años o “A” si tiene al menos
35 años, define la variable “Edad”.
Observamos que las respuestas a las tres preguntas son variables binarias, ya que tienen solamente
dos alternativas. Considerando el estudio, la variable “Consumo” es la variable respuesta. Es la
variable que quisiéramos poder explicar a partir de la Edad y el NSE. Nuevamente tenemos 4
grupos posibles combinando las dos alternativas de la Edad y las dos alternativas del NSE y, por
el momento, podemos aplicar la segmentación con una variable u otra. Usamos primero el NSE
(Figura 1.1(b)). Los nodos, “raíz” y nodos terminales se definen como en el ejemplo anterior. Sin
embargo, las estadísticas del nodo a considerar son diferentes, pues la variable respuesta es binaria.
Examinando las frecuencias de las dos alternativas “SI” y “NO” de la variable “Consumo” en los
nodos, podemos determinar si existe un perfil de consumidores del producto P. Parecería que el
consumo del producto se relaciona con la la edad, pero que no es el caso del NSE.
Se habla de árbol de clasificación , por la variable respuesta, que permite clasificar los consumidores
del producto P en dos grupos “SI” y “NO”.
Más adelante mostremos casos un poco más complejos, en particular un caso de clasificación con una
variable respuesta con tres categorías. Previamente presentamos la manera de “optimizar” el orden
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
4 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN
de las segmentaciones, mediante criterios de segmentación, para obtener nodos con homogeneidad
dentro los nodos respecto de la variable respuesta y heterogeneidad entre los nodos.
En los dos ejemplos anteriores pudimos dividir fácilmente un grupo en dos subgrupos de manera
natural siendo que las variables de segmentación que utilizamos (fertilizante, suelo, edad y NSE)
son binarias. Vemos como dividir un nodo en dos subgrupos con variable numericas o variable
nominal con más de dos categorías.
1.2.1. Variable de segmentación nominal. Supongamos ahora que tenemos tres fertili-
zantes (F1,F2 y F3) en vez de dos en el ejemplo del párrafo 1.1.1. Para dividir un grupo en dos
subgrupos a partir de la variable fertilizante, tenemos tres maneras de combinar las tres categorías:
Tabla 1.1
Grupo1 Grupo 2
Caso 1 F1 F2 y F3
Caso 2 F2 F1 y F3
Caso 3 F3 F1 y F2
En el caso 2, por ejemplo, no se puede distinguir los fertilizantes F1 y F3. Sin embargo, en una
segmentación posterior, se puede separar el grupo “F1-F3” en dos un subgrupos, uno con F1 y el
otro con F2 (Figura 1.2(a)). En general, si la variable nominal tiene q categorías, se agrupan las
categorías en dos subgrupos excluyentes, que pueden subdividirse, a su vez, en dos subgrupos, etc..
Vemos, que en el ejemplo del párrafo 1.1.1 con dos fertilizantes, podríamos intercambiar el orden
de las variables de segmentaciones, suelo y fertilizante. En la Figura 1.3(a) se divide primero con
el tipo de suelo y después con el tipo de fertilizante. En la Figura 1.3(b) se divide primero con el
tipo de fertilizante y después con el tipo de suelo. Si queremos jerarquizar el efecto de las variables
de segmentación, parecería que la segunda figura es la más adecuada. En efecto, se observa no
solamente una mayor diferencia entre las medias de los dos grupos en la primera división, sino
también, una disminución importante de las varianzas al interior de los subgrupos en la figura de
la derecha. ¿Como podemos definir un criterio que permite elegir de manera automática en que
orden usar las variables de segmentación y con divisiones que produzcan subgrupos diferentes entre
sí y que en sus interiores sean homogéneos?
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
1.3. CONSTRUCCIÓN DEL ÁRBOL DE REGRESIÓN 5
de las medias de los dos grupos de fertilizantes de manera mucho más clara que para el
suelo. s
(b) Siguiendo la segmentación en el árbol 1.3(b), tenemos que aplicar el criterio η a los dos
nodos del nivel (2) (Figura 1.3(b)), definidos por el fertilizante F1 y el fertilizante F2.
Aquí no tenemos muchas alternativas, pues nos queda solamente el suelo como variable de
segmentación. Sin embargo, nos preguntamos si conviene dejar el nivel (3) del árbol con-
siderando que los dos coeficientes η son pequeños (Tabla 1.3). A continuación, estudiamos
criterios para no seguir dividiendo en subgrupos cuando no aporta nada para entender las
relaciones de las variables explicativas sobre la variable respuesta.
Tabla 1.2
Tabla 1.3
Tabla 1.4
(b) Nivel (2)->(3): Se examina entonces los dos nodos que podríamos colgar a la raíz. En el
nodo formado de los naranjos con el fertilizante F2, es posible usar solamente el suelo.
Como no tiene competidor, lo único que tenemos que considerar es el p-valor del ANOVA,
que aquí es mayor que 5 %. El nodo con el fertilizante F2 se determina como nodo terminal.
Para el otro nodo con los fertilizantes F1y F3, tenemos dos candidatos, dividir entre los
dos tipos de suelo o dividir entre los fertilizantes F1y F3. El suelo tiene un coeficiente η
muy pequeño. Se elige dividir el nodo entre los fertilizantes F1 y F3, siendo el p-valor nulo.
(c) [Nivel (3)->(4): Queda por ver si el nodo con el fertilizante F1 y el nodo con el fertili-
zante F3 pueden dividirse con el tipo de suelo. Los dos p-valores son nulos. Aplicamos las
segmentaciones con el suelo. Los 4 nodos obtenidos en el nivel (4) son terminales, pues
no hay más divisiones posibles. Junto con el nodo terminal del nivel (2) tenemos 5 nodos
terminales marcados en amarillo (Figura 1.4(b)).
1.3.3. Predicción. Un vez podado el árbol, concluimos que se puede hacer una partición de
los 760 naranjos en 5 grupos perfectamente identificados por el tipo de suelo y el fertilizante. Los
5 grupos tienen naranjos con cosecha diferentes entre sí, y al interior de cada grupo, los naranjos
tienen cosechas parecidas. Además podemos decir que las cosechas de los naranjos tratados con
fertilizante F2 no depende del tipo de suelo.
Finalmente, se puede usar fácilmente estos resultados para hacer predicciones de la cosecha de
nuevos naranjos usando las medias y desviaciones estándares. Por ejemplo, se espera que un naranjo
con un suelo S1 y el fertilizante F1 tendrá en promedio una cosecha de 99,6 kg. Como toda
predicción es sujeto a errores, podemos construir un intervalo de confianza ([7]) para la cosecha
esperada del naranjo. Para un nivel de confianza de 95 % obtenemos el intervalo:
4, 9 4, 9
IC95 % = [99, 6 − 1, 96 × √ , 99, 6 + 1, 96 × √ ] = [98, 72; 100, 48].
120 120
En el ejemplo del párrafo 1.1.2, la variable respuesta consumo es binaria. No podemos usar el
criterio η para elegir las segmentaciones del árbol. Pero, examinamos las estadísticas de los nodos
cuando se divide la raíz con la variable NSE (Figura 1.5(a)) o con la variable Edad (Figura 1.5(b)).
Observemos que cuando se divide la raíz con el NSE (Figura (a)), hay poca diferencias entre los
dos grupos socioeconómicos. Tienen ambos valores cercanos al 50 % de Si y de NO como en la raíz.
Si dividimos la raíz con los dos grupos de edad (Figura (b)), se encuentra resultados distintos. En
el grupo “J” hay mucho más SI que NO y en el grupo “A” es lo contrario. Esta segmentación con
la edad es claramente más interesante para el estudio de mercado de la empresa. Este comentario
nos va a llevar a un criterio de segmentación.
El tamaño del nodo a dividir no influye en la impureza, entonces, en vez de considerar las frecuencias
de “SI” y “NO”, consideramos los porcentajes o las proporciones de “SI” y “NO”. (Figura 1.6(b),
para el ejemplo 1.1.2).
Se puede construir varios índices de impureza. Definiremos dos. El más utilizado es el índice de
Gini4.
Examinamos el árbol del ejemplo 1.1.2 (Figura 1.6(b)). Si pN (t) y pS (t) son las proporciones de
“SI” y “NO” en el nodo t, pS (t) = 1 − pN (t) y pS (t) × pN (t) = pS (t)(1 − pS (t)) toma el valor 0
cuando pS (t) es nulo o vale 1 y toma el valor máximo 0,25, si pS (t) = pN (t) = 0, 5. El índice de
Gini del nodo t se define como:
γ(t) = pS (t)(1 − pS (t)) + pN (t)(1 − pN (t)) = 1 − pS (t)2 − pN (t)2 .
Por ejemplo, el nodo NSE=“ABC1” tiene un índice de Gini igual a: 1 − 0, 482 − 0, 522 = 0, 499 y su
nodo hijo NSE=“ABC1” y EDAD=“J” tiene un índice de Gini igual a: 1 − 0, 252 − 0, 752 = 0, 375.
El índice del otro nodo hijo NSE=“ABC1” y EDAD=“A” vale 1 − 0, 682 − 0, 322 = 0, 435. El nodo
padre es más impuro que sus nodos hijos.
En un nodo t dado, se elige entonces, entre las posibles segmentaciones, aquella que produce la
mayor reducción de impureza calculando la media ponderada de los índices de Gini de sus dos
nodos hijos t1 y t2 :
n1 n2
G(t) = γ(t1 ) + γ(t2 )
n n
donde n, n1 y n2 son los tamaños de los nodos t, t1 y t2 respectivamente.
En la tabla 1.5 se presentan los índices de Gini γ y G obtenidos con los tamaños de los nodos entre
parentesis.
Desde la raíz, los índices G de la edad y el NSE son respectivamente 0,4196 y 0,499. Con el criterio
de Gini, la mejor variable de segmentación desde la raíz es la edad. En el nivel 2, se calcula el
índice G para cada categoría de la edad. Los índices son menores que los anteriores.
Otro criterio, que se usa generalmente en la poda del árbol, se basa en los errores de clasificación.
Conociendo la edad y el NSE de un nuevo sujeto, podemos “predecir” su respuesta es “SI” o “NO”.
4En economía se utiliza un índice de Gini para medir la desigualdad de los ingresos de una población.
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
10 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN
Supongamos que usamos el árbol 1.6(b), entonces se espera que un sujeto “J” y “ABC1” responde
“SI”, pues el grupo al cual pertenece tiene una proporción 0,75 de “SI”. Podemos decir que tiene una
“probabilidad” de responder “SI” de 75 %. Es decir todos los sujetos de este grupo son clasificados
como “SI”. Sin embargo, todos no contestaron realmente “SI”. Para este nodo tenemos un 25 % de
errores de clasificación.
Si aplicamos este criterio de clasificación (respuesta “SI ” o “NO”) a un nodo, podemos calcular
la tasa de errores de clasificación, para las distintas segmentaciones posibles, pues conocemos sus
respuestas reales. Por ejemplo, desde la raíz, con el NSE clasificaremos 200 de los 420 encuestados
con respuesta “SI”, siendo que respondieron “NO” (árbol 1.5(a)) y con la edad clasificaremos 120
de los 420 encuestados con respuesta “SI”, siendo que respondieron “NO” (árbol 1.5(b)). El NSE
tienen una tasa de error de 48 % y la edad una tasa de error de 30 %. Se usa la edad como primera
variable de segmentación desde la raíz como en el caso del índice de Gini.
Lo ideal entonces es no tener errores de clasificación de los observaciones de los nodos en “SI”
y “NO”. Calculamos las tasas de errores de clasificación (Tabla 1.6). Nuevamente la edad es la
mejor elección de la raíz (30 % contra 48 % del NSE). Seguimos la tabla usando como primera
segmentación la edad. Notemos el decrecimiento de la tasa de errores cuando bajamos el árbol. El
árbol 1.5(a) tiene una tasa total de errores de 30 %.
La variable respuesta del ejemplo 1.1.2 es binaria. Veamos otro ejemplo, donde la variable respuesta
tiene más de dos categorías.
Para dividir un nodo, se busca los cortes de las mediciones que producen nodos hijos los más puros
posible. Tenemos que definir la impureza para el caso de una variable con tres categorías, que se
puede generalizar a un número cualquier de categorías. Los dos criterios definidos para una variable
respuesta binaria se generalizan fácilmente.
Si p1 (t), p2 (t) y p3 son las proporciones de las tres especies en el nodo t, p1 (t) + p2 (t) + p3 (t) = 1
el índice de Gini del nodo t se define como:
γ(t) = p1 (t)p2 (t) + p1 (t)p3 (t)) + p2 (t)p3 (t)) = 1 − p1 (t)2 − p2 (t)2 − p23 .
En un nodo t dado, se elige entonces, entre las posibles segmentaciones, aquella que produce la
mayor reducción de impureza calculando la media ponderada de los índices de Gini de sus dos
nodos hijos t1 y t2 :
n1 n2
G(t) = γ(t1 ) + γ(t2 )
n n
donde n, n1 y n2 son los tamaños de los nodos t, t1 y t2 respectivamente.
No se puede presentar aquí todos los valores de los índices de Gini γ. En efecto, se calcula γ para
cada corte posible de cada variable de segmentación, y se toma el corte que minimiza la impureza.
Presentamos solamente el valor del índice de Gini para el corte optimo (Tabla 1.7) y los valores
de los tres primeros niveles. Por ejemplo, para el largo del pétalo, la segmentación que produce
dos nodos menos impuros se basa en el corte igual a 24,5 y para el ancho del pétalo, el corte es
en 10. Ambas variables tienen el valor de G igual a 0,333, que es más pequeño que los valores de
los dos otros índices G. Se puede elegir cualquiera de las dos variables. Elegimos para la primera
segmentación el largo del sépalo. Debajo de los dos nodos hijos de la raíz buscamos una nueva
segmentación. En primer lugar, vemos que no se puede dividir el nodo LP>24,5, puesto que es
un nodo puro. Consideramos entonces el otro nodo, para el cual la mejor división esta dada por
el ancho del sépalo con un corte al valor 17. Observe que aparece nuevamente el largo del pétalo
que se puede dividir en el recorrido >=24.5. Por ejemplo, en el nivel (4) en el nodo izquierdo esta
definido por un largo de pétalo entre 24,5 y 49,5 y un ancho de pétalo menor que 17,5 (Figura
1.8(a)).
En la Tabla 1.8 se encuentran las tasas de errores de clasificación asociadas al árbol 1.8(a). El
árbol 1.8(a) tiene una tasa de error total de 2 %. Si podemos el último nivel, la tasa sube a 2,7 %,
que es muy poco. La última segmentación parece forzada. Tiene un solo iris en uno de los nodos.
Tenemos que decidir donde podar el árbol.
Mostramos un gráfico de dispersión del largo y del ancho del pétalo (Figuras 1.7). Las especies
fueron marcadas con diferentes colores. Las lineas corresponden a las diferentes segmentaciones
utilizadas. El gráfico (a) corresponde al árbol con 3 errores de clasificación cuando se poda el nivel
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
12 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN
5 y el gráfico (b) corresponde al árbol con 4 errores de clasificación cuando se poda los niveles 4 y
5.
Tabla 1.8. Tasas de errores de clasificación de los iris
1.4.2. Criterios de poda. Como en el caso del árbol de regresión, a partir de ciertos niveles,
no se puede seguir agregando segmentaciones. Sin embargo, conviene en general parar antes de
agotar todas las segmentaciones, o sea podar el árbol. La variable respuesta siendo nominal, el
criterio del p-valor de la F deFisher no es aplicable.
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
1.4. CONSTRUCCIÓN DEL ÁRBOL DE CLASIFICACIÓN 13
Una vez construido el árbol, se van eliminando ramas. Se puede seleccionar el árbol que tenga la
menor tasa de errores de clasificación aplicando el método de validación cruzada, que consiste en
aplicar el algoritmo CART sobre un subconjunto de datos, llamados conjunto de entrenamiento.
Del árbol obtenido sobre este conjunto de entrenamiento se clasifican el restante de los datos. De
estas últimas clasificaciones se obtiene un tasa de errores de clasificación.
Variable respuesta: Variable que se busca Regla de decisión: Conjunto de valores de una
explicar a partir de otras variables. o más variables explicativas que se eligen para
Variable explicativa: Variable que influye sobre definir un subconjunto de datos.
una variable respuesta. Varianza intragrupo: Promedio de las varianzas
Árbol de regresión: Árbol de decisión cuya de una misma variable medida en varios grupos.
variable respuesta es numérica. Varianza intergrupo: Varianza de los promedios
Árbol de clasificación: Árbol de decisión cuya de una misma variable medida en varios grupos.
variable respuesta es nominal. Índice de Gini: Criterio de segmentación
Raíz del árbol: El nivel más alto del árbol que basado en la impureza de los nodos.
contiene todas las observaciones. Tasa de errores de clasificación: Tasa de errores
Nodo: Subconjunto de los datos definidos por obtenida clasificando observaciones en de un
una o más variables explicativas. árbol.
-Nodo terminal: Nodo que no se ha dividido.
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
14 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN
1.6. Ejercicios
Ejercicio 1.1. Clasifique los casos siguientes en árbol de regresión o árbol de clasificación y
especifique el tipo de variables de segmentación que se utilizan.
(a) Un cardiólogo estudia la posibilidad que sobreviven más de 30 días pacientes que ingresan
con un ataque de corazón en un hospital a partir de la presión arterial, el pulso, la edad y
si es su primer ataque.
(b) El Banco Central hace un estudio para predecir la bancarrota de una empresa en función
de indicadores económicos.
(c) Un nutricionista quiere modelar con CART la relación entre el índice de masa corporal
(IMC) y la edad y el genero.
(d) El departamento de estudios de mercados de una tienda de artefactos electrónicos busca
anticipar cual será el perfil de las personas susceptible de comprar su nuevo televisor LCD.
Con este propósito, hace una encuesta a una muestra aleatoria de 800 personas preguntando
no solamente si compraron o no un televisor de la gama anterior, sino también, su edad,
su genero y si su ingreso es menor que 1.500.000 pesos o más.
(e) El fisco busca detectar patrones de contribuyentes que permiten distinguir entre las de-
claraciones de impuestos legítimas de las fraudulentas con el objeto de desarrollar así
mecanismos para tomar medidas rápidas frente a ellas.
(f) Con el objeto de detectar cuanto antes aquellos clientes que puedan estar pensando en
rescindir sus contratos para, posiblemente, pasarse a la competencia, un banco encarga
un estudio de patrones de comportamiento de clientes actuales y pasados. Estos patrones
serán una ayuda a determinar el perfil de los clientes los más proclives a darse de baja. El
banco podrá hacer promociones especiales, etc., a los clientes con este perfil con el objetivo
último de retenerlos.
(g) El departamento de recursos humanos de una empresa recopila informaciones sobre sus
empleados para identificar las características de sus empleados de mayor éxito. Los datos
considerados se relacionan con los esfuerzos de sus empleados y los resultados obtenidos
por éstos. La información obtenida puede ayudar a la contratación de personal a futuro.
Ejercicio 1.2. Se aplica un modelo CART a los datos de la figura adjunta, que tiene dos variables
de segmentación X1 y X2 y una variable respuesta binaria (“Rojo” y “Azul”).
(a) Separe con tres líneas horizontales y/o verticales los dos grupos “Rojo” y “Azul” de manera
a minimizar la tasa de errores de clasificación.
(b) Construye el árbol de clasificación asociado.
(c) Calcule los coeficientes de Gini del árbol obtenido en (b).
(d) Clasifique una nueva observación con X1 = 8 y X2 = 14. Dé la probabilidad de equivocarse.
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
1.6. EJERCICIOS 15
Ejercicio 1.3. Se quiere construir un modelo CART a los datos de la figura adjunta, que tiene
dos variables de segmentación X1 y X2 y una variable respuesta con tres categorías (“Rojo”, “Azul”
y “Verde”) (Figura adjunta).
(a) Separe con tres líneas horizontales y/o verticales los dos grupos “Rojo” y “Azul” de manera
a formar grupos de tal manera que se minimice la tasa de errores de clasificación.
(b) Construye el árbol de clasificación asociado.
(c) Clasifique una nueva observación con X1 = 16 y X2 = 16. Dé la probabilidad de equivo-
carse.
(d) Clasifique una nueva observación con X1 = 5 y X2 = 5. Dé la probabilidad de equivocarse.
(e) Se poda el árbol de nivel. Clasifique nuevamente la observación con X1 = 5 y X2 = 5. Dé
la nueva probabilidad de equivocarse.
Ejercicio 1.4. En un estudio de la PSU de Matemática del 2009, se obtiene las estadísticas por
dependencia y genero de la Región Metropolitana (Tablas 1.9 1.10).
(a) ¿Cómo se calcula el coeficiente η de las tablas?
(b) ¿Cuál es la primera segmentación de la raíz que optimiza η (Tabla 1.9)? Justifique.
(c) En la Tabla 1.10 están los resultados de las segmentaciones que podrían seguir. Construye
el árbol correspondiente.
(d) Dé el árbol final usando un criterio de poda de 5 %.
(e) Utilizando la Tabla 1.11 y el árbol (d), estime la PSU en matemática de un alumno hombre
de un colegio Particular pagado. Dé un intervalo de confianza de 95 %.
(f) Utilizando la Tabla 1.11 y el árbol (d), estime la PSU en matemática de una alumna de
un colegio municipal. Dé un intervalo de confianza de 95 %.
Genero PP PS MU Total
Bibliografía
17
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
Breiman L., 72
Cuesta Marcelino, 2
Galton F., 51
Gauss C.F., 51, 54
Gil Omar, 6
Gosset William, 30
Herrero Francisco, 2
Kass R., 72
Morgan J., 71
Olshen R., 72
Pearson K., 51
Pearson Karl, 2, 44
Sonquist J., 71
Spearman Charles, 2
Stone C., 72
19
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
Indice analítico
Ecuaciones normales , 55
Error
de Tipo I, 26
de Tipo II, 26, 34
Errores del model, 53
Estándarización de variables, 7
Estadístico, 25
Función de verosimilitud, 58
Impureza, 78
Indice, 3, 8, 10, 11
Calidad, 6
de corpulencia, 4
21