Cart PDF

Doc. de trabajo Fondef D05I-10211.
Prohibida su reproducción
ESTADÍSTICA MULTIVARIADA
Nancy Lacourly 1
(versión preliminar)
Ultima versión: 7 de julio de 2010
Departamento de Ingeniería Matemática

Centro de Modelamiento Matemático (CNRS UMI 2807)
Facultad de Ciencias Físicas y Matemáticas
Universidad de Chile.
Proyecto FONDEF D05I-10211
Documento de trabajo
1Mail: nlacourl@dim.uchile.cl
1
Doc. de trabajo Fondef D05I-10211. Prohibida su reproducción
2
Este documento de trabajo ha sido realizado en el proyecto FONDEF D05I-10211

Herramientas para la formación de profesores, el cual comenzó en Marzo del
2007 y finaliza en Junio del 2009. El objetivo de este proyecto Fondef es
fortalecer la formación inicial de profesores de matemáticas de enseñanza media,
en particular se crearía una colección de monografías para estudiantes de
pedagogía en matemáticas.
El presente documento es un borrador de la monografía que sería sujeto a
revisión y evaluación por parte de expertos, profesores y estudiantes, con el
objeto de afianzar su pertinencia y calidad. Las modificaciones necesarias se
incorporarán durante el año 2009. Este documento es sólo para revisión y está
prohibida su reproducción parcial o total.
Índice general
Índice de figuras 5
Capítulo 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN 1
1.1. ¿Qué es un árbol de decisión? 1
1.2. División a partir de la variable de segmentación 4
1.3. Construcción del árbol de regresión 4
1.4. Construcción del árbol de clasificación 8
1.5. Resumen de la terminología 13
1.6. Ejercicios 14
Bibliografía 17
Indice de nombres propios 19

Indice analítico 21
3
Índice de figuras
1.1. Ejemplos de árboles 3

1.2. División con variables no binarias 5
1.3. Árboles del ejemplo de la cosecha de naranjas 5
1.4. Árboles podados 7
1.5. Árboles del ejemplo de los consumidores 8
1.6. División con variables no binarias 9
1.7. Gráficos de dispersión de los iris 13
1.8. Árbol de los iris 13
5
Las cifras no mienten, pero los mentirosos también usan cifras

Anónimo
PREFACIO
La introducción de las Probabilidades y Estadística en la Enseñanza Media no ha sido fácil para

los profesores de Matemática. Es posible que la dificultad emane, precisamente, de una formación
basada en la concepción de la matemática como una ”ciencia exacta”, reducible en último término
a la aplicación de algoritmos.
La necesidad de una interdisciplinariedad en la formación del profesor de la Enseñanza Media
surgió hace algunos años, dejando atrás el carácter teórico y descontextualizado, para dejar lugar
a un conocimiento práctico y contextualizado. La estadística puede permitir el encuentro de las
matemáticas con otras disciplinas como la biología o las ciencias sociales.
En la monografía “Introducción a la Estadística” 2 el lector descubrió el pensamiento estadístico
y, a través de muchas ilustraciones y ejemplos, los conceptos básicos de la estadística. En esta
monografía se refuerza los conceptos de la teoría de tests de hipótesis entregando más justificaciones
matemáticas y nuevas distribuciones de probabilidad. Se centra la monografía en métodos para
datos multivariados.
Si bien esta monografía es más avanzada que la Introducción a la Estadística, tiene el mismo
espíritu, prefiriendo explicar los conceptos de la estadística y la interpretación de los resultados
sobre las demostraciones matemáticas de teoremas, que aún si no son ausentes, pueden saltarlas
en una primera lectura. En el Capítulo 1, presentamos el análisis en componentes principales,
el método más simple y más importante del análisis descriptivo multivariado, que se basa en
resultados del Algebra Lineal. El Capítulo 2 contiene la teoría de tests estadísticos para medias
y proporciones basándose en el modelo Normal. Se presentan varias aplicaciones, en particular
para comparar más de dos poblaciones (ANOVA). En el capítulo 3 se presenta la regresión lineal
múltiple. En el capítulo 4, se describe un método de predicción alternativo a la regresión lineal y al
ANOVA: los árboles de clasificación y regresión (CART). Es un método no lineal, que usa criterios
presentados en los dos capítulos anteriores y permite una visualización del modelo, que lo hace
muy interesante.
Se sugiere bajar de Internet el sofware estadístico gratuito R que se encuentra en www.r-project.org/.
Hemos intercalado referencias históricas cuando eso nos pareció relevante, y agregado ejercicios de
autoevaluación para ayudar a la comprensión del texto. La solución de los ejercicios se encuentran
en anexo.
Por su ayuda en las varias fases de este libro, me gustaría agradecer en especial a Lorena Cerda.
Por su ayuda en la elaboración de los ejercicios, gracias a Andrés Iturriaga.
Agradezco a Juan Muñoz, mi esposo, quien siempre me prestó apoyo y sabe lo importante que ha
sido para mí escribir este texto.
Finalmente, con una inmensa alegría, dedico este trabajo especialmente a mis hijos queridos.
Nancy Lacourly 2009
2N. Lacourly, Introducción a la Estadística, Editorial JC. Sáez, Santiago, 2009.

Capítulo 1
ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN
Los árboles de clasificación y de regresión (CART) tienen el mismo propósito que la regresión lineal,
en el sentido que busca relacionar una variable respuesta (a explicar) a partir de un conjunto de
variables explicativas. Pero difiere en varios aspectos:
Las relaciones son no lineales,
Visualiza las relaciones,
Puede usar cualquier tipo de variables, nominales o numéricas, tanto para la variable
respuesta que las variables explicativas.
CART es un método que, mediante un árbol de decisión, permite mostrar como se relacionan
variables explicativas con la variable respuesta. Define subgrupos de la población en estudio a
partir de segmentaciones. Cada subgrupo define un perfil de sujetos de la población utilizando las
variables explicativas de tal manera que estos sujetos toman valores parecidos sobre la variable
respuesta.
Los modelos subyacentes no son tan simples como un modelo de regresión lineal múltiple. Es-
ta metodología requiere un software ad-hoc, tal que “R”, que se puede bajar gratuitamente de
Internet1.
Presentamos en primer lugar los árboles de decisión mediante dos ejemplos. Después definimos los
criterios de construcción de los árboles para seleccionar las variables explicativas más importantes
que explican la variable respuesta.
1.1. ¿Qué es un árbol de decisión?
En términos generales, un árbol de decisión es el resultado gráfico de un método que permite tomar
“buenas” decisiones involucrando “riesgos” y “costos”. Utiliza un enfoque visual de agrupamientos de
datos mediante reglas fáciles de entender. En nuestro caso, los miembros de los agrupamientos, que
son definidos a partir de valores de las variables explicativas, se construyen mediante segmentaciones
de la población. Además en cada grupo, se estudia las características de la variable respuesta. Si,
dentro cada grupo, la variable respuesta es homogénea y, de un grupo a otro, toma valores diferentes,
podemos detectar un cierto efecto de las variables explicativas sobre la variable respuesta. Estas
variables explicativas, que identifican los miembros de los grupos, permitirán hacer predicciones de
la variable respuesta. Llamaremos variables de segmentación a las variables explicativas.
El uso de árboles de decisión tuvo su origen en las ciencias sociales con los trabajos de J. Sonquist
y J. Morgan (1964) de la Universidad de Michigan y al programa AID (Automatic Interaction
Detection), que fue uno de los primeros métodos de ajuste de los datos basados en árboles de
clasificación.
En estadística, Robert Kass (1980) introdujo un algoritmo recursivo de clasificación no binario, lla-
mado CHAID (Chi-square automatic interaction detection). Más tarde, L. Breiman, J. Friedman,
1R es un sofware gratuito especializado en métodos estadísticos. Se puede implementar la regresión múltiple o
el análisis en componentes principales también. Se encuentra en www.r-project.org/
1
2 1. ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN
R. Olshen y C. Stone (1984) introdujeron un nuevo algoritmo para la construcción de arboles y los
aplicaron a problemas de regresión y clasificación. El método es conocido como CART (Classifica-
tion and regression trees) por sus siglas en inglés. 2
El método CART es parte de lo que se llama “Data Mining” o “Minería de Datos” que se puso de
moda en muchos tipos de instituciones y empresas. Por ejemplo, los registros de un banco contienen
muchas informaciones de sus clientes. Puede usarlas para determinar el perfil de los clientes morosos
y decidir si conceder o no un crédito a un nuevo solicitante. El Servicio de Impuestos Internos puede
tratar de caracterizar las empresas que hacen fraudes fiscales. El departamento de recursos humanos
de una multitienda puede examinar los procesos de contrataciones pasadas y determinar reglas de
decisión que hará más eficiente los procesos de contrataciones futuras.
Antes de presentar los criterios que permiten construir un árbol de decisión, describimos aquí los
elementos que lo componen, utilizando dos ejemplos simples. Dependiendo de la variable respuesta,
se distingue el árbol de regresión del árbol de clasificación.
1.1.1. Descripción de un árbol binario de regresión. En una zona agrícola se observa

la cosecha de 480 naranjos, junto con el fertilizante utilizado y el tipo de suelo donde fueron
plantados. Dos fertilizantes (F1 y F2) y dos tipos de suelo (S1 y S2) fueron considerados. Estas dos
variables son binarias. Queremos ver como el fertilizante y el suelo influyen sobre la cosecha de los
naranjos. El conjunto de los 480 naranjos pueden dividirse en 4 subgrupos o segmentos cruzando
los dos fertilizantes y los dos tipos de suelos. Podemos llegar a los 4 subgrupos en dos etapas. Se
divide primero en dos grupos de suelo y después cada uno de estos dos grupos se divide en dos
grupos de fertilizantes (Figura 1.1(a)). Por otra parte, la cosecha tiene un rol distinto de las dos
otras variables. Se busca determinar si el fertilizante o el tipo de suelo influyen sobre la cosecha.
Se llama “variable respuesta” a la cosecha y “variables explicativas” o “variables de segmentación”
al tipo de suelo y fertilizante.
El gráfico muestra un árbol jerárquico, que es un conjunto de nodos. Si se lee de arriba hacia abajo,
la “raíz” es el nodo superior, que contiene la totalidad de los 480 naranjos. La raíz se divide en dos
nodos, llamados “hijos”, según una regla de decisión, que corresponde a valores a una variable de
segmentación, que es aquí el tipo de suelo. El nodo que contiene a los hijos se llama naturalmente
“padre” de estos. En el hijo de la izquierda se tiene todos los naranjos con el suelo “S1” y en el
hijo de la derecha se tiene los naranjos con el suelo “S2”. Cada uno de estos dos nodos se divide a
su vez en dos nodos, uno con los naranjos con el fertilizante “F1” y el otro con el fertilizante “F2”.
Los cuatro nodos obtenidos, que se llaman “nodos terminales”, contienen cada uno un solo tipo de
suelo y un solo tipo de fertilizante.
En general, los nodos se dividen en dos grupos según una pregunta o variable de segmentación y la
forma que usa la variable de segmentación para dividir un grupo en dos subgrupos corresponde a
una regla de decisión. Para detectar si el fertilizante y el tipo de suelo tienen un efecto sobre la
cosecha de naranjas y si el efecto es combinado, se pone en evidencia las características de cosecha
de cada nodo: el tamaño, que es la frecuencia de naranjos del nodo, la media y desviación estándar
de la cosecha de los naranjos del nodo Se observa que en la primera segmentación obtenida con
el suelo, no se observa una grande diferencia entre las medias de los dos grupos (141,4 y 149,3).
Podemos decir, a primera vista que el tipo de suelo no tiene efecto sobre la cosecha3. En los nodos
terminales obtenidos de la segmentación del fertilizante, se observa diferencias más importantes.
Nos preguntamos entonces, si cambiando el orden de las variables de segmentación tendremos un
árbol que permite una mejor interpretación.
2Casi al mismo tiempo el proceso de inducción mediante árboles de decisión comenzó a ser usado en “Machine
Learning” en ciencias de la computación y en “Pattern Recognition” en ingeniería eléctrica.
3Podemos hacer un test de hipótesis de comparación de media para comprobarlo.
1.1. ¿QUÉ ES UN ÁRBOL DE DECISIÓN? 3
Figura 1.1. Ejemplos de árboles
Se habla de árbol de regresión por la naturaleza de la cosecha, la variable respuesta, que es

numérica. Más adelante vamos a “optimizar” el orden de las variables de segmentación de manera
a jerarquizar las variables de segmentación en función de su impacto sobre la variable respuesta.
Eliminaremos también las segmentaciones que no muestra una diferencia sobre la variable respuesta
entre los dos grupos producidos.
1.1.2. Ejemplo de un árbol binario de clasificación. Una empresa quiere determinar el

perfil de los consumidores de uno de sus productos, que llamamos P, para dirigir mejor su campaña
publicitaria. El departamento de estudios de mercados aplica entonces una encuesta a 900 personas
con tres preguntas:
(a) ¿Consuma el producto P? La respuesta, que es “SI” o “NO”, define la variable “Consumo”.
(b) ¿Nivel socio-economico? La respuesta, que es “ABC1” o “C2-C3”, define la variable “NSE”.
(c) ¿Clase de edad? La respuesta, que es “J”, si es menor de 35 años o “A” si tiene al menos
35 años, define la variable “Edad”.
Observamos que las respuestas a las tres preguntas son variables binarias, ya que tienen solamente
dos alternativas. Considerando el estudio, la variable “Consumo” es la variable respuesta. Es la
variable que quisiéramos poder explicar a partir de la Edad y el NSE. Nuevamente tenemos 4
grupos posibles combinando las dos alternativas de la Edad y las dos alternativas del NSE y, por
el momento, podemos aplicar la segmentación con una variable u otra. Usamos primero el NSE
(Figura 1.1(b)). Los nodos, “raíz” y nodos terminales se definen como en el ejemplo anterior. Sin
embargo, las estadísticas del nodo a considerar son diferentes, pues la variable respuesta es binaria.
Examinando las frecuencias de las dos alternativas “SI” y “NO” de la variable “Consumo” en los
nodos, podemos determinar si existe un perfil de consumidores del producto P. Parecería que el
consumo del producto se relaciona con la la edad, pero que no es el caso del NSE.
Se habla de árbol de clasificación , por la variable respuesta, que permite clasificar los consumidores
del producto P en dos grupos “SI” y “NO”.
Más adelante mostremos casos un poco más complejos, en particular un caso de clasificación con una
variable respuesta con tres categorías. Previamente presentamos la manera de “optimizar” el orden
de las segmentaciones, mediante criterios de segmentación, para obtener nodos con homogeneidad
dentro los nodos respecto de la variable respuesta y heterogeneidad entre los nodos.
En los dos ejemplos anteriores pudimos dividir fácilmente un grupo en dos subgrupos de manera
natural siendo que las variables de segmentación que utilizamos (fertilizante, suelo, edad y NSE)
son binarias. Vemos como dividir un nodo en dos subgrupos con variable numericas o variable
nominal con más de dos categorías.
1.2. División a partir de la variable de segmentación
Se distinguen las variables de segmentación nominales de las variables numéricas.
1.2.1. Variable de segmentación nominal. Supongamos ahora que tenemos tres fertili-
zantes (F1,F2 y F3) en vez de dos en el ejemplo del párrafo 1.1.1. Para dividir un grupo en dos
subgrupos a partir de la variable fertilizante, tenemos tres maneras de combinar las tres categorías:
Tabla 1.1
Grupo1 Grupo 2
Caso 1 F1 F2 y F3
Caso 2 F2 F1 y F3
Caso 3 F3 F1 y F2
En el caso 2, por ejemplo, no se puede distinguir los fertilizantes F1 y F3. Sin embargo, en una
segmentación posterior, se puede separar el grupo “F1-F3” en dos un subgrupos, uno con F1 y el
otro con F2 (Figura 1.2(a)). En general, si la variable nominal tiene q categorías, se agrupan las
categorías en dos subgrupos excluyentes, que pueden subdividirse, a su vez, en dos subgrupos, etc..
1.2.2. Variable de segmentación numérica. Supongamos que tomamos la edad de los

consumidores en años en vez de las dos clases de edad “J: Menor de 35 años” y “A: Mayor o igual
a 35 años” en el ejemplo del párrafo 1.1.2. Para dividir un grupo en dos subgrupos con la edad en
años, tenemos muchas posibilidades: “Menor que u” y ’Mayor que u” , donde u toma los valores de
los distintos edades presentes en la muestra, por ejemplo, el corte es a 25 años en vez de 35 para
el NSE “ABC1” y 40 años para el NSE “C2-C3” (Paso del nivel (2) al nivel (3) en el árbol de la
Figura 1.2(b)).
1.3. Construcción del árbol de regresión
Vemos, que en el ejemplo del párrafo 1.1.1 con dos fertilizantes, podríamos intercambiar el orden
de las variables de segmentaciones, suelo y fertilizante. En la Figura 1.3(a) se divide primero con
el tipo de suelo y después con el tipo de fertilizante. En la Figura 1.3(b) se divide primero con el
tipo de fertilizante y después con el tipo de suelo. Si queremos jerarquizar el efecto de las variables
de segmentación, parecería que la segunda figura es la más adecuada. En efecto, se observa no
solamente una mayor diferencia entre las medias de los dos grupos en la primera división, sino
también, una disminución importante de las varianzas al interior de los subgrupos en la figura de
la derecha. ¿Como podemos definir un criterio que permite elegir de manera automática en que
orden usar las variables de segmentación y con divisiones que produzcan subgrupos diferentes entre
sí y que en sus interiores sean homogéneos?
1.3. CONSTRUCCIÓN DEL ÁRBOL DE REGRESIÓN 5
Figura 1.2. División con variables no binarias
Figura 1.3. Árboles del ejemplo de la cosecha de naranjas
1.3.1. Criterio de segmentación. Acordamos en que el método ANOVA, presentado en

el capitulo 2, definimos las varianzas intragrupos e intergrupos. El criterio natural que usamos es
el cociente
V arianza intergrupo
η= ,
V arianza total
llamado “razón de correlación”.
(a) Dado los valores de la cosecha tomados por los naranjos en la raíz, se calcula para ca-
da variable de segmentación y sus posibles división en dos subgrupos, el cociente η =
V arianza intergrupos
V arianza total . En este ejemplo, para dividir los naranjos de la raíz en dos subgrupos,
tenemos solamente dos situaciones a considerar dado que las dos variables de segmentación
son binarias (Tabla 1.2). La diferencia entre los fertilizantes F1 y F2 es netamente mayor
que la diferencia entre los suelos S1 y S2 y más aún en relación con la varianza total, que
es lo que muestra el coeficiente η. Elegimos, entonces, dividir la raíz según el fertilizante.
Además se calculo el valor de la F de Fisher del test ANOVA de comparación de medias.
El p-valor es bastante menor en el caso del fertilizante que del suelo. Se rechaza la igualdad
de las medias de los dos grupos de fertilizantes de manera mucho más clara que para el
suelo. s
(b) Siguiendo la segmentación en el árbol 1.3(b), tenemos que aplicar el criterio η a los dos
nodos del nivel (2) (Figura 1.3(b)), definidos por el fertilizante F1 y el fertilizante F2.
Aquí no tenemos muchas alternativas, pues nos queda solamente el suelo como variable de
segmentación. Sin embargo, nos preguntamos si conviene dejar el nivel (3) del árbol con-
siderando que los dos coeficientes η son pequeños (Tabla 1.3). A continuación, estudiamos
criterios para no seguir dividiendo en subgrupos cuando no aporta nada para entender las
relaciones de las variables explicativas sobre la variable respuesta.
Tabla 1.2
Variable Tamaño Varianza intergrupo Varianza total η F p-valor

Suelo 480 15,26 1979,8 0,0077 3,71 0,054
Fertilizante 480 1624,3 1979,8 0,82 2184,0 0,000
Tabla 1.3

Fertilizante F1 240 29,25 221,5 0,13 36,22 0,000
Fertilizante F2 240 5,78 489,5 0,012 2,84 0,093
1.3.2. Criterios de poda. ¿Cuándo detener la segmentación de un nodo en la construcción

del árbol de decisión? Obviamente, cuando no existen segmentaciones aplicable para todos los
últimos nodos hijos creados del árbol. Ahora bien, cuando hay muchas variables de segmentación y
varias divisiones binarias para cada uno, el árbol se pone muy grande y entonces se pone de difícil
interpretación. Es inútil recargar el árbol con muchos nodos y ramas, si algunos de estos no aportan
a la explicación de la variable respuesta. Hay que buscar una manera de parar la segmentación.
Usualmente se construye un árbol más largo que necesario y se va eliminado nodos. Se habla de
“poda” del árbol.
Acabamos de ver que en la tabla anterior que, al nivel (2) del árbol 1.3(b), el p-valor de la F del
ANOVA de la cosecha con el factor suelo del grupo de fertilizante F2 es igual a 0, 093 (Tabla 1.3).
El suelo tiene un efecto poco significativo sobre la cosecha cuando el fertilizante es F2, mientras
que es significativo para el fertilizante F1. ¿Por qué entonces no eliminar, o sea podar los dos nodos
colgando del fertilizante F2?
El criterio natural para podar el árbol es el p-valor del ANOVA que se usa en cada nodo para
decidir si seguir la segmentación debajo del nodo. Se puede elegir, por ejemplo, un p-valor menor
que 5 %, como aplicamos aquí (Figura 1.4(a)).
Construyamos el árbol del ejemplo del párrafo 1.2.1. La Tabla 1.4 entrega el detalle del orden de
las segmentaciones y el criterio de poda con un p-valor de 5 %.
En esta tabla se denota “(F1)-(F2+F3)” la división que deja de un lado los naranjos tratados con
el fertilizante F1 y del otro los naranjos tratados con los fertilizantes F2 o F3. A partir de la tabla,
las decisiones se toman de la siguientes manera:
(a) Nivel (1) ->(2): A pesar que las cuatro segmentaciones posibles tienen un p-valor muy
pequeño, la segmentación Fertilizante (F2)-(F1+F3) es la que tiene el coeficiente η más
grande. Se elige dividir con esta última.
1.3. CONSTRUCCIÓN DEL ÁRBOL DE REGRESIÓN 7
Tabla 1.4
Nivel (1) ->(2) Raíz
Suelo 720 16,75 2288,4 0,0073 5,3 0,022
Fertilizante (F1)-(F2+F3) 720 197,2 2288,4 0,087 67,7 0,000

Nivel (2) ->(3) Nodo F2
Suelo 240 5,78 489,5 0,012 2,84 0,093
Nivel (2) ->(3) Nodo F1+F3
Suelo 480 24,39 420,2 0,06 29,45 0,000

Fertilizante (F1 y F3) 480 309,5 420,2 0,74 170,7 0,000
Suelo 240 28,3 221,4 0,13 36,22 0,000
Suelo 240 19,96 397,8 0,05 12,58 0,000
(b) Nivel (2)->(3): Se examina entonces los dos nodos que podríamos colgar a la raíz. En el
nodo formado de los naranjos con el fertilizante F2, es posible usar solamente el suelo.
Como no tiene competidor, lo único que tenemos que considerar es el p-valor del ANOVA,
que aquí es mayor que 5 %. El nodo con el fertilizante F2 se determina como nodo terminal.
Para el otro nodo con los fertilizantes F1y F3, tenemos dos candidatos, dividir entre los
dos tipos de suelo o dividir entre los fertilizantes F1y F3. El suelo tiene un coeficiente η
muy pequeño. Se elige dividir el nodo entre los fertilizantes F1 y F3, siendo el p-valor nulo.
(c) [Nivel (3)->(4): Queda por ver si el nodo con el fertilizante F1 y el nodo con el fertili-
zante F3 pueden dividirse con el tipo de suelo. Los dos p-valores son nulos. Aplicamos las
segmentaciones con el suelo. Los 4 nodos obtenidos en el nivel (4) son terminales, pues
no hay más divisiones posibles. Junto con el nodo terminal del nivel (2) tenemos 5 nodos
terminales marcados en amarillo (Figura 1.4(b)).
Figura 1.4. Árboles podados

1.3.3. Predicción. Un vez podado el árbol, concluimos que se puede hacer una partición de
los 760 naranjos en 5 grupos perfectamente identificados por el tipo de suelo y el fertilizante. Los
5 grupos tienen naranjos con cosecha diferentes entre sí, y al interior de cada grupo, los naranjos
tienen cosechas parecidas. Además podemos decir que las cosechas de los naranjos tratados con
fertilizante F2 no depende del tipo de suelo.
Finalmente, se puede usar fácilmente estos resultados para hacer predicciones de la cosecha de
nuevos naranjos usando las medias y desviaciones estándares. Por ejemplo, se espera que un naranjo
con un suelo S1 y el fertilizante F1 tendrá en promedio una cosecha de 99,6 kg. Como toda
predicción es sujeto a errores, podemos construir un intervalo de confianza ([7]) para la cosecha
esperada del naranjo. Para un nivel de confianza de 95 % obtenemos el intervalo:
4, 9 4, 9
IC95 % = [99, 6 − 1, 96 × √ , 99, 6 + 1, 96 × √ ] = [98, 72; 100, 48].
120 120
1.4. Construcción del árbol de clasificación
En el ejemplo del párrafo 1.1.2, la variable respuesta consumo es binaria. No podemos usar el
criterio η para elegir las segmentaciones del árbol. Pero, examinamos las estadísticas de los nodos
cuando se divide la raíz con la variable NSE (Figura 1.5(a)) o con la variable Edad (Figura 1.5(b)).
Observemos que cuando se divide la raíz con el NSE (Figura (a)), hay poca diferencias entre los
dos grupos socioeconómicos. Tienen ambos valores cercanos al 50 % de Si y de NO como en la raíz.
Si dividimos la raíz con los dos grupos de edad (Figura (b)), se encuentra resultados distintos. En
el grupo “J” hay mucho más SI que NO y en el grupo “A” es lo contrario. Esta segmentación con
la edad es claramente más interesante para el estudio de mercado de la empresa. Este comentario
nos va a llevar a un criterio de segmentación.
Figura 1.5. Árboles del ejemplo de los consumidores
1.4.1. Criterio de segmentación. Para introducir un criterio, consideramos un caso ideal,

cuyas variables de segmentación llamadas VAR1 y VAR2 son binarias (Figura 1.6(a)). En los nodos
terminales aparece una situación extrema. Los nodos no tienen ningún “NO” o ningún ‘SI”. En este
caso, las variables VAR1 y VAR2 determinan perfectamente el perfil de los consumidores del
producto P. Los consumidores del producto tienen o bien el valor 1 en ambas variables o bien
tienen el valor 2 en ambas variables. Para estos nodos, se habla la pureza. Cuando hay “NO”
y “SI” en un nodo, es impuro. Buscaremos entonces segmentaciones para obtener los grupos con
el mínimo de impureza, o sea que los porcentajes de “SI” y “NO” en un nodo sean lo menos
balanceados posible.
1.4. CONSTRUCCIÓN DEL ÁRBOL DE CLASIFICACIÓN 9
El tamaño del nodo a dividir no influye en la impureza, entonces, en vez de considerar las frecuencias
de “SI” y “NO”, consideramos los porcentajes o las proporciones de “SI” y “NO”. (Figura 1.6(b),
para el ejemplo 1.1.2).
Figura 1.6. División con variables no binarias
Se puede construir varios índices de impureza. Definiremos dos. El más utilizado es el índice de
Gini4.
Examinamos el árbol del ejemplo 1.1.2 (Figura 1.6(b)). Si pN (t) y pS (t) son las proporciones de
“SI” y “NO” en el nodo t, pS (t) = 1 − pN (t) y pS (t) × pN (t) = pS (t)(1 − pS (t)) toma el valor 0
cuando pS (t) es nulo o vale 1 y toma el valor máximo 0,25, si pS (t) = pN (t) = 0, 5. El índice de
Gini del nodo t se define como:
γ(t) = pS (t)(1 − pS (t)) + pN (t)(1 − pN (t)) = 1 − pS (t)2 − pN (t)2 .
Por ejemplo, el nodo NSE=“ABC1” tiene un índice de Gini igual a: 1 − 0, 482 − 0, 522 = 0, 499 y su
nodo hijo NSE=“ABC1” y EDAD=“J” tiene un índice de Gini igual a: 1 − 0, 252 − 0, 752 = 0, 375.
El índice del otro nodo hijo NSE=“ABC1” y EDAD=“A” vale 1 − 0, 682 − 0, 322 = 0, 435. El nodo
padre es más impuro que sus nodos hijos.
En un nodo t dado, se elige entonces, entre las posibles segmentaciones, aquella que produce la
mayor reducción de impureza calculando la media ponderada de los índices de Gini de sus dos
nodos hijos t1 y t2 :
n1 n2
G(t) = γ(t1 ) + γ(t2 )
n n
donde n, n1 y n2 son los tamaños de los nodos t, t1 y t2 respectivamente.
En la tabla 1.5 se presentan los índices de Gini γ y G obtenidos con los tamaños de los nodos entre
parentesis.
Desde la raíz, los índices G de la edad y el NSE son respectivamente 0,4196 y 0,499. Con el criterio
de Gini, la mejor variable de segmentación desde la raíz es la edad. En el nivel 2, se calcula el
índice G para cada categoría de la edad. Los índices son menores que los anteriores.
Otro criterio, que se usa generalmente en la poda del árbol, se basa en los errores de clasificación.
Conociendo la edad y el NSE de un nuevo sujeto, podemos “predecir” su respuesta es “SI” o “NO”.
4En economía se utiliza un índice de Gini para medir la desigualdad de los ingresos de una población.
Tabla 1.5. Índices de Gini
Nivel Raíz NSE=“ABC1” NSE=“C2-C3” Índice G NSE

1 0,50 (900) 0,499 (420) 0,499 (480) 0,499
Nivel Raíz Edad=“J” Edad=“A” Índice G Edad

1 0,50 (900) 0,408 (420) 0,430 (480) 0,4196
Nivel Edad=“J” NSE=“ABC1” NSE=“C2-C3” Índice G NSE

2 0,408 (420) 0,375 (200) 0,434 (220) 0,406
Nivel Edad=“A’ NSE=“ABC1” NSE=“C2-C3” Índice G NSE

2 0,430 (480) 0,434 (220) 0,426 (260) 0,4296
Supongamos que usamos el árbol 1.6(b), entonces se espera que un sujeto “J” y “ABC1” responde
“SI”, pues el grupo al cual pertenece tiene una proporción 0,75 de “SI”. Podemos decir que tiene una
“probabilidad” de responder “SI” de 75 %. Es decir todos los sujetos de este grupo son clasificados
como “SI”. Sin embargo, todos no contestaron realmente “SI”. Para este nodo tenemos un 25 % de
errores de clasificación.
Si aplicamos este criterio de clasificación (respuesta “SI ” o “NO”) a un nodo, podemos calcular
la tasa de errores de clasificación, para las distintas segmentaciones posibles, pues conocemos sus
respuestas reales. Por ejemplo, desde la raíz, con el NSE clasificaremos 200 de los 420 encuestados
con respuesta “SI”, siendo que respondieron “NO” (árbol 1.5(a)) y con la edad clasificaremos 120
de los 420 encuestados con respuesta “SI”, siendo que respondieron “NO” (árbol 1.5(b)). El NSE
tienen una tasa de error de 48 % y la edad una tasa de error de 30 %. Se usa la edad como primera
variable de segmentación desde la raíz como en el caso del índice de Gini.
Lo ideal entonces es no tener errores de clasificación de los observaciones de los nodos en “SI”
y “NO”. Calculamos las tasas de errores de clasificación (Tabla 1.6). Nuevamente la edad es la
mejor elección de la raíz (30 % contra 48 % del NSE). Seguimos la tabla usando como primera
segmentación la edad. Notemos el decrecimiento de la tasa de errores cuando bajamos el árbol. El
árbol 1.5(a) tiene una tasa total de errores de 30 %.
Tabla 1.6. Tasas de errores de clasificación
Nodo NSE=“ABC1” NSE=“C2-C3” Total Tasa NSE

Raíz 200 (420) 0 230 (480) 430 (900) 48 %
Nodo Edad=“J” Edad=“A” Total Tasa Edad

Raíz 120 (420) 150 (480) 270 (900) 30 %

Edad=“J” 50 (200) 70 (220) 120 (420) 28,6 %

Edad=“A’ 70 (220) 80 (260) 150 (480) 31,25 %
La variable respuesta del ejemplo 1.1.2 es binaria. Veamos otro ejemplo, donde la variable respuesta
tiene más de dos categorías.
Tomamos los datos famosos de R. Fisher, citados

en sus escritos. Son 4 mediciones de 3 especies de
iris (flores): Largo del pétalo (LP), ancho del pé-
talo (AP), largo del sépalo (LS) y ancho del sépalo
(AS). Se busca detectar cuales los las 4 medicio-
nes discriminan mejor las 3 especies. Tenemos 4
variables de segmentación numéricas y una varia-
ble respuesta nominal con 3 categorías. En primer
lugar podemos visualizar las especies con boxplot
para cada una de las 4 mediciones. En la Figura
1.8(b) se muestra los boxplot del largo del pétalo.
Para dividir un nodo, se busca los cortes de las mediciones que producen nodos hijos los más puros
posible. Tenemos que definir la impureza para el caso de una variable con tres categorías, que se
puede generalizar a un número cualquier de categorías. Los dos criterios definidos para una variable
respuesta binaria se generalizan fácilmente.
Si p1 (t), p2 (t) y p3 son las proporciones de las tres especies en el nodo t, p1 (t) + p2 (t) + p3 (t) = 1
el índice de Gini del nodo t se define como:
γ(t) = p1 (t)p2 (t) + p1 (t)p3 (t)) + p2 (t)p3 (t)) = 1 − p1 (t)2 − p2 (t)2 − p23 .
En un nodo t dado, se elige entonces, entre las posibles segmentaciones, aquella que produce la
mayor reducción de impureza calculando la media ponderada de los índices de Gini de sus dos
nodos hijos t1 y t2 :
n1 n2
G(t) = γ(t1 ) + γ(t2 )
n n
donde n, n1 y n2 son los tamaños de los nodos t, t1 y t2 respectivamente.
No se puede presentar aquí todos los valores de los índices de Gini γ. En efecto, se calcula γ para
cada corte posible de cada variable de segmentación, y se toma el corte que minimiza la impureza.
Presentamos solamente el valor del índice de Gini para el corte optimo (Tabla 1.7) y los valores
de los tres primeros niveles. Por ejemplo, para el largo del pétalo, la segmentación que produce
dos nodos menos impuros se basa en el corte igual a 24,5 y para el ancho del pétalo, el corte es
en 10. Ambas variables tienen el valor de G igual a 0,333, que es más pequeño que los valores de
los dos otros índices G. Se puede elegir cualquiera de las dos variables. Elegimos para la primera
segmentación el largo del sépalo. Debajo de los dos nodos hijos de la raíz buscamos una nueva
segmentación. En primer lugar, vemos que no se puede dividir el nodo LP>24,5, puesto que es
un nodo puro. Consideramos entonces el otro nodo, para el cual la mejor división esta dada por
el ancho del sépalo con un corte al valor 17. Observe que aparece nuevamente el largo del pétalo
que se puede dividir en el recorrido >=24.5. Por ejemplo, en el nivel (4) en el nodo izquierdo esta
definido por un largo de pétalo entre 24,5 y 49,5 y un ancho de pétalo menor que 17,5 (Figura
1.8(a)).
En la Tabla 1.8 se encuentran las tasas de errores de clasificación asociadas al árbol 1.8(a). El
árbol 1.8(a) tiene una tasa de error total de 2 %. Si podemos el último nivel, la tasa sube a 2,7 %,
que es muy poco. La última segmentación parece forzada. Tiene un solo iris en uno de los nodos.
Tenemos que decidir donde podar el árbol.
Mostramos un gráfico de dispersión del largo y del ancho del pétalo (Figuras 1.7). Las especies
fueron marcadas con diferentes colores. Las lineas corresponden a las diferentes segmentaciones
utilizadas. El gráfico (a) corresponde al árbol con 3 errores de clasificación cuando se poda el nivel
Tabla 1.7. Índices de Gini de los iris
Nivel Raíz LS <54,5 LS >=54,5 Índice G de LS

1 0,667 (150) 0,232 (46) 0,582 (104) 0,439
Nivel Raíz AS<33,5 AS>=33,5 Índice G de AS
1 0,667 (150) 0,619 (107) 0,374 (43) 0,540
Nivel Raíz LP<24,5 LP>=24,5 Índice G de LP
1 0,667 (150) 0 (50) 0,50 (100) 0,333
Nivel Raíz AP<10,5 AP>=10,5 Índice G de AP
1 0,667 (150) 0 (50) 0,50 (100) 0,333
Nivel LP>=24,5 LP<47,5 LP>=47,5 Índice G de LP

2 0,50 (100) 0,049 (40) 0,300 (60) 0,126
Nivel LP>=24,5 AP<17,5 AP>=17,5 Índice G de AP
2 0,50 (100) 0,142 (52) 0,080 (48) 0,110
Nivel LP>=24,5 LS<61,5s LS>=61,5 Índice G de LS
2 0,50 (100) 0,355 (39) 0,440 (61) 0,407
Nivel LP>=24,5 AS<24,5 AS>=24,5 Índice G de AS
2 0,50 (100) 0,245 (7) 0,499 (93) 0,481
5 y el gráfico (b) corresponde al árbol con 4 errores de clasificación cuando se poda los niveles 4 y
5.
Tabla 1.8. Tasas de errores de clasificación de los iris
Nodo LP<24,5 NLP>=24,5 Total Tasa LP

Raíz 0 (50) 50 (100) 50 (150) 33,3 %
Nodo AP <17,5 AP>=17,5 Total Tasa LP>=24,5

LP>=24,5 5 (54) 1 (46) 6 (100) 6%
Nodo LP<49,5 LP>=49,5 Total Tasa LP>=24,5 y AP<17,5

AP<17,5 1 (48) 2 (6) 3 (54) 0,056 %
Nodo AP<16,5 AP>=16,5 Total Tasa 24, 5‘49, 5 y AP<17,5

LP<49,5 0 (47) 0 (1) 0 (48) 0,0 %
1.4.2. Criterios de poda. Como en el caso del árbol de regresión, a partir de ciertos niveles,
no se puede seguir agregando segmentaciones. Sin embargo, conviene en general parar antes de
agotar todas las segmentaciones, o sea podar el árbol. La variable respuesta siendo nominal, el
criterio del p-valor de la F deFisher no es aplicable.
Figura 1.7. Gráficos de dispersión de los iris
Una vez construido el árbol, se van eliminando ramas. Se puede seleccionar el árbol que tenga la
menor tasa de errores de clasificación aplicando el método de validación cruzada, que consiste en
aplicar el algoritmo CART sobre un subconjunto de datos, llamados conjunto de entrenamiento.
Del árbol obtenido sobre este conjunto de entrenamiento se clasifican el restante de los datos. De
estas últimas clasificaciones se obtiene un tasa de errores de clasificación.
Figura 1.8. Árbol de los iris
1.5. Resumen de la terminología
Variable respuesta: Variable que se busca Regla de decisión: Conjunto de valores de una
explicar a partir de otras variables. o más variables explicativas que se eligen para
Variable explicativa: Variable que influye sobre definir un subconjunto de datos.
una variable respuesta. Varianza intragrupo: Promedio de las varianzas
Árbol de regresión: Árbol de decisión cuya de una misma variable medida en varios grupos.
variable respuesta es numérica. Varianza intergrupo: Varianza de los promedios
Árbol de clasificación: Árbol de decisión cuya de una misma variable medida en varios grupos.
variable respuesta es nominal. Índice de Gini: Criterio de segmentación
Raíz del árbol: El nivel más alto del árbol que basado en la impureza de los nodos.
contiene todas las observaciones. Tasa de errores de clasificación: Tasa de errores
Nodo: Subconjunto de los datos definidos por obtenida clasificando observaciones en de un
una o más variables explicativas. árbol.
-Nodo terminal: Nodo que no se ha dividido.
1.6. Ejercicios
Ejercicio 1.1. Clasifique los casos siguientes en árbol de regresión o árbol de clasificación y
especifique el tipo de variables de segmentación que se utilizan.
(a) Un cardiólogo estudia la posibilidad que sobreviven más de 30 días pacientes que ingresan
con un ataque de corazón en un hospital a partir de la presión arterial, el pulso, la edad y
si es su primer ataque.
(b) El Banco Central hace un estudio para predecir la bancarrota de una empresa en función
de indicadores económicos.
(c) Un nutricionista quiere modelar con CART la relación entre el índice de masa corporal
(IMC) y la edad y el genero.
(d) El departamento de estudios de mercados de una tienda de artefactos electrónicos busca
anticipar cual será el perfil de las personas susceptible de comprar su nuevo televisor LCD.
Con este propósito, hace una encuesta a una muestra aleatoria de 800 personas preguntando
no solamente si compraron o no un televisor de la gama anterior, sino también, su edad,
su genero y si su ingreso es menor que 1.500.000 pesos o más.
(e) El fisco busca detectar patrones de contribuyentes que permiten distinguir entre las de-
claraciones de impuestos legítimas de las fraudulentas con el objeto de desarrollar así
mecanismos para tomar medidas rápidas frente a ellas.
(f) Con el objeto de detectar cuanto antes aquellos clientes que puedan estar pensando en
rescindir sus contratos para, posiblemente, pasarse a la competencia, un banco encarga
un estudio de patrones de comportamiento de clientes actuales y pasados. Estos patrones
serán una ayuda a determinar el perfil de los clientes los más proclives a darse de baja. El
banco podrá hacer promociones especiales, etc., a los clientes con este perfil con el objetivo
último de retenerlos.
(g) El departamento de recursos humanos de una empresa recopila informaciones sobre sus
empleados para identificar las características de sus empleados de mayor éxito. Los datos
considerados se relacionan con los esfuerzos de sus empleados y los resultados obtenidos
por éstos. La información obtenida puede ayudar a la contratación de personal a futuro.
Ejercicio 1.2. Se aplica un modelo CART a los datos de la figura adjunta, que tiene dos variables
de segmentación X1 y X2 y una variable respuesta binaria (“Rojo” y “Azul”).
(a) Separe con tres líneas horizontales y/o verticales los dos grupos “Rojo” y “Azul” de manera
a minimizar la tasa de errores de clasificación.
(b) Construye el árbol de clasificación asociado.
(c) Calcule los coeficientes de Gini del árbol obtenido en (b).
(d) Clasifique una nueva observación con X1 = 8 y X2 = 14. Dé la probabilidad de equivocarse.
1.6. EJERCICIOS 15
Ejercicio 1.3. Se quiere construir un modelo CART a los datos de la figura adjunta, que tiene
dos variables de segmentación X1 y X2 y una variable respuesta con tres categorías (“Rojo”, “Azul”
y “Verde”) (Figura adjunta).
(a) Separe con tres líneas horizontales y/o verticales los dos grupos “Rojo” y “Azul” de manera
a formar grupos de tal manera que se minimice la tasa de errores de clasificación.
(b) Construye el árbol de clasificación asociado.
(c) Clasifique una nueva observación con X1 = 16 y X2 = 16. Dé la probabilidad de equivo-
carse.
(d) Clasifique una nueva observación con X1 = 5 y X2 = 5. Dé la probabilidad de equivocarse.
(e) Se poda el árbol de nivel. Clasifique nuevamente la observación con X1 = 5 y X2 = 5. Dé
la nueva probabilidad de equivocarse.
Ejercicio 1.4. En un estudio de la PSU de Matemática del 2009, se obtiene las estadísticas por
dependencia y genero de la Región Metropolitana (Tablas 1.9 1.10).
(a) ¿Cómo se calcula el coeficiente η de las tablas?
(b) ¿Cuál es la primera segmentación de la raíz que optimiza η (Tabla 1.9)? Justifique.
(c) En la Tabla 1.10 están los resultados de las segmentaciones que podrían seguir. Construye
el árbol correspondiente.
(d) Dé el árbol final usando un criterio de poda de 5 %.
(e) Utilizando la Tabla 1.11 y el árbol (d), estime la PSU en matemática de un alumno hombre
de un colegio Particular pagado. Dé un intervalo de confianza de 95 %.
(f) Utilizando la Tabla 1.11 y el árbol (d), estime la PSU en matemática de una alumna de
un colegio municipal. Dé un intervalo de confianza de 95 %.
Tabla 1.9. Primera segmentación
Nivel (1) ->(2) Raíz
Genero 97.228 0,833 12.865 0,0000 6,29 0,012
Dependencia (Mu)-(PS+PP) 97.228 107,14 12.865 0,008 816,52 0,000

Dependencia (PS)-(Mu+PP) 97.228 51,2 12.865 0,004 388,52 0,000
Dependencia (PP)-(Mu+PS) 97.228 532,5 12.865 0,040 4.198 0,000
Tabla 1.10. Segundas segmentaciones
Nivel (2) ->(3) Nodo PP
Genero 14.866 5,177 13.500 0,0004 5,7 0,017
Nivel (2) ->(3) Nodo Mu+PS
Genero 82.362 0,144 12.122 0,00001 0,98 0,32

Mu, PS 82.362 12.122 0,002 134,7 0,000
Nivel (3) ->(4) Nodo MU
Genero 29.162 0,0162 12.026 0,000 0,04 0,84
Nivel (3) ->(4) Nodo PS
Genero 53.200 0,78 12.143 0,000 13,44 0,064
Tabla 1.11. Primera segmentación
Genero PP PS MU Total
Frecuencia 7720 23582 14537 45839

H Media 559,9 502,3 492,1 508,7
Desv. Estándar 116,3 110,8 109,5 113,8
Frecuencia 7146 29618 14625 51389

M Media 564,5 500,5 491,9 506,9
Desv. Estándar 116,0 109,7 109,8 113,1
Frecuencia 14866 53200 29162 97228

Total Media 462,1 501,3 492,0 507,8
Desv. Estándar 116,2 110,2 109,7 113,4
Bibliografía
[1] M. Aliaga, B. Gunderson, Interactive Statistics, Prentice Hall, 2002.

[2] C. Batanero, J. Godino, Análisis de datos y su didáctica, Universidad de Granada, 2001
[3] C. Batanero, Didáctica de la Estadística, Universidad de Granada, 2001.
[4] R. Brook et al., The Fascination of Statistics, Marcel Dekker, 1986.
[5] M. Cuesta, F. Herrero, http://www.psico.uniovi.es/Dpto_Psicologia/metodos/tutor.1/indice.html, Departa-
mento de Psicología, Universidad de Oviedo.
[6] O. Gil, Excursiones por el Álgebra Lineal, Santiago, Editorial JC. Sáez, 2009.
[7] N. Lacourly, Introducción a la Estadística, Editorial JC. Sáez, Santiago, 2009.
[8] M. Lladser, Variables Aleatorias y Simulación Estocástica, Editorial JC. Sáez, Santiago, 2009.
[9] D. Moore, G. McCabe, Introduction to the Practice of Statistics, (3rd Ed) W H Freeman & Co, 1998.
[10] A. Naiman, R. Rosenberg & G. Zirkel, Understanding Statistics, Mc Graw-Hill, 1996.
[11] J. Newman, The World of Mathematics, Simon & Schuster, New York, 1956.
[12] A.Osses, Análisis numérico, Editorial JC. Sáez, Santiago, 2009.
[13] K. Pearson, On Lines and Planes of Closest Fit to Systems of Points in Space, Philosophical Magazine 2 (6):
559 - 572, 1901. http://stat.smmu.edu.cn/history/pearson1901.pdf.
[14] P. Romagnoli, Probabilidades Doctas con discos y bolitas, Editorial JC. Sáez, Santiago, 2009. s
[15] B. Ycart, Curso por Internet, http://ljk.imag.fr/membres/Bernard.Ycart/emel/index.html.
[16] G. U. Yule An Introduction to the theory of statistics, London, C. Griffin, 1922.
17
Indice de nombres propios
Breiman L., 72
Cuesta Marcelino, 2
Fisher Ronald, 30, 44

Friedman J., 72
Galton F., 51
Gauss C.F., 51, 54
Gil Omar, 6
Gosset William, 30
Herrero Francisco, 2
Kass R., 72
Lacourly Nancy, 2, 25, 27

Legendre A.M., 51
Lladser Manuel, 25, 27
Morgan J., 71
Olshen R., 72
Pearson K., 51
Pearson Karl, 2, 44
Romagnoli Pierre Paul, 25
Sonquist J., 71
Spearman Charles, 2
Stone C., 72
19
Indice analítico
Árbol de clasificación, 73 Intervalo de confianza, 62

Árbol de clasificación y de regresión, 71
Árbol de decisión, 71 Mínimos cuadrados, 53
Árbol de regresión, 73 Muestra aleatoria, 26
Índice de Gini, 79, 81 Parámetro, 25
Análisis en componentes principales, 1 Paradoja de Simpson, 64
Círculo de correlaciones, 15 Predicción, 62
Componente principal, 2, 10–12 Razón de correlación, 75
Gráfico de dispersión, 3 Región crítica, 28
Porcentaje de varianza conservada, 8, 12 Regla de decisión, 27, 72
Puntos suplementarios, 16 Residuos del modelo, 55
Análisis exploratorio multivariado, 2
Análisis Factorial, 2 Tabla ANOVA, 44
Tasa de errores de clasificación, 80, 82
Boxplot, 41 Test de hipótesis
Boxpot, 40 Comparación de dos medias en una población, 39
Comparación de medias en dos poblaciones, 38
CART
Comparación de varias medias en una población,
F de Fisher, 76
41
p-valor, 76
Hipótesis alternativa, 26
Regla de decisión, 72
Hipótesis nula, 26
Variable de segmentación, 72
Hipótesis unilateral y hipótesis bilateral, 36
Variable respuesta, 72
Test para una proporción, 37
Varianza intergrupos, 75
ANOVA, 41
Varianza intragrupos, 75
Test para una media, 32
Coeficiente de correlación lineal
Análisis en componentes principales, 7, 8, 10, 15 Valores muestrales, 25
Coeficiente de correlación múltiple, 57 Variable de segmentación, 71
Coeficiente de determinación, 57 Variable explicativa, 53, 71
Variable respuesta, 53, 71
Distribución
Varianza intergrupos, 43
χ2 , 29
Varianza intragrupos, 43
F-Fisher, 30
Normal, 27
t-Student, 30, 32
Ecuaciones normales , 55
Error
de Tipo I, 26
de Tipo II, 26, 34
Errores del model, 53
Estándarización de variables, 7
Estadístico, 25
Función de verosimilitud, 58
Impureza, 78
Indice, 3, 8, 10, 11
Calidad, 6
de corpulencia, 4
21

Cart PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cart PDF

Cargado por

Copyright:

Formatos disponibles

Doc. de trabajo Fondef D05I-10211.

Departamento de Ingeniería Matemática

Proyecto FONDEF D05I-10211

Este documento de trabajo ha sido realizado en el proyecto FONDEF D05I-10211

Indice de nombres propios 19

1.1. Ejemplos de árboles 3

Las cifras no mienten, pero los mentirosos también usan cifras

La introducción de las Probabilidades y Estadística en la Enseñanza Media no ha sido fácil para

Nancy Lacourly 2009

2N. Lacourly, Introducción a la Estadística, Editorial JC. Sáez, Santiago, 2009.

ÁRBOLES DE CLASIFICACIÓN Y DE REGRESIÓN

1.1. ¿Qué es un árbol de decisión?

1.1.1. Descripción de un árbol binario de regresión. En una zona agrícola se observa

Figura 1.1. Ejemplos de árboles

Se habla de árbol de regresión por la naturaleza de la cosecha, la variable respuesta, que es

1.1.2. Ejemplo de un árbol binario de clasificación. Una empresa quiere determinar el

1.2. División a partir de la variable de segmentación

Se distinguen las variables de segmentación nominales de las variables numéricas.

1.2.2. Variable de segmentación numérica. Supongamos que tomamos la edad de los

1.3. Construcción del árbol de regresión

Figura 1.2. División con variables no binarias

Figura 1.3. Árboles del ejemplo de la cosecha de naranjas

1.3.1. Criterio de segmentación. Acordamos en que el método ANOVA, presentado en

Variable Tamaño Varianza intergrupo Varianza total η F p-valor

Variable Tamaño Varianza intergrupo Varianza total η F p-valor

1.3.2. Criterios de poda. ¿Cuándo detener la segmentación de un nodo en la construcción

Variable Tamaño Varianza intergrupo Varianza total η F p-valor

Nivel (1) ->(2) Raíz

Suelo 720 16,75 2288,4 0,0073 5,3 0,022

Fertilizante (F1)-(F2+F3) 720 197,2 2288,4 0,087 67,7 0,000

Nivel (2) ->(3) Nodo F2

Suelo 240 5,78 489,5 0,012 2,84 0,093

Nivel (2) ->(3) Nodo F1+F3

Suelo 480 24,39 420,2 0,06 29,45 0,000

Nivel (3) ->(4) Nodo F1

Suelo 240 28,3 221,4 0,13 36,22 0,000

Nivel (3) ->(4) Nodo F3

Suelo 240 19,96 397,8 0,05 12,58 0,000

Figura 1.4. Árboles podados

1.4. Construcción del árbol de clasificación

Figura 1.5. Árboles del ejemplo de los consumidores

1.4.1. Criterio de segmentación. Para introducir un criterio, consideramos un caso ideal,

Figura 1.6. División con variables no binarias

Tabla 1.5. Índices de Gini

Nivel Raíz NSE=“ABC1” NSE=“C2-C3” Índice G NSE

Nivel Raíz Edad=“J” Edad=“A” Índice G Edad

Nivel Edad=“J” NSE=“ABC1” NSE=“C2-C3” Índice G NSE

Nivel Edad=“A’ NSE=“ABC1” NSE=“C2-C3” Índice G NSE

Tabla 1.6. Tasas de errores de clasificación

Nodo NSE=“ABC1” NSE=“C2-C3” Total Tasa NSE

Nodo Edad=“J” Edad=“A” Total Tasa Edad

Nodo NSE=“ABC1” NSE=“C2-C3” Total Tasa NSE

Nodo NSE=“ABC1” NSE=“C2-C3” Total Tasa NSE

Tomamos los datos famosos de R. Fisher, citados

Tabla 1.7. Índices de Gini de los iris

Nivel Raíz LS <54,5 LS >=54,5 Índice G de LS

Nivel LP>=24,5 LP<47,5 LP>=47,5 Índice G de LP

Nodo LP<24,5 NLP>=24,5 Total Tasa LP

Nodo AP <17,5 AP>=17,5 Total Tasa LP>=24,5

Nodo LP<49,5 LP>=49,5 Total Tasa LP>=24,5 y AP<17,5

Nodo AP<16,5 AP>=16,5 Total Tasa 24, 5‘49, 5 y AP<17,5

Figura 1.7. Gráficos de dispersión de los iris

Figura 1.8. Árbol de los iris