Está en la página 1de 6

Artculo de Educacin

rboles de Clasificacin y Regresin: Modelos Cart


CLASSIFICATION AND REGRESSION TREES: CART MODELS
Irene Schiattino Lemus1, Claudio Silva Zamora2
1. M.Sc. en Bioestadstica, Escuela de Salud Pblica, Facultad de Medicina, Universidad de Chile. 2. Ph.D. en Bioestadstica, Escuela de Salud Pblica, Facultad de Medicina, Universidad de Chile.

RESUMEN
En muchas reas de aplicacin de la Estadstica los individuos (unidades de observacin) estn caracterizados por informacin sobre mltiples caractersticas cuantitativas y/o cualitativas que conforman el PERFIL del caso: por otra parte tenemos una RESPUESTA (resultado, output) individual, en algunos casos cuantitativa, en otros cualitativa. Suele ocurrir que los valores ms interesantes de esa respuesta se observan en individuos, en algn sentido, peculiares; identificar los perfiles o vectores que describen a esos individuos es de inters central, pero la bsqueda para hallarlos no es simplemente lineal sino ms bien es comparable a una trayectoria de divisiones sucesivas: una estructura arbrea. Los modelos subyacentes no son tan simples como un modelo de regresin lineal mltiple. Esta metodologa es intensiva en el uso de recurso computacional y requiere software ad-hoc. En este artculo describimos la metodologa CART ilustrndola con tres aplicaciones relativas a problemas de salud de nios, jvenes y trabajadores chilenos. (Schiattino I, Silva C, 2008. rboles de Clasificacin y Regresin: Modelos Cart. Cienc Trab. Oct-Dic; 10 (30): 161-166). Descriptores: RBOLES DE DECISIN, ANLISIS DE REGRESIN, CLASIFICACIN.

ABSTRACT
In many application areas of Statistics, individuals (observational units) are portrayed by multidimensional quantitative and / or qualitative information; on the other hand, we have an individual response (output) sometimes quantitative, in other qualitative. Often the most interesting response values are associated to individuals that, in some sense, are special; to identify profiles that describe such individuals is of central interest but the quest to find them is not merely linear but rather is comparable to a tree structure given by successive divisions. The underlying models are not as simple as a multiple linear regression model. This methodology is intensive in the use of computational resources demanding software ad-hoc. In this article we describe the methodology CART illustrated with three applications related to real chilean health problems of children, adolescent and workers. Descriptors: DECISION TREES; REGRESSION ANALYSIS; CLASSIFICATION.

INTRODUCCIN
Desde hace muchos aos los investigadores en numerosas reas han buscado describir relaciones estructurales ms complejas que las que se pueden describir usando modelos de regresin lineal mltiple. En muchas reas de aplicacin de la Estadstica los individuos (unidades de observacin) estn caracterizados por informacin sobre mltiples caractersticas cuantitativas y/o cualitativas: formalmente representamos cada uno de esos individuos como un VECTOR de dimensin p; por otra parte tenemos una RESPUESTA (resultado, output) individual, en algunos casos cuantitativa, en otros cualitativa. Suele ocurrir que los valores ms interesantes de esa respuesta se observan en individuos, en

Correspondencia / Correspondence Claudio Silva Z. Escuela de Salud Pblica, Facultad de Medicina, Universidad de Chile Tel: (56 2) 9786539 Fax: (56 2) 7774163 e-mail: csilva@med.uchile.cl Recibido: 12 de noviembre de 2008 / Aceptado: 01 de diciembre de 2008.

algn sentido, peculiares; identificar los perfiles o vectores que describen a esos individuos es de inters central pero la bsqueda para hallarlos no es simplemente lineal sino ms bien es comparable a una trayectoria de divisiones sucesivas: una estructura arbrea. Los modelos subyacentes no son tan simples como un modelo de regresin lineal mltiple, pero tienen una ventaja que podramos llamar plasticidad o flexibilidad, que posibilita identificar con relativa facilidad las combinaciones, nichos ecolgicos o perfiles de predictores asociados a valores particulares de la respuesta de inters. Obviamente estas ideas no son novedosas, han sido sistematizadas por diversos autores y las propuestas metodolgicas se han ido multiplicando y perfeccionando de la mano del desarrollo computacional. Sin pretender un listado exhaustivo, debemos mencionar el mtodo Computer Automatic Interaction Detection (CAID) de Somers y Morgan (1960), ampliado a Chi Square Automatic Interaction Detection (CHAID) de Kass (Kass 1980). En las ltimas dos dcadas, los trabajos de Friedman, Breiman y colegas han fructificado en mtodos multivariantes similares a los mencionados, con uso ptimo del recurso computacional actual; de ellos comentaremos: en este artculo Classification And Regression Trees (CART) (Breiman et al. 1984) y en un futuro cercano Multivariate Adaptive Regression Splines (MARS) (Friedman 1991). 161

Ciencia & Trabajo | AO 10 | NMERO 30 | OCTUBRE / DICIEMBRE 2008 | www.cienciaytrabajo.cl | 161/166

Artculo Original | Schiattino Irene

MODELOS CART
Modelos basados en las ideas de rboles de clasificacin o de regresin han sido aplicados exitosamente en mltiples situaciones de Epidemiologa, Investigacin de Mercados, Farmacologa, Administracin de Personal, Economa, Medicina del Trabajo, Educacin, etc. En todas ellas la respuesta Y de inters ha sido categrica (pocos niveles sin carcter numrico) o cuantitativa (discreta o continua); en la primera situacin el objetivo es predecir la CLASIFICACIN que le correspondera a un sujeto con cierto perfil de valores en las variables explicativas, en la segunda es ESTIMAR la respuesta Y asociada a cada nicho. Esta metodologa est implementada computacionalmente en software ad-hoc como CART, distribuido por Salford Institute (Saldford Systems 2000), o software estadstico de uso general como SAS (mdulo Enterprise Miner), JMP (mdulo Class) SPSS (mdulo Classification) o STATA (mdulo CART.pkg). En la fase de construccin del rbol, se parte de la matriz de datos

terminales que representa la particin final. Nodos intermedios cuyos arcos salientes apuntan a los nodos hijos. La presentacin de la informacin se hace en un diagrama en forma de rbol invertido donde el proceso recursivo, muy esquemticamente, se traduce en los siguientes pasos: a. El nodo raz es dividido en subgrupos (dos o ms) determinados por la particin de una variable predictora elegida, generando nodos hijos. b. Los nodos hijos son divididos usando la particin de una nueva variable. El proceso recursivo se repite para los nuevos nodos hijos sucesivamente hasta que se cumpla alguna condicin de parada. c. Algunos de los nodos resultantes son terminales, mientras que otros nodos continan dividindose hasta llegar a un nodo terminal. d. En cada rbol se cumple la propiedad de tener un camino nico entre el nodo raz y cada uno de los dems nodos del rbol. Ejemplo: En 215 pacientes que sufrieron un ataque al corazn se evaluaron variables sociodemogrficas, historia mdica y exmenes de laboratorio. A los 30 das 37 pacientes murieron. Se presenta el rbol de Clasificacin desarrollado con el fin de estimar El riesgo de un segundo ataque. Figura 1. Ejemplo de rbol de clasificacin.
Pacientes = 215 Sobrevida 178 82.8% Muerte 37 17.2% PS =91

donde n = nmero de observaciones y p = nmero de variables independientes, explicativas o predictoras. El objetivo de este mtodo ser discriminar, estimar o predecir la variable Y en funcin de los predictores X1 Xp, mediante particiones sucesivas del conjunto de individuos, maximizando una medida de contenido de informacin respecto a la variable respuesta. En la fase de validacin se puede utilizar esta misma matriz de diseo o entrenamiento u otra similar pero independiente (muestra de validacin o prueba). Se pueden mencionar las siguientes ventajas de los rboles de clasificacin y/o regresin: a. Se obtiene conocimiento estructurado en forma de reglas de clasificacin o de los valores de una variable de intervalo. Esto facilita interpretar en un lenguaje llano la caracterizacin de las clases o los valores de una variable de intervalo. b. Al ser un procedimiento de anlisis no paramtrico (distributionfree procedure) no se requiere validar supuestos distribucionales de probabilidad. c. Permite trabajar con todo tipo de variables predictoras: binarias, nominales, ordinales y de intervalo o razn. d. Permite valores desconocidos para las variables predictoras en los individuos, tanto en la fase de construccin del rbol como en la de prediccin. e. En el caso de Clasificacin se puede establecer probabilidad a priori de las clases. f. Se puede ponderar las observaciones usando una variable ad-hoc.

Nodo terminal 1 Sobrevida 6 30% Muerte 14 70% Muerte

N=195 Sobrevida 172 88.2% Muerte 23 11.8% Edad =62.5

Nodo terminal 2 Sobrevida 102 98.1% Muerte 2 1.9% Sobrevida

N=91 Sobrevida 70 76.9% Muerte 21 23.1% Tiene taquicardia

Nodo terminal 3 Sobrevida 14 50% Muerte 14 50% Muerte

Nodo terminal 4 Sobrevida 56 88.9% Muerte 7 11.1% Sobrevida

CONSTRUCCIN DEL RBOL


Un rbol es un conjunto de nodos y arcos. Cada nodo representa un subconjunto de la poblacin. Distinguimos: Nodo raz que representa a toda la poblacin y no tiene arcos entrantes. Nodos 162

En el proceso recursivo descrito se deben establecer algunos criterios: 1. Cmo son los cortes posibles y un nmero mximo de cortes determinados por un predictor desde el nodo. Los cortes que se establecen para variables ordinales y de intervalo se realizan por intervalos consecutivos. 2. Una condicin de admisibilidad para los cortes posibles. 3. Una medida de contenido de informacin del rbol respecto al conjunto de individuos o un criterio de optimizacin de los cortes; es decir, obtener la mejor combinacin de cortes admisibles respecto a una variable predictora. 4. Determinar la descripcin de la variable objetivo en los nodos del

161/166 | www.cienciaytrabajo.cl | AO 10 | NMERO 30 | OCTUBRE / DICIEMBRE 2008 |

Ciencia & Trabajo

Artculo Original | rboles de Clasificacin y Regresin: Modelos Cart rbol. Para clasificacin: El grupo con la mayor representacin determina la clase a la que asigna el nodo. En caso de empates se puede elegir cualquiera. Para regresin: En los nodos se estiman las medias muestrales de la variable respuesta condicionadas a los nodos. 5. Una condicin de parada para un nodo de un rbol. Por ejemplo, si el nmero de individuos en el nodo es inferior a un valor preespecificado, si la contribucin del nodo a la calidad del rbol es mayor que otro umbral, si la profundidad del nodo es igual a un parmetro pre-especificado. El criterio ms importante en la construccin del rbol es la eleccin de una medida de contenido de informacin del rbol con respecto a las clases o variable de intervalo de inters ya que la eleccin de este criterio diferencia los algoritmos de seleccin. Medida de contenido de la informacin. Es la suma ponderada de una medida de contenido de la informacin H(.) de las hojas del rbol. H(.) es una funcin de incertidumbre o entropa aplicada a una distribucin de probabilidad. Al ser sta una medida aditiva en los nodos, en un paso del algoritmo es suficiente con optimizar el incremento de la medida de contenido de informacin del rbol en el nodo que se est explorando. En este caso, se obtiene la combinacin de cortes que hace mxima la reduccin de la incertidumbre en los nodos del rbol. Se han propuesto distintas definiciones de H(.), entre ellas: Entropa de Shannon ndice de diversidad de Gini rboles de Regresin: Al igual que en el caso de rboles de Clasificacin, la medida de contenido de la informacin puede ser una suma de la medida de contenido de informacin de las hojas o nodos hijos ponderadas por los pesos de los mismos. Otro criterio de corte considera la estadstica F que selecciona como variable de segmentacin la que tenga un valor mayor de la estadstica F, asociado a la variable Y condicionada a los nodos hijos dados por los cortes. Este estadstico es una medida de desigualdad de medias, en este caso las medias de Y condicionada a los nodos. importancia de la medicin de saturacin de oxgeno en la sangre (SaO2) como un medio indirecto de estudiar la hipoxemia, cualesquiera sean sus causas (Bucher et al. 1989). El diseo fue de tipo transversal y la muestra la constituyeron 136 trabajadores de la minera. Se realiz una entrevista de salud y se aplic una encuesta psicosocial con el objetivo de caracterizar la ocurrencia o no de oximetra alterada. Se estudiaron como predictores las variables edad, distancia entre el lugar de trabajo y el domicilio, ndice masa corporal (IMC), sedentarismo, colesterol elevado, glicemia, fatiga y sntomas de sueo. Se comprob que si bien algunas variables aisladamente no aparecen asociadas a las oximetras alteradas, algunas combinaciones de ellas (perfiles multivariantes) s resultan ser buenas predoctoras de alteracin de la oximetra. Para medir Fatiga Subjetiva, se utiliz el ndice Check List Individual Strength (CIS) (Beurskens et al. 2000). En su versin original esta escala est conformada por 20 tems, pero al ser adaptada y validada en poblacin chilena (Vera et al. 2008a) se redujo a 15 tems de los cuales surgen dos subescalas: Percepcin Subjetiva de Fatiga Fsica y Percepcin Subjetiva de Fatiga Cognitiva. Para medir Sntomas de Somnolencia o Hipersomnia se us la Epworth Sleeppiness Scale (ESS) (Izquierdo-Vicario et al. 1997); esta escala evala la tendencia a quedarse dormido en distintas situaciones. Satisfaccin Vital General. La medicin de la satisfaccin vital se realiz con la escala de Diener la cual evala aspectos especficos de la satisfaccin con la vida (Diener 1996). La recoleccin de la informacin se realiz entre los meses septiembre y diciembre del ao 2007. La informacin relativa a salud fue obtenida por una enfermera. Para la evaluacin de factores sociodemogrficos, fatiga, somnolencia y factores psicosociales se utiliz encuestas validadas las cuales fueron aplicadas por psiclogos. Luego de aplicar anlisis exploratorio de datos a la informacin as reunida se procedi a procesarla en el contexto del mtodo de anlisis multivariado denominado Classification and Regression Trees (CART) usando los softwares SPSS versin 16.0 y SAS JMP 5.1. El predictor ms fuertemente asociado a oximetra alterada fue edad categorizada en torno a 47 aos; los 136 obreros (que presentaban un 49.2% de oximetras alteradas) qued subdividido en 17 sujetos con edad mayor o igual a 47 aos (con 88,2% de oximetras alteradas) vs. 119 sujetos menores de 47 aos (con prevalencia 40,3%). Por su tamao el primero de grupos no era susceptible de subdivisin, el segundo s ; para este subconjunto el predictor ms relevante result ser IMC categorizado como normal (32 casos con 25% de prevalencia) vs sobrepeso u obeso (87 casos con prevalencia 46%). Continuando de esta manera el proceso de subdivisin culmina en la estructura presentada en la Figura 2. Los resultados encontrados permitieron caracterizar los siguientes grupos de sujetos segn clasificacin por perfil: a) El primer perfil con alta probabilidad (0,88) de tener oximetra alterada corresponde al grupo de trabajadores con una edad mayor o igual a 47 aos. b) El segundo perfil de alto riesgo (0,85) de oximetra alterada se caracteriz por tener una edad menor a 47 aos, IMC normal pero fatiga cognitiva de 15 puntos o ms. c) El tercer perfil (con riesgo 0,85) correspondi a trabajadores con edades entre 33 y 47 aos, IMC no normal y hbitos sedentarios. d) La cuarta agrupacin reuni a los sujetos del mismo grupo etario e IMC precedentes, que no son sedentarios pero presentaron a

Validacin-Calidad del rbol


Generalmente la validacin se realiza con una muestra independiente de la muestra diseo, para la que los valores de la variable respuesta son conocidos. Tcnica de poda: Se construye el rbol mximo y se crea una sucesin de subrboles del mismo, segn las estimaciones de la calidad del rbol con la muestra de diseo y selecciona aquel que optimiza alguno de los criterios de calidad con la muestra validacin (Breiman et al. 1984). En ausencia de la muestra de validacin, se pueden exigir para la construccin del rbol criterios de parada ms exigentes.

APLICACIONES:
A. Una Aplicacin en Salud Ocupacional
El propsito de un reciente estudio nacional (Vera et al. 2008b) fue explorar el perfil bio-psico-social de una muestra de trabajadores mineros con oximetras alteradas. La oximetra no invasiva es una tcnica de medicin biomdica que persigue conocer la concentracin de oxgeno en sangre. En los ltimos aos se ha reconocido la

Ciencia & Trabajo | AO 10 | NMERO 30 | OCTUBRE / DICIEMBRE 2008 | www.cienciaytrabajo.cl | 161/166

163

Artculo Original | Schiattino Irene Figura 2. CART. rbol de clasificacin en oximetra.


All Rows Count GA2 LogWort Level Prob 136 187.80007 2,9215647 Normal 0,5368 Alterada 0,4632

Edad>=47 Count 17 GA2 Level 12,315159 Normal Alterada Prob 0,1176 0,8824

Edad<47 Count GA2 LogWort Level Prob 119 160,4955 1,0862201 Normal 0,5966 Alterada 0,4034

IMC (Sobrepeso, Obeso) Count GA2 LogWort Level Prob 87 120,04378 1,2321069 Normal 0,504 Alterada 0,4598

IMC (Normal) Count GA2 LogWort Level 32 35,989449 1,3196974 Normal Alterada Prob 0,75 0,25

Edad>=33 Count GA2 LogWort Level Prob 54 73,670396 1,7690284 Normal 0,4259 Alterada 0,5741

Edad<33 Count GA2 LogWort Level Prob 33 38,672873 1,3516241 Normal 0,7273 Alterada 0,2727

Fatiga Cognitiva>=15 Count 8

Fatiga Cognitiva<15 GA2 Level Prob Count GA2 Level 10,585012 Normal 0,3750 24 18,084968 Normal Alterada 0,6250 Alterada

Prob 0,87 0,12

Sedentarismo (S) Count GA2 Level 13 11,162399 Normal Alterada Prob 0,1538 0,8462

Sedentarismo (No) Count GA2 LogWort Level Prob 41 56,813676 1,7196843 Normal 0,5122 Alterada 0,4878

Colesterol (200-239<200) Count GA2 LogWort Level Prob 22 29,767142 0,6139468 Normal 0,5909 Alterada 0,4091

Colesterol (>240) Count 11 GA2 Level 0 Normal Alterada Prob 1,0000 0,0000

Sntomas de sueo >= 3 Count GA2 Level 31 41,380766 Normal Alterada Prob 0,3871 0,8129

Sntomas de sueo < 3 Count 10 GA2 Level 6,5016595 Normal Alterada Prob 0,9000 0,1000

IMC (Sobrepeso) Count GA2 LogWort Level Prob 14 19,408121 0,468962 Normal 0,5000 Alterada 0,5000

IMC (Obeso) Count 8 GA2 Level 8,9973623 Normal Alterada Prob 0,7500 0,2500

KMTS >= 440 Count GA2 Level 5 5,0040242 Normal Alterada Prob 0,2000 0,8000

KMTS < 440 Count 9 GA2 Level 11,457255 Normal Alterada Prob 0,6667 0,3333

lo menos tres sntomas de sueo. Con tales caractersticas la probabilidad de presentar oximetra alterada es 0,80. e) La ltima agrupacin es de riesgo alto (0,80) pero de pequeo tamao y se caracteriza por tener como atributos: edad inferior a 33 aos; IMC anormal y colesterol bajo 240 pero viajar a lo menos 440 km. entre faena y hogar.

B. Una Aplicacin en Nutricin Escolar (Amigo et al. 2007a)


La obesidad en el escolar chileno es un problema de Salud Pblica particularmente desafiante porque existe una alta heterogeneidad en la distribucin de prevalencias entre los establecimientos educacionales de una misma comuna. La obesidad en escolares ha mostrado una tendencia creciente en la ltima dcada por lo que la prevencin, el manejo y el control de este problema debe tener una muy alta prioridad a nivel de escuelas y ncleos familiares. Identificar y cuantificar factores de riesgo que determinan el exceso de peso en escolares de enseanza bsica fue el objetivo central de esta investigacin. El diseo del estudio fue de corte transversal y utiliz una muestra aleatoria mutietpica que consider siete de las comunas urbanas de la Regin Metropolitana con prevalencia de obesidad sobre 15%; dentro de ellas se defini tres estratos de los establecimientos escolares segn obesidad y al interior de cada establecimiento sorteado se seleccionaron 12 escolares que cursaban 2 ao bsico. Por medicin directa y entrevistas al nio y a la madre se recolect informacin

antropomtrica, hbitos alimenticios, actividades extraescolares, etc.; paralelamente se registr informacin diversa sobre la infraestructura de cada escuela. Un anlisis mediante modelos multinivel ya fue publicado (Amigo et al. 2007b). En esta aplicacin de CART se construy un rbol de regresin siendo la variable respuesta una variable continua: el ndice masa corporal (IMC) del nio; tal variable present un promedio de 18,2 en el conjunto de los 502 casos. La primera particin se produjo en funcin de la variable IMC corporal de la madre, que aparece como la ms importante predictora; los nodos resultantes corresponden a (1) 228 nios con IMC promedio 19,1 cuyas madre tienen IMC mayor o igual a 27,7 y (2) los restantes 274 nios con IMC promedio 17,8. La segunda particin de la derecha se produjo en funcin de (consumo de) LPIDOS con corte en 44,4 (140 nios vs 88) y la tercera en funcin de HORAS TV DOMINGO (2 vs 138). En resumen, el perfil ms desfavorecido sera, a la luz de la informacin hallada, nio cuya madre tiene alto IMC, con alta ingesta de lpidos y muchas horas de TV el da Domingo. El segundo perfil desfavorecido sera nio cuya madre tiene alto IMC, menor consumo de lpidos y no participante en el PAE.

C. Una Aplicacin en Consumo de Tabaco Entre Escolares (Schiattino et al. 2003)


El objetivo del presente trabajo fue describir el perfil de los estudiantes de la Regin Metropolitana que han fumado cigarrillo o

164

161/166 | www.cienciaytrabajo.cl | AO 10 | NMERO 30 | OCTUBRE / DICIEMBRE 2008 |

Ciencia & Trabajo

Artculo Original | rboles de Clasificacin y Regresin: Modelos Cart Figura 3. rbol de clasificacin final para el estudio de consumo de tabaco en el ltimo mes. (Clase 0: No fuma. Clase 1: Fuma).

Terminal Node 1 Class=0 Class Cases 0 71311.242 1 6243.323 N=77554.547

Node 1 Class=0 CRR12=(1) Class Cases 0 96580.758 1 76119.430 N=172700.094

% 55.9 44.1 Node 2 Class=1 CRR18=(1) Class Cases 0 25269.594 1 69876.148 N=95145.805 % 46.1 53.9

% 91.9 8.1 Node 3 Class=1 CLR60=(2) Class Cases 0 13626.648 1 15911.811 N=29538.463 Node 4 Class=1 CLR67=(2,3) Class Cases 0 11284.497 1 10624.648 N=21909.141 Node 5 Class=0 CLR57=(4) Class Cases 0 9465.896 1 7380.080 N=16845.973

% 26.6 73.4 Terminal Node 9 Class=1 Class Cases 0 11642.950 1 53964.359 N=65607.289

% 17.7 82.3

% 51.5 48.5 Terminal Node 7 Class=1 Cases 1818.604 3244.568 N=5063.172

Class 0 1

Terminal Node 8 Class=1 Cases 2342.154 5287.165 N=7629.318

% 30.7 69.3

% 56.2 43.8 Node 6 Class=1 CR56=(1) Class Cases 0 6907.057 1 6621.319 N=13528.377

Class 0 1

% 35.9 64.1

Class 0 1

Terminal Node 2 Class=0 Cases 2558.842 758.759 N=3317.601

% 77.1 22.9 Node 7 Class=0 CR21=(1,3) Cases 3835.942 2466.701 N=6302.643

% 51.1 48.9 Terminal Node 6 Class=1 Cases 3071.115 4154.617 N=7225.732

Class 0 1 Node 8 Class=0 CR552=(1,2,3) Class Cases 0 3445.818 1 1608.459 N=5054.277 Terminal Node 3 Class=0 Cases 3422.858 1175.536 N=4598.394

% 60.9 39.1 Terminal Node 5 Class=1 Cases 390.124 858.241 N=1248.365

Class 0 1

% 42.5 57.5

% 68.2 31.8 Terminal Node 4 Class=1 Cases 22.960 432.924 N=455.884

Class 0 1

% 31.3 68.7

Class 0 1

% 74.4 25.6

Class 0 1

% 5.0 95.0

consumido algn producto tabaco en el ltimo mes, utilizando el mtodo de rboles de clasificacin con factor de ponderacin sobre la base de datos de EMTAJOVEN. La Encuesta sobre tabaquismo en jvenes 2000 (EMTAJOVEN, Marzo 2000, OMS, MINSAL) fue aplicada en la Regin Metropolitana (R.M.) con el fin de evaluar la evolucin del consumo de tabaco en los jvenes. La muestra utilizada en el anlisis fue de 3150 estudiantes evaluados por EMTAJOVEN, con una media de edad de 13,7 1,1 aos y 50,6% de mujeres. El factor de ponderacin asociado a cada encuesta fue dado por: W=w1*w2*f1*f2*f3*f4 donde, w1 = probabilidad inversa de seleccionar un colegio

w2 = probabilidad inversa de seleccionar una clase dentro del colegio f1 = factor de ajuste de las no respuestas a nivel colegio calculado por categora (pequea, media, grande) f2 = factor de ajuste al curso calculada por escuela f3 = factor de ajuste de las no respuestas a nivel estudiante calculado por clase f4 = factor de ajuste post-estratificacin calculada por gnero y grado. Adems de este factor de ponderacin, para el anlisis se consideraron 26 variables, todas categricas, relacionadas con caractersticas personales del estudiante, conocimiento y actitudes hacia el tabaco y para dejar de fumar, acceso y disponibilidad, exposicin al humo de tabaco, 165

Ciencia & Trabajo | AO 10 | NMERO 30 | OCTUBRE / DICIEMBRE 2008 | www.cienciaytrabajo.cl | 161/166

Artculo Original | Schiattino Irene familiaridad con propaganda en los ltimos 30 das y curriculum escolar sobre el consumo y no consumo de tabaco en el ltimo mes. mal a un estudiante que no fuma). Resultaron 13 rboles diferentes y en cada uno de ellos se docimaron las tasas de especificidad, sensibilidad y clasificacin correcta de la muestra de construccin y validacin expandida. Cinco rboles presentaron diferencias no significativas en las tres caractersticas al nivel de 5% de stos, se eligi el rbol de clasificacin con 9 nodos terminales por presentar la tasa de especificidad ms alta (Ver Tabla 2 de la ref). La secuencia de poda del rbol de clasificacin elegido, con igual probabilidad a priori para las categoras de la variable dependiente, e iguales costos de mala clasificacin se presenta en la Tabla 3 de la ref. En la secuencia de poda se muestra que el rbol mximo cuenta con 112 nodos terminales con un costo relativo sobre la muestra de validacin de 42,6% 0,002 desviaciones estndar, respecto del costo inicial de mala clasificacin (50%). Adems se observan los costos relativos de mala clasificacin sobre la muestra de construccin en cada uno de los subrboles. La Figura 3 muestra el rbol de clasificacin con 9 nodos terminales, resultado de particiones de las siguientes variables: En qu lugar fumas usualmente? (CR12, nodo raz); Crees qu fumars cigarrillo el prximo ao? (CRR18); No me importara si el humo de cigarrillo molestara a los dems (CLR60); El cigarrillo light es menos malo que el regular (CLR67); En qu curso ests? (CLR57); Cul es tu sexo? (CR56); Crees que los lolos que fuman tienen ms o menos amigos? (CR21); Cuntos aos tienes? (CR552); En cada uno de los nodos terminales se observa el total de estudiantes en la muestra expandida y la composicin de acuerdo a la clase de pertenencia, el grupo con mayor representacin determina la clase asignada al nodo.

Construccin del rbol de clasificacin


Se especificaron las 25 variables categricas, como independientes (Ver Tabla 1), ms la variable ponderacin. La variable haber fumado cigarrillo o consumido algn producto tabaco en el ltimo mes (Fumador, No fumador) fue especificada como dependiente. La validacin del rbol se realiz a travs de una muestra de prueba correspondiente al 40% de los datos. Se utiliz iguales probabilidades a priori y los costos de mala clasificacin elegidos fueron las combinaciones de los valores 1; 1,5; 2; 2,5 y 3. En cada rbol obtenido se docimaron las tasas de especificidad, sensibilidad y clasificacin correcta de las muestras de construccin y validacin al nivel del 5%. Del conjunto de rboles distintos, cuya prueba fue no significativa en las tres caractersticas, se eligi el que present la mayor especificidad a expensas de perder sensibilidad (criterio clnico) Gil (2000). Del rbol elegido se entregarn las particiones sustitutas que reemplazan a las particiones primarias en el caso de observaciones faltantes y la importancia relativa de las variables en el estudio, dada por la capacidad de una variable a ser sustituta de la particin primaria.

RESULTADOS
La prevalencia del consumo de tabaco en el ltimo mes fue 45,1%. En la Tabla 1 se presenta la distribucin porcentual de los estudiantes fumadores y no fumadores para las variables segn caracterstica y categoras consideradas en el estudio.

AGRADECIMIENTOS
Construccin del rbol de clasificacin con factor de ponderacin
Se construyeron 25 rboles de clasificacin usando las combinaciones de los costos de mala clasificacin propuestos (C1 = costo de clasificar mal a un estudiante que fuma y C2 = costo de clasificar Los autores agradecen el apoyo brindado por la Fundacin Cientfica y Tecnolgica (FUCYT/ACHS) y la Escuela de Salud Pblica de la Universidad de Chile.

REFERENCIAS
Amigo H, Bustos P, Erazo M, Cumsille P, Silva, C. 2007a. Seminario Informe del proyecto FONIS SA04I2110. .2007b. Factores determinantes del exceso de peso en escolares: Un estudio multinivel. Rev Med Chile. 135:1510-1518. Beurskens AJ, Bultmann U, Kant I, Vercoulen JH, Bleijenberg G, Swaen GM. 2000. Fatigue among working people: validity of a questionnaire measure. Occup Environ Med. 57(5):353-357. Bucher HU, Fanconi S, Baeckert P, Duck G. 1989. Hyperoxemia in newborn infants: Detection by pulse oximetry. Pediatrics. 84:226-230. Breiman L, Friedman J, Olsehn R, Stone C. 1984. Classification and regression trees. Wadsworth International Group. Diener E. 1996. Subjective well-being in cross-cultural perspective. En: Grad H, Blanco A y Georgas J. (eds.). Key issues in cross-cultural psychology. Lisse, Netherlands: Swets y Zeitlinger. Friedman JH. 1991. Multivariate Adaptive Regression Splines (with discussion). Annals of Statistics. 19:1-55. Izquierdo-Vicario Y, Ramos-Platon M J, Conesa-Peraleja D, Lozano-Parra AB, Espinar-Sierra J. 1997. Epworth sleepiness scale in a sample of the spanish population. Sleep. 20(8):676-677. Kass GV. 1980. An exploratory technique for investigating large quantities of categorical data. J Appl Stat. 29(2):119-127. Salford Systems. 2000. CART for Windows. Users guide. Salford Systems Inc. Schiattino I, Villegas R, Caris L. 2003. rboles de clasificacin con factor de ponderacin aplicado al estudio del consumo de tabaco en jvenes de la regin metropolitana, Chile. Revista Investigacin Operacional. 24(3):282-291. Vera A, Vanegas J, Hirmas M, Carrasco C, Silva C. 2008a. Factores biopsicosociales predictores de oximetra alterada en trabajadores de la minera: un estudio exploratorio. Cien Trab. Jul-Sep; 10(29):85-89. .Vanegas J, Carrasco C, Contreras G. 2008b. Mal agudo de montaa, fatiga fsica y cognitiva en trabajadores de la minera que laboran en condiciones de altitud geogrfica. Cienc Trab. Jul-Sep; 10(29):80-85.

166

161/166 | www.cienciaytrabajo.cl | AO 10 | NMERO 30 | OCTUBRE / DICIEMBRE 2008 |

Ciencia & Trabajo

También podría gustarte