Está en la página 1de 27

BOLETN DE INVESTIGACIN NM. 256/13 12 DE JUNIO DE 2013 AGUASCALIENTES, AGS.

PGINA 1/3

CLASES MEDIAS EN MXICO


El Instituto Nacional de Estadstica y Geografa (INEGI), por primera vez elabora un boletn de investigacin para los medios de comunicacin con el objetivo de compartir informacin sobre temas de inters para la opinin pblica, que de momento no pueda ser considerada estadstica oficial. El Instituto informa de la investigacin que se est procesando sobre la magnitud de las clases medias en Mxico durante la primera dcada del siglo XXI. La investigacin se basa en los datos de la Encuesta Nacional de Ingresos y Gastos de los Hogares de 2000 y 2010, sujetos a una herramienta de estratificacin multivariada1 desarrollada en el Instituto para permitir una sntesis de informacin diversa y compleja bajo criterios de rigor estadstico. Se trata de una aproximacin al estudio de las clases medias en Mxico, que no pretende ser definitiva, sino que busca contribuir al anlisis del tema. Los resultados obtenidos al trmino de la primera dcada del siglo XXI muestran que 42.4% de los hogares, en donde vive el 39.2% de la poblacin total del pas, son de clase media. Por su parte, 2.5% de los hogares son de clase alta, viviendo en ellos el 1.7% de la poblacin del pas, mientras que, en el otro lado del espectro social, se tiene al 55.1% de los hogares donde desarrolla su vida el 59.1% de la poblacin mexicana.
Hogares y personas por clases sociales
Porcentaje

El objetivo de la estratificacin multivariada es resumir la informacin de todas las variables que se incluyen en el anlisis, en una medida unidimensional que permita clasificar las observaciones en grupos homogneos internamente y dismiles entre s. (Ver Nota Tcnica 2)

COMUNICACIN SOCIAL

BOLETN DE INVESTIGACIN NM. 256/13 12 DE JUNIO DE 2013 AGUASCALIENTES, AGS. PGINA 2/3

Principales resultados de la investigacin

Mientras que en 2010 la clase media representa 42.4% de los hogares y 39.2% de la poblacin nacional, en el mbito urbano, la clase media asciende a 50.1% y 47.0% de hogares y poblacin respectivamente; al tiempo que en el medio rural son de clase media 28.1% de los hogares y 26.0% de las personas.

Tamao de la clase media

En trminos absolutos a nivel nacional la clase media ascenda en 2010 a 12.3 millones de hogares y a 44 millones de personas; tres cuartas partes de estas magnitudes se concentran en reas urbanas.

COMUNICACIN SOCIAL

BOLETN DE INVESTIGACIN NM. 256/13 12 DE JUNIO DE 2013 AGUASCALIENTES, AGS. PGINA 3/3

Distribucin de la clase media en las reas rural y urbana


Millones hogares y personas

En el ao 2000 la magnitud nacional de hogares de clase media era de 38.4% viviendo en ellos el 35.2% de la poblacin. Lo anterior significa que en el transcurso de una dcada la magnitud de la clase media, ya sea contabilizada en trminos de hogares o de personas, se increment en 4 puntos porcentuales.

Se anexan Notas Tcnicas 1 y 2

COMUNICACIN SOCIAL

NOTA TCNICA 1

Antecedentes En Mxico desde hace un par de aos ha comenzado a suscitarse un debate sobre si ya es o no un pas de clases medias. Algunos argumentos se basan en los porcentajes de poblacin con acceso a bienes de consumo durables tales como los electrodomsticos y los de contenido tecnolgico (telefona celular); otras mediciones basadas slo en criterios econmicos establecen algn rango ms o menos arbitrario alrededor de la mediana de los ingresos per cpita (mediciones relativas) o tambin, a partir de criterios diversos y estudios empricos, establecen una cota mnima y una cota mxima de ingresos corrientes que definiran el espectro econmico en el que cabra ubicar, a juicio del analista, a las clases medias del pas. Reconociendo que se trata de una cuestin que no slo se debe abordar exclusivamente con criterios econmicos, sino desde luego tambin sociolgicos, y considerando que an no hay un consenso internacional en torno a una definicin estadstica de lo que son las clases medias, sin duda se trata de una discusin compleja que reclama ms de un ngulo para ser abordada. En ese sentido el INEGI no pretende tener la ltima palabra al respecto, pero s llamar la atencin no slo sobre las posibilidades de uso de la informacin existente, sino asimismo, con respecto a las herramientas metodolgicas desarrolladas en el Instituto que permiten sintetizar en conglomerados o estratos un conjunto de observaciones en funcin de los mltiples indicadores que los investigadores y usuarios en general quieran involucrar en su anlisis. Estas herramientas, como el Estratificador INEGI, estn abiertas a la exploracin y a distintos enfoques conceptuales, proporcionando garantas de rigor estadstico en los resultados obtenidos. En cuanto al resultado concreto al que aqu se llega, an y reconociendo su carcter exploratorio, cabe llamar la atencin que se aproxima mucho a los resultados que, por caminos metodolgicos enteramente distintos, han llegado otras investigaciones sobre la medicin de las clases medias en Mxico, en particular las emprendidas por analistas del Banco Mundial.

COMUNICACIN SOCIAL

Fuente de informacin y principios metodolgicos adoptados La fuente de informacin utilizada en la investigacin realizada por el INEGI ha sido la ms reciente encuesta nacional publicada de Ingresos y Gastos de los Hogares (ENIGH 2010) misma que consisti de una muestra de 30,169 viviendas. Los resultados de la encuesta se compararon, a su vez, con los resultados a los que se llega con su edicin de 10 aos atrs (ENIGH 2000), a efecto de tener una perspectiva de cmo avanzaron las clases medias en la primera dcada del siglo XXI. Se subraya con esto que los cambios en la composicin social del pas slo son observables en perodos largos de tiempo, y que dichos cambios no necesariamente estn correlacionados con las fluctuaciones de otros indicadores de carcter ms coyuntural o ms sensibles al corto plazo. El enfoque con la que se abord esta investigacin fue, en primer trmino, partir de un conjunto de indicadores, (17 en total), cualitativos y de gasto per cpita. Se privilegiaron los rubros de gasto sobre los de ingreso, dado que los informantes de las encuestas tienen menos incentivos a sub-declarar los primeros que los segundos. Se tom tambin en cuenta aqullos rubros de gasto que fueran ms all del consumo de bienes y servicios bsicos que deben presentarse en todo hogar. Es as como se seleccionaron variables tales como: el gasto per cpita en consumo de alimentos y bebidas fuera de la vivienda; gastos en cuidados personales; gastos en educacin cultura y recreacin, gastos en regalos otorgados a otros hogares, pago de tenencia y pago a tarjetas de crdito, entre otros. Una vez seleccionadas las variables, por medio del Estratificador INEGI se probaron 10 modelos distintos, que compiten entre s, para mejor describir el tipo de agrupamientos o conglomerados de hogares de la ENIGH en funcin de las 17 variables: se seleccion el modelo que resultara estadsticamente ms verosmil de ser obtenido en una muestra, dada la distribucin de hogares en el universo nacional al describrsele con esas 17 variables, y fue aplicado su algoritmo de conglomeracin cuyos resultados se optimizan con un total de 7 estratos de hogares. A efecto de agrupar estos estratos en tres clases, los 7 estratos o agrupamientos ptimos de hogares se sometieron a un anlisis para identificar diferencias no slo cuantitativas de gastos o ingresos entre los estratos, sino tambin a partir de cules estratos se detectaban diferencias cualitativas en variables tales como: porcentajes de jefes de hogar con un nivel de estudios medio-superior y superior; proporcin de ellos que tenan acceso al mercado de trabajo formal, en ocupaciones no manuales y en las de carcter gerencial o de supervisor, as como porcentaje de hogares al interior de cada estrato que tenan acceso a una vivienda propia. En funcin de cambios de magnitud significativos en estas ltimas

COMUNICACIN SOCIAL

variables se defini en cul de los siete estratos comienza la clase media y en cul de ellos concluye -tanto para el mbito urbano como para el rural del pas- de modo que los siete estratos de hogares se colapsan en tres grandes categoras o clases sociales. Cabe resaltar que en esta investigacin nunca se prejuzga sobre cules son los umbrales de nivel de vida (sean en trminos de gasto o de ingreso) que separan a las clases sociales, ni tampoco los porcentajes que debe haber en ellas de personas con escolaridad o en la jerarqua ocupacional del mercado laboral. Simplemente, los resultados de la estratificacin a los que se llega sugieren cuntos y cules son los niveles o umbrales a tomar en cuenta; el anlisis ulterior verifica en donde se detectan diferencias cualitativas (instruccin, posicin e insercin laboral y acceso a la propiedad) tras las diferencias meramente cuantitativas (gastos o ingresos). En esto la presente investigacin es radicalmente diferente desde el punto de vista metodolgico- a cualquier otra que se ha emprendido con respecto a la informacin referida a Mxico, ya que no requiere de acotamientos de gasto o de ingreso fijados de antemano o establecidos como una precondicin antes de clasificar los hogares. Dicho de otra manera, el mtodo seguido permite que los datos hablen por s mismos, en el sentido de que las fronteras que se identifican entre los estratos para determinar en cul de ellos comienza y en cul otro termina la clase media son un resultado al que se llega y no una premisa de la que se parte. Magnitud de las clases sociales en Mxico Los resultados obtenidos al trmino de la primera dcada del siglo XXI muestran que 42.4% de los hogares, en donde vive el 39.2% de la poblacin total del pas, son de clase media. Por su parte, 2.5% de los hogares son de clase alta, viviendo en ellos el 1.7% de la poblacin del pas, mientras que, en el otro lado del espectro social, se tiene al 55.1% de los hogares donde desarrolla su vida el 59.1% de la poblacin mexicana.

COMUNICACIN SOCIAL

Hogares y personas por clases sociales


Porcentaje

Pobreza y clase baja


Porcentaje

Distincin entre clase baja y pobreza Es importante precisar que clase social baja no es sinnimo de pobreza en esta investigacin. No necesariamente todos los miembros de clase baja son pobres en el sentido de que caigan debajo de un umbral normativo de ingresos y de acceso a bienes y servicios pblicos que les impida ejercer sus capacidades bsicas como miembros de la colectividad nacional. Una de las conclusiones que se desprenden del estudio exploratorio es que la pobreza, ms que constituir una clase social en s misma, es una condicin que puede presentarse con mayor probabilidad para la clase baja que corresponde al 55.1% de los hogares y 59.1% de la poblacin del pas. Eventos catastrficos al interior del hogar como la prdida sbita del principal proveedor o la presencia de una enfermedad o accidente grave entre sus integrantes pueden ser factores decisivos para que ese segmento incurra en pobreza, lo mismo que un episodio de hiperinflacin o una recesin econmica profunda en el plano macroeconmico. Por ello la condicin de pobreza flucta ms que la pertenencia a una clase social propiamente dicha. As pues, la clase baja, lo mismo que la clase media, resulta un segmento heterogneo pero estable, estadsticamente hablando, en el que se presentan distintas situaciones de previsin frente a la adversidad, de cercana a los mecanismos de proteccin del Estado y de pertenencia a redes de solidaridad grupal.

COMUNICACIN SOCIAL

Principales resultados del estudio exploratorio Mientras que en 2010 la clase media representa 42.4% de los hogares y 39.2% de la poblacin nacional. En el mbito urbano, la clase media asciende a 50.1% y 47.0% de hogares y poblacin respectivamente; al tiempo que en el medio rural son de clase media 28.1% de los hogares y 26.0% de las personas.
Tamao de la clase media

En trminos absolutos a nivel nacional la clase media ascenda en 2010 a 12.3 millones de hogares y a 44 millones de personas; tres cuartas partes de estas magnitudes se concentran en reas urbanas.

COMUNICACIN SOCIAL

Distribucin de la clase media en las reas rural y urbana


Millones hogares y personas

En el ao 2000 la magnitud nacional de hogares de clase media era de 38.4% viviendo en ellos el 35.2% de la poblacin. Lo anterior significa que en el transcurso de una dcada la magnitud de la clase media, ya sea contabilizada en trminos de hogares o de personas, se increment en 4 puntos porcentuales.

La aportacin del mbito urbano en trminos de clases medias es decisiva. Si bien a nivel nacional todava distan de ser mayora los hogares en este estrato social (42.4%) a nivel urbano el 50.1% de los hogares, con el 47.0% de la poblacin en dicho mbito, es clase media, contrastando con el 28.1% de los hogares y 26.0% de la poblacin en el mbito rural (que para efectos de esta investigacin es la que habita en localidades con menos de 15,000 habitantes). En trminos absolutos 12.3 millones de hogares y 44 millones de personas constituan, en 2010, la clase media en el pas, siendo que tres cuartas partes de ambas magnitudes se ubican en el mbito urbano. Si del conjunto de hogares que en el estudio quedaron clasificados como de clase media se selecciona uno al azar, lo ms probable es que ese hogar cuente al menos con computadora; gaste alrededor de 4,400 pesos al trimestre (a precios de 2010) tan solo en consumir alimentos y bebidas fuera del hogar; haya quien tenga tarjeta de crdito, as como un integrante inserto en el mercado laboral formal; lo encabece alguien que cuente al menos con educacin media superior y que su estado civil sea casado, conformando un hogar nuclear de cuatro personas. Asimismo, lo ms probable es que quienes viven en hogares de clase media trabajen en el sector privado y que sus hijos asistan a escuelas pblicas.

COMUNICACIN SOCIAL

Llama tambin la atencin que estos hogares dependan ms de los crditos de inters social y/o los recursos familiares que del crdito comercial bancario, para el acceso a la propiedad de la vivienda.
Hogar caracterstico de clase media en Mxico

La magnitud de hogares identificados en este estudio como de clase media coincide con el estudio realizado por investigadores del Banco Mundial (Lpez Calva y Ortiz Jurez, 2011), quienes con una metodologa distinta, basada en modelos economtricos, haban establecido que la clase media en el pas est constituida por aqul segmento con una probabilidad menor al 10% de incurrir en pobreza. Aplicando la misma metodologa del INEGI a los datos de la ENIGH 2000, se obtiene que al comenzar el presente siglo el 38.4% de los hogares conformados por el 35.2% de la poblacin eran de clase media. Comparados con los datos del 2010 se tiene que en la primera dcada de esta centuria la clase media se increment en cuatro puntos porcentuales o a un ritmo anual promedio de 0.4 puntos porcentuales por ao.

COMUNICACIN SOCIAL

Crecimiento de clase media (2000-2010)

Diferentes estimaciones del tamao de la clase media

\1 Proporcin con respecto a la mediana en Mxico. Pressman Steven. La Clase Media en Pases Latinomericanos. Revista Problemas del Desarrollo, 164 (42), enero -marzo 2011. \2 Hogares ubicados en el espectro de ingreso corriente. Lpez-Calva Luis F. y Ortiz-Jurez Eduardo. A Vulnerability Approach to the Definition fo the Middle Class. The Word Bank Latin America and the Caribbean Region, Poverty, Equity, and Gender Unit, December 2011.

COMUNICACIN SOCIAL

Clases medias La investigacin emprendida para contabilizar a la clase media comprendi siete etapas que van desde la seleccin de la fuente de informacin y las variables que se tomaran de ella, pasando por la aplicacin y prueba estadstica de algoritmos de conglomeracin de hogares, su anlisis para la determinacin de cules y cuntos de ellos definen el espectro de clases medias en el pas, la cuantificacin de hogares y personas as clasificados y la comparacin final con otros estudios e investigaciones realizadas para Mxico en aos recientes.
Fases de la Investigacin

Aspectos conceptuales y metodolgicos En esta investigacin es esencial recalcar que no se parte de una nocin preestablecida o normativa de lo que debe ser la clase media o se supone que sea. La filosofa aqu es enteramente distinta y consiste en la identificacin de estratos o conglomerados de hogares que difieren cuantitativa y cualitativamente de otros conglomerados en la estratificacin de hogares, quedando establecido con respecto a cules hay superioridad en gastos no ligados a la subsistencia lo mismo que en su composicin en trminos de escolaridad, insercin y status laboral as como en acceso a la propiedad. Es una identificacin meramente estadstica que deja abierta las posibilidades a los acadmicos y analistas para ensayar una descripcin verbal que mejor sintetice y se adapte a los contenidos de esos estratos.

COMUNICACIN SOCIAL

Fuente de informacin La fuente de informacin en la que se fundamenta este estudio es la encuesta Nacional de Ingresos y Gastos de los Hogares (ENIGH) en sus ediciones 2000 y 2010. Si bien la ENIGH 2010 adems de las 30,169 viviendas que le dan representatividad nacional cont con una ampliacin de muestra en la que se permite representatividad a nivel de entidad federativa, no se us dicha ampliacin por dos motivos 1) porque en la ampliacin slo se capt la parte de ingresos ms no la de gastos que es la plataforma o punto de partida de esta investigacin y 2) porque la ENIGH 2000 contra la que se compara careci de una ampliacin de muestra similar. As pues los datos que aqu se ofrecen slo son representativos del pas en su conjunto con desagregacin urbano-rural ms no por entidad federativa. Variables de conglomeracin La seleccin inicial de variables para generar grupos o conglomerados diferenciados de hogares se centr sobre todo en variables de gasto porque de acuerdo a la teora econmica es el gasto corriente -ms que el ingreso corrientela mejor pista para estimar el ingreso permanente de los hogares o nivel de vida, adems del hecho de que los informantes en encuestas de este tipo tienden a subdeclarar ms los ingresos que los gastos. Los ingresos corrientes se toman en cuenta ms adelante para analizar los conglomerados pero no en s para conformarlos. Se tuvo cuidado asimismo de evitar seleccionar rubros de gasto que quedaran asociados a factores contingentes (como gastos funerarios o gastos de hospitalizacin) de modo que la conglomeracin se centre slo en gastos que ocurren con regularidad.
Variables de conglomeracin

COMUNICACIN SOCIAL

Modelos de conglomeracin Una vez seleccionadas las variables se hizo una exploracin para ver si por medio de combinaciones lineales de las mismas valdra la pena reducirlas a unos cuantos indicadores o componentes principales. Las pruebas realizadas mostraron que los componentes principales no tenan una buena contribucin a la varianza explicada de las observaciones, lo que significa que en realidad en la seleccin inicial de variables hay poca redundancia y que todas ellas aportan informacin distinta, por lo que se decidi conglomerar con el grupo original de variables estandarizadas; esto ltimo dadas las diferencias de escala y mtrica en algunas de ellas. Las 17 variables son como las coordenadas de cada observacin u hogar a clasificar en grupos o conglomerados. Estos grupos o conglomerados pueden tener distintas formas o geometras, pero estas formas o geometras deben ser aquellas que se ajusten mejor a la distribucin subyacente que tienen los hogares en la ENIGH en un espacio de 17 dimensiones. Una de las contribuciones metodolgicas fue no quedarse con un slo modelo de conglomeracin sino probar varios modelos que describen, cada uno, geometras de conglomerados distintas y ver cul es la ms verosmil de obtener al muestrear el universo de hogares de quedar configurado como un espacio de 17 coordenadas. Se probaron 10 modelos de conglomeracin en total desde aquellos ms simples para los que se requiere estimar menos parmetros- a los ms complejos. El modelo seleccionado o ms verosmil es aqul que optimiza una expresin matemtica denominada Bayesian Information Criterion (BIC) misma que contiene una funcin de probabilidad. Una vez elegido el modelo, se conglomeran todos los hogares de la ENIGH de acuerdo a los parmetros que lo definen. Para el dominio urbano de la ENIGH el modelo de obtencin ms verosmil fue el identificado por las siglas VEV, mientras que en el dominio rural de su muestra por el modelo VVV. Asimismo el resultado permite identificar el nmero ms eficiente de conglomerados que para ambos dominios (urbano y rural o menos de 15 mil habitantes) fue siete.

COMUNICACIN SOCIAL

Modelos de conglomeracin y parmetros

Distribucin de hogares por estrato (conglomerados ordenados)

Los conglomerados obtenidos ordenados como estratos indican cul es su composicin de hogares y por ende la poblacin que se acumula por estrato. Hasta esta fase de anlisis se tiene un ordenamiento por nivel de vida al fundamentarse sobre todo la estratificacin en variables de gasto per cpita en los hogares. Sin embargo si no se analizan resulta prematuro todava determinar que hay siete clases sociales. Se precisa entender, qu factores hay detrs de esta diferenciacin en siete niveles. Para ese anlisis se tomaron en cuenta las variables que a continuacin se muestran:

COMUNICACIN SOCIAL

Variables postconglomeracin

Variables sociodemogrficas ms significativas

El anlisis indic que algunas diferencias de nivel de vida en realidad eran diferencias en el ciclo de vida de los hogares cuando se comparan algunos estratos vecinos. Sin embargo, cuando las diferencias tienen que ver ms con variables como los porcentajes de hogares con acceso formal a la propiedad de la vivienda, acceso al mercado de trabajo formal, a aspectos de jerarqua ocupacional, o al nivel de instruccin, se considera que hay diferencias cualitativas y no meramente demogrficas en las diferencias de niveles de vida y es ah en donde se decide que hay una ruptura entre un grupo de estratos y otro. Por ejemplo, a nivel urbano las mayores diferencias cualitativas o rupturas se detectan entre el estrato 3 y el 2 que le antecede, as como entre el estrato 6 y el 7 que le sucede. Se determina as que en el dominio o mbito urbano los estratos que corresponden al segmento medio del espectro son los que van del 3 al 6 con todos los hogares y poblacin que ah se concentra.

COMUNICACIN SOCIAL

Anlisis de los estratos Estrato 3 Estrato 7

Por su parte en el mbito o dominio rural se detectaron diferencias importantes hasta el estrato 5 en tanto que se consider que el estrato 7 rural estaba an muy lejos de los niveles y caractersticas del estrato 7 urbano, por lo que se concluy que en el mbito rural no hay un estrato alto y slo tres de sus estratos (5, 6 y 7) tienen caractersticas en comn con los estratos 3-6 urbanos considerados como medios. Se acumularon entonces los hogares y sus residentes en los estratos 3-6 urbanos y 5-7 rurales para definir la magnitud de las clases medias; los estratos 1 y 2 urbanos con los estratos 1-4 rurales para definir la magnitud de la clase baja y, finalmente, queda slo el estrato 7 urbano con sus hogares y poblacin como clase alta. Para obtener mayor informacin sobre los resultados presentados en este comunicado, en el sitio oficial del INEGI en Internet www.inegi.org.mx. En breve se pondr a disposicin en la seccin de estadsticas experimentales una presentacin completa sobre los contenidos de esta investigacin.

COMUNICACIN SOCIAL

NOTA TCNICA 2 Clases medias

Introduccin El anlisis de agrupamiento o clustering es una herramienta estadstica que tiene como objetivo identificar estructuras o subclases en los datos que tengan algn sentido para el investigador. Por ejemplo, el investigador que est recogiendo datos por medio de un cuestionario podra encontrarse con un gran nmero de observaciones que no tienen un significado a menos que se encuentren dentro de grupos manejables. Estos grupos (clusters) son desconocidos a priori sin embargo, los mismos datos y los algoritmos de agrupamiento pueden dar la sugerencia de su conformacin. Esencialmente se trata de resolver el siguiente problema: Dado un conjunto de n elementos caracterizados por la informacin de p variables, es decir se tiene un conjunto de datos multivariados (individuos x variables), se plantea el reto de agrupar los elementos de forma tal que los que pertenecen a un grupo sean tan similares entre s y los distintos grupos tan disimilares como sea posible. La clasificacin se considerar razonable si los objetos de un mismo grupo tienen valores parecidos en las variables observadas, y por el contrario, entre individuos pertenecientes a clases distintas pueden apreciarse caractersticas diferentes. Una clasificacin sobre los tipos de algoritmos: Algoritmos basados en particionamientos. Se construyen varias particiones de los datos y se evalan siguiendo algn criterio, generalmente este criterio consiste en que en cada paso se unen dos grupos si el incremento de la suma de cuadrados es mnima. Algoritmos jerrquicos. Crean una jerarqua que descompone el conjunto de datos usando algn criterio. Este empieza con tantos grupos como observaciones haya y el nmero de clusters va decreciendo de uno en uno en cada paso. Dos grupos son unidos en cada etapa de acuerdo a un criterio de optimizacin, comnmente el criterio es la ms pequea

COMUNICACIN SOCIAL

disimilaridad (single-linkage); disimilaridad promedio (average) o la mxima disimilaridad (complete). Basados en densidad. Localizan zonas de alta densidad separadas por regiones de baja densidad. Comienza seleccionando un punto t arbitrario, si t es un punto central, se empieza a construir un cluster alrededor de l, tratando de descubrir componentes denso-conectadas; si no, se visita otro objeto del conjunto de datos. Uno de los primero algoritmos que utiliz este enfoque: DBSCAN (Density Based Spatial Clustering of Aplications with Noise) [Ester, et al., 96]. Basados en modelos: Se supone (hiptesis) una distribucin para cada grupo y se trata de encontrar la distribucin conjunta que mejor se adapte a los datos de estudio. Asume que los datos son producidos por una mezcla de distribuciones, significa que es visto como si los datos provinieran de un nmero finito de poblaciones mezcladas en varias proporciones, es decir que cada poblacin representa un cluster con caractersticas especficas. Algo imprescindible cuando se realizan procedimientos de agrupamiento es el contar con un criterio o un ndice que valide la calidad de las agrupaciones y la determinacin del nmero de clusters. La mayora se basan en estimar cun compactos y separados estn los grupos midiendo la distancia euclideana de los puntos a los centroides de los grupos (criterio usado en algoritmos basados en particiones y jerrquicos). Sin embargo, esta forma de medir no toma en cuenta la forma de los grupos ni el grado de solapamiento que puedan tener, dando a veces resultados no realistas. En la bsqueda de mejores tcnicas y debido a su amplia gama de aplicaciones se han desarrollado otros algoritmos encaminados a identificar patrones ocultos en los datos, grupos solapados, presencia de ruido, (aquellos datos que no se ajustan al patrn de la muestra) adems identifica grupos con diferentes aspectos geomtricos: lineales, esfricas, irregulares, incluso huecas como grupos no convexos, entre otros. En general, los resultados de agrupamiento dependern del algoritmo, del ndice de validacin de la calidad de agrupacin, de los valores de los parmetros, e incluso est en funcin de la finalidad u objetivo de la investigacin. COMUNICACIN SOCIAL

El caso del mtodo basado en modelos tiene la virtud identificar grupos de distintas figuras geomtricas y es suficientemente general para abarcar otros algoritmos de agrupamiento, por ejemplo los que se basan en el criterio de suma de cuadrados. Ms detalles McLachlan y Peel (2000) o Fraley and Raftery (2002). Este mtodo es una gran opcin por su generalidad, por su disponibilidad de software y por las distribuciones admitidas que no necesariamente son gaussianas.

Para ms informacin sobre distintos mtodos y criterios de validacin y calidad de agrupacin (ver [2]). Un mtodo reciente por ejemplo, es el anlisis de clster no jerrquico, el cual est relacionado con la identificacin de outliers y es llamado Fixed Point Cluster Analysis FPCA. El objetivo es encontrar grupos de puntos generados por un modelo estocstico sin asumir un modelo global para todo el conjunto de datos (ver C. Hennig 1997).

Mtodo basado en modelos Para fines ilustrativos, en la figura 1 se representa un conjunto de datos bidimensionales en los que se forman varios grupos de manera natural, el mtodo de agrupamiento basado en modelos se distingue en tener varios supuestos: Existen G grupos, el k-simo grupo es representado por Los datos provienen de una mezcla de distribuciones. Cada distribucin representa un grupo (cluster). La suma de estas funciones es una distribucin conjunta, es decir una mezcla de las distribuciones. Cada observacin surge de uno de los G grupos posibles.

COMUNICACIN SOCIAL

Figura. 1 Representacin de agrupacin en un espacio de dimensin dos, cada grupo es representado por un color y una funcin de distribucin que pueden o no ser distintas.

La representacin de la mezcla de distribuciones matemticamente es expresado por:


(1)

Los valores k son probabilidades a priori de cada grupo y son tal que

La funcin

) representa la k-sima distribucin de probabilidad o la funcin

que caracteriza el k-simo grupo. Es posible tener distintas distribuciones en la misma mezcla. es el conjunto de parmetros que definen cada distribucin. Por ejemplo, si se supone que esas distribuciones son debidas a una mezcla de gaussianas, entonces cada grupo tiene distintos parmetros entre s (media y varianza) y la expresin (1) se re-escribira:

COMUNICACIN SOCIAL

Sin embargo el parmetro dada la muestra.

es desconocido, as que se recurre a la estimacin ,

bajo inferencia bayesiana en la que se calcula la distribucin a posteriori de

En palabras, la expresin anterior se lee: l a distribucin posterior parmetro dado los datos, es proporcional a la informacin a priori de veces la informacin de los datos.

del

La distribucin a priori

describe la incertidumbre de .

es la funcin de

verosimilitud, es decir, se busca

que hace mxima la probabilidad de aparicin

de los valores muestrales observados. En otras palabras, dados los valores en la muestra se buscan los valores de los parmetros de la poblacin que ms posibilidades tengan de representar a la poblacin que gener a la muestra. El objetivo general es estimar los parmetros de las distribuciones de la mezcla y clasificar despus las observaciones por sus probabilidades de pertenencia a las distintas poblaciones segn la distribucin conjunta (1). Una de las elecciones ms usuales para obtener estimaciones de mxima verosimilitud para los parmetros de la mezcla es el algoritmo EM cuyas iniciales provienen de ExpectationMaximization (Dempster et al., 1977) (ver McLachlan y Krishnan, 1977). Una de las grandes ventajas de este tipo de algoritmos es que pueden identificar grupos con distintas formas, orientacin y volumen, para lograr esto se plantea que la matriz de covarianza de cada distribucin (grupo) puede re-parametrizarse por su descomposicin espectral en la forma:
(2)
Dk sirve para determinar la orientacin de los elipsoides (grupos), matriz ortogonal de eigenvectores. Ak sirve para identificar la forma de la distribucin, es una matriz diagonal compuesta por los eigenvalores de . k es un escalar e identifica el volumen.

COMUNICACIN SOCIAL

Dicho lo anterior, cada componente de la matriz de covarianza representa cierta caracterstica (orientacin, volumen y forma), stos pueden ser forzados a ser iguales en cada grupo o bien distintos para todos los grupos. Estas caracterizaciones las llamaremos plantillas. Por ejemplo, si se supone que todas las matrices de covarianza son iguales en todos los grupos, en otras palabras no existe correlacin entre las variables de los datos, la matriz de covarianza para cada grupo sera expresada as . ( es la matriz identidad). Esta restriccin es la misma que supone los algoritmos que usan el criterio de suma de cuadrados. El caso contrario a este ejemplo, la caracterizacin menos parsimoniosa donde se da la libertad a los parmetros de la matriz de covarianzas que varen y se permite que sean desiguales en todos los grupos. Entre estos dos ejemplos, existirn modelos intermedios resultado de la combinacin de la variacin de las componentes. El cuadro 1 muestra diez representaciones de distintas estructuras de matriz de covarianza. La representacin EVI indicara un modelo donde todos los grupos tienen el mismo volumen (E, equal); la forma de los grupos puede variar ( V, varing) y la orientacin es I idntica (I, Identity) que corresponde a una distribucin diagonal En total tendremos 10 formas o 10 distintos modelos posibles de agrupar los datos.

COMUNICACIN SOCIAL

Cuadro 1

Parametrizacin de la matriz de covarianza y su relacin con la forma geomtrica

Identifier EII VII EEI VEI EVI VVI EEE EEV VEV VVV

model

Distribution Esfrica Esfrica Diagonal Diagonal Diagonal Diagonal Ellipsoidal Ellipsoidal Ellipsoidal Ellipsoidal

volume equal Equal

shape equal Equal

Orientation NA NA

Variable Equal

Coordinate axes Variable Equal Coordinate axes Equal Variable Coordinate axes Variable Variable Coordinate axes Equal Equal Equal Equal Equal Variable Variable Variable Equal

Variable Variable Variable

La decisin sobre cul plantilla o modelo es el que ms se ajusta a la poblacin de estudio lo sugiere el criterio BIC por sus siglas en ingls Bayesian Information Criteria (Schwarz 1978) y es usado en un amplio nmero de aplicaciones (e.g. Dasgupta and Raftery 1998; Fraley and Raftery 1998, 2002). Proporciona la posibilidad de seleccionar distintos modelos del mismo modo que cuando realizamos contrastes de hiptesis. Este criterio trata de seleccionar el modelo correcto con mxima probabilidad a posteriori y puede demostrarse que es un criterio consistente de manera que la probabilidad de seleccionar el modelo correcto tiende a 1 si crece el tamao muestral. La formulacin aade una penalizacin a la funcin de verosimilitud basada sobre el nmero de parmetros.
(3) Donde: es el valor mximo de la log verosimilitud de los datos usando es el nmero de parmetros y el nmero de observaciones.

algn modelo de los 10 disponibles. El valor independientes que son estimados en el modelo

COMUNICACIN SOCIAL

Se tendr el valor del criterio BIC para cada plantilla y para diferentes nmeros de grupos. Se sugiere el modelo o plantilla que en combinacin con el nmero de grupos maximice2 el criterio BIC, esto puede apreciarse mejor en un grafica como en la figura 2. El software MCLUST implementa el agrupamiento basado en modelos, disponible en http://www.stat.washington.edu/mclust y diseado para interfaz S-plus y/o R. La estimacin bayesina requiere una compleja integracin de elementos en la bsqueda de la mejor estimacin sobre todo problemas computacionales de indeterminaciones. Afortunadamente el mismo paquete resuelve situaciones de no-convergencia o de soluciones no factibles que se pueden presentar en el algoritmo EM (ver [6]). Recientemente mucho se ha trabajado, ya en las estimaciones bayesianas usando MCMC (Markov Chain Monte Carlo), (ver ms detalles en [7]).
Fig. 2 Valores BIC para distintos modelos y distintos nmero de grupos, se elige la combinacin que maximice el criterio.

Algunos autores definen el BIC con signo contrario a la expresin (3). En estos casos, el valor ms pequeo (ms negativo) es el que se toma como referencia para la eleccin del mejor modelo.

COMUNICACIN SOCIAL

Como resumen podemos decir que sin duda, el alto crecimiento de aplicaciones en distintas reas en materia de agrupamiento forza a los investigadores estadsticos a implementar nuevos algoritmos que mejoren los procedimiento y que se adapten a las aplicaciones reales. El mtodo basado en modelos es una buena opcin para realizar agrupaciones que no necesariamente son restringidos a ser iguales en forma y orientacin, casos que se obtienen en situaciones reales con datos multidimencionales. Por la naturaleza del mtodo podemos conocer las incertidumbres de los elementos clasificados en algn grupo, es decir, podemos saber qu probabilidad tiene el elemento de ser asignado a cualquier cluster y estimar el error de medicin. Adems, el problema de determinar el nmero de grupos se resuelve simultneamente eligiendo tambin el mejor modelo o plantilla que se adapte a los datos segn el criterio BIC. Otra ventaja es que el mtodo tambin tiene la capacidad de identificar la presencia de ruido y outliers suponiendo que es un grupo distinto a los dems modelado con una distribucin Poisson. Para ms detalles consultar las referencias mostradas.

Referencias [1] Banfield JD, Raftery AE (1993). Model-based Gaussian and NonGaussian Clustering. Biometrics, 49, 803821. [2] Damaris Pascual (2010). Algoritmos de agrupacin basados en densidad y validacin de clusters. Tesis doctoral, Castelln , Marzo 2010. [3] Fraley C., Raftery AE (1998). How Many Clusters? Which Clustering Method? Answers via Model-based Cluster Analysis. Computer Journal, 41, 578588. [4] Fraley C., Raftery AE (1999). mclust: Software for Model -based Cluster Analysis. Journal of Classification, 16, 297306. [5] Fraley C., Raftery AE (2002). Model -based Clustering, Discriminant Analysis and Density Estimation. Journal of the American Statistical Association, 97, 611631.

COMUNICACIN SOCIAL

[6] Fraley C., Raftery AE (2007). Bayesian Regularization for Normal Mixture Estimation and Model-Based Clustering. Journal of Classification, 24, 155-181. [7] Jasra A, Holmes C.C y Stephens D.A (2005). Markov Chain Monte Carlo Methods and the Label Switching Problem in Bayesi an Mixture Modelling. Statistical Science 20,50-67. [8] Pea, D. (2004), Interamericana. Anlisis de datos multivariantes, McGraw-Hill

COMUNICACIN SOCIAL

También podría gustarte