Universidad del Per, DECANA DE AMERI CA DEPARTAMENTO ACADMI CO DE ESTAD STI CA
Mg. Mara Estela Ponce Aruneri
ESCUELA ACADMICO PROFESIONAL DE ESTADSTICA ANLISIS MULTIVARIANTE SEMESTRE ACADMCO 2009 -II 2 ANLISIS EXPLORATORIO DE DATOS MULTIVARIANTES CONTINUACIN 3 3 Homocedasticidad
Es una hiptesis muy habitual en algunas tcnicas estadsticas como el Anlisis de la Varianza, el Anlisis Discriminante y el Anlisis de Regresin, entre otras.
Dicha hiptesis se refiere a suponer la igualdad de varianzas de las variables dependientes en diversos grupos formados por los distintos valores de las variables independientes. Si dicha hiptesis no se cumple, puede alterar la potencia y el nivel de significacin de los contrastes utilizados por dichas tcnicas, por ello es necesario analizar si se verifica o no , en caso contrario, poner los remedios oportunos. 4 Los grficos de cajas es una herramienta de gran utilidad para evaluar la diferencia o semenjanzas entre grupos, adems permite ubicar datos discordantes o extremos. Por ejemplo: Existen diferencias en las caractersticas de las viviendas de los distritos del cono norte y sur? 5 6 Las pruebas de hiptesis permite analizar la existencia de esta igualdad que, en muchas ocasiones, esta relacionado con una falta de normalidad de las variables analizadas. En la literatura se han propuesto diversos tests o pruebas (ver, por ejemplo, Jobson, 1991, Volumen 1). Uno de los ms utilizados es el test de Levene basado en aplicar un ANOVA a las diferencias absolutas respecto a una medida de tendencia central de los diversos grupos. Dicho test toma como hiptesis nula la existencia de homocedasticidad y como alternativa la de heterocedasticidad.
Un posible remedio contra la heterocedasticidad es transformar los datos originales. 7 Un grupo de transformaciones muy utilizadas son las de Box-Cox que vienen dadas por la siguiente expresin: ( ) 1 0 ln( ) 0 X C X C
+ =
El valor de C se elige de forma que X + C sea positiva. El
valor de se suele determinar de forma emprica.
En general este tipo de transformaciones suelen ser efectivas si no hay un nmero excesivo de outliers y si el cociente de la desviacin tpica dividida por la media es mayor que o si el cociente de la observacin ms 8 grande dividida por la ms pequea es mayor que 2.
Es importante que la transformacin elegida sea fcilmente interpretable y, en caso de duda, se aconseja repetir el anlisis con los datos transformados y sin transformar y observar si los resultados obtenidos difieren demasiado. En ste ltimo caso y si el procedimiento utilizado es poco robusto a la hiptesis de normalidad, utilizar los resultados con los datos transformados.
En el caso multivariado, se utiliza la prueba M de Box, para verificar homocedasticidad en poblaciones 9 Tarea: Con la base de datos asignada a cada grupo, verificar si se cumple el supuesto de homocedasticidad. Multivariadas. 10 QUINTA ETAPA DEL AED: DATOS ATPICOS (OUTLIERS) Los casos atpicos son observaciones con caractersticas diferentes de las dems.
Este tipo de casos no pueden ser caracterizados categricamente como benficos o problemticos sino que deben ser contemplados en el contexto del anlisis y debe evaluarse el tipo de informacin que pueden proporcionar. Su principal problema radica en que son elementos que pueden no ser representativos de la poblacin pudiendo distorsionar seriamente el comportamiento de los contrastes y resultados estadsticos. 11 Por otra parte, aunque diferentes a la mayor parte de la muestra, pueden ser indicativos de las caractersticas de un segmento vlido de la poblacin y, por consiguiente, una seal de la falta de representatividad de la muestra.
Tipos de outliers
Los casos atpicos pueden clasificarse en 4 categoras: La primera categora contiene aquellos casos atpicos que surgen de un error de procedimiento, tales como la entrada de datos o un error de codificacin. Estos casos atpicos deberan subsanarse en el filtrado de los datos, y si no se puede, deberan eliminarse del anlisis o recodificarse como datos ausentes. 12 La segunda clase es la observacin que ocurre como consecuencia de un acontecimiento extraordinario. En este caso, el outlier no representa ningn segmento vlido de la poblacin y puede ser eliminado del anlisis.
La tercera clase contiene las observaciones cuyos valores caen dentro del rango de las variables observadas, pero que son nicas en la combinacin de los valores de dichas variables. Estas observaciones deberan ser retenidas en el anlisis pero estudiando qu influencia ejercen en los procesos de estimacin de los modelos considerados. 13 La cuarta y ltima clase comprende las observaciones extraordinarias para las que el investigador no tiene explicacin. En estos casos lo mejor que se puede hacer es replicar el anlisis con y sin dichas observaciones con el fin de analizar su influencia sobre los resultados. Si dichas observaciones son influyentes el analista debera reportarlo en sus conclusiones y debera averiguar el por qu de dichas observaciones.
Identificacin de outliers
Los casos atpicos pueden identificarse desde una perspectiva univariante o multivariante. 14 La perspectiva univariante examina la distribucin de observaciones para cada variable, seleccionando como casos atpicos aquellos casos cuyos valores caigan fuera de los rangos de la distribucin. La cuestin principal consiste en el establecimiento de un umbral para la designacin de caso atpico. Esto se puede hacer grficamente mediante histogramas o diagramas de caja o bien numricamente, mediante el clculo de puntuaciones tipificadas. Para muestras pequeas (de 80 o incluso menos observaciones), las pautas sugeridas identifican como atpicos aquellos casos con valores estndar de 2.5 o superiores. Cuando los tamaos muestrales son mayores, las pautas sugieren que el valor umbral sea 3. 15 Pueden analizarse conjuntamente pares de variables mediante un grfico de dispersin. Casos que se ubiquen fuera del rango del resto de las observaciones pueden identificarse como puntos aislados en el grfico de dispersin. Para ayudar a determinar el rango esperado de las observaciones, se puede superponer sobre el grfico de dispersin una elipse que represente un intervalo de confianza especificado para una distribucin normal bivariante.
Lo que proporciona una representacin grfica de los lmites de confianza y facilita la identificacin de casos atpicos. 16 17 Finalmente existen procedimientos para detectar atpicos multivariantes.
Entre los mtodos grficos, se tiene: Caras de Chernoff, cada observacin se representa mediante una cara, a cada variable se le asocia un rasgo o caracterstica de la cara, como por ejemplo: (1) rea de cara (2) Forma de la cara (3)Longitud de la nariz (4) Localizacin de la boca. (5) Curva de la sonrisa (6) Grosor de la boca (7)Localizacin, separacin, inclinacin, forma y grosor de los ojos, etc. 18 Fuente: Banco Mundial (2002), FAO (2002) y PNUD (2001). 19 El Grfico, contiene las Caras de Chernoff para los 5 pases por encima y los 5 por debajo de Cuba en trminos de PIB per cpita a PPA. En este caso se utilizan slo las 9 variables explicativas tomadas para el ejercicio, excluyendo por supuesto al PIB percpita.
Cada rasgo de las caras tienen en cuenta la magnitud relativa para cada pas, de la siguiente forma: mientras la boca sea ms sonriente, el consumo de kilocaloras per cpita diaria es mayor, mientras la boca sea ms larga, mayor es la proporcin de la poblacin con acceso a fuentes de agua mejorada, cuando la boca est ms pegada a la nariz, menor es la cantidad de Computadoras personales por mil habitantes,
20 la nariz ms grande indica ms cantidad de telfonos y celulares por cien habitantes, una cara ms ancha expresa una mayor esperanza de vida al nacer, mientras ms para abajo se encuentre el nivel de las orejas, menor tasa de mortalidad para menores de 5 aos, un mentn ms pronunciado, corresponde a un consumo de electricidad per cpita menor, mientras ms achatada sea la parte superior de la cara, mayor ser la tenencia de televisores, una cara ms alargada, describe una mayor tasa total de matrcula.
Este grfico fue propuesto originalmente por Chernoff (1973) y extendida por Flury y Riedwyl (1981). 21 Grfico de estrellas, (Chambers, 1983). Cada estrella representa una observacin, se define a partir de un conjunto de radios, que forman el mismo ngulo, y que confluyen en un centro geomtrico. Cada radio representa a una variable. Su longitud es proporcional a la magnitud de la variable representada, relativizada al mximo valor que alcanza sta en la poblacin. La lnea que conecta los extremos los radios determina el grfico de estrella. Las variables empiezan a representarse desde la derecha y en direccin a las agujas del reloj. El tamao de cada lnea, respecto al centro de la estrella, est relacionado con los valores reeescalados de cada variable.
22 Un Grfico de Estrellas suele utilizarse para responder a las siguientes preguntas:
1. Fijado un elemento de la poblacin, qu variables son las dominantes? 2. Pueden establecerse similitudes entre los elementos de la poblacin?. A tenor de esto, podan establecerse grupos (clusters)? 3. Existen valores atpicos ? 23 Finalmente existen otros procedimientos para detectar atpicos multivariantes, dicha deteccin se puede hacer mediante un Anlisis de Componentes Principales. Tarea: Con la base de datos asignada a cada grupo, identificar datos atpicos a nivel univariado, bivariado y multivariado. 24 SEXTA ETAPA DEL AED: DATOS AUSENTES Los datos ausentes son algo habitual en el Anlisis Multivariante; de hecho, rara es la investigacin en la que no aparece este tipo de datos.
En estos casos la ocupacin primaria del investigador debe ser determinar las razones que subyacen en el dato ausente buscando entender el proceso principal de esta ausencia para seleccionar el curso de accin ms apropiado. 25 Para ello se debe determinar cul es el proceso de datos ausentes, entendido como cualquier evento sistemtico externo al encuestado (errores en la introduccin de datos) o accin por parte del encuestado (tales como rehusar a contestar) que da lugar a la ausencia de datos.
En particular, el investigador debe analizar si existe algn patrn no aleatorio en dicho proceso que pueda sesgar los resultados obtenidos debido a la prdida de representatividad de la muestra analizada.
26 Tipos de valores ausentes Se distinguen las dos situaciones siguientes:
1) Datos ausentes prescindibles: son resultado de procesos que se encuentran bajo el control del investigador y pueden ser identificados explcitamente. En estos casos no se necesitan soluciones especficas para la ausencia de datos dado que dicha ausencia es inherente a la tcnica usada. Ejemplos de estas situaciones son aquellas observaciones de una poblacin que no estn incluidas en la muestra o los llamados datos censurados que son observaciones incompletas como consecuencia del proceso de obtencin de datos seguido en el anlisis.
27 2) Datos ausentes no prescindibles: son resultado de procesos que no se encuentran bajo el control del investigador y/o no pueden ser identificados explcitamente. Ejemplos de estas situaciones son los errores en la entrada de datos, la renuncia del encuestado a responder a ciertas cuestiones o respuestas inaplicables.
En estos casos se debe analizar si existen o no patrones sistemticos en el proceso que puedan sesgar los resultados obtenidos. Si los datos ausentes son no prescindibles conviene, por lo tanto, analizar el grado de aleatoriedad presente en los mismos. 28 Segn este grado el proceso de datos ausentes se puede clasificar del siguiente modo:
a) Datos ausentes completamente aleatorios (MCAR), este es el mayor grado de aleatoriedad y se da cuando los datos ausentes son una muestra aleatoria simple de la muestra, sin un proceso subyacente que tiende a sesgar los datos observados. En este caso se podra solucionar el problema sin tener cuenta el impacto de otras variables
29 b) Datos ausentes aleatorios (MAR), en este caso el patrn de los datos ausentes en una variable Y no es aleatorio sino que depende de otras variables de la muestra X.
Ahora bien, para cada valor de X, los valores observados de Y s representan una muestra aleatoria de Y.
As, por ejemplo, si X es el gnero del encuestado e Y es su renta, un proceso MAR se tendra si existen ms valores ausentes de Y en hombres que en mujeres y, sin embargo, los datos son aleatorios para ambos gneros en el sentido de que, tanto en los hombres 30 en las mujeres, el patrn de ausentes es completamente aleatorio.
Si, adems, tampoco existen diferencias por gnero los datos ausentes seran MCAR.
Si los datos ausentes son MAR cualquier solucin al problema deber tener en cuenta los valores de X dado que afectan al proceso generador de datos ausentes.
31 c) Datos ausentes no aleatorios: en este caso existen patrones sistemticos en el proceso de datos ausentes y habra que evaluar la magnitud del problema calibrando, en particular, el tamao de los sesgos introducidos por dichos patrones. Si stos son grandes habra que atacar el problema directamente intentando averiguar cules son dichos valores.
Localizacin de datos ausentes
El primer paso en el tratamiento de datos ausentes consiste en evaluar la magnitud del problema. Para ello se comienza analizando el porcentaje de datos ausentes por variables y por casos. 32 Si existen casos con un alto porcentaje de datos ausentes se deberan excluir del problema. As mismo si existe una variable con un alto porcentaje de este tipo de casos su exclusin depender de la importancia terica de la misma y la posibilidad de ser reemplazada por variables con un contenido informativo similar.
Como regla general, sin embargo, si dicha variable es dependiente debera ser eliminada ya que cualquier proceso de imputacin de valores puede distorsionar la significacin estadstica y prctica de los modelos estimados para ella. 33 Diagnstico de la aleatoriedad en el proceso de datos ausentes Existen 3 mtodos:
a) Para cada variable Y formar dos grupos (observaciones ausentes y presentes en Y) y aplicar pruebas de comparacin de dos muestras para determinar si existen diferencias significativas entre los dos grupos sobre otras variables de inters.
Si se encuentran diferencias significativas el proceso de datos ausentes no es aleatorio. 34 b) Utilizar correlaciones dicotomizadas para evaluar la correlacin de los datos ausentes en cualquier par de valores. Estas correlaciones indicaran el grado de asociacin entre los valores perdidos sobre cada par de variables. Bajas correlaciones implican aleatoriedad en el par de variables y que los datos ausentes pueden clasificarse como MCAR. En caso contrario son MAR.
c) Realizar hiptesis conjuntas de aleatoriedad que determinen si los datos ausentes pueden ser clasificados como MCAR. Estos contrastes analizan el patrn de datos ausentes sobre todas las variables y las compara con el patrn 35 esperado para un proceso de datos ausentes aleatorio. Si no se encuentran diferencias significativas el proceso puede clasificarse como MCAR; en caso contrario deben utilizarse los procedimientos a) y b) anteriores para identificar los procesos especficos de datos ausentes que no son aleatorios.
Aproximaciones al tratamiento de datos ausentes Si se encuentran procesos de datos ausentes MAR o no aleatorios, el investigador debera aplicar slo el mtodo diseado especficamente para este proceso. Slo si el investigador determina que el proceso de ausencia de datos puede clasificarse como MCAR pueden utilizarse las siguientes aproximaciones: 36 a)Utilizar slo los casos completos: conveniente si el tamao muestral no se reduce demasiado.
b) Supresin de casos y/o variables con una alta proporcin de datos ausentes. Esta supresin deber basarse en consideraciones tericas y empricas. En particular, si algn caso tiene un dato ausente en una variable dependiente, habitualmente excluirlo puesto que cualquier proceso de imputacin puede distorsionar los modelos estimados.
As mismo una variable independiente con muchos datos ausentes podr eliminarse si existen otras variables muy similares con datos observados. 37 c) Imputar valores a los datos ausentes utilizando valores vlidos de otras variables y/o casos de la muestra
Mtodos de imputacin
Los mtodos de imputacin pueden ser de tres tipos:
1) Mtodos de disponibilidad completa que utilizan toda la informacin disponible a partir de un subconjunto de casos para generalizar sobre la muestra entera. Se utilizan habitualmente para estimar medias, varianzas y correlaciones 38 2) Mtodos de sustitucin que estiman valores de reemplazo para los datos ausentes, sobre la base de otra informacin existente en la muestra. As se podra sustituir observaciones con datos ausentes por observaciones no muestrales o sustituir dichos datos por la media de los valores observados o mediante regresin sobre otras variables muy relacionadas con aquella a la que le faltan observaciones.
3) Mtodos basados en modelos que construyen explcitamente el mecanismo por el que se producen los datos ausentes y lo estiman por mxima verosimilitud. Entran en esta categora el algoritmo EM o los procesos de aumento de datos. 39 Tarea: Con la base de datos asignada a cada grupo, realizar el anlisis de datos ausentes. 40 BIBLIOGRAFA 1. DANIEL PEA, 2002. Anlisis de Datos Multivariados. McGRAW-HILL/ Interamericana de Espaa. 2. URIEL, EZEQUIEL, ALDAS JOAQUIN. 2005 Anlisis Multivariante Aplicado. Editorial Thompson Editores. Espaa 3. DALLAS E. JOHNSON. 2000. Mtodos Multivariados Aplicados al Anlisis de Datos. International Thomson Editores. 4. HAIR J., ANDERSON R., TATHAM R., BLACK W. 2001. Anlisis Multivariante. Prentice Hall.