Está en la página 1de 40

1

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS












Universidad del Per, DECANA DE AMERI CA
DEPARTAMENTO ACADMI CO DE ESTAD STI CA

Mg. Mara Estela Ponce Aruneri

ESCUELA ACADMICO PROFESIONAL DE ESTADSTICA
ANLISIS MULTIVARIANTE
SEMESTRE ACADMCO 2009 -II
2
ANLISIS
EXPLORATORIO DE
DATOS MULTIVARIANTES
CONTINUACIN
3
3 Homocedasticidad

Es una hiptesis muy habitual en algunas tcnicas
estadsticas como el Anlisis de la Varianza, el Anlisis
Discriminante y el Anlisis de Regresin, entre otras.

Dicha hiptesis se refiere a suponer la igualdad de
varianzas de las variables dependientes en diversos
grupos formados por los distintos valores de las
variables independientes. Si dicha hiptesis no se
cumple, puede alterar la potencia y el nivel de
significacin de los contrastes utilizados por dichas
tcnicas, por ello es necesario analizar si se verifica o
no , en caso contrario, poner los remedios oportunos.
4
Los grficos de cajas es una herramienta de gran
utilidad para evaluar la diferencia o semenjanzas entre
grupos, adems permite ubicar datos discordantes o
extremos.
Por ejemplo:
Existen diferencias en las caractersticas de las
viviendas de los distritos del cono norte y sur?
5
6
Las pruebas de hiptesis permite analizar la existencia
de esta igualdad que, en muchas ocasiones, esta
relacionado con una falta de normalidad de las variables
analizadas. En la literatura se han propuesto diversos
tests o pruebas (ver, por ejemplo, Jobson, 1991, Volumen
1). Uno de los ms utilizados es el test de Levene basado
en aplicar un ANOVA a las diferencias absolutas
respecto a una medida de tendencia central de los
diversos grupos. Dicho test toma como hiptesis nula la
existencia de homocedasticidad y como alternativa la de
heterocedasticidad.

Un posible remedio contra la heterocedasticidad es
transformar los datos originales.
7
Un grupo de transformaciones muy utilizadas son las
de Box-Cox que vienen dadas por la siguiente
expresin:
( ) 1
0
ln( ) 0
X C
X C

+ =

El valor de C se elige de forma que X + C sea positiva. El


valor de se suele determinar de forma emprica.

En general este tipo de transformaciones suelen ser
efectivas si no hay un nmero excesivo de outliers y si el
cociente de la desviacin tpica dividida por la media es
mayor que o si el cociente de la observacin ms
8
grande dividida por la ms pequea es mayor que 2.

Es importante que la transformacin elegida sea
fcilmente interpretable y, en caso de duda, se
aconseja repetir el anlisis con los datos
transformados y sin transformar y observar si los
resultados obtenidos difieren demasiado. En ste
ltimo caso y si el procedimiento utilizado es poco
robusto a la hiptesis de normalidad, utilizar los
resultados con los datos transformados.

En el caso multivariado, se utiliza la prueba M de
Box, para verificar homocedasticidad en poblaciones
9
Tarea:
Con la base de datos asignada a cada grupo,
verificar si se cumple el supuesto de
homocedasticidad.
Multivariadas.
10
QUINTA ETAPA DEL AED:
DATOS ATPICOS (OUTLIERS)
Los casos atpicos son observaciones con
caractersticas diferentes de las dems.

Este tipo de casos no pueden ser caracterizados
categricamente como benficos o problemticos sino
que deben ser contemplados en el contexto del anlisis
y debe evaluarse el tipo de informacin que pueden
proporcionar. Su principal problema radica en que son
elementos que pueden no ser representativos de la
poblacin pudiendo distorsionar seriamente el
comportamiento de los contrastes y resultados
estadsticos.
11
Por otra parte, aunque diferentes a la mayor parte de la
muestra, pueden ser indicativos de las caractersticas de
un segmento vlido de la poblacin y, por consiguiente,
una seal de la falta de representatividad de la muestra.

Tipos de outliers

Los casos atpicos pueden clasificarse en 4 categoras:
La primera categora contiene aquellos casos atpicos
que surgen de un error de procedimiento, tales como la
entrada de datos o un error de codificacin. Estos casos
atpicos deberan subsanarse en el filtrado de los datos,
y si no se puede, deberan eliminarse del anlisis o
recodificarse como datos ausentes.
12
La segunda clase es la observacin que ocurre como
consecuencia de un acontecimiento extraordinario. En
este caso, el outlier no representa ningn segmento
vlido de la poblacin y puede ser eliminado del
anlisis.

La tercera clase contiene las observaciones cuyos
valores caen dentro del rango de las variables
observadas, pero que son nicas en la combinacin de
los valores de dichas variables. Estas observaciones
deberan ser retenidas en el anlisis pero estudiando
qu influencia ejercen en los procesos de estimacin de
los modelos considerados.
13
La cuarta y ltima clase comprende las
observaciones extraordinarias para las que el
investigador no tiene explicacin. En estos casos lo
mejor que se puede hacer es replicar el anlisis con y
sin dichas observaciones con el fin de analizar su
influencia sobre los resultados. Si dichas
observaciones son influyentes el analista debera
reportarlo en sus conclusiones y debera averiguar el
por qu de dichas observaciones.

Identificacin de outliers

Los casos atpicos pueden identificarse desde una
perspectiva univariante o multivariante.
14
La perspectiva univariante examina la distribucin de
observaciones para cada variable, seleccionando como
casos atpicos aquellos casos cuyos valores caigan fuera
de los rangos de la distribucin. La cuestin principal
consiste en el establecimiento de un umbral para la
designacin de caso atpico. Esto se puede hacer
grficamente mediante histogramas o diagramas de caja
o bien numricamente, mediante el clculo de
puntuaciones tipificadas. Para muestras pequeas (de 80
o incluso menos observaciones), las pautas sugeridas
identifican como atpicos aquellos casos con valores
estndar de 2.5 o superiores. Cuando los tamaos
muestrales son mayores, las pautas sugieren que el valor
umbral sea 3.
15
Pueden analizarse conjuntamente pares de variables
mediante un grfico de dispersin. Casos que se ubiquen
fuera del rango del resto de las observaciones pueden
identificarse como puntos aislados en el grfico de
dispersin. Para ayudar a determinar el rango esperado
de las observaciones, se puede superponer sobre el
grfico de dispersin una elipse que represente un
intervalo de confianza especificado para una distribucin
normal bivariante.

Lo que proporciona una representacin grfica de los
lmites de confianza y facilita la identificacin de casos
atpicos.
16
17
Finalmente existen procedimientos para detectar
atpicos multivariantes.

Entre los mtodos grficos, se tiene:
Caras de Chernoff, cada observacin se representa
mediante una cara, a cada variable se le asocia un rasgo
o caracterstica de la cara, como por ejemplo:
(1) rea de cara
(2) Forma de la cara
(3)Longitud de la nariz
(4) Localizacin de la boca.
(5) Curva de la sonrisa
(6) Grosor de la boca
(7)Localizacin, separacin, inclinacin, forma y
grosor de los ojos, etc.
18
Fuente: Banco Mundial (2002), FAO (2002) y PNUD (2001).
19
El Grfico, contiene las Caras de Chernoff para los 5
pases por encima y los 5 por debajo de Cuba en trminos
de PIB per cpita a PPA. En este caso se utilizan slo las
9 variables explicativas tomadas para el ejercicio,
excluyendo por supuesto al PIB percpita.

Cada rasgo de las caras tienen en cuenta la magnitud
relativa para cada pas, de la siguiente forma:
mientras la boca sea ms sonriente, el consumo de
kilocaloras per cpita diaria es mayor, mientras la boca
sea ms larga, mayor es la proporcin de la poblacin con
acceso a fuentes de agua mejorada, cuando la boca est
ms pegada a la nariz, menor es la cantidad de
Computadoras personales por mil habitantes,


20
la nariz ms grande indica ms cantidad de telfonos y
celulares por cien habitantes, una cara ms ancha
expresa una mayor esperanza de vida al nacer,
mientras ms para abajo se encuentre el nivel de las
orejas, menor tasa de mortalidad para menores de 5
aos, un mentn ms pronunciado, corresponde a un
consumo de electricidad per cpita menor, mientras
ms achatada sea la parte superior de la cara, mayor
ser la tenencia de televisores, una cara ms alargada,
describe una mayor tasa total de matrcula.

Este grfico fue propuesto originalmente por Chernoff
(1973) y extendida por Flury y Riedwyl (1981).
21
Grfico de estrellas, (Chambers, 1983). Cada estrella
representa una observacin, se define a partir de un
conjunto de radios, que forman el mismo ngulo, y que
confluyen en un centro geomtrico. Cada radio representa
a una variable. Su longitud es proporcional a la magnitud
de la variable representada, relativizada al mximo valor
que alcanza sta en la poblacin. La lnea que conecta los
extremos los radios determina el grfico de estrella. Las
variables empiezan a representarse desde la derecha y en
direccin a las agujas del reloj. El tamao de cada lnea,
respecto al centro de la estrella, est relacionado con los
valores reeescalados de cada variable.

22
Un Grfico de Estrellas suele utilizarse para responder a
las siguientes preguntas:

1. Fijado un elemento de la poblacin, qu variables
son las dominantes?
2. Pueden establecerse similitudes entre los elementos
de la poblacin?. A tenor de esto, podan
establecerse grupos (clusters)?
3. Existen valores atpicos ?
23
Finalmente existen otros procedimientos para detectar
atpicos multivariantes, dicha deteccin se puede hacer
mediante un Anlisis de Componentes Principales.
Tarea:
Con la base de datos asignada a cada grupo,
identificar datos atpicos a nivel univariado,
bivariado y multivariado.
24
SEXTA ETAPA DEL AED:
DATOS AUSENTES
Los datos ausentes son algo habitual en el Anlisis
Multivariante; de hecho, rara es la investigacin en la
que no aparece este tipo de datos.

En estos casos la ocupacin primaria del investigador
debe ser determinar las razones que subyacen en el
dato ausente buscando entender el proceso principal
de esta ausencia para seleccionar el curso de accin
ms apropiado.
25
Para ello se debe determinar cul es el proceso de datos
ausentes, entendido como cualquier evento sistemtico
externo al encuestado (errores en la introduccin de
datos) o accin por parte del encuestado (tales como
rehusar a contestar) que da lugar a la ausencia de datos.

En particular, el investigador debe analizar si existe
algn patrn no aleatorio en dicho proceso que pueda
sesgar los resultados obtenidos debido a la prdida de
representatividad de la muestra analizada.

26
Tipos de valores ausentes
Se distinguen las dos situaciones siguientes:

1) Datos ausentes prescindibles: son resultado de
procesos que se encuentran bajo el control del
investigador y pueden ser identificados
explcitamente. En estos casos no se necesitan
soluciones especficas para la ausencia de datos
dado que dicha ausencia es inherente a la tcnica
usada.
Ejemplos de estas situaciones son aquellas
observaciones de una poblacin que no estn incluidas
en la muestra o los llamados datos censurados que
son observaciones incompletas como consecuencia del
proceso de obtencin de datos seguido en el anlisis.

27
2) Datos ausentes no prescindibles: son resultado de
procesos que no se encuentran bajo el control del
investigador y/o no pueden ser identificados
explcitamente.
Ejemplos de estas situaciones son los errores en la
entrada de datos, la renuncia del encuestado a responder
a ciertas cuestiones o respuestas inaplicables.

En estos casos se debe analizar si existen o no patrones
sistemticos en el proceso que puedan sesgar los
resultados obtenidos.
Si los datos ausentes son no prescindibles conviene, por
lo tanto, analizar el grado de aleatoriedad presente en
los mismos.
28
Segn este grado el proceso de datos ausentes se
puede clasificar del siguiente modo:

a) Datos ausentes completamente aleatorios
(MCAR),
este es el mayor grado de aleatoriedad y se da
cuando los datos ausentes son una muestra
aleatoria simple de la muestra, sin un proceso
subyacente que tiende a sesgar los datos
observados. En este caso se podra solucionar el
problema sin tener cuenta el impacto de otras
variables

29
b) Datos ausentes aleatorios (MAR),
en este caso el patrn de los datos ausentes en una
variable Y no es aleatorio sino que depende de otras
variables de la muestra X.

Ahora bien, para cada valor de X, los valores
observados de Y s representan una muestra aleatoria
de Y.

As, por ejemplo, si X es el gnero del encuestado e Y
es su renta, un proceso MAR se tendra si existen ms
valores ausentes de Y en hombres que en mujeres y,
sin embargo, los datos son aleatorios para ambos
gneros en el sentido de que, tanto en los hombres
30
en las mujeres, el patrn de ausentes es completamente
aleatorio.

Si, adems, tampoco existen diferencias por gnero los
datos ausentes seran MCAR.

Si los datos ausentes son MAR cualquier solucin al
problema deber tener en cuenta los valores de X dado
que afectan al proceso generador de datos ausentes.

31
c) Datos ausentes no aleatorios: en este caso
existen patrones sistemticos en el proceso de datos
ausentes y habra que evaluar la magnitud del
problema calibrando, en particular, el tamao de los
sesgos introducidos por dichos patrones. Si stos son
grandes habra que atacar el problema directamente
intentando averiguar cules son dichos valores.

Localizacin de datos ausentes

El primer paso en el tratamiento de datos ausentes
consiste en evaluar la magnitud del problema. Para
ello se comienza analizando el porcentaje de datos
ausentes por variables y por casos.
32
Si existen casos con un alto porcentaje de datos
ausentes se deberan excluir del problema. As mismo si
existe una variable con un alto porcentaje de este tipo
de casos su exclusin depender de la importancia
terica de la misma y la posibilidad de ser reemplazada
por variables con un contenido informativo similar.

Como regla general, sin embargo, si dicha variable es
dependiente debera ser eliminada ya que cualquier
proceso de imputacin de valores puede distorsionar la
significacin estadstica y prctica de los modelos
estimados para ella.
33
Diagnstico de la aleatoriedad en el proceso de datos
ausentes
Existen 3 mtodos:

a) Para cada variable Y formar dos grupos
(observaciones ausentes y presentes en Y) y aplicar
pruebas de comparacin de dos muestras para
determinar si existen diferencias significativas entre
los dos grupos sobre otras variables de inters.

Si se encuentran diferencias significativas el
proceso de datos ausentes no es aleatorio.
34
b) Utilizar correlaciones dicotomizadas para evaluar la
correlacin de los datos ausentes en cualquier par de
valores. Estas correlaciones indicaran el grado de
asociacin entre los valores perdidos sobre cada par de
variables. Bajas correlaciones implican aleatoriedad en
el par de variables y que los datos ausentes pueden
clasificarse como MCAR. En caso contrario son
MAR.

c) Realizar hiptesis conjuntas de aleatoriedad que
determinen si los datos ausentes pueden ser
clasificados como MCAR.
Estos contrastes analizan el patrn de datos ausentes
sobre todas las variables y las compara con el patrn
35
esperado para un proceso de datos ausentes aleatorio. Si
no se encuentran diferencias significativas el proceso
puede clasificarse como MCAR; en caso contrario deben
utilizarse los procedimientos a) y b) anteriores para
identificar los procesos especficos de datos ausentes
que no son aleatorios.

Aproximaciones al tratamiento de datos ausentes
Si se encuentran procesos de datos ausentes MAR o no
aleatorios, el investigador debera aplicar slo el mtodo
diseado especficamente para este proceso. Slo si el
investigador determina que el proceso de ausencia de
datos puede clasificarse como MCAR pueden utilizarse
las siguientes aproximaciones:
36
a)Utilizar slo los casos completos: conveniente si el
tamao muestral no se reduce demasiado.

b) Supresin de casos y/o variables con una alta
proporcin de datos ausentes. Esta supresin deber
basarse en consideraciones tericas y empricas. En
particular, si algn caso tiene un dato ausente en una
variable dependiente, habitualmente excluirlo puesto
que cualquier proceso de imputacin puede
distorsionar los modelos estimados.

As mismo una variable independiente con muchos
datos ausentes podr eliminarse si existen otras
variables muy similares con datos observados.
37
c) Imputar valores a los datos ausentes utilizando
valores vlidos de otras variables y/o casos de la
muestra

Mtodos de imputacin

Los mtodos de imputacin pueden ser de tres tipos:

1) Mtodos de disponibilidad completa que
utilizan toda la informacin disponible a partir de
un subconjunto de casos para generalizar sobre la
muestra entera. Se utilizan habitualmente para estimar
medias, varianzas y correlaciones
38
2) Mtodos de sustitucin que estiman valores de
reemplazo para los datos ausentes, sobre la base de
otra informacin existente en la muestra. As se podra
sustituir observaciones con datos ausentes por
observaciones no muestrales o sustituir dichos datos
por la media de los valores observados o mediante
regresin sobre otras variables muy relacionadas con
aquella a la que le faltan observaciones.

3) Mtodos basados en modelos que construyen
explcitamente el mecanismo por el que se producen
los datos ausentes y lo estiman por mxima
verosimilitud. Entran en esta categora el algoritmo
EM o los procesos de aumento de datos.
39
Tarea:
Con la base de datos asignada a cada grupo, realizar
el anlisis de datos ausentes.
40
BIBLIOGRAFA
1. DANIEL PEA, 2002. Anlisis de Datos
Multivariados. McGRAW-HILL/ Interamericana
de Espaa.
2. URIEL, EZEQUIEL, ALDAS JOAQUIN. 2005
Anlisis Multivariante Aplicado. Editorial
Thompson Editores. Espaa
3. DALLAS E. JOHNSON. 2000. Mtodos
Multivariados Aplicados al Anlisis de Datos.
International Thomson Editores.
4. HAIR J., ANDERSON R., TATHAM R., BLACK
W. 2001. Anlisis Multivariante. Prentice Hall.