Analisis de Varianza

Estadstica Aplicada
Ingeniera En Industrias Alimentarias

IAM-0511
5 Anlisis de Varianza
5.1 Introduccin al Anlisis de Varianza
5.2 Procedimiento para el Anlisis de Varianza
5.3 Comparacin de mas de dos Medias: Diseo Completamente Aleatorizado y su
Tabla
5.4 Estimacin en el Diseo Completamente Aleatorizado
5.5 Anlisis de Varianza Para un Diseo en Bloques al Azar y su respectiva
Estimacin
5.6 Anlisis de Varianza Mediante Modelos Lineales
5.6 Anlisis de Varianza Mediante Modelos

Lineales
Estadstica multivariada
Teniendo como escenario la compleja y dinmica realidad social, la poltica pblica debe
ser capaz de sistematizar los conocimientos derivados de la experiencia y de concebir
herramientas para el anlisis de los fenmenos en los que interviene.
La realidad que requiere ser analizada es compleja: se trata de un entramado de relaciones
mltiples. En trminos de mtodos estadsticos, esta multiplicidad es reflejada en una multidimensionalidad de los fenmenos estudiados, y modelizada a partir de modelos
estadsticos multivariados o multivariables.
Por ejemplo, se pueden estudiar las condiciones de insercin y permanencia en el mercado
laboral (IPML) de los habitantes de la Ciudad de Buenos Aires, en relacin a diferentes
variables. Si se estudia este fenmeno en trminos regionales, se puede observar el alto
nivel de precariedad que afecta a quienes viven en la regin Sur-Suroeste de la ciudad.
Analizado en relacin al gnero, se observa la desventaja relativa de las mujeres. Y
comparado por nivel de estudio, los universitarios aparecen favorecidos.
Ahora bien, si se piensa en disear una poltica para mitigar las malas condiciones de
IPML, apuntando a mejorar las condiciones de los grupos ms desfavorecidos, en principio
se puede pensar en medidas destinadas a una poblacin objetivo compuesta por las mujeres
sin estudios universitarios que habitan en la regin Sur-Suroeste.
Sin embargo, este recorte puede resultar demasiado restrictivo, innecesariamente.
El estudio para el diagnstico debe considerar que los 3 factores educacin, gnero y
regin actan conjuntamente. Por lo que los datos observados pueden ser el resultado de
la relacin entre cada uno de estos factores y la IPML; o de la asociacin entre slo algn
factor y la distribucin de los individuos al interior de las 3 variables.
El modelo lineal
El uso de modelos estadsticos debe permitir indagar a este respecto. Fennessey (1968.
pp.2) escribe que Cada vez que se piensa una solucin al problema de expresar la
contribucin de una o ms influencias al comportamiento de una variable, alguna forma del
modelo lineal general es aplicable.
El modelo lineal constituye una familia de tcnicas especficas, como el anlisis de
regresin lineal y el anlisis de varianza factorial. De manera genrica, puede formularse
como yi = 0 + xi11 + xi22+ .... + xipp + i, donde
-
yi es la i-sima observacin de una variable aleatoria que operacionaliza el fenmeno

estudiado y representa la variable dependiente. En el caso de Buenos Aires arriba
comentado, podra ser un ndice de IPML de cada individuo considerado en el estudio.
xip es el valor conocido de la p-sima variable independiente o explicativa, en la

observacin i. En el caso mencionado, las distintas x indicarn la regin, el sexo y el
nivel de estudio de cada individuo.
Puede tratarse de una variable mtrica con un amplio rango de valores posibles, o de
variables indicadores que toman valores 1 o 0. Esto ltimo ocurre cuando se trata de
variables nominales: cada x indica la pertenencia (1) o no (0) a una categora de
determinada variable. En este caso, tendremos ms de una variable X por cada variable
explicativa o factor.
p es el coeficiente a estimar por el modelo. Este coeficiente es una medida de la

sensibilidad: cunto se espera que vare yi cuando xp vara en una unidad.
i es una variable aleatoria que representa el componente de error. Se calcula como la

diferencia entre los valores observados y los valores estimados por el modelo.
As, analizando el ajuste global y las de cada modelo estimado, resulta posible identificar
aquellos factores ms asociados al fenmeno. En el caso mencionado, un resultado del
anlisis estadstico podra ser estimar el modelo <yi = 0 + 1FEM + 2 Norte-Noreste +
Sur-Suroeste > Concluir que este es el mejor modelo estimado indica lo siguiente:
La IPML es independiente del nivel de estudio. Est asociada al gnero y la regin.
FEM toma valor 1 si es femenino y 0 si es masculino. Por lo tanto, si 1 es negativo, la
IPML es peor en las mujeres.

-
Norte-Noreste y Sur-Suroeste toman valor 1 si el individuo habita en la respectiva

regin y 0 en caso contrario. Si el individuo habita en el Centro, ambas variables sern
0. Por lo tanto, si 2 es positiva, la IPML ser mejor para los habitantes del Norte
Noreste que para los del Centro. Asimismo, comparando 2 y 3 se puede comprobar
cul de las 2 regiones presenta mayor riesgo de una mala IPML.

Con el desarrollo de los paquetes informticos de estadstica, la aplicacin de estos modelos
puede realizarse de manera relativamente sencilla.
El problema al trabajar con modelos como anlisis de varianza factorial, o anlisis de
regresin lineal, radica en los supuestos involucrados respecto a los datos analizados.
Para que las estimaciones cuenten con las propiedades estadsticas apropiadas, y para que
sea posible realizar las inferencias y los test estadsticos adecuados, es necesario que se
cumplan ciertos supuestos. Estos pueden resumirse diciendo que se asume que la variable
sigue una distribucin Normal y su varianza es constante para todas las observaciones.
Si bien estudios realizados dan cuenta de la robustez de los diferentes mtodos frente al
incumplimiento de algn supuesto1, lo cierto es que estos supuestos suelen resultar ajenos a
la naturaleza de los datos de los fenmenos sociales analizados.
El modelo lineal generalizado

No hay motivo para aceptar a priori que los datos referidos a la realidad social se condicen
con los supuestos asumidos en el modelo lineal. Nelder & Wedderburn (1972), presentan
formalmente la familia de modelos lineales generalizdos, glm.
Los glm consideran la variable dependiente, Y, como un componente aleatorio que sigue
alguna distribucin de la familia exponencial. El valor que se incluir en el modelo no es Y,
sino su esperanza matemtica, denominada . De esta manera, el componente de error
queda comprendido aqu y no es necesaria su formulacin explcita.
Del lado de las variables explicativas, se denomina al predictor lineal, que resulta de la
combinacin lineal entre las variables explicativas X y los coeficientes = X.
Los glm introducen una funcin de enlace o link, denominada g. As, en lugar del modelo Y
= X + , los glm se formulan como g() =
Los glm son una extensin del modelo lineal. Entre otras ventajas, permiten modelizar
variables asimtricas y variables discretas. Asimismo, es posible analizar estadsticamente
relaciones no lineales entre variables dependientes e independientes.
Por otro lado, no es necesario el supuesto de varianza constante. Los glm asumen que la
varianza de Y es funcin de su valor esperado, exigiendo slo que sea conocido el modo en
que la varianza depende de aquel. A partir del concepto de sobre-dispersin (SD) - el que
hace referencia a que la varianza de Y excede a la varianza nominal de la variable 2 - es
1 Por ejemplo, se acepta que si los tamaos de muestra son grandes, los test estadsticos son
vlidos aunque no se cumpla el supuesto de distribucin Normal (Gujarati 1996; Hair et al
1995; Stevens 1996; Winer et al 1991); y en el anlisis de varianza, cuando el tamao de las
muestras es el mismo, que la varianza no sea constante tiene un bajo impacto (Hair et al
1995; Stevens 1996; Winer et al 1991).
2 La SD puede originarse de muchas maneras. Uno de los mecanismos ms comunes, es el
agrupamiento (clustering) en la poblacin: hogares y barrios son instancias comunes de
posible incluir en los modelos y test de hiptesis una medida ms acertada de la dispersin
de las estimaciones.
En un caso como el mencionado de la IPML en Buenos Aires, lo ms probable es que la
cantidad de individuos en cada grupo que se compara, sea diferente. Asimismo, nada
permite suponer que los desvos respecto del promedio, al interior de cada grupo, sern
iguales. Bajo estas condiciones, los resultados de las pruebas estadsticas realizadas en el
marco de un Anlisis de varianza factorial, no seran exactos. En cambio, los glm permiten
realizar un Anlisis de devianza, el cual permite estudiar los ajustes producidos por series
de modelos anidados, con tamaos de muestra y varianzas diferentes.
Conclusin
El modelo lineal es una herramienta de gran utilidad. La utilizacin de modelos estadsticos
implica formular patrones de comportamiento capaces de describir sucintamente las
variaciones de los datos. Un modelo bien estimado brindar la informacin necesaria para
realizar las evaluaciones empricas.
A travs de las extensiones introducidas en los glm, resulta posible ajustar los modelos con
medidas de dispersin y confianza correctamente mensurables.
Existe un amplio consenso del papel crucial que juega el anlisis de la evidencia emprica a
la hora de tomar decisiones y disear y adoptar polticas.
En la actual sociedad de informacin en la que el uso de bases de datos y de paquetes
estadsticos han transformado profundamente la forma de entender y evaluar las polticas,
los modelos estadsticos multivariados, y en especial modelos como los glm,
permiten una produccin y aplicacin de conocimientos cientficos que representan un
factor estratgico para el policy maker.
agrupamientos naturales.

Analisis de Varianza

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis de Varianza

Cargado por

Copyright:

Formatos disponibles

Estadstica Aplicada

Ingeniera En Industrias Alimentarias

5.6 Anlisis de Varianza Mediante Modelos

yi es la i-sima observacin de una variable aleatoria que operacionaliza el fenmeno

xip es el valor conocido de la p-sima variable independiente o explicativa, en la

p es el coeficiente a estimar por el modelo. Este coeficiente es una medida de la

i es una variable aleatoria que representa el componente de error. Se calcula como la

anlisis estadstico podra ser estimar el modelo <yi = 0 + 1FEM + 2 Norte-Noreste +

La IPML es independiente del nivel de estudio. Est asociada al gnero y la regin.

FEM toma valor 1 si es femenino y 0 si es masculino. Por lo tanto, si 1 es negativo, la

IPML es peor en las mujeres.

Norte-Noreste y Sur-Suroeste toman valor 1 si el individuo habita en la respectiva

cul de las 2 regiones presenta mayor riesgo de una mala IPML.

El modelo lineal generalizado

También podría gustarte