Está en la página 1de 22

Análisis de datos con el Modelo Lineal

Generalizado. Una aplicación con R


por Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER
Universidad de Málaga

Desde una perspectiva matemática, el Lineal clásico e incumpliendo los su-


fundamento de gran parte de las pruebas puestos de linealidad y normalidad.
estadísticas se encuentra en el Modelo Ejemplos son la clasificación binaria de
Lineal (ML) general o clásico. Su impor- apto-no apto, la medida ordinal del curso
tancia radica en que su estructura, supo- académico, el recuento del número de
nemos, refleja los elementos explicativos años cursados, etc., situaciones que
de un fenómeno por medio de relaciones requieren de modelos que trabajen con
funcionales probabilísticas entre varia- datos dicotómicos, ordinales, categóricos o
bles. El Modelo Lineal Generalizado de elecciones discretas, es decir, de
(MLG), que tratamos en el presente tra- modelos de probabilidad de un evento
bajo, es la extensión natural del Modelo (fundamentalmente modelos logit, probit,
Lineal clásico. Inicialmente expuesto por modelos de regresión de Poisson y año LXIX, nº 248, enero-abril 2011, 59-80
Nelder y Wedderburn (1972), ha llegado a modelos de regresión ordinal). Estos revista española de pedagogía
suponer “una auténtica revolución esta- modelos son parte integrante de los
dística” (Ato y Vallejo, 2007, 53), convir- Modelos Lineales Generalizados y, junto
tiéndose en una solución especialmente con la regresión lineal, el análisis de
adecuada para modelos de dependencia varianza, la regresión logística, los
con datos no métricos. modelos de respuesta multinomial, e
incluso ciertos análisis de la supervi-
En los estudios en educación es fre- vencia y de series temporales, son, en
cuente trabajar atributos, actitudes o con- última instancia, extensiones del Modelo
ductas que, siendo en su dimensión Lineal clásico.
latente continuos, se miden de forma no
métrica (discreta, nominal u ordinal), no Por tanto, para abordar aquí el
ajustándose, en consecuencia, al Modelo Modelo Lineal Generalizado nos dete-
59
Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

nemos antes en el Modelo Lineal clásico, extraño, pero no es más que una versión
justificando así la ubicación del primero. elegante del mismo procedimiento. Así lo
Seguimos con una comparación entre señalan McCullagh y Nelder (1989)
ambos, Modelo Lineal y Modelo Lineal cuando afirman que la construcción de
Generalizado, terminando con la presen- modelos requiere de una mezcla de arte y
tación de un caso particular de MLG: un conocimientos por parte del investigador.
ejemplo de regresión de Poisson emple- Este proceso se conoce en ciencia como
ando el software R. modelado matemático o modelización
matemática, y cuando los fenómenos a
Ahora bien, para hablar del Modelo explicar son probabilísticos, antes que
Lineal Generalizado debemos explicar determinísticos (como sucede frecuente-
antes el marco natural en el que se desa- mente en las ciencias del comporta-
rrolla, el modelado estadístico, un miento, sociales y de la educación),
entorno que, a diferencia de las aplica- hablamos de modelado estadístico o esto-
ciones más tradicionales centradas en el cástico [1].
contraste de hipótesis y en las pruebas de
significación (ver López-González, 2003), En un sentido amplio, un modelo pre-
se establece a partir de la década de los tende explicar la variación de una res-
60 atendiendo a la estimación de paráme- puesta a partir de la relación conjunta de
tros y a la comparación y ajuste de dos fuentes de variabilidad, una de
modelos de probabilidad a los datos empí- carácter determinista y otra aleatoria, lo
ricos (Ato y López-García, 1996, 80; y Ato que responde a la expresión:
y Vallejo, 2007, 40).
Respuesta = componente sistemático +
Modelado estadístico componente aleatorio.
El empleo de modelos es un proceso
consustancial al ser humano. Para com- Judd y McClelland (1989, 1) toman la
prender lo que sucede a nuestro alre- expresión anterior como: DATOS = MO-
año LXIX, nº 248, enero-abril 2011, 59-80

dedor, a partir de la observación deta- DELO + ERROR, asociando MODELO a


llada de los acontecimientos solemos la parte sistemática. Así, los DATOS
revista española de pedagogía

elaborar “modelos” mentales sobre cómo corresponderían a las observaciones que


funcionan los fenómenos, pudiendo rea- se quieren analizar (la variable de
lizar, incluso, predicciones sobre ellos. En respuesta o variable dependiente).
el ámbito científico, un modelo que MODELO es la función que se introduce
explica un fenómeno suele expresarse de con objeto de explicar los datos (una fun-
forma matemática (un modelo que, igual- ción ponderada de una o más variables
mente, ha sido derivado de descripciones explicativas o predictores). Y, dado que la
y que probablemente será útil para pre- variabilidad recogida en DATOS no ter-
decir). Con esa vestimenta formal, la ela- mina de estar explicada, se introduce el
boración de modelos a la que estamos término ERROR, que contiene la discre-
acostumbrados en la vida cotidiana puede pancia o falta de ajuste entre DATOS y
transformarse aparentemente en algo MODELO (entre la realidad empírica y la
60
Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

explicación teórica o sustantiva). Es dese- 2. Estimación de parámetros, calcu-


able que el MODELO sea, por tanto, una lando el valor de los coeficientes del
buena representación de los DATOS, de modelo examinado a partir del conjunto
forma que el ERROR se reduzca lo de datos observados, al objeto de deter-
máximo posible. minar si el modelo teórico propuesto es
aceptable como representación aproxi-
De la construcción, formulación y mada de los datos.
ajuste de modelos a los datos empíricos se
encarga precisamente el modelado esta- 3. Selección del modelo, valorando si
dístico, debiendo responder a tres crite- el nivel de discrepancia entre los datos
rios: (a) criterio estadístico o principio de observados y los datos ajustados es sufi-
bondad de ajuste: la inclusión de paráme- cientemente bajo como para optar por el
tros en el MODELO en beneficio de una modelo o, por el contrario, suficiente-
mejor representación de los DATOS con mente elevado como para rechazarlo.
la correspondiente disminución del
ERROR (ver McClelland, 1997); (b) cri- 4. Evaluación del modelo, exami-
terio lógico o principio de parsimonia: la nando las observaciones individuales
selección de los parámetros que formen (leverage points), los datos influyentes
parte del modelo de tal modo que éste se (influentials) y los datos anómalos
convierta en una representación simple y (outliers), así como comprobando los
sobria de la realidad (Judd y McClelland, supuestos de normalidad, linealidad,
1989, 3; y Ruiz-Soler, Pelegrina y López- homoscedasticidad e independencia.
González, 2000) y (c) criterio sustantivo o
integración teórica del modelo en la red 5. Interpretación del modelo, com-
conceptual que lo generó (Ato y Vallejo, prendiendo sus implicaciones con res-
2007, 47). pecto a la variable de respuesta. Esta fase
conlleva una explicación detallada de los
Esta construcción del modelo más parámetros del modelo para comprobar si
año LXIX, nº 248, enero-abril 2011, 59-80
parsimonioso que explique la variable de se cumplen los criterios estadístico, lógico
respuesta con el menor error posible se y sustantivo. revista española de pedagogía
realiza atendiendo a unas etapas:
Finalmente se acepta o no el modelo
1. Especificación del modelo teórico, y, si es preciso, se reinicia el proceso.
determinando qué variables son de
interés, así como cuáles son las relaciones Un software estadístico que reúne las
entre ellas. Esta situación da de lleno con características necesarias para trabajar
el dilema entre los principios de parsi- el modelado estadístico es R (una aproxi-
monia versus ajuste: que el modelo des- mación en el ámbito educativo es el tra-
criba de la forma más simple posible, o bajo de Ruiz-Soler y López-González,
bien que la concordancia entre el modelo 2009) [2]. La manera de trabajar del pro-
y los datos sea lo más completa posible, es grama R con decisiones y pasos sucesivos
decir, con el mínimo error. se adapta fácilmente a la filosofía del
61
Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

modelado: se van construyendo distintos conjunto de observaciones yi sobre una o


modelos, calculando, al mismo tiempo, varias variables explicativas, y es nece-
medidas de la desvianza o discrepancia sario establecer ciertos supuestos res-
entre los valores empíricos y los ajustados pecto a la distribución de probabilidad de
para valorar el modelo, aceptándolo ten- dichas variables aleatorias, los cuáles,
tativamente o rechazándolo, y permi- además, varían según la escala de medida
tiendo, finalmente, una mejor integración utilizada. Una segunda restricción sobre
de la solución obtenida en la teoría sus- las variables explicativas es que cada una
tantiva de partida. Por estas razones el representa una muestra de valores obser-
ejemplo que aquí presentamos sobre una vados seleccionados arbitrariamente por
regresión de Poisson es ejecutado con R, el investigador (componentes fijos) luego,
especialmente diseñado también para el al tratarse de valores prefijados, cual-
trabajo con cualquiera de las funciones quier transformación de una variable
matemáticas que comprenden los Mo- explicativa puede ser considerada tam-
delos Lineales Generalizados. bién como variable independiente. El
modelo debe incluir, además, un conjunto
Modelo Lineal de variables aleatorias no observables
La fórmula general del Modelo Lineal pero sí estimables: los parámetros del
es Y = ƒ(X)+g(ε), donde toda observación modelo (su estimación es una etapa fun-
sobre la variable de respuesta es la suma damental en el ajuste del modelo, como
de: (a) los efectos de un grupo de factores ha quedado dicho). Por último, es preciso
o componentes sistemáticos –ƒ(X)–, que que el modelo incluya una o más varia-
implican un conjunto de parámetros de bles que no son ni observables ni estima-
una población y un conjunto de variables bles, los componentes aleatorios, siendo el
independientes relevantes medidas sobre más importante el componente de error
cada uno de los sujetos con los que se tra- aleatorio que recoge la variabilidad
baja, y (b) la función g(ε), que representa debida a las diferencias individuales, a
el efecto de los componentes aleatorios y los errores de medida y, en general, a
año LXIX, nº 248, enero-abril 2011, 59-80

es resultado de una o más distribuciones otras variables explicativas no incluidas


de probabilidad dependientes de un en el modelo.
revista española de pedagogía

pequeño número de parámetros. En esta


fórmula general tienen cabida una Al hablar de Modelo Lineal es conve-
amplia variedad de modelos lineales niente señalar que la linealidad puede
representativos de las relaciones estadís- tener lugar de distintos modos y que,
ticas entre variables explicativas y de res- según ellos se obtienen modelos de uno u
puesta. Ahora bien, interesa resaltar otro tipo. Cabe considerar como Modelo
aquellos que cumplen con una serie de Lineal, no obstante, todo aquel que lo sea
restricciones respecto a las variables en sus parámetros, con independencia de
explicativas. que sus variables explicativas cumplan
esta condición o no. Se habla, entonces, de
La primera es que para el caso de una un Modelo Lineal de primer orden para k
variable de respuesta Y debe haber un variables explicativas y k+1 parámetros
62
Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

si el modelo es lineal en sus parámetros y pueden consultarse los textos de Judd


en sus variables explicativas, respon- y McClelland (1989) y Losilla y cols.
diendo a la siguiente fórmula general: (2005). El Modelo Lineal explicado con R
se encuentra en Crawley (2007), Fara-
way (2004), y en la imprescindible obra
de Fox (2002).
Si el modelo es lineal en sus paráme-
tros pero no en las variables explicativas Por otro lado, el Modelo Lineal es sus-
sería un Modelo Lineal de m-ésimo orden ceptible de numerosas variaciones para
(cuadrático, cúbico, etc.) con km variables ajustarse a las particularidades de una
independientes y km+1 parámetros. investigación específica, variaciones que
Puede incluir componentes de interacción a nivel matemático se ven reflejadas en
y ser susceptible de ser linealizado trans- las relaciones existentes entre la variable
formando sus variables explicativas. Su de respuesta, las variables explicativas,
formulación es: los parámetros del modelo y el compo-
nente de error aleatorio. Sin embargo, por
lo general, tres son las principales formas
que el Modelo Lineal general puede
Si el modelo no es lineal en los pará- adoptar dependiendo de la estructura
metros y/o en las variables explicativas métrica de las variables explicativas: la
puede adoptar múltiples formulaciones. forma de un modelo de regresión, la
No obstante, al poderse linealizar forma de un modelo de análisis de
mediante las transformaciones ade- varianza (ANOVA) o de diseño experi-
cuadas suele ser tratado como modelo mental, y la forma de un modelo de aná-
intrínsecamente lineal (Draper y Smith, lisis de covarianza (ANCOVA) o de diseño
1998, 459). experimental con variables concomi-
tantes (Ato y Vallejo, 2007; Bock, 1985;
Los modelos que no se ajustan a nin- Dobson y Barnett, 2008; Hocking, 1985;
año LXIX, nº 248, enero-abril 2011, 59-80
guna de las anteriores situaciones son, Tatsuoka, 1993; y Timm, 2002).
entonces, modelos no lineales. revista española de pedagogía
En los modelos de regresión las varia-
La literatura respecto al Modelo bles explicativas son de naturaleza
Lineal clásico es amplia. Una presenta- métrica, cuantitativa continua o discreta,
ción sencilla se encuentra en Fox (1997); cumpliendo con los supuestos básicos del
Kleinbaum, Kupper y Miller (1988); Modelo Lineal, a saber: linealidad,
Neter, Kutner, Nachtsheim y Was- homoscedasticidad, normalidad e inde-
serman (1996); Pedhazur (1997); y Weis- pendencia de los errores (pueden consul-
berg (2005). Con un nivel más avanzado tarse, por ejemplo, en López-González,
están los trabajos de McCullagh y 1994). Los modelos de regresión simple,
Nelder (1989); Horton (1985); Seber y múltiple, multivariante o la correlación
Lee (2003); y Tatsuoka (1993). Desde la canónica se incluyen en este tipo de
perspectiva del modelado estadístico modelos.
63
Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

En los modelos de análisis de En todos los modelos señalados se ha


varianza (ANOVA) o de diseños experi- partido del supuesto de que la variable de
mentales las variables explicativas pre- respuesta posee una estructura métrica
sentan una estructura no métrica de cuantitativa continua (habitualmente
carácter categórico (dicotómico o politó- normal) o discreta. Sin embargo, es
mico), utilizando variables dummy con la posible flexibilizar este criterio y consi-
intención de representar la pertenencia a derar una formulación más general que
los grupos que configuran las categorías. permita también contemplar variables
El interés fundamental de estos modelos dependientes con una estructura no
es la búsqueda de inferencias válidas métrica, es decir, variables categóricas
acerca de las medias poblacionales a (ordinales o nominales), al tiempo que
partir de las medias muestrales obte- relajar los supuestos del Modelos Lineal
nidas en cada una de las condiciones de clásico, como la linealidad o la homosce-
tratamiento experimental. Aquí se sitúan dasticidad, no así la independencia de los
los modelos de ANOVA, que según se con- errores. Los modelos resultantes guardan
sidere el efecto de tratamiento pueden ser una estrecha similitud con los modelos
fijos, aleatorios o mixtos, y los modelos de citados y dan paso a los modelos con
ANOVA factorial, que dependiendo de las variables categóricas [3] y a los Modelos
relaciones entre los factores pueden ser Lineales Generalizados. En este gran
de clasificación cruzada o anidada. grupo podemos situar los modelos de
regresión logística, modelos logit, probit y
Por último, en los modelos de aná- modelos loglineales, entre otros.
lisis de covarianza (ANCOVA) o modelos
de diseño experimental con variables A modo de síntesis clasificatoria, los
concomitantes unas variables tienen una principales modelos apuntados hasta
estructura métrica cuantitativa con- ahora se recogen en la Tabla 1 siguiendo
tinua o discreta (covariables) y otras las clasificaciones de Ato y cols. (2005) y
variables explicativas tienen una estruc- Losilla y cols. (2005). También puede con-
año LXIX, nº 248, enero-abril 2011, 59-80

tura no métrica. El objetivo de estos sultarse la clasificación de Dobson y Bar-


modelos es el mismo que el de los nett (2008, 3).
revista española de pedagogía

modelos de análisis de varianza, a saber,


realizar inferencias sobre las medias de Modelo Lineal Generalizado
los distintos grupos o condiciones de tra- Los primeros trabajos donde se intro-
tamiento, pero aquí se considera tam- duce y desarrolla el Modelo Lineal Gene-
bién la posibilidad de reducir la varianza ralizado son, respectivamente, Nelder
de error. Entre estos modelos se y Wedderburgn (1972) y McCullagh y
encuentra el modelo de ANCOVA facto- Nelder (1989). Una buena introducción se
rial, el modelo de ANCOVA multiva- encuentra en las terceras ediciones de las
riante, los diseños de bloques aleatorios obras de Draper y Smith (1998) y Weis-
y, en general, el conjunto de diseños con berg (2005), así como en el imprescindible
variables concomitantes (cuadrado texto de Dobson y Barnett (2008). Desde
latino, grecolatino, etc.). el entorno de modelado estadístico, el
64
Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

TABLA 1: Principales Modelos Lineales Generalizados

MLG se estudia en Hutcheson y Sofro- particulares de un modelo más general ya


niou (1999). En castellano la literatura es conocido, el Modelo Lineal (ML). Veamos
todavía escasa; destacamos Ato y López- las relaciones entre ambos.
García (1996) y Ato y cols. (2005). El
empleo de los Modelos Lineales Generali- En la Tabla 1 puede observarse cómo
zados con R se trabaja en Crawley (2007), el Modelo Lineal es el caso más elemental
Dobson y Barnett (2008), Faraway (2006), del Modelo Lineal Generalizado. Las coin- año LXIX, nº 248, enero-abril 2011, 59-80
Fox (2002) y en Wood (2006), donde cidencias y las diferencias entre uno y revista española de pedagogía
incluso se amplía su estudio a los Modelos otro hacen posible, en el caso del MLG, un
Generalizados Aditivos. tratamiento matemático y estadístico
adecuado a los niveles de medida de las
Como ha quedado planteado, tanto el variables que contiene.
Modelo Lineal Generalizado (MLG) como
el modelado estadístico son herramientas Siguiendo a Ato y cols. (2005), el MLG
metodológicas que permiten codificar tiene componentes empíricos (las varia-
todas las situaciones de análisis dentro de bles que se registran) y componentes teó-
un mismo esquema general. Obviamente, ricos que son:
esto facilita el aprendizaje de nuevos
modelos de análisis porque se trata sim- El vector de la respuesta media:
plemente de contemplarlos como casos g( µi ) = ŋi
65
Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

El vector del predictor lineal: ßj xij Precisamente los términos componente


(componente sistemático) + εi (compo- sistemático y componente aleatorio res-
nente aleatorio). ponden al enfoque del modelado estadístico
al que nos hemos referido anteriormente.

TABLA 2: Comparación entre ML y MLG (López-González y cols., 2002a)

Como puede verse en la Tabla 2 la No se da, por tanto, la identidad entre


expresión del modelo en ambos casos (ML valores ajustados y valores predichos,
y MLG) es la misma, siendo los valores sino que entre ellos media una función
ajustados µi = E(Yi). El predictor lineal que los relaciona, la función de enlace:
también coincide: ŋi = ∑ ßj xj. Aparecen g( µi ) = ŋi . Esto hace que en el MLG
año LXIX, nº 248, enero-abril 2011, 59-80

diferencias, no obstante, en la relación ambos lados de la ecuación no se expresen


j

entre los valores ajustados µi y el pre- en la misma escala de medida, lo que sí


revista española de pedagogía

dictor lineal ŋi. Estas diferencias se con- sucede en el ML.


cretan en la función de enlace y en la dis-
tribución que ésta debe seguir, función (b) El componente aleatorio del
que cobra un especial significado que Modelo Lineal debe distribuirse normal-
pasamos a explicar. mente, y este hecho tiene una impor-
tancia considerable: según sea la dis-
(a) Mientras que en el ML se produce tribución de los errores serán las
una relación de identidad entre los distribuciones condicionadas de los
valores ajustados y el predictor lineal, valores pronosticados del criterio, que,
µi = ŋi, en el MLG la linealidad se esta- por tanto, deben ser normales también.
blece en la escala del predictor lineal pero Esto es así porque ambas distribuciones
no en la escala de los valores ajustados. están relacionadas a través de una
66
Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

matriz, la matriz hat (ver López-Gon- tamos en el próximo apartado con una
zález, 1994). En el MLG sucede que el variable de respuesta de recuento, el
componente aleatorio no sigue necesaria- valor esperado µ sólo puede tomar valores
mente una distribución normal sino que enteros iguales o superiores a cero, mien-
utiliza cualquier distribución de la tras que el predictor lineal ŋi puede
familia exponencial y, en consecuencia, adoptar cualquier valor entre – ∞ y + ∞.
las distribuciones de los valores pronosti- Esto hace que el valor esperado y el pre-
cados del criterio no serán normales nece- dictor lineal tengan diferentes escalas de
sariamente (en Wood, 2006, 61 y en medida, precisamente por mediar entre
Faraway, 2006, 120 pueden consultarse ellos dicha función de enlace que termina
las distintas distribuciones de la familia transformando el valor de recuento espe-
exponencial). rado a la escala del predictor lineal:
g( µi ) = ŋi. La inversa de la función de
(c) Las distribuciones condicionadas enlace (o función de transformación) rea-
de los valores pronosticados de la variable liza el proceso contrario, y al ser aplicada
de respuesta en el ML deben ser homos- al resultado del predictor lineal ŋi (que
cedásticas, y ello es posible siempre que se halla en una escala de – ∞ y + ∞) se
esta condición se cumpla en el compo- obtiene el valor esperado, µ que se
nente aleatorio. Como en el MLG los encuentra en la escala de la variable de
errores pueden seguir cualquier distribu- respuesta (Ato y cols., 2005, 8):
ción de la familia exponencial, resulta µi = g–1(ß0 + ß0Xi).
que para la distribución de los errores la
homoscedasticidad no es imprescindible. Regresión de Poisson con R
La regresión de Poisson es el modelo
(d) Las diferencias expresadas hasta más básico adecuado para variables de
ahora obligan a estimar los parámetros respuesta de recuento (Long, 1997, 217),
de un MLG con un método de ajuste dis- aunque existen también otras opciones
tinto al procedimiento de mínimos cua- dentro del Modelo Lineal Generalizado
año LXIX, nº 248, enero-abril 2011, 59-80
drados que se emplea en el ML: el método que pueden adaptarse bien, como el
de máxima verosimilitud (que también modelo de regresión binomial negativa revista española de pedagogía
puede ser aplicado en el ML). (ver Hilbe, 2007), el modelo de regresión
truncada y los modelos de conteo modifi-
Destacamos en el Modelo Lineal cados a cero.
Generalizado, por tanto, el protagonismo
de ese tercer elemento que relaciona los Inicialmente la distribución de
componentes aleatorio y sistemático, es Poisson comenzó a aplicarse en el estudio
decir, el valor esperado y el valor predicho de conductas criminales, pero ya desde
por el modelo: nos referimos a la función finales del siglo pasado pasó a ser un
de enlace g( µ) (un estudio detallado de la modelo frecuente en ámbitos como la bio-
naturaleza de la función de enlace se estadística, la econometría y el marketing
encuentra en Krzanowski, 1998, 168). (Cameron y Tribedi, 1998, 94), así como
Así, por ejemplo, para el caso que presen- en diversas áreas aplicadas: criminología,

67
Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

sociología, ciencia política o relaciones 2003. El modelo que se especifique debe


internacionales (o.c., 17). Un estudio por- explicar el aumento de conflictos con el
menorizado de la regresión de Poisson paso del tiempo. Se modelan los datos
está en Agresti (2002); en el entorno de R mediante el MLG de regresión de
hay interesantes ejemplos en Dobson y Poisson utilizando la distribución de
Barnett (2008, 165 y ss.) y Faraway Poisson como la más adecuada para una
(2006, 55 y ss.). variable de respuesta de recuento (no
métrica, categórica) y empleando la fun-
El caso que aquí mostramos es una ción de enlace logarítmica propia de este
aplicación sencilla. A partir de un con- modelo.
junto de datos tomado de Venables y
Ripley (2003, 446) buscamos llamar la Resultados y discusión
atención sobre el análisis de estos datos En la Tabla 3 se muestran las ins-
con el modelado estadístico y con la fun- trucciones para que R cree los vectores
ción probabilística más adecuada. Estas necesarios: Conflictos, que comprende los
dos inquietudes se resuelven fácilmente valores de recuento, y Año, que contabi-
empleando el programa R. Incorporamos liza un vector de valores de 1 a 13. A con-
también una solución con el Modelo tinuación se pide el diagrama de disper-
Lineal (regresión clásica con la función de sión de las variables Año y Conflictos,
enlace identidad) al objeto de observar etiquetando cada uno de los ejes. El resul-
brevemente las ventajas del empleo del tado se muestra en el Gráfico 1 donde
Modelo Lineal Generalizado de regresión puede apreciarse que no existe una rela-
de Poisson frente al primero. ción lineal entre esta dos variables: el
avance de los años parece relacionarse
con un aumento suavizado de los con-
flictos tal que: µi = y exp(δXi), donde y y δ
Método
Suponiendo que se realiza un sondeo
en diversos Institutos de Enseñanza son parámetros desconocidos, y Xi es el
Secundaria, se observa el número de Con- valor de cada Año. El enlace log para esta
año LXIX, nº 248, enero-abril 2011, 59-80

flictos o faltas de disciplina que han que- función se encuentra dentro del MLG, así
dado registrados en los centros durante que podemos especificar el siguiente
revista española de pedagogía

un periodo de trece años, desde 1990 a modelo: log(µi) = log(y ) + δXi = ß0 + ß1Xi).

TABLA 3: Creación de datos y ejecución del diagrama de dispersión en R

68
Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

GRÁFICO 1: Diagrama de dispersión Conflictos x Año

Para dar respuesta al ajuste de estos En la Tabla 4 aparece la sencilla


datos pasamos a estimar los parámetros orden a ejecutar en R, indicando que es
de dos modelos de regresión de Poisson. un Modelo Lineal Generalizado (glm), la
El primero, que denominamos modelo variable de respuesta (Conflictos), el
nulo (modelo 0 -m0-), responde a una predictor (Año) y el tipo de modelo:
regresión de Poisson simple. Después cal- poisson.
cularemos un nuevo modelo más com-
pleto: el modelo 1 (m1).

TABLA 4: Instrucciones y resultados del modelo m0


año LXIX, nº 248, enero-abril 2011, 59-80
revista española de pedagogía

69
Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

A partir de m0 hemos asumido que el valores observados y los esperados o


número de Conflictos sigue una distribu- generados por la regresión (Faraway,
ción de Poisson tal que: yi = Poi (µi), donde 2006, 29). La discrepancia dividida por
yi es el número observado de nuevos los grados de libertad suele usarse para
Conflictos en el Año correspondiente. Una detectar sobre o baja dispersión. En la
vez obtenidos los coeficientes se pueden regresión de Poisson la media y la
construir los modelos propios de la regre- varianza son iguales, lo que implica que
sión de Poisson: la discrepancia dividida por los grados de
libertad debe aproximarse a uno. Valores
Primero, el modelo aditivo log(µi) = ß0 mayores que uno indican sobredispersión
+ ß1Xi, que en términos muestrales será: (la verdadera varianza es mayor que la
log(mi) = 3.1406+0.2021 x Año. Es impor- media); valores menores que uno indican
tante tener en cuenta que el modelo adi- baja dispersión (la verdadera varianza es
tivo representa la función de enlace y que, menor que la media) (López-González y
tal y como comentamos arriba, las uni- cols., 2002). Tanto un caso como otro
dades calculadas no se corresponden con informan de un ajuste inadecuado, como
la medida de la variable original. Para sucede aquí.
volver a los valores originales de la
variable de respuesta se construye el Siguiendo con la evaluación del
modelo multiplicativo, que representa la modelo, resultan preocupantes los grá-
inversa de la función de enlace o función ficos de residuos de diagnóstico del
de transformación. Es decir, se calcula la modelo 0 (Gráfico 2). El gráfico de resi-
exponencial correspondiente, en este caso duos frente a valores pronosticados
en base e. Así tenemos mi = e(b +b X ), donde
0 1 1
muestra cómo los residuos no presentan
sustituimos por los coeficientes esti- una tendencia a la media, lo que refleja el
mados, resultando: mi = e(3,1406) x e(0,2021Xi). incumplimiento de la condición de inde-
Puede expresarse también la función pendencia de los errores probablemente
exponencial inversa a la logarítmica, tal por la omisión de algún término impor-
año LXIX, nº 248, enero-abril 2011, 59-80

que: tante en el modelo. Recordando el dia-


grama de dispersión inicial (Gráfico 1),
revista española de pedagogía

mi = exp (b0 + b1X1) = exp (3,1406) x los Conflictos aumentaban monótona-


exp (0,2021 Xi). mente con los Años; esto permite pensar
que quizá la introducción de un término
Para proceder a la selección del cuadrático en el modelo podría mejorar
modelo retomamos la información de la considerablemente el ajuste (Wood, 2006,
Tabla 4 donde se observa que la discre- 89). Así mismo, en el gráfico de residuos
pancia (residual deviance) es extremada- frente a influencia se aprecian puntos de
mente alta, entendiendo este término influencia muy elevados en los últimos
como una medida de bondad de ajuste años, especialmente para el caso 13 que
relacionada con las diferencias entre los corresponde al año 2003.

70
Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

GRÁFICO 2: Diagnóstico del modelo m0

Construimos, por tanto, un nuevo (mi) = exp (1,9014 + 0,5566 Xi – 0,02135


modelo añadiendo un término cuadrático, Xi ) = exp (1,9014) x exp (0,5566 Xi
2

el modelo 1 -m1-, de forma que: – 0,02135Xi2 ) año LXIX, nº 248, enero-abril 2011, 59-80
revista española de pedagogía
log(µi) = ß0 + ß1Xi + ß2Xi2 Al evaluar el nuevo modelo m1 se
aprecian cambios importantes en el Grá-
µi = exp (ß0 + ß1Xi + ß2Xi2). fico 3: los residuos manifiestan ahora una
tendencia a la media en el gráfico de resi-
Siguiendo los resultados de la Tabla 5 duos frente a pronósticos, luego la condi-
sustituimos en las expresiones anteriores ción de independencia de los errores
los coeficientes, quedando ahora los parece cumplirse. Igualmente, la disper-
modelos aditivo y multiplicativo del sión vertical de los residuos es razonable-
modelo 1 en términos muestrales del mente pequeña y la influencia del caso 13
siguiente modo: se ha reducido. Los resultados de la Tabla
5 reflejan que el modelo m1 se ajusta
log(mi) = 1,9014 + 0,5566 Xi – 0,02135 Xi2 mejor a los datos: la discrepancia residual
71
Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

TABLA 5: Instrucciones y resultados para el modelo m1

GRÁFICO 3: Diagnóstico del modelo m1


año LXIX, nº 248, enero-abril 2011, 59-80
revista española de pedagogía

72
Actividades Evaluación del desempeño docente

ha disminuido considerablemente, pa- En la representación de los valores


sando de 80.69 a 9.24. ajustados por ambos modelos (Gráficos 4
y 5) es fácil distinguir que el modelo m1

GRÁFICO 4: Ajuste del número de Conflictos con el modelo m0

GRÁFICO 5: Ajuste del número de Conflictos con el modelo m1

año LXIX, nº 248, enero-abril 2011, 59-80


revista española de pedagogía

73
Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

se ajusta mejor al número de Conflictos Dm0 – Dm1 (Tabla 6). ∆D sigue una distri-
observados que el modelo m0. bución asintótica Chi cuadrado y evalúa
si la inclusión de los términos del modelo
Esta conclusión puede reforzarse m1 reduce significativamente el valor de
empleando el test de la razón de verosimi- discrepancia con respecto al modelo m0.
litud generalizado (Faraway, 2006, 120) Como se obtiene un valor de p mínimo
que compara las discrepancias que se pro- (Tabla 6) se puede afirmar que, efectiva-
ducen en ambos modelos, tal que: ∆D = mente, m1 tiene una influencia significa-
TABLA 6: Resultados del test de razón de verosimilitudes entre m0 y m1

tiva en la disminución de la discrepancia ciones en que los datos lo requieran, mos-


siendo, por tanto, más adecuado. tramos ahora la salida que se obtiene en
este ejemplo con un Modelo Lineal clá-
Para finalizar el modelado cabría sico: una regresión lineal simple. A estas
año LXIX, nº 248, enero-abril 2011, 59-80

interpretar el modelo en relación a los alturas ya sabemos que no es la solución


valores obtenidos. Por tal motivo, además adecuada. Tal y como señala Long (1997,
revista española de pedagogía

de transformar los valores de los paráme- 3), las características de una variable de
tros para obtener su valor en la escala ori- respuesta de recuento son tales que si
ginal de la variable de respuesta, habría para su ajuste se emplea un Modelo
que estimar sus intervalos de confianza y Lineal con función de enlace identidad,
ser interpretados en términos de efectos las estimaciones resultantes son inefi-
simples (particularmente en caso de exis- cientes, inconsistentes y sesgadas,
tencia de interacción), finalizando con el aunque, y esto es lo delicado, pueden ser
cálculo del intervalo de predicción de los de magnitud y significación similares a
valores de la variable de respuesta. las obtenidas por la regresión de Poisson.
No podemos eludir, por tanto, el exten-
Siguiendo con nuestro objetivo de dido e incorrecto uso del ML clásico en el
animar al empleo del MLG en las situa- ámbito de las ciencias humanas en
74
Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

numerosas ocasiones en las que se rela- se reflexiona suficientemente sobre la


cionan variables cuantitativas con una métrica de la variable de respuesta que
función de dependencia, y en las que no interviene.

TABLA 7: Instrucciones y resultados de la regresión lineal

año LXIX, nº 248, enero-abril 2011, 59-80


revista española de pedagogía

Así, apoyando el comentario de En el Gráfico 6 se aprecia también cómo


Long, en la Tabla 7 puede verse que los el ajuste de la recta a los datos no es
coeficientes del modelo de regresión adecuado, a diferencia de lo que sucedía
lineal son significativos. Sin embargo, al con el modelo m1 de la regresión de
observar los valores pronosticados obte- Poisson (Gráfico 5). La solución con el
nidos en la Tabla 8, para el caso 1 (año ML es muy forzada. La recta aumenta el
1991) resulta un número de conflictos valor de los Conflictos pronosticados en
pronosticado negativo, lo que no debiera ocho de los trece Años considerados, de
suceder con una variable de recuento. ahí la frecuencia de residuos negativos
75
Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

(Tabla 8). El gráfico de residuos frente a media, con lo que no se cumple la inde-
valores ajustados refleja de nuevo una pendencia de los errores, como también
falta de ajuste de los residuos a la ocurría con el modelo m0 (Grafico 7).

TABLA 8: Valores pronosticados y residuos de la regresión lineal

GRÁFICO 6: Ajuste con el Modelo Lineal


año LXIX, nº 248, enero-abril 2011, 59-80
revista española de pedagogía

76
Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

GRÁFICO 7: Diagnóstico de la regresión lineal

En suma, creemos que las razones regresión de Poisson y de las diversas


señaladas son importantes para preferir aplicaciones del Modelo Lineal Generali- año LXIX, nº 248, enero-abril 2011, 59-80
el MLG de regresión de Poisson frente al zado a las soluciones multinivel, así como revista española de pedagogía
Modelo Lineal clásico respetando la a los modelos jerárquicos, modelos adi-
métrica de los datos del ejemplo que se ha tivos y modelos mixtos.
descrito. Esta preferencia del MLG puede
hacerse extensible a cualquier situación Conclusión
en la que la variable de respuesta no sea El Modelo Lineal y el Modelo Lineal
métrica. Los argumentos aquí expuestos Generalizado son referentes imprescindi-
pueden ampliarse con la lectura de Ato y bles actualmente en el análisis de datos
cols. (2005), donde se describen con de investigaciones que pretenden la expli-
detalle ejemplos modelando diversas cación de fenómenos probabilísticos. Las
soluciones y empleando también transfor- peculiaridades matemáticas del MLG que
maciones de los predictores. Son intere- aquí se han descrito le confieren una muy
santes, igualmente, las extensiones de la interesante adaptabilidad a las caracte-

77
Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

rísticas métricas de las variables con las


que se trabaja, lo cual viene a solventar el
Fecha de recepción de la versión definitiva de este artículo:
10.X.2010

tratamiento estadístico inadecuado en el


análisis de datos de investigaciones educa- Notas
tivas, donde sucede con frecuencia que las
[1] En el ámbito de las ciencias del comportamiento el

variables que se registran no cumplen los


modelado estadístico es denominado también como

presupuestos matemáticos de los modelos


enfoque de la comparación de modelos. Textos impres-

estadísticos más tradicionales, como el


cindibles que trabajan esta línea son: Judd y McClelland
(1989); Krzanowski (1998); Lunneborg (1994) y Max-

Modelo Lineal o las pruebas de significa-


well y Delaney (2004).

ción estadística. Por otro lado, si un


modelo debe ser, en cualquier caso, una
[2] Puede decirse que los grandes atractivos de R son su
modo de trabajar, la participación constante de una

buena “representación” de la realidad, el


comunidad de investigadores en su desarrollo y su libre

modelado estadístico ofrece el marco ade-


acceso en internet.

cuado para que los criterios de ajuste, par-


simonia e integración teórica exigibles al
[3] No deben confundirse los modelos de datos categó-
ricos que emplean el procedimiento de estimación por

modelo puedan irse conformando.


máxima verosimilitud, como es el caso, con las téc-
nicas de análisis de datos categóricos (también lla-

Ahora bien, las ventajas señaladas no


madas modelos de datos categóricos) correspon-

pasarían de ser soluciones teóricas si no


dientes a los análisis exploratorios multivariantes de
interdependencia cuyo procedimiento de estimación es

existiera una herramienta que permitiera


el de mínimos cuadrados alternantes. Estos últimos

desarrollar plenamente estas propie-


comprenden, fundamentalmente, las contribuciones

dades. El software R reúne las caracterís-


procedentes del sistema GIFI, tales como el análisis de

ticas necesarias. El modo de trabajar de R


homogeneidad, el análisis de correspondencias y el
análisis de componentes principales no lineal (ver van

se adapta fácilmente a la filosofía del


der Geer, 1993).

modelado estadístico, así como a las pro-


piedades de los modelos de dependencia
Bibliografía
estadísticos adaptados a variables no
AGRESTI, A. (2002) Categorical Data Analysis (2ª ed.) (New

métricas: los Modelos Lineales Generali-


York, Wiley).
año LXIX, nº 248, enero-abril 2011, 59-80

zados. Además, desde el ámbito de las


ATO, M. y LÓPEZ-GARCÍA, J. J. (1996) Análisis estadístico

Ciencias Sociales es especialmente inte-


para datos categóricos (Madrid, Síntesis).
revista española de pedagogía

resante contribuir al cambio de filosofía


que implica el modelado estadístico, así
ATO, M.; LOSILLA, J. L.; NAVARRO, J.; PALMER, A. y
RODRIGO, M. (2005) Modelo lineal generalizado
como propiciar el empleo de análisis grá-
(Girona, EAP).

ficos por las numerosas ventajas que


aportan. R cumple con estos requisitos en
ATO, M. y VALLEJO, G. (2007) Diseños experimentales en Psi-

el análisis y explotación de datos, tanto si


cología (Madrid, Pirámide).

se trata de técnicas más clásicas, como si


BOCK, R. D. (1985) Multivariate Statistical Methods in Beha-

se emplean métodos más novedosos.


vioural Research (Reprinted. New York, Scientific Soft-
ware).

Dirección para la correspondencia: Emelina López CAMERON, A. y TRIVEDI, P. (1998) Regression Analysis of
González. Departamento de Métodos de Investigación e Count Data (Cambridge, Cambridge University Press).
Innovación Educativa. Facultad de Ciencias de la
Educación. Campus de Teatinos. 29071 Málaga. E-mail: CRAWLEY, M. J. (2007) The R Book (Chichester, Wiley &
emelopez@uma.es Sons, Ltd).

78
Análisis de datos con el Modelo Lineal Generalizado. Una aplicación con R

DRAPER, N. y SMITH, H. (1998) Applied Regression Analysis LÓPEZ-GONZÁLEZ, E.; RUIZ-SOLER, M. y PELEGRINA, M.
(3 ed.) (New York, Wiley). (2002) Estimación de parámetros en el Modelo Lineal
General y en los Modelos Lineales Generalizados. Dife-
DOBSON, A. J. y BARNETT, A. (2008) An Introduction to Gene- rencias e interpretación, Metodología de las Ciencias
ralized Linear Models (3ª ed.) (Boca Raton, FL., del Comportamiento, vol. especial, pp. 341-345.
Chapman and Hall/CRC).
LOSILLA, J. L.; NAVARRO, J. B.; PALMER, A.; RODRIGO, M. y
FARAWAY, J. J. (2004) Linear Models with R (Boca Raton, FL., ATO, M. (2005) Del contraste de hipótesis al modelado
Chapman & Hall/CRC). estadístico (Girona, EAP).

FARAWAY, J. J. (2006) Extending the Linear Model with R. Gene- LUNNENBORG, C. E. (1994) Modelling Experimental and
ralized Linear, Mixed Effects and Nonparametric Regres- Observational Data (California, Duxbury).
sion Models (Boca Raton, FL., Chapman & Hall/CRC).
MAXWELL, S. E. y DELANEY, H. D. (2004) Designing Experi-
FOX, J. (1997) Applied Regression Analysis, Linear Models ments and Analyzing Data. A Model Comparison Pers-
and Related Methods (Thousand Oaks, Sage). pective (2ª ed.) (Hillsdale, Lawrence Erlbaum Associates).

FOX, J. (2002) An R and S-PLUS Companion to Applied McCLELLAND, G. H. (1997) Optimal Design in Psychological
Regression (Thousand Oaks, Sage). Research, Psychological Methods, 2:1, pp. 3-19.

HILBE, J. M. (2007) Negative Binomial Regression (Cam- MCCULLAGH, P. y NELDER, J. (1989) Generalized Linear
bridge, Cambridge University Press). Models (2 ed.) (London, Chapman & Hall).

HOCKING, R. R. (1985) The Analysis of Linear Models (Mon- NELDER, J. y WEDDERBURN, R. (1972) Generalized Linear
terey, CA, Brooks/Cole). Models, Journal of the Royal Statistical Society (A), 135,
pp. 370-384.
HORTON, R. L. (1985) The General Linear Model: Data
Analysis in the Social and Behavioural Sciences. NETER, J.; KUTNER, M. H.; NACHTSHEIM, C. J. y WAS-
(Reprinted. Malabar, FL., Robert E. Krieger). SERMAN, W. (1996) Applied Linear Statistical Models
(4ª ed.) (Chicago, Irwin).
HUTCHESON, G. y SOFRONIOU, N. (1999). The Multivariate
Social Scientist: Introductory Statistics Using Genera- PEDHAZUR, E. J. (1997) Multiple Regression in Behavioural
lized Linear Models (London, Sage). Research: Explanation and Prediction (3ª ed.) (New
York, Holt, Rinehart & Winston).
JUDD, C. M. y McCLELLAND, G. H. (1989) Data Analysis. A

año LXIX, nº 248, enero-abril 2011, 59-80


Model-Comparison Approach (San Diego, Harcourt RUIZ-SOLER, M. y LÓPEZ-GONZÁLEZ, E. (2009) El entorno
Brace Jovanovich). estadístico R: ventajas de su uso en la docencia y la
investigación, revista española de pedagogía,
KLEINBAUM, D. G.; KUPPER, L. L. y MULLER, K. E. (1988) 67:243, pp. 255-274. revista española de pedagogía
Applied Regression Analysis and other Multivariable Met-
hods (2ª ed.) (Boston, Pws-Kent). RUIZ-SOLER, M.; PELEGRINA, M. y LÓPEZ-GONZÁLEZ, E.
(2000) Modelización matemática y análisis de varianza:
KRZANOWSKI, W. J. (1998) An Introduction to Statistical el enfoque de la comparación de modelos, en LÓPEZ,
Modelling (London, Arnold). A. M.; LÓPEZ, J. y MORENO, R. (coords.) A.E.M.C.C.O:
V Congreso de Metodología de las CC. Humanas y
LONG, J. S. (1997) Regression Models for Categorical and Sociales, vol. 1 (Sevilla, Kronos), pp. 361-365.
Limited Dependent Variables (Thousand Oaks, CA, Sage).
SEBER, G. A. F. y LEE, A. J. (2003) Linear Regression
LÓPEZ-GONZÁLEZ, E. (1994) La importancia del estudio de Analysis (2ª ed.) (New York, Wiley).
residuos para el análisis de las condiciones de aplica-
ción de la regresión, Bordón, 46:1, pp. 53-68. TATSUOKA, M. (1993) Elements of the General Linear Model,
en KEREN, G. y LEWIS, C. A Handbook for Data Analysis
LÓPEZ-GONZÁLEZ, E. (2003) Las pruebas de significación: in the Behavioural Sciences. Statistical Issues (London,
una polémica abierta, Bordón, 55:2, pp. 241-252. LEA), pp. 3-42.

79
Emelina LÓPEZ-GONZÁLEZ y Marcos RUIZ-SOLER

Descriptores: Modelo Lineal Generali-


zado, Modelo Lineal, regresión de
TIMM, N. H. (2002) Applied Multivariate Analysis (New York,
Springer).

VAN DER GEER, J. P. (1993) Multivariate Analysis of Catego- Poisson, modelado estadístico, R.
rical Data: Applications (Newbury Park, CA, Sage).
Summary:
VENABLES, W. N. y RIPLEY, B. D. (2003) Modern Applied Sta-
tistics with S (4ª ed.) (New York, Springer-Verlag). Data analysis from the Generalized
WEISBERG, S. (2005) Applied Linear Regression (3 ed.) (New
Linear Model approach: an applica-
tion using R
To use mathematical models in order
York, Wiley).

WOOD, S. N. (2006) Generalized Additive Models. An Intro-


to explain probabilistic phenomena have
been essential in scientific research.
duction with R (Boca Raton, FL., Chapman & Hall/CRC).

However, in educational settings is


common to work with variables which do
Resumen:
not satisfy the demanded assumptions in
Análisis de datos desde el Modelo
Lineal Generalizado. Una aplicación the Linear Model (LM). The Generalized
con R Linear Model (GLM) answers quite well
El empleo de modelos matemáticos to the problems originated by measure-
para la explicación de fenómenos probabi- ment variable questions. In this work
lísticos ha sido imprescindible en la some aspects of the GLM are commented
investigación científica. No obstante, en in relation to the LM and this is done
el ámbito educativo es frecuente trabajar from the framework where both of them
con variables que no cumplen las caracte- make sense: statistical modelling.
rísticas requeridas por el Modelo Lineal Besides, the use of statistical software R
(ML), utilizado durante mucho tiempo is emphasized because this one is not
como única opción para representar datos very much known in educational rese-
de dependencia; por el contrario, el arch. However, this software is very
Modelo Lineal Generalizado (MLG) res- appropriate for the GLM and for the wor-
ponde muy adecuadamente a los pro-
año LXIX, nº 248, enero-abril 2011, 59-80

king style in statistical modelling.


blemas generados por la métrica de las
variables. En este trabajo se comentan los
revista española de pedagogía

Key Words: Generalized Linear Model,


aspectos particulares del MLG en rela- Linear Model, Poisson regression, statis-
ción al ML dentro del entorno en el que tical modelling, R.
cobran sentido ambos: el modelado esta-
dístico. Así mismo se anima al uso del
software estadístico R, poco conocido en el
ámbito de los estudios educativos, pero
especialmente sensible a las particulari-
dades matemáticas del Modelo Lineal
Generalizado y al modo de trabajar con el
modelado estadístico.

80

También podría gustarte