Está en la página 1de 50

Chapman & Hall / CRC

Estadísticas de la Social y Ciencias de la Conducta de la serie

Multilevel
Modelado Uso
de R

W. Holmes Finch
Jocelyn E. Bolin
Ken Kelley
Multilevel
Modelado Uso de R
Chapman & Hall / CRC
Estadísticas de la Social y Ciencias de la Conducta de la serie

Editores de serie

Jeff Gill Steven Heeringa


Universidad de Washington, EE.UU. Universidad de Michigan, EE.UU.

Wim van der Linden J. Scott Long


CTB / McGraw-Hill, EE.UU. Universidad de Indiana, EE.UU.

tom Snijders
Universidad de Oxford, Reino Unido
Universidad de Groningen, NL

Objetivos y alcance

Grandes y complejos conjuntos de datos son cada vez frecuente en las ciencias sociales y del comportamiento y los
métodos estadísticos son cruciales para el análisis y la interpretación de estos datos. Esta serie tiene como objetivo
captar nuevos avances en la metodología estadística con especial relevancia para aplicaciones en las ciencias sociales y
del comportamiento. Se busca promover el uso apropiado de métodos estadísticos, econométricos y psicométricas en
estas ciencias aplicadas mediante la publicación de una amplia gama de obras de referencia, libros de texto y manuales.

El alcance de la serie es amplia, incluyendo las aplicaciones de la metodología estadística en sociología, psicología,
economía, educación, investigación de mercados, la ciencia política, la criminología, la política pública, la demografía, la
metodología de encuestas y estadísticas oficiales. Los títulos incluidos en la serie están diseñados para atraer a los
estadísticos aplicados, así como estudiantes, investigadores y profesionales de las disciplinas antes mencionadas. La
inclusión de ejemplos reales y estudios de caso es por lo tanto esencial.
Títulos publicados

El análisis de los modelos espaciales de elección y juicio con R


David A. Armstrong II, Ryan Bakker, Royce Carroll, Christopher Hare, Keith T. Poole, y
Howard Rosenthal
Análisis multivariado de datos Ciencias Sociales, segunda edición
David J. Bartolomé, Fiona Steele, Irini Moustaki, y Jane I. Galbraith
Latentes Modelos de Markov para datos longitudinales

Francesco Bartolucci, Alessio Farcomeni, y Fulvia Pennoni


Teoría de prueba estadístico para las Ciencias del Comportamiento

Dato NM de Gruijter y Leo J. Th. van der Kamp


Multivariable modelado y análisis multivariado para las Ciencias del Comportamiento
Brian S. Everitt

Multilevel Modelado Uso de R


W. Holmes Finch, Jocelyn E. Bolin, y Ken Kelley
Los métodos bayesianos: un enfoque de Ciencias Sociales y del Comportamiento, segunda edición

Jeff Gill
Análisis de correspondencias múltiple y métodos relacionados
Michael Greenacre y Jorg Blasius
Análisis de datos de la encuesta aplicada

Steven G. Heeringa, Brady T. West, y Patricia A. Berglund


Las hipótesis informativos: Teoría y Práctica de la Conducta y Sociales científicos

Herbert Hoijtink
Fundamentos del Análisis Factor, segunda edición
Stanley A. Mulaik

Modelado causal lineal con ecuaciones estructurales


Stanley A. Mulaik
Manual de evaluación a gran escala internacional de: fondo, cuestiones técnicas y métodos de
análisis de datos
Leslie Rutkowski, Matthias von Davier, y David Rutkowski
Modelos lineales generalizados para variables dependientes categóricas y continuas
Limited
Michael Smithson y Edgar C. Merkle
Diseño incompletos los datos categóricos: técnicas de respuesta no aleatorios para las preguntas sensibles
en las encuestas
Guo-Liang Tian y el Hombre-Tang Lai

Computarizado de pruebas en varias etapas: Teoría y Aplicaciones


Duanli Yan, Alina A. von Davier, y Charles Lewis
Chapman & Hall / CRC
Estadísticas de la Social y Ciencias de la Conducta de la serie

Multilevel
Modelado Uso de R

W. Holmes Finch
Ball State Universidad de

Muncie, Indiana, EE.UU.

Jocelyn E. Bolin
Ball State Universidad de

Muncie, Indiana, EE.UU.

Ken Kelley
Universidad de Notre Dame Notre

Dame, Indiana, EE.UU.


CRC Press
Taylor & Francis Group
6000 Broken Sound Parkway NW, Suite 300 Boca
Raton, FL 33487-2742

© 2014 por Taylor & Francis Group, LLC


CRC Press es una huella de Taylor & Francis Group, una empresa Informa Sin pretensión de Gobierno

originales de Estados Unidos trabaja Fecha Versión: 20140312

Número Internacional Normalizado para Libros-13: 978-1-4665-1586-4 (Libro-- PDF)

Este libro contiene información obtenida de fuentes auténticas y de gran prestigio. Se han hecho esfuerzos razonables para publicar los datos y la información
fiable, pero el autor y el editor no pueden asumir la responsabilidad de la validez de todos los materiales o las consecuencias de su uso. Los autores y editores
han tratado de rastrear los titulares de derechos de autor de todo el material reproducido en esta publicación y pedir perdón a los titulares de derechos de autor
si no se ha obtenido permiso para publicar en esta forma. Si cualquier material de derechos de autor no ha sido reconocido por favor escriba y háganos saber
para que podamos rectificar en cualquier reimpresión futuro.

A excepción de lo permitido por la Ley de Derechos de Autor de Estados Unidos, ninguna parte de este libro puede ser reproducido, reproducir, transmitir, o utilizada en
cualquier forma o por cualquier medio electrónico, mecánico u otro, ahora conocido o inventado, fotocopiado ing INCLUYENDO, microfilmación, y la grabación, o en
cualquier sistema de almacenamiento o recuperación de información, sin el permiso por escrito de los editores.

Los permisos para copiar o utilizar material electrónicamente a partir de este trabajo, por favor acceder www.copyright.com (http://www.copyright.com/) o
contacte con el Copyright Clearance Center, Inc. (CCC), 222 Rosewood Drive, Danvers, MA 01923, 978-750-8400. CCC es una organización sin fines de
lucro que proporciona licencias y registro para una variedad de usuarios. Para las organizaciones que se han concedido una licencia de fotocopia por la
CCC, un sistema separado de pago ha sido arreglado.

Aviso de marca registrada: Nombres de productos y empresas pueden ser marcas comerciales o marcas comerciales registradas, y sólo se utilizan para la identificación y
explicación y sin intención de infringir.

Visita el sitio web de Taylor & Francis en


http://www.taylorandfrancis.com y el sitio Web
CRC Press en http://www.crcpress.com
Contenido

Prefacio ................................................. .................................................. ................... xi Acerca de los


autores ........................... .................................................. ................. xiii

1. Modelos lineales .................................................. ................................................ 1


1.1 Regresión lineal simple .............................................. ...................... 2
1.1.1 Estimación de Modelos de regresión con mínimos cuadrados ordinarios
........................................ .................................... 2
1.2 hipótesis de distribución subyacentes Regresión ...................... 3
1.3 Coeficiente de Determinación .............................................. ................. 4
1.4 Inferencia para la regresión Parámetros .............................................. .... 5
1.5 Regresión Múltiple ............................................... ............................... 7
Ejemplo 1.6 del Manual de Regresión Lineal Simple ................................. 9
1.7 Regresión en R .............................................. ...................................... 12
1.7.1 Términos de interacción en regresión .......................................... 14
1.7.2 Variables independientes categóricas ..................................... 15
1.7.3 Comprobación de supuestos de regresión con R ....................... 18
Resumen ................................................. .................................................. ...... 21

2. Introducción a la estructura multinivel de datos .............................................. 23


2.1 anidadas de datos y muestreo por conglomerados diseños ................................... 23
2.2 La correlación intraclase ................................................ ......................... 24
2.3 Trampas de Ignorando estructura multinivel de datos ................................ 28
2.4 Modelos lineales multinivel .............................................. ..................... 29
2.4.1 Intercepción aleatoria ............................................. ..................... 29
2.4.2 Las pendientes azar ............................................. .......................... 31
2.4.3 Centrado .............................................. ................................... 34
2.5 Fundamentos de la estimación de parámetros con MLMs ................................... 35
2.5.1 estimación de máxima verosimilitud ....................................... 35
2.5.2 Máxima Verosimilitud Restringida Estimación .................... 36
2.6 suposiciones subyacentes MLMs .............................................. ........ 36
2.7 Visión general de MLMs de dos niveles ........................................... .............. 37
2.8 Visión general de MLM de tres niveles ........................................... ........... 38
2.9 Resumen de modelos longitudinales y su relación con mlms ........................................
.................................................. ..... 40
Resumen ................................................. .................................................. ...... 40

3. La guarnición modelos de dos niveles en R .................................................. ................ 43


3.1 Los paquetes y funciones de niveles múltiples Modelización en I ................. 43
3.2 La nlme Paquete ................................................. .............................. 44
3.2.1 simples (Intercepción Sólo) Utilización de los modelos multinivel nlme ..... 44
3.2.2 Uso de modelos de coeficientes aleatorios nlme ........................... 49

vii
viii Contenido

3.2.3 Las interacciones y las interacciones Cruz nivel empleando nlme .... 52
3.2.4 Factores predictivos de centrado ............................................. ................. 54
3.3 La lme4 Paquete ................................................. .............................. 55
3.3.1 Modelos aleatorios interceptar utilizando lme4 .............................. 55
3.3.2 Uso de modelos de coeficientes aleatorios lme4 ........................... 59
3.4 Opciones adicionales ............................................... .............................. 61
3.4.1 Parámetro Método de estimación ............................................ . 61
3.4.2 Controles de estimación ............................................. .................. 62
3.4.3 Chi cuadrado para comparar Modelo apto ......................... 62
3.4.4 Intervalos de confianza para Estimaciones de los parámetros .................. 63
Resumen ................................................. .................................................. ...... 64

4. Los modelos de tres y más niveles .................................................. .......... 67


4.1 La nlme Paquete ................................................. .............................. 68
4.1.1 Modelos simples de tres niveles .......................................... ........ 68
4.1.2 Modelos simples con más de tres niveles .................. 74
4.1.3 Coeficiente de azar Modelos con tres o más niveles ..... 76
4.2 lme4 de tres o más niveles ............................................. ......... 80
Resumen ................................................. .................................................. ...... 85

5. Análisis de Datos Longitudinal Usando modelos multinivel ........................ 87


5.1 Marco de multinivel longitudinal .............................................. 87 ..
5.2 Estructura Persona Fecha Periodo ............................................. ............... 88
5.3 Montaje de Modelos longitudinales Uso nlme y lme4 Paquetes .... 90
5.4 Cambio de las estructuras de covarianza de los modelos longitudinales .......... 96
5.5 Ventajas del uso de niveles múltiples Modelización para el análisis longitudinal
......................................... .................................................. ..... 99
Resumen ................................................. .................................................. .... 100

6. Los datos de gráficos en sistemas multinivel ........................................... ........ 103


6.1 Parcelas en modelos lineales ............................................. ....................... 107
6.2 Trazado anidado datos .............................................. .......................... 111
6.3 Uso de la enrejado Paquete ................................................. ........... 112
6.3.1 Gráfica de puntos .................................................. .............................. 112
6.3.2 xyplot .................................................. ................................ 117 Resumen
................................................ .................................................. ..... 121

7. Breve Introducción a los modelos lineales generalizados ............................... 123


7.1 modelo de regresión logística para la variable de resultado dicotómicas ... 124
7.2 modelo de regresión logística para la variable de resultado ordinal ......... 128
7.3 Regresión logística multinomial .............................................. ...... 131
7.4 Modelos para el recuento de datos ............................................. ........................ 134
7.4.1 regresión de Poisson ............................................. ................. 134
7.4.2 Modelos para overdispersed recuento de datos ............................ 136
Resumen ................................................. .................................................. .... 139
Contenido ix

8. modelos multinivel lineales generalizados .................................................. 141


8.1 Multinivel Modelo Lineal Generalizado de variable de resultado dicotómicas
......................................... ..................................... 141
8.1.1 Random Intercepción de Regresión Logística ............................. 142
8.1.2 Coeficiente de regresión logística aleatoria .......................... 144
8.2 La inclusión de concentración adicional 1 y nivel 2 Efectos a .......................................
MLRM ................................................ 145
8.3 Montaje de niveles múltiples de regresión logística dicotómica Uso  lme4 ..................................................
....................................... 147
8.4 MGLM para ordinal variable de resultado ........................................... 151
8.4.1 aleatoria Intercepción de regresión logística ............................. 151
8.5 MGLM para contar con datos ............................................. ........................ 154
8.5.1 aleatoria Intercepción de regresión de Poisson ............................. 154
8.5.2 Coeficiente de regresión de Poisson aleatoria .......................... 156
8.5.3 La inclusión de Nivel 2 Efectos adicional en varios niveles de Poisson modelo de
regresión ....................................... ........... 157
8.6 Montaje Multinivel Utilizando la regresión de Poisson lme4 ...................... 162 Resumen
................................................ .................................................. ..... 166

9. bayesiano de niveles múltiples Modelización .................................................. .............. 167


9.1 Estimación MCMC ............................................... ............................. 168
9.2 MCMCglmm para variable de respuesta normalmente distribuido ........... 170
9.3 Incluyendo Nivel 2 con predictores MCMCglmm .............................. 177
9.4 Priors definidos por el usuario ............................................. ............................. 183
9.5 MCMCglmm para la variable dependiente dicotómica ....................... 186
9.6 MCMCglmm para el conde Variable dependiente .................................... 189
Resumen ................................................. .................................................. .... 196

Apéndice: Introducción a R .................................................. ......................... 199

referencias .................................................. .................................................. ....... 207


Prefacio

El objetivo de este libro es proporcionar a usted, el lector, con un recurso integral para la
realización de un modelo multinivel utilizando determinar la dirección correcta del software R.
un modelo multinivel, a veces referido como el modelado jerárquico, es una poderosa
herramienta que permite al investigador para dar cuenta de los datos recogidos en múltiples
niveles. Por ejemplo, un investigador educativo puede recopilar resultados de las pruebas y las
medidas de nivel socioeconómico (SES) para los estudiantes que asisten a una serie de
diferentes escuelas. Los estudiantes serían considerados de nivel 1 unidades de muestreo, y
las escuelas se denominan nivel-2 unidades. Haciendo caso omiso de la estructura inherente a
este tipo de recopilación de datos puede, como veremos en el capítulo 2, conducir a un
parámetro incorrecto y compañeros de estimación de error estándar. Además de modelar la
estructura de datos correctamente,

Después de revisar los modelos lineales estándar en el Capítulo 1, vamos a centrar nuestra atención en los
aspectos básicos de los modelos multinivel en el capítulo 2, antes de aprender cómo encajar estos modelos
usando el paquete de software de R en los capítulos 3 y 4. En el capítulo 5 se centra en el uso de niveles
múltiples modelado en el caso de los datos longitu- dinal, y el Capítulo 6 demuestra las opciones gráficas muy
útiles disponibles en I, en particular los más adecuados para los datos de niveles múltiples. Capítulos 7 y 8
describen modelos para variables dependientes categóricas, primero para los datos de un solo nivel, y después
en el contexto de múltiples niveles. Por último, se concluye en el capítulo 9 con ajuste bayesiano de modelos
multinivel.

Esperamos que este texto le sea útil a medida que trabaja con los datos multi-nivel. Nuestro objetivo
es proveerle con una guía que servirá como punto de partida para sus propias investigaciones en
modelos multinivel. El código R y discusión de su interpretación contenida en este texto que deben
proporcionar las herramientas necesarias para hacerse una idea de su propia investigación, en
cualquier campo que sea. Agradecemos su tomarse el tiempo para leer nuestro trabajo y esperamos
que encuentre lo más agradable e informativo para que diga lo que era para que escribamos.

xi
Sobre los autores

W. Holmes Finch es profesor en el Departamento de Psicología de la Educación de la Universidad de Ball


State, donde ha estado desde 2003. Obtuvo un doctorado de la Universidad de Carolina del Sur en 2002.
El Dr. imparte los cursos de análisis factorial, modelos de ecuaciones estructurales, análisis de datos
categóricos Finch, regresión, estadística multivariante, y la medición de los estudiantes graduados en
psicología y educación. Sus líneas de investigación están en las áreas de los modelos multinivel, modelos
de variables latentes, los métodos de predicción y clasificación y estadística multivariante no
paramétricas. Holmes es también un profesional acreditado Estadístico (PSTAT ®).

Jocelyn E. Bolin obtuvo un doctorado en psicología educativa de la Universidad de Indiana de


Bloomington en 2009. Su tesis consistió en una comparación de clasificación estadística
análisis en situaciones de clasificación de los datos de entrenamiento mis-. Ella es un profesor
asistente en el Departamento de Psicología de la Educación de la Universidad de Ball State,
donde ha estado desde 2010. El Dr. Bolin enseña cursos de introducción a la estadística e
intermedias, análisis de regresión múltiple, y un modelo multinivel para estudiantes graduados
en disciplinas de las ciencias sociales. Sus intereses de investigación incluyen métodos
estadísticos para la clasificación y el agrupamiento y el uso de los modelos multinivel en las
ciencias sociales. Ella es miembro de la American Psychological Association, la Asociación
Americana de Investigación para la Educación, ®).

Ken Kelley Hank es la D. Profesor Asociado de Gestión de Viola en el Mendoza College of Business
de la Universidad de Notre Dame. La investigación del Dr. Kelley implica el desarrollo, la mejora y
evaluación de métodos cuantitativas, especialmente en lo que se refiere a cuestiones estadísticas y
medición en la investigación aplicada. contribuciones más notables del Dr. Kelley han sido el diseño
de la investigación, especialmente con respecto a la planificación tamaño de la muestra. El Dr. Kelley
es el desarrollador del paquete MBESS para el lenguaje estadístico R y ronment bientes. También es
un profesional acreditado Estadístico (PSTAT ®) y editor asociado de Métodos psicológicos.

xiii
1
Modelos lineales

Los modelos estadísticos proporcionan potentes herramientas para los investigadores en una amplia gama de
disciplinas. Tales modelos permiten el examen de las relaciones entre las múltiples variables, que a su vez puede
conducir a una mejor comprensión del mundo. Por ejemplo, los sociólogos utilizan regresión lineal para obtener
información sobre cómo los factores como la etnia, género y nivel de educación están relacionados con los
ingresos de un individuo. Los biólogos pueden utilizar el mismo tipo de modelo a Deben conocerse la interacción
entre la luz del sol, la lluvia, la escorrentía industrial y biodiver- sidad en una selva tropical. Y el uso de regresión
lineal, los investigadores educativos pueden desarrollar potentes herramientas para comprender el papel que las
diferentes estrategias de instruc- cionales tienen en el rendimiento estudiantil. Además de proporcionar un
camino por el que varios fenómenos se puede entender mejor, modelos estadísticos también pueden ser
utilizados como herramientas de predicción. Por ejemplo, económetras podrían desarrollar modelos para predecir
la participación en el mercado laboral dado un conjunto de entradas económicas. administradores de educación
superior pueden utilizar el mismo tipo de modelos para predecir el promedio de calificaciones para estudiantes de
nuevo ingreso prospectivo para identificar los que podría necesitar ayuda académica durante su primer año de
universidad.

Como puede verse a partir de estos pocos ejemplos, modelos estadísticos es muy importante en una
amplia gama de campos, proporcionando a los investigadores con herramientas tanto para la explicación y
predicción. Sin duda, el más popular de estos mo- els lo largo de los últimos 100 años de práctica estadística
ha sido el modelo lineal general (GLM). El GLM une una variable dependiente o el resultado de una o más
variables independientes y puede tomar la forma de este tipo de herramientas populares como el análisis de
la varianza (ANOVA) y la regresión.

Sobre la base de la popularidad y la utilidad de GLM y su capacidad para servir como la


dación Fun- para muchos otros modelos, incluyendo los tipos de niveles múltiples que
aparecen en este libro, vamos a comenzar con una breve revisión del modelo lineal,
centrándose en regresión. Esta opinión se inicia con una breve discusión técnica de los
modelos de regresión lineal, seguida de una descripción de cómo pueden estimarse utilizando
el lenguaje R y medio ambiente (R Core Team, 2013). Los aspectos técnicos de esta discusión
son intencionalmente no muy detallada que nos centramos en el modelo desde el punto de
vista conceptual. Sin embargo,

1
2 Multilevel Modelado Uso de R

Los lectores familiarizados con la regresión lineal y el uso de R para llevar a cabo este tipo de análisis pueden
optar por ignorar este capítulo, sin pérdida de la comprensión de los futuros capítulos.

1.1 regresión lineal simple

Como se señaló anteriormente, el marco GLM sirve como base para los modelos multinivel que se
describe en los capítulos siguientes. Por lo tanto, con el fin de proporcionar una base para el resto del
libro, nos centraremos en este capítulo sobre el modelo de regresión lineal, aunque su forma y función
pueden ser fácilmente traducidos a ANOVA también. El modelo de regresión lineal simple en forma de
población es

y i = β 0 + β 1 X yo + ε yo (1,1)

dónde y yo es la variable dependiente para el individuo yo en el conjunto de datos y X yo es la variable


independiente para los sujetos i (i = 1, ..., NORTE). Los términos β 0 y β 1, son el origen y la pendiente del
modelo, respectivamente. En un sentido gráfico, el punto de intersección es el punto en el que la línea en la
ecuación (1.1) cruza la y al eje
x =  0. También es la media, específicamente la media condicional, de y para los individuos con valores de 0
a X. Esta última definición será más útil En la práctica real. La pendiente β 1 expresa la relación entre y y X. valores
de pendiente positivos indican que los valores más grandes de X están asociados con valores
correspondientemente más grandes de Y, mientras pendientes negativas significan que más grande X valores
se asocia- dos con menor y valores. La celebración de todo lo demás constante, los valores más grandes de β
1( positivo o negativo) indican una relación lineal fuerte entre

y y X. Finalmente, ε ι representa el error aleatorio inherente a cualquier modelo estadístico, incluyendo la


regresión. Expresa el hecho de que para cualquier individuo, yo,
el modelo no proporcionará generalmente un valor predicho perfecta de y yo, denotado
y yo y se obtiene mediante el modelo de regresión como

yyo = Β 0+ β 1 X yo (1,2)

Conceptualmente, este error aleatorio es representativo de todos los factores que pueden influir en el
dependiente de otra variable de X.

1.1.1 Estimación de Modelos de regresión con mínimos cuadrados ordinarios

En prácticamente todos los contextos del mundo real, la población no está disponible para el investigador.
Por lo tanto, β 0 y β 1 debe ser estimado a partir de datos de muestra tomados de la población. La literatura
estadística describe varios métodos para obtener valores estimados de los parámetros del modelo de
regresión ( segundo 0 y segundo 1,
respectivamente) dado un conjunto de X y y. Por el momento, el más popular y ampliamente utilizado
Modelos lineales 3

de estos métodos es de mínimos cuadrados ordinarios (MCO). La gran mayoría de los otros enfoques
son útiles en los casos especiales en pequeñas muestras o datos que no se ajusten a los supuestos
de distribución ciñendo MCO. El objetivo de OLS es minimizar la suma de las diferencias al cuadrado
entre los valores observados de y y el modelo predice valores de y a través de la mues- PLE. Esta
diferencia, conocido como el residual, se escribe como

miyo = -yyyo ˆ yo (1,3)

Por lo tanto, el método de MCO busca minimizar

ΣΣ
2 2
miIIN = ( yyyo ˆ- )
yo (1,4)
= 1 en= 1

El mecanismo real para encontrar la ecuación lineal que minimiza la suma de los residuos al cuadrado
implica las derivadas parciales de la suma de la función cuadrado con respecto a los coeficientes del
modelo β 0 y β 1. Vamos a dejar a estos detalles matemáticos a excelentes referencias tales como Fox (2008).
Tenga en cuenta que en el contexto de regresión lineal simple, los criterios de MCO se reducen a las
siguientes ecuaciones que se pueden utilizar para obtener segundo 0 y segundo 1 como

y•
1 = •r s•
segundo • (1,5)
• sX •

0 = -YBX
segundo 1 (1,6)

dónde, r es el momento producto coeficiente de correlación de Pearson entre


X  y  y, s y es la desviación estándar de la muestra de y, s X es la desviación estándar de la muestra de X, y es la media
de la muestra de Y, y X es la media de la muestra de X.

1.2 hipótesis de distribución de regresión Subyacente

El modelo de regresión lineal se basa en varias suposiciones acerca de la dis- tribución de los
residuos en la población más amplia. Aunque un investigador normalmente no es capaz de recopilar
datos de toda una población, es posible evaluar empíricamente si los supuestos son propensos a
ser verdad en base a datos de la muestra.

La primera suposición de que debe ser cierto para los modelos lineales funcionen de forma
óptima es que la relación entre y yo y X yo es lineal. Si la relación
4 Multilevel Modelado Uso de R

no es lineal, entonces claramente una ecuación para una línea será no proporciona ajuste adecuado y el
modelo es por lo tanto mal especificado. Un segundo supuesto es que la varianza de los residuos es
constante, independientemente del valor de X yo. Esta suposición se refiere típicamente como
homocedasticidad y es una generalización de la homogeneidad de la asunción varianza del error en
ANOVA. Homocedasticidad implica que la varianza de y yo es constante a través de los valores de X yo. La
distribución de las variables dependientes en los alrededores de la línea de regresión es literalmente la
distribución de los residuos, con lo que liberará la conexión de homocedasticidad de errores con la
distribución de y yo alrededor de la línea de regresión. La tercera hipótesis es que los residuos se
distribuyen normalmente en una población. En cuarto lugar está la suposición de que la variable
independiente X se mide sin error y que no está relacionado con el término de error modelo ε. Cabe
señalar que el supuesto de X medido sin error no es tan intenso como uno podría suponer primero. De
hecho, para la mayoría de los problemas del mundo real, el modelo va a funcionar bien incluso cuando la
variable independiente que no está libre de errores (Fox, 2008). En quinto y último lugar, los residuales
de dos individuos en una población se supone que son independientes entre sí. Este supuesto de
independencia implica que los factores no medidos influir y no están relacionados de un individuo a otro y
se dirigió directamente con el uso de los modelos multinivel, como veremos en el capítulo 2.

En muchas situaciones de investigación, los individuos se toman muestras en grupos, de tal


manera que no podemos asumir que los individuos de la misma agrupación tendrán residuos
relacionados uncor-. Por ejemplo, si las muestras se obtienen a partir de múltiples barrios, los
individuos dentro de los mismos barrios pueden tender a ser más como el uno al otro de lo que
son como los individuos de otros barrios. Un ejemplo prototípico de esto es los niños en las
escuelas. Debido a una variedad de factores, los niños que asisten a la misma escuela a
menudo tienen más en común entre sí que con los niños de otras escuelas. Estos factores
comunes pueden incluir barrio estatus socioeconómico, las políticas de adminis- tración de la
escuela, y el entorno de aprendizaje escolar, por nombrar sólo algunos. Haciendo caso omiso
de esta agrupación o sin darse cuenta de que es un problema puede ser perjudicial para los
resultados de la modelización estadística.

1.3 coeficiente de determinación

Cuando se ha estimado un modelo de regresión lineal, los investigadores generalmente quieren


medir la magnitud relativa de las relaciones de las variables. Una herramienta útil para la
determinación de la fuerza de la relación entre
Modelos lineales 5

X   y y es el coeficiente de determinación, que es el cuadrado del coeficiente de correlación múltiple


denotado R 2 en la ecuación (1.7). R 2 refleja la proporción de la variación en la variable dependiente
que es explicada por la variable independiente. Matemáticamente, R 2 se calcula como

Σ Σ
2 2
ˆ IIN-
((yy ) ((yyIIN- ˆ )
2 R =1 =1 SS mi
R SS= = = -1 = -1 (1,7)
SS T SS T
Σ Σ
2 2
yyIIN- ) yyIIN- )
=1 =1

Los términos de la ecuación (1.7) son como se definen previamente. El valor de este tistic esta-
siempre se encuentra entre 0 y 1, con un mayor número que indica una relación lineal fuerte entre X y
Y, lo que implica que representa la variable independiente para una mayor variación en el
dependiente. R 2 es una medida muy utilizada de la forma general de un modelo de regresión. Junto
con la inferencia parámetro se discute más adelante, sirve como el principal mecanismo por el que
se cuantifica la relación entre las dos variables.

1.4 Inferencia de parámetros de regresión

Un segundo método para la comprensión de la naturaleza de la relación entre


X y y implica hacer inferencias acerca de la relación en la población dada la ecuación de regresión de la
muestra. Porque segundo 0 y segundo 1 son compañeros de estimación de muestra de los parámetros de la
población β 0 y β 1, respectivamente, que son sub-Ject al error de muestreo como lo es cualquier estimación de
la muestra. Esto significa que aunque las estimaciones son imparciales, si los supuestos antes mencionados
tienen, no son precisamente iguales a los valores de los parámetros de población. Además, se nos para
dibujar múltiples muestras de la población y estimar el origen y la pendiente para cada uno, los valores de segundo
0 y segundo 1 diferiría a través de muestras a pesar de que podrían estimar los mismos valores de los
parámetros de población para β 0  y β 1. La magnitud de esta variación en las estimaciones de parámetros a
través de muestras se puede estimar a partir de nuestra única muestra mediante una estadística conocida
como el error estándar.

El error estándar de la pendiente, denotado como σ b1 en una población, puede ser pensado como la desviación
estándar de los valores de pendiente obtenidos a partir de todos los posi- bles muestras de tamaño norte tomado
de la población. Del mismo modo, el error estándar de la intersección σ b0 es la desviación estándar de los valores
de intersección obtenidos a partir de todas estas muestras. Es evidente que no es posible obtener los datos del
censo de una población en un contexto de investigación aplicada. Por lo tanto, hay que estimar los errores
estándar de tanto la pendiente ( s segundo 1) y la intersección ( s segundo 0) utilizando
6 Multilevel Modelado Uso de R

datos de una sola muestra, tanto como lo hicimos con b 0 y B 1. Para obtener s segundo 1,
debemos calcular primero la varianza de los residuos,

Σ
2
miIIN

2 =1
S mi = - - (1,8)
notario público 1

dónde mi yo es el valor residual para el individuo i, N es el tamaño de la muestra, y pag es el número de variables
independientes (uno en el caso de la regresión simple). Entonces

• •
• •
• •
1 S mi
S segundo
1
= • • (1,9)
1 - R
2
• •
Σ
2
• ( xxIIN- ) •
•• =1 ••

El error estándar de la intersección se calcula como

Σ
2
X IIN
=1
= S segundo
S segundo
0 1
(1,10)
norte

Debido a la intersección de la muestra y la pendiente son sólo estimaciones de los parámetros pobla-
ción, los investigadores a menudo están interesados ​en eses pruebas de hipó- para inferir si los datos
representan una desviación de lo que cabría esperar en lo que se conoce comúnmente como el caso nulo
(el valor nulo sosteniendo cierto en la población puede ser rechazada). Por lo general (pero no siempre), la
inferencia de las pruebas de las cuestiones de interés que el parámetro de la población es 0. En particular,
un no-0 pendiente en una población significa que X está linealmente relacionada con  y. Por lo tanto, los
investigadores normalmente están interesados ​en utilizar la muestra para hacer inferencias acerca de si la
pendiente población es 0 o no. La inferencia también puede hacerse con respecto a la intersección, y de
nuevo el enfoque típico es el de si el valor es 0 en la población.

Inferencia sobre los parámetros de regresión se puede hacer usando intervalos de confianza y pruebas de
hipótesis. Mucho como con el intervalo de confianza de la media, el intervalo de confianza del coeficiente de
regresión produce una gama de valores dentro de los que tenemos un cierto nivel de confianza (por ejemplo,
95%) que el valor del parámetro población reside. Si nuestro interés particular es en si X está linealmente
relacionada con Y, entonces tendríamos simplemente determinar si es 0 en el intervalo de  β 1.

Si es así, entonces no podríamos concluir que el valor de la población es diferente de 0.


Modelos lineales 7

La ausencia de un resultado estadísticamente significativo (es decir, un intervalo que no contiene 0) no


implica que la hipótesis nula es verdadera. Más bien, significa que los datos muestra contiene suficiente
evidencia para rechazar la hipótesis nula. Del mismo modo, podemos construir un intervalo de confianza para
la intersección, y si 0 es dentro del intervalo, llegamos a la conclusión de que el valor de y para un individuo con
x = 0 podría ser plausible pero no es necesariamente 0. Los intervalos de confianza para la pendiente y la
intersección adoptar las formas siguientes:

1 ± ts
segundo
b cv 1
(1,11)

0 ± ts
segundo
b cv 0
(1,12)

Aquí las estimaciones de los parámetros y sus errores estándar son como se describen pre viamente, mientras t CV
es el valor crítico de la t de distribución de 1 - α / 2 (por ejemplo, la
0,975 cuantil si α = 0,05) con norte - pag - 1 grados de libertad. El valor de α es igual a 1 menos el
nivel deseado de confianza. Así, para un intervalo de confianza del 95% (0,95 nivel de confianza), α
sería 0,05.
Además de los intervalos de confianza, inferencia sobre etros la regresión param también puede hacerse
usando pruebas de hipótesis. En general, las formas de esta prueba para la pendiente y la intersección,
respectivamente, son

Bs1 1
=
t segundo
1
-β (1,13)
segundo
1

Bs0 0
=
t segundo
0
-β (1,14)
segundo
0

Los términos β 1 y β 0 son los valores de los parámetros bajo la hipótesis nula. Una vez más, lo más a
menudo postula la hipótesis nula de que no existe una relación lineal entre X y y ( β 1 = 0) y que el valor de y
= 0 cuando x = 0 ( β 0 = 0). Para sim- regresión PLE, cada una de estas pruebas se lleva a cabo con norte - 2
grados de libertad.

1.5 Regresión Múltiple

El modelo de regresión lineal se puede extender muy fácilmente para acomodar múltiples
variables independientes a la vez. En el caso de dos regresores, el modelo toma la forma

y i = β 0 + β 1 X 1i + β 2 X 2i + ε yo (1,15)
8 Multilevel Modelado Uso de R

En muchos sentidos, este modelo se interpreta como el que para la regresión lineal simple. La única
diferencia importante entre la interpretación de regresión simple y múltiple es que cada coeficiente se
interpreta a su vez manteniendo constante el valor de la otra coeficiente de regresión. En particular,
los parámetros se estiman segundo 0, segundo 1, y segundo 2, y las inferencias acerca de estos
parámetros se hacen de la misma manera para ambos intervalos de confianza y pruebas de
hipótesis.

Las hipótesis que subyacen a este modelo son también los mismos que los descritos para el modelo de
regresión simple. A pesar de estas similitudes, tres temas adicionales con respecto a la regresión múltiple
deben ser considerados aquí. Estos son inferencia para el conjunto de pendientes de los modelos en su
conjunto, una medida ajustada del coeficiente de determinación, y colinealidad entre las variables
independientes. Debido a que estas cuestiones serán importantes en el contexto de un modelo multinivel,
así, abordaremos en detalle.

Con respecto a modelar inferencia, para la regresión lineal simple, el parámetro más importante es
generalmente la pendiente, de modo que la inferencia para la que será de interés primordial. Cuando un
modelo tiene múltiples X variables, el investigador puede querer saber si las variables independientes
consideradas en su conjunto están relacionados con y. Por lo tanto, alguna prueba global del modelo de
importancia es deseable. La hipótesis nula de esta prueba es que todas las pendientes son iguales a 0 en la
población; es decir, ninguno de los regresores está linealmente relacionada con la variable dependiente. La
estadística de prueba de esta hipótesis se calcula como

SSRSS • 1• •
notario público
2
RR •
F = • • •• 2
• (1,16)
p np
mi ( - - = - 1- ) • pag ••1 •

Aquí, los términos son como se define en la ecuación (1.7). Esta estadística de prueba se distribuye como una F
con pag y norte - pag - 1 grados de libertad. Un resultado estadísticamente significativo indicaría que uno o más
de los coeficientes de regresión no son iguales a 0 en la población. Típicamente, el investigador sería
entonces referencia a los ensayos de parámetros de regresión individuales descritos anteriormente con el fin
de iden- tificar los parámetros que no eran igual a 0.

Una segunda cuestión a tener en cuenta por los investigadores en el contexto de la regresión múltiple PLE
es la noción de ajuste R 2. En pocas palabras, la inclusión de variables independientes adicionales en el modelo
de regresión siempre producirá valores más altos de R 2, incluso cuando estas variables no son
estadísticamente signifi- cativamente relacionados con la variable dependiente. En otras palabras, hay un uso
de mayúsculas en la posibilidad de que se produce en el cálculo de R 2.

Como consecuencia, los modelos que incluye muchas variables independientes con relaciones
con insignificantes y puede producir un R 2 que sugeriría el modelo explica una gran cantidad de
variación en y. Una opción para la medición de la varianza explicada en la variable dependiente que
da cuenta de este modelo complejidad adicional sería útil para un investigador que busca Deben
conocerse la verdadera naturaleza de la relación entre el conjunto de independientes
Modelos lineales 9

variables y la dependiente. Tal medida existe en la forma de la ajustada R 2 valor, que se calcula
como comúnmente

• - -1-1 •
nnp
2
R = -1-1 (
UNA 2 R )• • (1,17)
• •

R UNA 2 sólo aumenta con la adición de una X si eso X explica más varianza que se esperaría por
casualidad. R UNA 2 siempre será menor o igual a la norma R 2. En general, se recomienda el uso de esta
estadística en la práctica cuando se utilizan modelos que contienen muchas variables
independientes.
Una última cuestión importante específica a la regresión múltiple es colinealidad, que ocurre cuando una
variable independiente es una combinación lineal de una o más de las otras variables independientes. En
tal caso, los coeficientes de regresión y sus errores estándar correspondientes pueden ser bastante
inestable, lo que resulta en mal inferencia. Es posible investigar la presencia de colinealidad utilizando un
tistic esta- conocido como el factor de inflación de la varianza (VIF). Para calcular el VIF para X j,

tendríamos primera regresión todas las otras variables independientes en X j y obtener una R xi
2 valor. A continuación, calcular

1
VIF =- (1,18)
1 RX2

2 está cerca de 1, lo que indica que X j tiene muy


El VIF se convertirá en grande cuando R XJ
poca variación única cuando se consideran las otras variables independientes en el modelo. Es decir,
si la otra pag - 1 regresores pueden explicar una alta proporción de X j, entonces X j no añade mucho al
modelo más allá de la otra pag - 1 de regresión. Colinealidad a su vez conduce a la variación de
muestreo alta en segundo j, lo que resulta en grandes errores estándar y estimaciones de los
parámetros inestables. Se han propuesto reglas convencionales de oro para, determinando cuando
una variable independiente es altamente alineados con el conjunto de otra

pag  - 1 regresores. Por lo tanto, el investigador puede considerar colinealidad un problema si VIF> 5 o
10 (Fox, 2008). La respuesta típica a la colinealidad es eliminar la variable infractor (s) o utilizar un
enfoque alternativo para realizar el análisis de regresión tales como la regresión cresta o regresión
después de una prin- cipales análisis de componentes.

1.6 Ejemplo de regresión lineal simple Manual

Para demostrar los principios de regresión lineal se discutió anteriormente, consideremos un escenario sencillo en el
que un investigador recolectó datos sobre los promedios de calificaciones de la universidad (GPA) y la prueba de la
ansiedad utilizando una medida estándar por
10 Multilevel Modelado Uso de R

TABLA 1.1

Estadística descriptiva y correlación de GPA y el test de ansiedad

Variable Correlación desviación media estándar

GPA 3.12 0.51 - 0.30


Ansiedad 35.14 10.83

que las puntuaciones más altas indican una mayor ansiedad la hora de tomar una prueba. La muestra estuvo
constituida por 440 estudiantes universitarios que se midieron en ambas variables. El investigador está interesado
en la medida en que la ansiedad de prueba se relaciona con COL- lege GPA, por lo que el GPA es la variable
dependiente y la ansiedad es la variable inde- pendiente. Las estadísticas descriptivas para cada variable y las
correlaciones entre ellas aparecen en la Tabla 1.1.

Podemos utilizar esta información para obtener estimaciones tanto para la pendiente y la intersección del modelo
de regresión utilizando las ecuaciones (1.4) y (1.5). En primer lugar, la pendiente se calcula como

• •
segundo •
1 = - 0.30 0.51 • = • 0,014
• 10.83 •

lo que indica que los individuos con mayores puntuaciones de ansiedad de prueba por lo general tienen promedios más
bajos. A continuación, podemos utilizar este valor y la información de la tabla para calcular la estimación de intercepción:

segundo 0 = 3,12 - (-0,014) (35,14) = 3,63

La ecuación de regresión estimado resultante es entonces

GPA = 3,63 0,014


- ( ansiedad )

Por lo tanto, este modelo podría predecir que para un incremento de un punto en la puntuación de
evaluación de la ansiedad, el ACP se reduciría en -0.014 puntos. Para entender mejor la fuerza de
la relación entre ETY anxi- prueba y GPA, vamos a querer para calcular el coeficiente de
determinación. Para ello, necesitamos tanto la SS R y SS T, que tienen los valores de 10,65 y

115.36, produciendo

2 10.65
R = =
115,36 0,09

Este resultado sugiere que aproximadamente el 9% de la variación en el GPA se explica por la variación en las
puntuaciones de ansiedad de prueba. Usando esto R 2 valor y la ecuación (1.14),
Modelos lineales 11

podemos calcular la F estadística t-test para si alguna de las pendientes de los modelos (en este caso sólo
una) son diferentes de 0 en la población:

• 440 1- -1 • • 0.09 •
F = • • •• • = 438 (0,10) 43,8
=
• 1 • • 1 0,09 •

Esta prueba tiene pag y n - p - 1 grados de libertad, o 1 y 438 en esta situa- ción. los pag valor de esta prueba es
inferior a 0.001, que nos lleva a la conclusión de que la pendiente en la población de hecho es significativamente
diferente de 0, porque el  pag  valor es menor que la tasa de error de tipo I se especifica. Por lo tanto, la ansiedad de
prueba se Lin- temprana en materia de GPA. La misma inferencia podría llevarse a cabo utilizando la prueba t para
la pendiente. En primer lugar debemos calcular el error estándar de la estimación de la pendiente:

• •
1 • Smixx •
S segundo
=
1
• 2 •
- R
2
1
• Σ -( yo ) •

Para estos datos,

104.71
S mi = 0,24 0,49
=
440 1- -1=

A su vez, la suma de las desviaciones al cuadrado de X ( ansiedad) era 53743,64, y se calculó previamente R
2= 0.09. Por lo tanto, el error estándar de la pendiente es

1 • 0.49 •
= 1-
S segundo • •= 1,05 0,002
( 0,002
)=
1 0,09 • 53.743,64 •

La estadística de prueba para la hipótesis nula de que β 1 = 0 se calcula como

1 0 0,014
=-=-
tuberculosis = - 7.00
s segundo
1 0,002

con norte - pag - 1 o 438 grados de libertad. los pag valor para este valor estadístico de prueba es inferior a
0.001 y por lo tanto nos probabilísticamente puede inferir que el valor de la pendiente en la población no es
cero, siendo la mejor estimación punto de muestra -0.014.

Por último, también podemos llamar la inferencia sobre β 1 a través de un intervalo de confianza del 95%,
como se muestra en la ecuación (1.9). Para este cálculo, hay que deter- minar el valor de la t distribución con
438 grados de libertad que corresponderse a la 1 - punto en la distribución 0,05 / 2 o 0,975. Podemos
hacerlo a través de una  t  mesa en la parte trasera de un libro de texto o con el software estándar del equipo
12 Multilevel Modelado Uso de R

tales como SPSS. En cualquier caso, el valor crítico para este ejemplo es 1,97. El intervalo de confianza se
puede calcular entonces como

(-0,014 - 1,97 (0,002), -0,014 + 1,97 (0,002)) (-0,014 -


0,004, -0,104 + 0,004) (-0,018, -0,010)

El hecho de que no es 0 en el intervalo de confianza del 95%, simplemente apoya la conclusión de que llegamos a
usar el pag valor como se describe anteriormente. Además, dado este intervalo, se puede inferir que el valor real de
la pendiente de la población se encuentra entre
- 0,018 y -0,010. Por lo tanto, la ansiedad podría plausiblemente tener un efecto tan pequeño como
- 0.010 o tan grande como -0.018.

1.7 Regresión en R

En R, la llamada de función para la regresión lineal de ajuste es LM, que es parte de la


estadísticas biblioteca que se carga por defecto cada vez que se inicia R. La forma básica de un modelo de
regresión lineal usando lm es:

lm (fórmula, datos)

dónde fórmula define la forma de regresión lineal y datos indica el conjunto de datos utilizado en el
análisis, ejemplos de los cuales aparecen a continuación. Volviendo al ejemplo anterior, la predicción
promedio de las medidas de física ( BStotal)
y la ansiedad académica cognitiva ( CTA.tot), el modelo se define en R como

Model1.1 <- LM (ACP ~ CTA.tot + BStotal, Cassidy)

Esta línea de código R se conoce como una llamada de función y define la ecuación de regresión.
La variable dependiente GPA es seguida por las variables independientes CTA.tot y BStotal, separados
por ~. El conjunto de datos Cassidy también se da aquí, después de la ecuación de regresión se ha
definido. Por último, la salida de este análisis se almacena en el objeto Model1.1. Para ver esta puesta
OUT-, podemos escribir el nombre de este objeto en R, y pulse Enter para obtener lo siguiente:

Llamada:
lm (fórmula = GPA ~ CTA.tot + BStotal, data = Cassidy)

Coeficientes: (en el
origen) CTA.tot BStotal
3,61892 0,01347 -0,02007

La salida obtenida de la llamada a la función básica devolverá sólo Val- ues para los coeficientes de
intersección y de pendiente, a falta de información con respecto
Modelos lineales 13

el ajuste del modelo (por ejemplo, R 2) y el significado de los parámetros del modelo. Más informa- ción en
nuestro modelo se puede obtener mediante la solicitud de un resumen del modelo.

Resumen (Model1.1)

El uso de esta llamada, R producirá el siguiente:

Llamada:

lm (fórmula = GPA ~ CTA.tot + BStotal, data = Cassidy)

Derechos residuales de autor:

min 1T Mediana 3T Max


- 2.99239 - 0.29138 0.01516 0.36849 0.93941

coeficientes:
Estimación Std. Error valor de t Pr (> | t |)
(Intercepción) 3.618924 0.079305 45.633 <2e-16 ***
CTA.tot - 0.020068 0.003065 -6.547 1.69e-10 ***
BStotal 0.013469 0.005077 2,653 0,00828 **
- - -
Signif. códigos: 0 '***' 0,001 '**' 0,01 '*' 0,05 ''. 0.1 '' 1

Residual error estándar: 0,4852 en 426 grados de libertad


(57 observaciones borrar debido a missingness) Multiple R-cuadrado:
0,1066, Ajustado R-cuadrado: 0,1024
F-estadística: 25,43 en 2 y 426 DF, p-valor: 3.706e-11

Desde el resumen del modelo podemos obtener información sobre el ajuste del modelo (en general
F   prueba de significación, R 2, y el error estándar de la estimación), pruebas de significación de los parámetros, y
un resumen de las estadísticas residuales. A medida que la F prueba para el modelo general está algo abreviado
en esta salida, podemos pedir el resultado completo ANOVA, incluyendo sumas de cuadrados y la media de los
cuadrados mediante el uso de la anova (Model1.1) Llamada de función.

Análisis de Varianza Tabla

Respuesta: GPA
Valor gl Suma Sq Mean Square F Pr (> F)
CTA.tot 1 10,316 10,3159 43,8125 1.089e-10 ***
BStotal 1 1,657 1,6570 7,0376 0,00828 **
Residuos 426 100.304 0.2355
- - -
Signif. códigos: 0 '***' 0,001 '**' 0,01 '*' 0,05 ''. 0.1 '' 1

A menudo, en un modelo de regresión, estamos interesados ​en la información adicional que el modelo produce
como valores pronosticados y los residuos. El uso de la llamada R
atributos (), podemos obtener una lista de la información adicional disponible para el lm función.
14 Multilevel Modelado Uso de R

atributos (Model1.1) $ nombres

[1] "coeficientes" "residuales" "efectos" "rango" "valores ajustados"


[6] "asignar" "QR" "df.residual" "" "na.action xlevels"
[11] "llamada" "condiciones" "modelo"

$ Clase [1]
"lm"

Esta es una lista de atributos o información que pueda ser retirado del modelo de regresión ajustada.
Para obtener esta información, se puede llamar para el atributo en particular. Por ejemplo, si queremos
obtener el GPA predicho para cada indicación vidual en la muestra, queremos simplemente escriba el
siguiente, seguido de la tecla Enter:

Model1.1 $ fitted.values

1 3 4 5 8 9 10 11 12
2.964641 3.125996 3.039668 3.125454 2.852730 3.152391 3.412460 3.011917 2.611103 13
14 15 dieciséis 17 19 23 25 26
3.158448 3.298923 3.312121 2.959938 3.205183 2.945928 2.904979 3.226064 3.245318 27
28 29 30 31 34 35 37 38
2.944573 3.171646 2.917635 3.198584 3.206267 3.073204 3.258787 3.118584 2.972594 39
41 42 43 44 45 46 48 50
2.870630 3.144980 3.285454 3.386064 2.871713 2.911849 3.166131 3.051511 3.251917

Así, por ejemplo, el GPA predicho para el sujeto 1 basado en la ecuación de predicción sería
2,96. Por la misma razón, podemos obtener los residuos de la regresión con el siguiente
comando:

Model1.1 $ residuos

1 3 4 5 8 9
- 0,4646405061 -0.3259956916 -0.7896675749 -0.0254537419 0,4492704297 -0.0283914353
10 11 12 13 14 15
- 0,1124596847 -0.5119169570 0,0888967457 -0.6584484215 -0.7989228998 -0.4221207716
dieciséis 17 19 23 25 26
- 0,5799383942 -0.3051829226 -0.1459275978 -0.8649791080 0,0989363702 -0.2453184879
27 28 29 30 31 34
- 0,4445727235 0,7783537067 -0.8176350301 0,1014160133 0,3937331779 -0.1232042042
35 37 38 39 41 42
0,3412126654 0,4814161689 0,9394056837 -0.6706295541 -0.5449795748 -0.4194540531
43 44 45 46 48 50
- 0,4960639410 -0.0717134535 -0.4118490187 0,4338687432 0,7484894275 0,4480825762

A partir de este resultado, podemos ver que el promedio pronosticado para el primer individuo de la muestra fue de
aproximadamente 0,465 puntos por debajo del promedio real.

1.7.1 Interacción Términos de Regresión

relaciones de regresión más complicadas también se pueden modelar fácilmente usando el lm () función.
Vamos a considerar un análisis de la moderación que implica las medidas de ansiedad. En este
ejemplo, una interacción entre la ansiedad prueba cognitiva y la ansiedad física se modela además de
los efectos principales de las dos variables. Una interacción es simplemente calcula como el producto
Modelos lineales 15

de las variables que interactúan, por lo que el modelo de moderación usando lm () Se define como:

Mo del1.2 <- LM (ACP ~ CTA.tot + + BStotal CTA.tot * BStotal,


Cassidy)

Model1.2

Llamada:

lm (fórmula = GPA ~ CTA.tot + BStotal + CTA.tot * BStotal, los datos


= Cassidy)

Derechos residuales de autor:

min La mediana 1T 3T Max


- 0,01801 0,36340 -0,29737 2,98711 0,95016

coeficientes:
Estimación Std. Error t valor de Pr (> | t |)
(Interceptar) 3.8977792 0.2307491 16.892 <2e-16 ***
CTA.tot - 0.0267935 0.0060581 - 4.423 1.24e-05 ***
BStotal - 0.0057595 0.0157812 - 0,365 0,715
CTA.tot: 0.0004328 BStotal 0.0003364 1,287 0,199
- - -
Signif. códigos: 0 '***' 0,001 '**' 0,01 '*' 0,05 ''. 0.1 '' 1

Re error estándar sidual: 0,4849 en 425 grados de libertad


(57 observaciones borrar debido a missingness) Multiple R-cuadrado:
0,1101, Ajustado R-cuadrado: 0,1038
F-estadística: 17,53 días 3 y 425 DF, p-valor: 9.558e-11

Aquí se denota la pendiente para la interacción CTA.tot: BStotal, toma el valor 0,0004, y es no
significativa ( t = 1.287, p = 0,199), lo que indica que el nivel de los síntomas de ansiedad físicos ( BStotal)
no cambia o moderar la relación entre la ansiedad prueba cognitiva ( CTA.tot) y GPA.

1.7.2 Variables independientes categóricas

los lm función también es fácilmente capaz de incorporar las variables categóricas en regresión.
Consideremos un análisis para predecir GPA de ansiedad ante los exámenes cognitivas ( CTA.tot) y el género
variable categórica. Para incorporar tasa de género en el modelo, que debe ser codificado maniquí de tal
manera que una categoría (por ejemplo, macho) toma el valor de 1 y la otra categoría (por ejemplo, hembra)
toma el valor de 0. En este ejemplo, hemos llamado el variable Masculino, donde 1 = masculinos y 0 = no
macho (hembra). La definición de un modelo usando una variable ficticia con el lm la función se convierte
entonces no es diferente de la utilización de variables predictoras continuas.
dieciséis Multilevel Modelado Uso de R

Model1.3 <- LM (ACP ~ CTA.tot + Hombre, Acad) Resumen

(Model1.3) Llamar:

lm (fórmula = GPA ~ CTA.tot + Male, datos = Acad) Residuales:

min 1T Mediana 3T Max


- 3.01149 0.03038 0.35374 0.96294 -0.29005 coeficientes:

Estimación Std. Error t valor de Pr (> | t |)


(Interceptar) 3.740318 0.080940 46.211 <2e-16 ***
CTA.tot - 0.015184 0.002117 - 7.173 3.16e-12 ***
Masculino - 0.222594 0.047152 - 4.721 3.17e-06 ***
- - -
Signif. códigos: 0 '***' 0,001 '**' 0,01 '*' 0,05 ''. 0,1 '' 1 Re error estándar sidual: 0,4775 en 437 grados de

libertad
(46 observaciones borrar debido a missingness) Multiple R-cuadrado:
0,1364, Ajustado R-cuadrado: 0,1324
F-estadística: 34,51 en 2 y 437 DF, p-valor: 1.215e-14

En este ejemplo, la pendiente para la variable ficticia Masculino es sig- negativa y sig- ( β = -0,223, p <0,001),
indicando que los machos tienen significativamente más bajos GPA medias que las hembras.

Dependiendo del formato en el que se almacenan los datos, el lm función es capaz de variables
categóricas de codificación ficticias. Si una variable ha sido designado como categóricas (como sucede
a menudo si usted lee los datos en un archivo de SPSS en la que la variable se designa como tal) y se
utiliza en el lm función, código automáticamente la variable ficticia en sus resultados. Por ejemplo, si en
lugar de utilizar la Masculino variable como se ha descrito anteriormente, se utilizó Género

como una variable categórica codifica como femenina y masculina, obtendríamos los siguientes resultados
de la especificación del modelo y los comandos de resumen.

Model1.4 <- Resumen lm (ACP ~ CTA.tot + Sexo, Acad) (Model1.4)

Llamar:

lm (fórmula = GPA ~ CTA.tot + Género, data = Acad)

Derechos residuales de autor:


min La mediana 1T 3T Max
- 3.01149 0.03038 0.35374 0.96294 -0.29005 coeficientes:

Estimación Std. Error t valor de Pr (> | t |)


(Interceptar) 3.740318 0.080940 46,211 <2e-16 ***
CTA.tot - 0.015184 0.002117 - 7.173 3.16e-12 ***
Género [T.male] -0.222594 0.047152 - 4.721 3.17e-06 ***
- - -
Modelos lineales 17

Signif. códigos: 0 '***' 0,001 '**' 0,01 '*' 0,05 ''. 0.1 '' 1

Re error estándar sidual: 0,4775 en 437 grados de libertad


(46 observaciones borrar debido a missingness) Multiple R-cuadrado:
0,1364, Ajustado R-cuadrado: 0,1324
F-estadística: 34,51 en 2 y 437 DF, p-valor: 1.215e-14

Una comparación de los resultados entre modelos Model1.3 y Model1.4 revela estimaciones de los coeficientes
idénticos, pag los valores y las estadísticas de ajuste modelo. La única diferencia entre los dos conjuntos de
resultados es que para Model1.4 R informó la pendiente como Género [t.male], lo que indica que la variable se
codificados ficticio automáticamente de modo que macho es 1 y no masculina es 0.

De la misma manera, las variables categóricas que constan de más de dos categorías también se
pueden incorporar fácilmente en un modelo de regresión, ya sea mediante el uso directo de la variable
categórica o maniquí de codificación antes del análisis. En el siguiente ejemplo, la variable etnicidad incluye
tres posibles grupos (Afro americano, de raza blanca, y otros). Con la inclusión de esta variable en el
modelo de llamadas, estamos solicitando implícitamente que R código de forma automática simulado por
nosotros.

GPAmodel1.5 <- lm (GPA ~ CTA.tot + Etnia, Acad)

Resumen (GPAmodel1.5)

Llamada:
lm (fórmula = GPA ~ CTA.tot + Etnicidad, datos = Acad)

Derechos residuales de autor:


min La mediana 1T 3T Max
- 2,95019 0,01845 -0,30021 0.37825 1.00682

coeficientes:
Estimación Std. Error t valor de Pr (> | t |)
(Interceptar) 3.670308 0.079101 46.400 <2e-16 ***
CTA.tot - 0.015002 0.002147 -6.989 1.04e-11 ***
Etnicidad [T.African estadounidense] -0.482377 0.131589 0.000277 -3,666 ***
Etnicidad [T.Other] - 0.151748 0.136150 0.265652 -1.115
- - -
Signif. códigos: 0 '***' 0,001 '**' 0,01 '*' 0,05 ''. 0.1 '' 1

Re error estándar sidual: 0,4821 en 436 grados de libertad


(46 observaciones borrar debido a missingness) Multiple R-cuadrado:
0,1215, Ajustado R-cuadrado: 0,1155
F-estadística: 20,11 días 3 y 436 DF, p-valor: 3.182e-12

Ya que tenemos pendientes para afroamericana y otros, sabemos que Cauca- Sian sirve como categoría
de referencia, que se codifica como 0. Los resultados indican
18 Multilevel Modelado Uso de R

una pendiente positiva significativa para los afroamericanos ( β = -0,482, p <0,001), y una pendiente no
significativa para Otros ( β = 0,152, p> 0,05), lo que indica que los afroamericanos tienen promedios
significativamente más bajos que los caucásicos, pero el resultado promedio para la categoría de Otro origen
étnico no fue significativamente diferente de los de raza blanca.

Por último, consideremos algunos problemas asociados al permitir R para las variables categóricas maniquí de
código automáticamente. En primer lugar, R será siempre el código de forma automática la primera categoría ficticia
que aparece como categoría de referencia. Si se desea un esquema de codificación maniquí teóricamente más
adecuada, será necesario ordenar las categorías de modo que la categoría de referencia deseado es primero o
simplemente recodificar variables ficticias manualmente.

Además, es importante recordar que la codificación ficticia automática sólo se produce cuando una
variable se denomina en un sistema tan categórica. Esto ocurrirá automáticamente si las categorías se
codifican como letras. Sin embargo, si una variable categórica se codifica 1, 2 o 1, 2, 3, pero no designa
específicamente como categórico, el sistema visualizarla como continua y tratar como tal. Para asegurarse de
que una variable se trata como categórica cuando eso es lo que deseamos, simplemente usamos el as.factor mando.
Para el Masculino variable en la que los hombres se codifican como 1 y las hembras como 0, que tendría que
escribir

Male <-as.factor (masculino)

a continuación, que sería capaz de asumir la Masculino variable es categórica. Otras medidas, además, si la
variable ficticia tiene sólo dos niveles, como es el caso con Masculino,
entonces no tiene que ser convertido a un factor categórica, porque los resultados del análisis de regresión
serán idénticas de cualquier manera.

1.7.3 Comprobación de supuestos de regresión con R

Tras un análisis de los supuestos para modelos de regresión lineal, a menudo es deseable poder crear
una gráfica de los residuos. gráficas residuales de diagnóstico se pueden obtener fácilmente mediante el
uso de la residualPlots función de la coche R paquete que tendríamos que instalar en nuestro espacio de
trabajo I, como se explica en el dix appen- al final de este libro que introduce el trabajo con R. Vamos de
nuevo volvemos a Model1.1 la predicción de la ansiedad GPA prueba cognitiva y los síntomas de
ansiedad cal Physicians. Una vez creado el modelo de regresión ( Model1.1),

podemos obtener fácilmente diagramas de dispersión residuales de diagnóstico utilizando el siguiente comando:

Biblioteca (coche)
residualPlots (Model1.1)

Este comando producirá diagramas de dispersión de los residuos de Pearson o en contra de cada variable
predictora, así como contra los valores ajustados. Adicionalmente,
Modelos lineales 19

la  residualPlots comando proporcionará pruebas de falta de ajuste en el que un t-test para el predictor al
cuadrado se calcula y una línea de ajuste añadido a la trama para ayudar a comprobar los patrones no
lineales en los datos. Un test de Tukey para la no aditividad también se calcula para la trama de residuos
contra los valores TED Fit- para adquirir más información sobre la adecuación de ajuste del modelo junto
con una prueba de la falta de ajuste para cada predictor. estadística de Tukey se obtiene sumando los
cuadrados de los valores ajustados al modelo de regresión originales. Pone a prueba la hipótesis nula de
que el modelo es aditivo y que no existen interacciones entre las variables independientes (Tukey, 1949).
Un resultado no significativo, como la que se encuentra para este ejemplo, indica que no se requiere la
interacción en el modelo.

Las otras pruebas incluidas aquí son para el término al cuadrado de cada variable independiente. Por
ejemplo, dado que la estadística de prueba resultados para CTA.tot y
BStotal no son significativas, se puede concluir que ninguna de estas variables tiene una relación
cuadrática con PAM. Véase la Figura 1.1.

residualPlots (Model1.1)

Prueba estadística Pr (> | t |)


CTA.tot 0,607 0,544
BStotal 0,762 0,447
prueba de Tukey 0,301 0,764

los residualPlots comando proporciona parcelas con los residuos de la


y  ejes de los gráficos, los valores de cada variable independiente, respectivamente, sobre la X los ejes
de los dos primeros gráficos, y los valores ajustados en X para el último gráfico. Además, las curvas se
ajustaron une el X y y ejes para cada gráfica.

El investigador examinaría estas gráficas para evaluar dos hipótesis acerca de los datos. En primer
lugar, la suposición de homogeneidad de la varianza se puede comprobar a través de un examen de la
residual por parcela equipada. Si la suposición sostiene, esta parcela debe mostrar una nube sin forma
de puntos de datos sin formas discernibles que están igualmente espaciadas a través de todos los
valores de X. Además, la linealidad de las relaciones entre cada variable independiente y la variable
dependiente se evalúa mediante un examen de las parcelas que implican ellos. Por ejemplo, es
apropiado asumir linealidad para BStotal Si los gráficos de residuos no muestran un patrón discernible.
Esto se puede explicar adicionalmente mediante un examen de la línea ajustada. Si esta línea es
esencialmente plana, como es el caso aquí, podemos concluir que cualquier relación entre BStotal y GPA sólo
es lineal.

Además de la linealidad y la homogeneidad de la varianza, también es impor- tante para


determinar si los residuos siguen una distribución normal como se supone en el análisis de
regresión. Para comprobar la normalidad de supuestos residuales, se utilizan normalmente
gráficos QQ (parcelas cuantil-cuantil).
20 Multilevel Modelado Uso de R

1 1

0 0

Pearson residuos de
Pearson Residuales

-1 -1

-2 -2

-3 -3

20 30 40 50 60 10 15 20 25 30 35 40

CTA.tot BStotal

0
Pearson Residuales

-1

-2

-3

2.8 3.2
3.0 valores ajustados 3.4

FIGURA 1.1
parcelas residuales de diagnóstico para la predicción de modelo de regresión de GPA CTA.tot y BStotal.

los  qqPlot función de la coche el paquete se puede utilizar para crear fácilmente gráficos QQ de modelos de
regresión de ejecución. Interpretación de la trama QQ es bastante simple. Esencialmente, el gráfico muestra los
datos tal como en realidad se encuentra en el
X  eje y, ya que sería distribuido si normalmente en el y eje. Los puntos de datos viduales indi- están
representados en R por los círculos negros. La línea continua representa los datos que se ajusten
perfectamente a la distribución normal. Por lo tanto, cuanto más cerca de los datos observados
(círculos) son a la línea sólida, el más estrechamente los datos se ajusta a la distribución normal.
Además, R proporciona un intervalo de confianza del 95% para la línea, de modo que cuando los
puntos de datos caen dentro de ella que se considerarán conformes a la distribu- ción normal. En este
ejemplo, los datos parecen seguir la distribución normal con bastante exactitud.

qqPlot (Model1.1)
Modelos lineales 21

0
Residuos studentizados (GPAmodel.1)

-2

-4

-6

-3 -2 -1 0t 1 2 3
Cuantiles

Resumen

Capítulo 1 introduce a los lectores a los conceptos básicos de un modelo lineal utilizando R. Este tratamiento
fue intencionalmente limitado, ya que un buen número de textos cubre modelos lineales y no es el foco
principal de este libro. Sin embargo, muchos de los conceptos básicos que aquí se presentan para el GLM se
aplican a los modelos multinivel, así, y por lo tanto son de importancia clave a medida que avanzamos en los
análisis más complejos. Además, gran parte del marco sintáctico que aquí se presenta volverá a aparecer en
los capítulos siguientes. En particular, los lectores deben dejar este capítulo com- cómodos con la
interpretación de los coeficientes de los modelos lineales y el concepto de variación en las variables de
resultado. Le animamos a volver a este capítulo con frecuencia como sea necesario para reforzar estos
conceptos básicos. Adicionalmente, recomendaríamos que consultar también el apéndice tratar con los
aspectos básicos del uso R cuando surgen preguntas sobre la gestión de datos y la instalación de bibliotecas
específicas de investigación. En el capítulo 2, vamos a centrar nuestra atención en los fundamentos
conceptuales de los modelos multinivel antes de profundizar en estima- ción en los capítulos 3 y 4.
2
Introducción a la estructura multinivel de datos

2.1 anidada de datos y Cluster Diseños de muestreo

En el Capítulo 1, se consideró que el modelo lineal estándar que subyace métodos estadísticos
comunes, tales como la regresión y análisis de la varianza (ANOVA; del modelo lineal general).
Como se ha señalado, este modelo se basa en varios supuestos de partida sobre la naturaleza de
los datos en una población. De importancia par- ticular en el contexto de un modelo multinivel es la
asunción de los términos de error distribuidos de forma independiente para las observaciones
individuales dentro de una muestra. Este supuesto significa esencialmente que no hay relaciones
entre los individuos de la muestra para la variable dependiente

una vez que las variables independientes en el análisis se contabilizan. En el ejemplo descrito en el
Capítulo 1, esta suposición fue de hecho se reunió, como se seleccionaron las Los individuos en la muestra
al azar de la población general. Por lo tanto, nada vinculado a sus valores de las variables dependientes
que no sean las variables independientes incluidas en el modelo lineal. Sin embargo, en muchos casos, el
método utilizado para la selección de la muestra no crear respuestas correlacionadas entre los individuos.
Por ejemplo, un investigador interesado en el impacto de un nuevo método de enseñanza en el rendimiento
de los estudiantes puede seleccionar aleatoriamente las escuelas para la colocación en los grupos de
tratamiento o de control. Si la escuela A se coloca en la condición de tratamiento, todos los estudiantes
dentro de la escuela también estarán en la condición de tratamiento. Este es un diseño aleatorio grupal en
que los grupos (y no los individuos) se asignan a un grupo específico. Además, sería razonable suponer
que la misma, por encima y más allá de la condición de tratamiento escuela, tendría un impacto en las per-
formances de los estudiantes. Este impacto se manifestaría como las correlaciones de las puntuaciones de
las pruebas de rendimiento entre las personas que asisten a la escuela. Por lo tanto, si tuviéramos que
utilizar un simple ANOVA de una vía para comparar las medias de la prueba de rendimiento de los grupos
de tratamiento y control con este tipo de datos del cluster de la muestra, que probablemente violaría la
asunción de errores independientes debido a un factor más allá de la condición de tratamiento (en este
caso la escuela) ejercería un impacto adicional sobre la variable de resultado.

Normalmente nos referimos a la estructura de datos descrita anteriormente como anidado, lo que significa que los puntos de

datos individuales en un nivel (por ejemplo, estudiante) aparecen en un solo nivel

23
24 Multilevel Modelado Uso de R

de una variable de nivel superior, tales como la escuela. Por lo tanto, los estudiantes están anidados dentro de la
escuela. Tales diseños se pueden contrastar con las estructuras de datos cruzados que los individuos en el primer
nivel aparecen en múltiples niveles de la segunda variable. En nuestro ejemplo, los estudiantes pueden ser cruzados
con las actividades después de la escuela si se les permite participar en más de una. Por ejemplo, un estudiante
puede estar en el equipo de baloncesto y un miembro de la banda.

El enfoque de este libro es casi exclusivamente en diseños anidados que dan origen a los datos de niveles
múltiples. Otro ejemplo de un diseño anidado es un estudio de los niveles de satisfacción laboral de los
empleados de varios departamentos dentro de una organización empresarial grande. En este caso, cada
empleado trabaja dentro de una única división en la sociedad, haciendo posible un diseño anidado. Parece
razonable suponer que los empleados que trabajan en la misma división tendrán respuestas correlacionadas
en la encuesta de satisfacción, porque gran parte de sus puntos de vista de sus puestos de trabajo se basará
exclusivamente en experiencias dentro de sus divisiones. Para un tercer ejemplo de ello, tenga en cuenta la
situación en la que se pide a los clientes de varios psicoterapeutas que trabajan en una clínica para evaluar
la cali- dad de cada sesión de terapia. En este caso, existen tres niveles de datos: (1) vez en la forma de una
sesión individual, (2) de clientes, y (3) terapeuta. Por lo tanto, la sesión se anida en el cliente, que a su vez
está anidado en el terapeuta. Se esperaría que esta estructura de datos para conducir a resultados
correlacionados en un instrumento de calificación terapia.

2,2 de correlación intraclase

En los casos en que los individuos son agrupados o anidadas dentro de una unidad de nivel superior (por
ejemplo, la clase, la escuela, distrito escolar), es posible estimar la correlación entre las puntuaciones de
los individuos dentro de la agrupación o estructura anidada utilizando la correlación intraclase (ICC,
denotado ρ Ι en la población). los ρ Ι es una medida de la proporción de variación en la variable de resultado
que se produce entre los grupos en comparación con la variación total presente. Se extiende de 0 (sin
varianza entre grupos) a 1 (varianza entre grupos pero no varianza dentro del clúster). ρ Ι también puede ser
conceptualizada como la correlación de la medida depende de dos individuos seleccionados al azar de la
misma agrupación. Se puede expresar como

ρ yo= τ 2
(2,1)
τσ+
2

dónde τ 2 denota la varianza de la población entre los clusters y σ 2 indica varianza de la población
dentro de los grupos. Los valores más altos de ρ Ι indican que una mayor parte de la variación total
en la medida de resultado se asocia con miembros de clúster; es decir, una relación
relativamente fuerte entre el
Introducción a la estructura multinivel de datos 25

calificaciones de dos individuos de la misma agrupación. Otra forma de enmarcar este problema es que los
individuos dentro de la misma agrupación (por ejemplo, escuela) son más similares en la variable medida
de lo que son como los individuos en otros racimos.

Es posible estimar τ 2 y σ 2 usando datos de muestra, y por lo tanto también es posible estimar ρ Ι. Quienes están
familiarizados con ANOVA reconocerán estas estimaciones como relacionado (aunque no idéntica) a la suma
de términos al cuadrado. La estimación de la muestra para la variación dentro de los grupos es simplemente

Σ
2
j -
( norte 1)S j
=1
σˆ =
2 jC
(2,2)
-
CAROLINA DEL NORTE

2 es la varianza dentro de clúster


dónde S j

Σ ((yyij - j )
=1
j= en

j -1
norte )

norte j es el tamaño de la muestra de clúster j, N es el tamaño total de la muestra, y do es el número total de


racimos. En otras palabras, σ 2 es simplemente la media ponderada de las variaciones dentro de la
agrupación. estimación de τ 2 implica unos pasos más, pero no es mucho más complejo que lo que hemos
visto durante σ 2. Para obtener la estimación de la muestra para la variación entre los grupos τ 2 , debemos
calcular primero la varianza entre ponderada clúster:

Σ NYY
j ( j - )
2 =1
jC
=
S segundo (2,3)
n (C - 1 )

dónde y j es la media de las variables de respuesta para clúster j y y es la media general en la variable de
respuesta

• •
Σ
C 2
• jj •
norte
1 • =1 •
n CN
=- • - •
1 norte
• •
• •
• •

No podemos utilizar como S segundo 2 una estimación directa de τ 2 porque se ve afectada por la variación aleatoria
entre los sujetos dentro de los mismos grupos. Por lo tanto, en
26 Multilevel Modelado Uso de R

Para eliminar esta fluctuación aleatoria vamos a estimar la varianza de la población


entre-clúster como

ˆ 2

τ = - σS segundo
2 2
(2,4)
norte

El uso de estas estimaciones de la varianza, que a su vez puede calcular la estimación de la muestra de ρ Ι:

ρ yo= τ (2,5)
τσ+ˆ
2 2

Tenga en cuenta que la ecuación (2.5) supone que los grupos son de igual tamaño. Claramente, esto no
siempre será el caso, en cuyo caso no se llevará a cabo esta ecuación. Sin embargo, el propósito para su
inclusión aquí es demostrar el principio subyacente a la estimación de ρ YO, que mantiene incluso como la
ecuación cambia. Para ilustrar estimación de ρ YO, consideremos el siguiente conjunto de datos. datos de las
pruebas de rendimiento se obtuvieron de 10.903 estudiantes de tercer grado anidados en 160 escuelas.
tamaños de escolarización comprendidas entre 11 y 143, con un tamaño promedio de 68.14. En este caso, nos
centraremos en los resultados de las pruebas de rendimiento de lectura y utilizar los datos de sólo cinco de las
escuelas para hacer laciones cal- manuales fáciles de seguir. En primer lugar vamos a estimar σ 2 . Para ello, hay
que estimar la varianza en las puntuaciones dentro de cada escuela. Estos valores aparecen en la Tabla 2.1. El
uso de estas variaciones y tamaños de muestra, podemos calcular σ 2 como

Σ(
2
j - 1)S j
norte
jc= 1
σˆ =
2

-
CAROLINA DEL NORTE

( 58 1
- 5,3
) 29 1
+ -1,5
( 64 1)2,9 39
+ -(1 6,1 88) 1 3,4
+ -( ) + -( )
=
278 5-

302,1 42
+ 182,7
+ 231,8+295,8 += 1054.4
= = 3.9
273 273

TABLA 2.1

Tamaño de la Escuela, la media y la varianza de Lectura Prueba de Aprovechamiento

Colegio norte Media Diferencia

767 58 3,952 5,298

785 29 3.331 1.524

789 64 4.363 2,957

815 39 4,500 6,088

981 88 4.236 3,362

Total 278 4.149 3,916


Introducción a la estructura multinivel de datos 27

Los medios escolares que son requeridos para el cálculo de S segundo 2 , aparecerá en la Tabla 2.1 también. En primer lugar
debemos calcular norte :

• •
Σ
C 2
• norte
jj •
2
1 • • 1 • •
2 2 2 2
=1 + + + +
n CN
=- • - • -
• 58 29 64 39 88 •
1 norte 5 1 278
• 278 •
• •
• •=•
• •

1
= ( - )=
4 278 63,2 53,7

Con este valor, que puede entonces calcular S segundo 2 para las cinco escuelas en nuestra pequeña muestra utilizando la
ecuación (2.3):

2 2 2
58 (3,952 4,149
- ) + 29 (3.331 4.149
- ) + 64 (4,363 4,149
- )

2
) + 88 ((
2
+ 39 (4.500 4.149
- 4.236 4.149
-- )
53.7 5 1 )

19.405+2.931 4.805
+ 2.251 +0.666 += 30.057
= =
214,8 214.800 0.140

Ahora podemos estimar la varianza de la población entre los clusters τ 2 usando la ecuación (2.4):

-
0,140 3.9 = - =
53.7 0,140 0,073 0,067

Ahora hemos calculado todas las piezas necesarias para estimar ρ yo para la población,

0,067
ρ yo=
0,067 3,9
+ = 0,017

Este resultado indica muy poca correlación de resultados de las pruebas dentro de las escuelas. También podemos
interpretar este valor como la proporción de la variación en los resultados de las pruebas explicadas por las escuelas.
Ya que ρ yo es una estimación de la muestra, sabemos que está sujeto a la variación de muestreo, que puede ser
estimada con un error de dard Normaliza- como en la ecuación (2.6):

2
s ρ yo = -( 1ρ yo ) ((1 + - norte
ρ 1) yo ) (2,6)
nn( - - 1)
1 ) ( norte
28 Multilevel Modelado Uso de R

Los términos de la ecuación (2.6) se definen como antes, y el supuesto es que todos los grupos son
de igual tamaño. Como se señaló anteriormente, esta última condición no es un requisito, sin
embargo, y existe una formulación alternativa para casos en los que no se sostiene. Sin embargo, la
ecuación (2.6) proporciona información suficiente para nuestros propósitos en la estimación del error
estándar de la CPI. La CPI es una herramienta importante en los modelos multinivel, en gran parte
debido a que indica el grado en que una estructura de datos de múltiples niveles puede afectar la
variable de resultado de interés. Grandes valores del CCI son indicativos de un mayor impacto de la
agrupación. Por lo tanto, a medida que aumenta la CPI en valor, tenemos que ser más conscientes
de las estrategias que emplean los modelos multinivel en el análisis de datos. En la siguiente
sección, vamos a discutir los problemas asociados con ignorar esta estructura multinivel,

2.3 Trampas de Ignorando estructura multinivel de datos

Cuando los investigadores aplican métodos estadísticos estándar a los datos de niveles múltiples,
tales como el modelo de regresión se describe en el Capítulo 1, se viola el supuesto de errores
independientes. Por ejemplo, si tenemos resultados de las pruebas de rendimiento a partir de una
muestra de estudiantes que asisten a diferentes escuelas, sería razonable pensar que los asistentes a
la misma escuela tendrán puntuaciones que son más altamente correlacionados entre sí de lo que son
con las puntuaciones de los estudiantes en otras escuelas. Esta correlación dentro de la escuela
podría ser debido, por ejemplo, a una comunidad, un conjunto común de los maestros, un programa
de enseñanza común, un único conjunto de políticas administrativas, y otros factores. La correlación
dentro de la escuela a su vez redundará en una inapropiada comió estimación de la de los errores
estándar de los parámetros del modelo, pag- Los valores más bajos de lo que deberían ser y el rechazo
resultante de los efectos nulos por encima del tipo indicado I tasa de error para los parámetros.

Recordando nuestra discusión en el capítulo 1, la prueba estadística para la hipó- tesis nula de no
relación entre la variable independiente y dependiente es simplemente el coeficiente de regresión
dividido por el error estándar. Una subestimación del error estándar causará una sobreestimación de
la prueba tistic esta-, y por lo tanto la significación estadística para el parámetro en los casos en que
no debe ser, es decir, los errores de tipo I a una velocidad superior a la especificada. De hecho, la
subestimación del error estándar ocurrirá a menos τ 2 es igual a 0. Además de la subestimación del
error estándar, otro problema haciendo caso omiso de la estructura multinivel de los datos es que
podemos perder impor- tantes relaciones que implican cada nivel en los datos. Recordemos el
ejemplo de dos niveles de muestreo: estudiantes (nivel 1) se anidan en las escuelas (nivel 2).
Específicamente, por no incluyendo información sobre la escuela, por ejemplo,
Introducción a la estructura multinivel de datos 29

bien podemos perder variables importantes a nivel escolar que pueden ayudar a explicar el rendimiento
a nivel de los estudiantes. Por lo tanto, más allá del pro- blema conocido con desestimando errores
estándar, también desarrollamos un modelo incorrecto para la comprensión de la variable de resultado
de interés. En el contexto de modelos lineales multinivel (MLM), la inclusión de variables en cada nivel
es relativamente simple, como son las interacciones entre las variables a diferentes niveles. Este
modelo de mayor complejidad a su vez puede conducir a una mayor comprensión del fenómeno en
estudio.

2.4 Modelos lineales multinivel

En la siguiente sección vamos a revisar algunas de las ideas fundamentales que subyacen en
MLM. Nuestro objetivo es familiarizar a los lectores con los términos que se repetirá pasante a
cabo el libro y explicarlos de una manera relativamente no técnico. primero nos centraremos en
la diferencia entre los efectos fijos y aleatorios, después de lo cual vamos a discutir los
fundamentos de la estimación de parámetros, se centra en los dos métodos más utilizados,
máxima verosimilitud y máxima verosimilitud restringida, y concluirá con una revisión de los
supuestos mlms subyacentes, y una visión general de cómo se utilizan con mayor frecuencia,
con ejemplos. En esta sección, también vamos a abordar la cuestión de centrado, y explicar por
qué es un concepto importante en MLM. Después de leer el resto de este capítulo,

2.4.1 Intercepción aleatoria

A medida que la transición desde el marco de regresión de un nivel del capítulo 1 al contexto de MLM,
primero vamos a revisar el modelo de regresión lineal simple básica de la ecuación (1.1)

y = β0+ β1 X + ε

En este caso, la variable dependiente y se expresa como una función de una variable independiente X, multiplicado
por un coeficiente de la pendiente β 1, una intercepción β 0, y la variación aleatoria de sujeto a sujeto ε. Definimos
el intercepto como la media de las condi- cional y cuando el valor de X es 0.

En el contexto de un modelo de regresión de un solo nivel como este, uno CEPT inter es común a todos
los individuos en la población de interés. Sin embargo, cuando los individuos son agrupados juntos en
alguna manera (por ejemplo, los estudiantes en aulas y escuelas, unidades organizativas dentro de una
empresa), habrá potencialmente ser una intercepción por separado para cada grupo, es decir, pueden
existir diferentes medios para la variable dependiente para x = 0 a través de los diferentes grupos.
30 Multilevel Modelado Uso de R

Decimos potencialmente aquí porque el modelo de intercepto única de la ecuación (1.1) será suficiente si
no hay efecto de grupo. En la práctica, la evaluación de la existencia de diferentes medios a través de
grupos es una cuestión empírica describe a continuación. También hay que señalar que en esta
discusión sólo se considera el caso en que la intersección es clúster específico. También es posible β 1 para
variar por grupo o incluso otros coeficientes de los modelos más complicados. Teniendo en
intersecciones y pendientes específicas de grupo conduce a la siguiente notación utilizada para el
modelo de nivel 1 (micro) en el modelado multinivel

y ij = β 0 j + β 1 j X + ε ij (2,7)

donde el ij subíndice se refiere al yo ª persona en el j º clúster. Comenzaremos nuestra discusión de


MLM notación y la estructura con el modelo multinivel más básico: la predicción del resultado de
una intersección única que nos permitirá variar aleatoriamente para cada grupo.

y ij = β 0 j + ε ij (2,8)

Permitir que la intersección a diferir a través de las agrupaciones, como en la ecuación (2.8), conduce a la intersección
aleatoria que expresamos como

β 0 j = γ 00 + T 0 j (2,9)

En este marco, γ 00 representa un valor medio o general de interceptación que mantiene a través de
grupos, mientras T 0 j es un efecto específico de grupo en la intersección. Podemos pensar γ 00 como efecto
fijo porque se mantiene constante a través de todos los grupos, y T 0 j es un efecto aleatorio, ya que varía
de clúster a agruparse. Por lo tanto, para un MLM estamos interesados ​no sólo en algún valor medio
general para y cuando X es 0 para todos los individuos en la población ( γ 00), sino también la desviación
entre la media global y los efectos específicos del clúster para el intercepto ( T 0 j).

Si vamos a suponer que los grupos constituyen una muestra aleatoria de la población de todas estas
agrupaciones, podemos tratar T 0 j como una especie de efecto residual en y ij, muy similar a la forma en que
pensamos ε. En ese caso, T 0 j se supone que está dibujado aleatoriamente de una población con una media
de 0 (recordemos que T 0 j
es una desviación del efecto fijo) y una varianza τ 2. Por otra parte, se supone que τ 2 y σ 2, la varianza
de ε, no están correlacionados. Ya hemos discutido τ 2 y su papel en el cálculo ρ yo . Adicionalmente, τ 2 También
se puede ver como el impacto de la agrupación en la variable dependiente, y por lo tanto las
pruebas de significación estadística que es equivalente a probar la hipótesis nula de ese grupo (por
ejemplo, la escuela) no tiene impacto en la variable dependiente. Si sustituimos los dos
componentes de la intersección aleatoria en el modelo de regresión, obtenemos

y = γ 00 + T 0 j + β 1 X + ε (2,10)
Introducción a la estructura multinivel de datos 31

La ecuación (2.10) se denomina el modelo completo o compuesto en el que los múltiples niveles se combinan en
una ecuación unificado. A menudo en MLM, comenzamos nuestro análisis de un conjunto de datos con este
sencillo modelo de intercepto aleatorio conocido como el modelo nulo que toma la forma

y ij = γ 00 + T 0 j + ε ij (2,11)

Mientras que el modelo nulo no proporciona información sobre los impactos de las variables
independientes especí- espe- sobre el dependiente, que no dió información importante acerca de cómo la
variación en y se reparte entre la varianza entre el individuo σ 2 los valores y la varianza entre los grupos τ 2. La
varianza total de y es simplemente la suma de σ 2 y τ 2. Además, como ya hemos visto, estos valores se
pueden utilizar para estimar ρ YO. El modelo nulo, como se verá en secciones posteriores, también se utiliza
como una línea de base para la construcción de modelos y la comparación.

2.4.2 Las pendientes azar

Es una simple cuestión de ampliar el modelo de intersección aleatoria en la ecuación (2.9) para dar
cabida a una o más variables independientes predictoras. A modo de ejem- plo, si añadimos un único
predictor ( X ij) a nivel individual (nivel 1) para el modelo, obtenemos

y ij = γ 00 + γ 10 X ij + T 0 j + ε ij (2,12)

Este modelo también se puede expresar en dos niveles separados:

Nivel 1: y ij = β 0 j + β 1 j X + ε ij (2,13)

Nivel 2: β 0 j = γ 00 + T 0 j (2,14)

β 1 j = γ 10 (2,15)

El modelo incluye ahora el predictor y la pendiente relacionándolo con la variable dependiente γ 10, lo
que reconocemos como en el nivel 1 por el subíndice 10. Interpretamos γ 10 de la misma forma como β
1 en el modelo lineal regresión Sion, es decir, como una medida del impacto en y de un cambio de
una unidad en X.
Además, se puede estimar ρ yo exactamente como antes aunque ahora se refleja la correlación
entre individuos de la misma agrupación después de controlar la variable independiente, X. En este
modelo, tanto γ 10 y γ 00 son de efectos fijos, mientras σ 2 y τ 2 siendo aleatoria.

Una implicación del modelo en la ecuación (2.12) es que la variable dependiente se ve


afectada por variaciones entre individuos ( σ 2), variaciones entre los grupos ( τ 2), una media global
común a todos los grupos ( γ 00), y el impacto de la variable independiente, medida por γ 10, que es
también com- mon a todos los clústeres.
32 Multilevel Modelado Uso de R

En la práctica, sin embargo, no hay razón para que el impacto de X en y debe ser común para todos
los grupos. En otras palabras, es muy posible que en lugar de tener una sola γ 10 comunes a todos los
grupos, no es en realidad un efecto único para el conjunto de γ 10 + T 1 j, dónde γ 10 es la relación media de X con
y a través de las agrupaciones, y T 1 j es la variación específica de cluster de la relación entre las dos
variables. Este efecto específica de cluster se supone que tiene una media de 0 y variar al azar
alrededor γ 10. El modelo de pistas de azar es

y ij = γ 00 + γ 10 X ij + T 0 j + T 1 j X ij + ε ij (2,16)

Escrito de esta manera, hemos separado el modelo en su fija ( γ 00 + γ 10 X ij)


y al azar ( T 0 j + T 1 j X ij + ε ij) componentes. La ecuación (2.16) modelo simplemente indica una
interacción entre el clúster y X, de tal manera que la relación de
X  y y no es constante a través de las agrupaciones.
Hasta ahora hemos discutido sólo una fuente de variación entre los grupos, expresado como τ 2, que
sirve como la variación entre los grupos en la CEPT inter. Sin embargo, la ecuación (2.16) se agrega
un segundo de tales fuentes de varianza entre grupos en la forma de T 1 j, lo que indica la variación de
clúster en la pendiente que relaciona las variables independientes y dependientes. Para diferenciar
estas dos fuentes de varianza entre grupos, que ahora denota la varianza de T 0 j

como τ 02 y la varianza de T 1 j como τ 12 . Por otra parte, dentro de las agrupaciones que esperamos
T 1 j y T 0 j tener una covarianza de τ 0 1 . Sin embargo, a través de diferentes grupos, estos términos deben ser
independientes entre sí, y en todos los casos se supone que ε sigue siendo independiente de todos los
demás términos del modelo. En la práctica, si encontramos que τ 12 No es 0, hay que tener cuidado en la
descripción de la relación entre las variables independientes y dependientes, ya que no es el mismo para
todos los grupos.

Vamos a examinar esta idea en los capítulos siguientes. Por el momento, sin embargo, es muy
importante reconocer que la variación en la variable dependiente
y   puede explicarse por varias fuentes, algunas fijas y otras al azar. En la práctica, lo más probable es
estar interesados ​en la estimación de todas estas fuentes de variabilidad en un solo modelo.

Como un medio para entender aún más el MLM, consideremos un ejemplo sencillo usando las cinco escuelas
descritas anteriormente. En este contexto, estamos intere- sadas en el tratamiento de la calificación de la prueba el
rendimiento en lectura como la variable dependiente y una puntuación de prueba de rendimiento vocabulario como la
variable independiente. Recuerde que los estudiantes están anidados dentro de las escuelas de manera que un
simple análisis de regresión no es apropiado. Para comprender el tema que se estima en el contexto de MLM,
podemos obtener estimaciones de intersección y de pendiente separadas para cada escuela, como se muestra en la
Tabla 2.2.

Dado que las escuelas son del mismo tamaño de la muestra, la estimación de γ 00, el valor medio de
intercepción es 2,359, y la estimación del valor medio pendiente
γ 10 es 0,375. Tenga en cuenta que para ambos parámetros, los valores de la escuela se desvían de estos
medios. Por ejemplo, la intersección de la escuela 1 es de 1,230. La diferencia entre este valor -1,129 y
2,359 es T 0 j para esa escuela. Del mismo modo, la
Introducción a la estructura multinivel de datos 33

TABLA 2.2

Origen y la pendiente Las estimaciones del modelo multinivel Lineal

Colegio Interceptar Tj 00
Cuesta abajo Tj 11

1 1.230 - 1.129 0,552 0,177

2 2.673 0,314 0,199 - 0,176


3 2.707 0,348 0,376 0,001

4 2,867 0,508 0,336 - 0,039


5 2.319 - 0,040 0,411 0,036

En general 2,359 0,375

diferencia entre el valor de la pendiente media de 0,375 y la pendiente de la escuela


1, 0.552 es 0,177, que es T 1 j para la escuela. Tabla 2.2 incluye T 0 j y T 1 j
valores para cada escuela. Las diferencias en las pendientes también proporcionan informa- ción sobre la relación
entre las puntuaciones de las pruebas de vocabulario y lectura. Esta relación fue positiva para todas las escuelas, lo
que significa que los estudiantes que obtuvieron una puntuación más alta en el vocabulario también puntuaron más
alto en la lectura. Sin embargo, la fuerza de esta relación fue más débil para la escuela 2 que para la escuela 1,
como un ejemplo.

Con base en los valores de la Tabla 2.2, también es posible estimar las varianzas asociadas con T 1 j y
T 0 j, τ 12 y τ 02 , respectivamente. Una vez más, debido a que las escuelas en este ejemplo tenían el mismo
número de estudiantes, el cálculo de estas variaciones es una cuestión sencilla, utilizando

Σ (UUJj -1-
1 1 )
(2,17)

para las pistas y una ecuación análoga para el intercepto varianza aleatoria. Obtenemos
τ 02= 0,439 y τ 12= 0,016 . En otras palabras, mucho más de
la varianza en la variable dependiente se explica por la variación en las intersecciones a nivel de la
escuela que se explica por la variación en las pistas. Otra forma de pensar de este resultado es que
las escuelas mostraron mayores diferencias entre unos y otros en el nivel medio de rendimiento en
comparación con las diferencias en los impactos de X en y.

La práctica de obtener estas estimaciones de la varianza utilizando el ment ENTORNO R para


computación y gráficos estadísticos e interpretación de su signifi- cado son temas para los próximos
capítulos. Antes de discutir los “tuercas y tornillos” de llevar a cabo este análisis prácticos, primero
examinamos los conceptos básicos para la estimación de parámetros en el marco de MLM utilizando
máxima verosimilitud y algoritmos de máxima verosimilitud restringida. Aunque es similar en espíritu a los
cálculos simples demostrado anteriormente, que son diferentes en la práctica y producirán resultados algo
diferentes de los obtenidos usando mínimos cuadrados como anteriormente. En primer lugar, una cuestión
más merece nuestra atención ya que consideramos que el uso de MLM, es decir, centrado variable.
34 Multilevel Modelado Uso de R

2.4.3 centrado

Centrado es simplemente la práctica de la sustracción de la media de una variable de cada valor individual.
Esto implica la media para la muestra de las variables centradas es 0 y también que (centrado) la puntuación
de cada individuo representa una desviación de la media en lugar de representar el significado de su valor en
bruto. En el contexto de la regresión, de centrado se utiliza comúnmente, por ejemplo, para reducir la
colinealidad causado mediante la inclusión de un término de interacción en un modelo de regresión. Si se
utilizan las puntuaciones brutas de las variables independientes para calcular la interacción y tanto los
efectos principales y términos de interacción se incluyen en el análisis posterior, es muy probable que la
colinealidad causará proble- mas en los errores estándar de los parámetros del modelo. De centrado es una
manera de ayudar a evitar este tipo de problemas (Iversen, 1991).

Estas cuestiones también son importantes a considerar en MLM, en el que se emplean con frecuencia
interacciones. Además, centrado también es una herramienta útil para la colinealidad ing Evitar- causada
por intersecciones y pendientes aleatorias altamente correlacionados en MLM (Wooldridge, 2004). Por
último, el centrado proporciona una potencial ventaja en cuanto a la interpretación de los resultados.
Recuerda de nuestra discusión en el capítulo 1 que la intersección es el valor de la variable dependiente
cuando la variable independiente se establece en 0. En muchas aplicaciones (por ejemplo, una medida
de vocabulario), la variable independiente no puede razonablemente ser 0. Esta esencialmen- te hace
que la intersección como un valor necesario para el montaje de la línea de regresión pero no una que
tiene un valor fácilmente interpretable. Sin embargo cuando X  se ha centrado en la intersección toma el
valor de la variable dependiente cuando el independiente es a su media. Esta es una interpretación
mucho más útil para los investigadores en muchas situaciones, y sin embargo, otra razón por la cual el
centrado es un aspecto importante de la modelización, en particular en el contexto de múltiples niveles.
Probablemente el método más común para el centrado es calcular la diferencia entre la puntuación de
cada individuo y la media global, o de cola a través de toda la muestra. Esta gran media de centrado es sin
duda el método más comúnmente utilizado en la práctica (Bickel, 2007). Sin embargo, no es,, el único tipo
de datos cen- tering. Un enfoque alternativo conocido como media del grupo centrado consiste en calcular
la diferencia entre la puntuación de cada individuo y la media del grupo al que pertenece. En nuestro
ejemplo, la escuela, el centrado gran media implicaría el cálculo de la diferencia entre cada puntaje y la
media general en todas las escuelas, mientras que el grupo significar centrado llevaría al investigador
calcular la diferencia entre la puntuación de cada uno y la media para la escuela. Mientras que la
literatura indica un cierto desacuerdo en cuanto a qué enfoque puede ser mejor para reducir los efectos
nocivos de colinealidad (Bryk y Raudenbush, 2002; Snijders y Bosker, 1999), los investigadores
demostraron que una u otra técnica va a funcionar bien en la mayoría de los casos (Kreft, de Leeuw, y
Aiken, 1995). Por lo tanto, la elección de qué método utilizar debe hacerse por razones de fondo con
respecto a la naturaleza de la relación entre X

y y. Mediante el uso de gran media centrado, se compara implícitamente los individuos entre sí (en la
forma de la media global) a través de una muestra entera.