Está en la página 1de 6

Práctica Tema 3

25 de mayo de 2022

1. Ejercicio 1

Se busca analizar la asociación entre el tono de voz (variable respuesta) y dos predictoras: el registro (in)formal y el
género de los hablantes. Para cada sujeto (6 en total) se registró el tono de voz medido en Hertz (Hz) cuando participaban
de una conversación en 7 escenarios diferentes (por ejemplo: pedir un favor), cada uno de ellos en registro formal e
informal. Por ende, los datos se agrupan por sujeto (j = 1, ..., 6) y por ítem / escenario (k = 1, ..., 7). Los datos están en:
politeness_data.csv. Las variables son las siguientes:
Y : frequency (variable respuesta), el tono de voz medido en Hertz (Hz) (cuanto más alto mayor tono de voz).
X1 : attitude, registro, con niveles: 0 = informal (inf); 1 = formal (pol).
X2 : gender, sexo, con niveles: 0 = Femenino (F); 1 = Masculino (M).
Sujetos: "F1", "F3", "M4", "M7", "F2", "M3" (j = 1, ..., 6)
Escenarios (ítems): k = 1, ..., 7 (Ej: pedir un favor).

1) Pre-procesamiento: (a) eliminar posibles valores faltantes; (b) pasar todas las variables a tipo factor; (c) crear la
variable Trial con una secuencia de números para cada sujeto j : T rialj = 1, 2, ..., nj ; (d) re-organizar los datos por ítem /
escenario y luego crear la variable Trial con una secuencia de números para cada ítem (escenario) k: T rialk = 1, 2, ..., nk ;
(e) ¾los factores aleatorios se hallan anidados o cruzados?

2) Análisis descriptivo mediante grácos: (a) hacer un box-plot para la interacción entre las variables attitude y
gender e interpretarlo; (b) hacer un gráco de interacción: ¾hay evidencia de interacción entre ambas variables?; (c)
gracar la función de autocorrelación (ACF) para cada sujeto y para cada ítem; ¾Hay evidencia de correlación intra-grupo?

3) Sea el modelo teórico inicial con efectos aleatorios de ordenada al origen para sujeto e ítem:
Yijk = (β0 + u0j + u0k ) +  β1 X1 + β2X2 + β3 X1 X2 + εijk 

εijk ∼ N 0, σe ; u0j ∼ N 0, σu2 0sujeto ; u0k ∼ N 0, σu2 0ı́tem
2

i = 1, ..., nj ; j = 1, ..., 6; k = 1, ..., 7

(a) Usando el paquete de R glmmTMB, ajustar el modelo inicial anterior (M1). Luego ajustar otros dos modelos: (i)
M2: modelo M1 con estructura de R auto-regresiva de primer orden (AR(1)) agrupando por sujeto; (ii) M3: modelo M1
con estructura de R auto-regresiva de primer orden (AR(1)) agrupando por ítem. Comparar M2 y M3 con M1 mediante
el test de cociente de verosimilitud (LRT). ¾Es correcto asumir una estructura de R diagonal homogénea?
(b) Usando el paquete de R lme4, ajustar el modelo inicial anterior (M1) con y sin la interacción (con método ML).
Comparar con LRT. ¾Se elige el modelo con o sin interacción?

4) Ajustar el modelo elegido en 3.b) y realizar diagnóstico. a) vericar los supuestos: normalidad y homoscedasticidad
para el error y los efectos aleatorios (hacer grácos con los residuos); b) inspeccionar el box-plot de las distancias de Cook
para identicar posibles observaciones inuyentes; c) comparar el modelo con y sin las posibles observaciones inuyentes
o mediante una regresión robusta.

5) Plantear el modelo nal y desglosarlo según los valores de las predictoras. Interpretar los coecientes. Gracar las
medias predichas para el sujeto / ítem promedio. Calcular la varianza de las observaciones (de un mismo grupo) y el
coeciente de correlación intra-clase para sujeto y para ítem.

1
2. Ejercicio 2

Se usa la base de datos heid del paquete languageR de R. Se trata de 832 observaciones de palabras compuestas
(adjetivos) terminadas con el sujo -heid en holandés. Contiene las siguientes variables: (i) Subject: variable categórica
con el número de sujeto como nivel (s = 1, 2, . . . , 26); Word: las palabras compuestas con -heid; RT: logaritmos
de los tiempos de reacción (milisegundos) en una tarea de decisión léxica visual (variable respuesta Y = log (RT ));
BaseFrequency: el logaritmo de la frecuencia del adjetivo base al que se le agrega el sujo heid (predictora X1 ). Por
ende, cada sujeto tiene t = 1, 2, . . . , Ts observaciones de tiempos de reacción (siendo T = 6 como mínimo y T = 40 como
máximo). Se trata pues de datos temporales y agrupados por sujeto (factor aleatorio).

1) Grácos descriptivos: crear una variable Trial con una secuencia de números para cada sujeto s: T rials = 1, 2, ..., ns .
Gracar la variable respuesta versus la predictora para cada sujeto ajustando un regresión lm (¾Se ve mucha variabilidad
de pendientes?). Gracar la función de autocorrelación para cada sujeto (¾Se ve correlación intra-sujeto?).

2) Ajustar un modelo lineal: exp (Yi ) = β0 + β1 X1i + εi y calcular el lambda de Box λ para transformar la variable
respuesta. Pasar la variable respuesta a segundos: Ysec,i = exp(log(RT
1000
i )) RTi
= 1000 . Hacer un histograma de la variable
respuesta transformada con el lambda de Box (segundos). [Ysec ] ¾Qué se observa respecto de la simetría? Gracar Ysec
λ λ

versus la predictora. ¾Se observa no linealidad?

3) Ajustar los siguientes modelos:


M1: modelo con efecto aleatorio de ordenada al origen para factor aleatorio de sujeto.
λ
Ysec,is = (β0 + u0s ) + β1 X1is + εis ; i= 1, ..., ns ,s = 1, ..., 26

εis ∼ N 0, σe2 ; u0s ∼ N 0, σu2 0sujeto

M2: modelo con efecto aleatorio de ordenada al origen y de pendiente (BaseFrequency) para factor aleatorio de
sujeto.
λ
Ysec,is = (β0 + u0s ) + (β1 + u
1s ) X1is + 
εis ; i = 1, ...,ns , s = 1, ...,
 26

εis ∼ N 0, σe2 ; u0s ∼ N 0, σu2 0sujeto ; u1s ∼ N 0, σu2 1sujeto
 
var (u0s ) cov (u0s , u1s )
El modelo M2 asume matriz G = . Evaluar mediante LRT la posibilidad de una matriz
 cov (u1s , u0s ) var (u1s )
var (u0s ) 0
diagonal: G = . Elegir la estructura adecuada de G. Luego testear mediante LRT la inclusión del
0 var (u1s )
efecto aleatorio de pendiente. ¾Vale la pena complicar el modelo agregando otro factor aleatorio de pendiente si la varianza
que aporta es pequeña?

4) A partir del modelo elegido para el punto anterior, agregar sucesivamente: (i) una estructura de varianza y covarianza
de tipo varIdent agrupada por sujeto; (ii) una estructura de correlación AR(1). Comparar ambos mediante LRT.

5) Ajustar el modelo elegido en 4) y realizar diagnóstico. a) vericar los supuestos: normalidad y homoscedasticidad
para el error y los efectos aleatorios (hacer grácos con los residuos); ¾Se soluciona el problema de la independencia?
b) inspeccionar el box-plot de las distancias de Cook para identicar posibles observaciones inuyentes; c) comparar el
modelo con y sin las posibles observaciones inuyentes o mediante una regresión robusta.

6) Plantear el modelo nal. Interpretar los coecientes y gracar los valores predichos.

7) a) ¾cuántos parámetros estima el modelo? b) ¾cuál es la varianza estimada del error y del efecto aleatorio? c) mostrar
la matriz R para el sujeto pp5 y calcular las varianzas del error para cada sujeto; d) Mostrar la matriz V de varianzas y
covarianzas de las observaciones (para pp5) y su contraparte con las correlaciones; e) calcular el coeciente de correlación
intra-clase para cada sujeto.

2
3. Ejercicio 3

El inglés antiguo expresaba relaciones sintácticas mediante casos (estrategia sintética); mientras que en inglés actual
dichas relaciones se expresan mediante preposiciones y el orden de palabras (estrategia analítica). En el ejercicio se
investiga si la frecuencia de preposiciones crece a medida que pasan los años (desde 1150 a 1913); y si sigue creciendo
aún después de que ya se ha consumado el cambio de estrategia. Por otra parte, dicho crecimiento, ¾Es diferente en las
variedades del inglés del norte y del sur de Inglaterra? Los datos se encuentran agrupados por autor y por género. Los
datos están en: lmd.rda. Las variables son las siguientes:
Y : Prepositions (variable respuesta), frecuencia relativa de preposiciones (cada 1000 palabras) en textos del inglés.
X1 : Date, fecha entre 1150 y 1913.

X2 : Region, región de Inglaterra: 0 = norte, 1 = sur.


Genre: género del texto (g = 1, ..., 16)
Text: autor del texto (k = 1, ..., 271)

1) Preprocesamiento: a) pasar a tipo factor las variables que lo requieran; b) re-organizar los datos por Genre y
luego crear la variable Time con una secuencia de números para cada género g : T rialg = 1, 2, ..., ng ; c) ¾Los factores
aleatorios están cruzados? Elegir como factor aleatorio aquel con mayor cantidad de observaciones en sus niveles.

2) Grácos descriptivos: Gracar e interpretar: a) la variable respuesta Prepositions versus Date ajustando una
regresión loess (¾Se ve un incremento de la frecuencia?); b) un box-plot de Prepositions según Genre (¾el rango
intercuartil cambia según el género?); c) un histograma de la variable respuesta (¾Qué se observa respecto de la simetría?);
d) Gracar la variable respuesta versus la predictora para cada sujeto ajustando un regresión lm (¾Se ve mucha
variabilidad de pendientes?); e) Gracar la función de autocorrelación para cada sujeto (¾Se ve correlación intra-sujeto?).

3) Ajustar los siguientes modelos:


M1: modelo con efecto aleatorio de ordenada al origen para factor aleatorio de género.
Yig = (β0 + u0s ) + β1X1ig + β2 X2ig + β3 X1ig X2ig + εig

εig ∼ N 0, σe2 ; u0g ∼ N 0, σu2 0género ; i = 1, ..., ng , g = 1, ..., 16

M2: modelo con efecto aleatorio de ordenada al origen y de pendiente de Date para factor aleatorio de género.
Y = (β0 + u0s
 ) + (β1 + u1s ) X1ig + β2 X2ig + β3 X 1ig X2ig + εig

εig ∼ N 0, σe2 ; u0g ∼ N 0, σu2 0género ; u1g ∼ N 0, σu2 1género ; i = 1, ..., ng , g = 1, ..., 16
 
var (u0s ) cov (u0s , u1s )
El modelo M2 asume matriz G = . Evaluar mediante LRT la posibilidad de una matriz
 cov (u1s , u0s ) var (u1s )
var (u0s ) 0
diagonal: G = . Elegir la estructura adecuada de G. Luego testear mediante LRT la inclusión del
0 var (u1s )
efecto aleatorio de pendiente. ¾Vale la pena complicar el modelo agregando otro factor aleatorio de pendiente si la varianza
que aporta es pequeña?

4) A partir del modelo elegido para el punto anterior, agregar sucesivamente: (i) una estructura de varianza y covarianza
de tipo varIdent agrupada por sujeto; (ii) una estructura de correlación AR(1). Comparar ambos mediante LRT. Luego
reducir la parte ja del modelo (método ML): ¾es necesaria la interacción? ¾y la variable Region?

5) Ajustar el modelo nal elegido en 4) y realizar diagnóstico. a) vericar los supuestos: normalidad y homoscedasticidad
para el error y los efectos aleatorios (hacer grácos con los residuos); ¾Se soluciona el problema de la independencia? b)
inspeccionar el box-plot de las distancias de Cook para identicar posibles observaciones inuyentes; c) comparar el modelo
con y sin las posibles observaciones inuyentes o mediante una regresión robusta.

6) Plantear el modelo nal. Interpretar los coecientes y gracar los valores predichos.

3
7) a) ¾cuántos parámetros estima el modelo? b) ¾cuál es la varianza estimada del error y del efecto aleatorio? c) mostrar
la matriz R para el género Biography y calcular las varianzas del error para cada sujeto; d) Mostrar la matriz V de
varianzas y covarianzas de las observaciones (para Biography) y su contraparte con las correlaciones; e) calcular el
coeciente de correlación intra-clase para cada sujeto.

4. Ejercicio 4

En este ejercicio se usan tiempos de reacción (en escala logarítmica) de un experimento de decisión léxica. Los datos
se hallan agrupados por sujeto (n = 21) y por ítem / palabra (n = 79). Los datos están en el paquete languageR, con
el nombre lexdec. Las variables a considerar son las siguientes:
Y : RT (variable respuesta), tiempos de reacción (en milisegundos) en escala logarítmica.

X1 : Trial, número de estímulo en la lista experimental.


X2 : Frequency, frecuencia de la palabra (en escala logarítmica).
X3 : meanWeight, rating promedio del peso atribuido al referente de la palabra (promediado entre los sujetos).
X4 : Length, el largo de la palabra en cantidad de letras.

X5 : NativeLanguage, si la lengua nativa del sujeto es el inglés o no, con niveles: 0 = English (hablante nativo), 1
= otra (hablante non nativo).
Subject, sujetos: j = 1, ..., 21.
Word, palabras (ítems): k = 1, ..., 79.
Entre otras variables, también se hallaba Correct que indicaba si la respuesta al estímulo era correcta [correct] (por
ejemplo, responder que se trataba de una palabra del inglés cuando efectivamente lo era) o incorrecta [incorrect] (por
ejemplo, responder que no era una palabra del inglés cuando si lo era).

1) Preprocesamiento: a) eliminar los datos con tiempos reacción (en escala logarítmica) menores a siete (RT < 7); b)
seleccionar los datos con respuesta correct; c) pasar los tiempos de reacción a segundos, creando la variable RT.sec:
1000 ; d) re-organizar los datos por ítem / palabra y luego crear la variable Trial con una secuencia de
RT.sec = exp(RT )

números para cada ítem (palabra) k: T rial.itemk = 1, 2, ..., nk ; luego volver a re-organizar los datos por sujeto; e) centrar
la variable Trial

2) Grácas descriptivas:
a) hacer un histograma de la variable RT.sec (¾Qué se observa respecto de la simetría?);
b) ajustar el modelo lineal:
lm(RT.sec~ Trial + Frequency + meanWeight + NativeLanguage * Length, data = lexdec3)
A partir de este, buscar un lambda de Box λ adecuado para transformar la respuesta: RT.sec.t = RT.secλ .
c) hacer un histograma de RT.sec.t (¾Qué se observa respecto de la simetría?)
d) gracar la función de autocorrelación (ACF) para cada sujeto y para cada ítem (¾en qué factor aleatorio hay más
evidencia de correlación?)
e) gracar, para cada sujeto, la respuesta transformada versus Trial: ¾Hay efecto de fatiga o de acostumbramien-
to? (¾el RT tranformado aumenta o disminuye a medida que avanza el experimento?).

3) Ajustar los siguientes modelos:


M1: modelo con efecto aleatorio de ordenada al origen para factor aleatorio de sujeto e ítem.
Yijk = (β0 + u0j + u0k ) + β1 X1ijk + β2 X2ijk +  β3 X3ijk +β4 X4ijk + β5 X5ijk + β4 X4ijk X5ijk + εijk

εijk ∼ N 0, σe ; u0j ∼ N 0, σu2 0sujeto ; u0k ∼ N 0, σu2 0ı́tem
2

i = 1, ..., nj , j = 1, ..., 21, k = 1, ..., 79

M2: modelo con efecto aleatorio de ordenada al origen (factor aleatorio de sujeto e ítem) y de pendiente de Trial
para factor aleatorio de sujeto.

4
Yijk = (β0 + u0j + u0k ) + (β1 + u1j ) X1ijk + β2 X2ijk
 + β3 X3ijk  + β4 X4ijk + β5 X5ijk + β4 X4ijkX5ijk + εijk

εijk ∼ N 0, σe ; u0j ∼ N 0, σu0sujeto ; u1j ∼ N 0, σu2 1sujeto ; u0k ∼ N 0, σu2 0ı́tem
2 2

i = 1, ..., nj , j = 1, ..., 21, k = 1, ..., 79

a) Comparar mediante LRT entre M2 y su contraparte con matriz G diagonal. ¾Cuál se elige?
a) Comparar M1 con el modelo elegido en a) mediante LRT: ¾Cuál se elige?
b) Agregar al modelo elegido en b) una estructura R AR(1) agrupando por sujeto. Comparar mediante LRT si mejora
el modelo.

4) Diagnóstico: utilizando el paquete DHARMa: a) calcular los residuos cuantil simulados; b) evaluar el gráco de
dichos residuos contra valores predichos y el qq-plot; c) vericar el supuesto de homoscedasticidad para los factores Word,
Subject, NativeLanguage; d) evaluar su mejora la correlación intra-grupo; e) evaluar el supuesto de normalidad para
los factores aleatorios.

5) Modelo nal: enunciar el modelo nal y desglosarlo por nivel de NativeLanguage. ¾Cuánto valen: σ̂e2 , σ̂u0
2
sujeto
,σ̂u1
2
sujeto
,
σ̂u0ı́tem , ρ̂? Interpretar los coecientes del modelo. Gracar los valores predichos para los predictores signicativos.
2

5. Ejercicio 5

En este ejercicio se investiga si la duración con la que se pronuncian las palabras dentro de un turno de conversación
va aumentando (el habla es más lenta) a medida que el hablante se acerca al nal del turno. Se sabe que la duración de
una palabra está inuida por su largo, frecuencia, cantidad de vocales y surprisal. Por ende estas variables actúan como
controladoras. Los datos están en: 06_durations.csv. Las variables son las siguientes.
Y : DURATION, variable respuesta, duración de una palabra en milisegundos (cuánta más duración, el habla es
más lenta; cuánto menos duración, el habla es más rápida).
X1 : POSINTURN, posición de la palabra el el turno de conversación en un turno de habla de diez palabras
(secuencia de 1 a 10).
X2 : CLASS, clase de palabra, con 5 niveles: closed, number, open, propname, unclear.
X3 : SEX, género del hablante; 0 = female, 1 = male.
X4 : VOWELS, cantidad de vocales: 0 = one (una vocal), 1 = two+ (dos o más)
X5 : LENGTH, largo de la palabra en fonemas.

X6 : SURPRISAL, cuán sorpresiva es la palabra dada la palabra anterior.


X7 : FREQ, índice derivado del la frecuencia de la palabra en un corpus.
SPEAKER: hablante del turno conversacional: s = 1, ..., 20.

1) Pre-procesamiento: a) crear la variable CLASS, con niveles: 0 = closed (palabras cerradas: p.e. pronombres,
artículos, conjunciones) y 1 = open (palabras abiertas: p.e. sustantivos, adjetivos, verbos). b) ¾Cuál es el rango de
FREQ y SURPRISAL? (¾incluye al cero?).

2) Transformación de la variable respuesta: Hacer un histograma de Y (¾Qué se observa respecto de la simetría?). Ajustar
el modelo:
lm(DURATION ~ POSINTURN * CLASS, data = dur)
Y a partir de dicho modelo, buscar un lambda de Box λ adecuado. Transformar la respuesta como: DURATION.t =
Y λ . Luego volver a hacer un histograma sobre la respuesta transformada (¾Qué sucede con la asimetría?).

3) Gracar DURATION.t contra las predictoras siguientes para evaluar posibles no-linealidades (ajustar una función
por el método gam): (i) LENGTH y log2(LENGTH); (ii) SURPRISAL, sqrt(SURPRISAL) y log2(SURPRISAL+1);
(iii) FREQ, log2(FREQ+1), (F REQ + γ)λ (usar: car::powerTransform). ¾Cuáles se eligen?

5
4) Inspeccionar posibles efectos en la respuesta: Gracar: (i) DURATION.t versus POSINTURN según CLASS (¾se
observa interacción?); (ii) box-plots de DURATION.t versus SEX y VOWELS (¾se ve diefrencia entre las medianas?).

5) Estandarización y posible colinealidad: a) estandarizar las variable elegidas en 3) y llamarlas FREQ_z, SURPRI-
SAL_z, LENGTH_z; b) evaluar posibles colinealidad entre ellas mediante un gráco de correlación de Spearman.

6) Sea el modelo inicial M1 con efecto aleatorio de intercept para el factor aleatorio SPEAKER, con predictoras:
X1 : P OSIN T U RN ; X2 : CLASS ; X3 : SEX ; X4 : V OW ELS ; X5 : LEN GT Hz (y su efecto cuadrático); X6 :
SU RP RISALz (y su efecto cuadrático); X7 : F REQz (y su efecto cuadrático); la interacción entre X1 y X2 . Ajustarlo
usando el paquete nlme.
2
Yis = (β0 + u0s ) + β1 X1is + β2 X2is + β3 X3is + β4 X4is + β5 X5is + β6 X5is
2 2
+β7 X6is + β8 X6is + β9 X7is + β10 X7is + β11 X1isX2is + εis

εis ∼ N 0, σe2 ; u0s ∼ N 0, σu2 0speaker
i = 1, ..., ns , s = 1, ..., 20

a) ajustar el modelo M2 agregando a M1 efecto aleatorio de pendiente de POSINTURN; b) ajustar el modelo M3


agregando a M1 efecto aleatorio de CLASS; c) evaluar M2 y M3 versus M1 mediante LRT. d) reducir la parte ja (usando
ML): sacar sucesivamente las variables SEX y los efectos cuadráticos para SURPRISAL_z y FREQ_z. Comparar
mediante LRT.

7) Ajustar el modelo nal elegido en 6) y realizar diagnóstico. Vericar los supuestos: colinealidad, normalidad y homos-
cedasticidad para el error y el efectos aleatorio (hacer grácos con los residuos). ¾Se cumplen los supuestos? (cuidado: como
hay más de 5000 datos, se supera el límite que admite el el test de Shapiro-W., usar en su lugar, el test de Kolmogorov-
Smirnov (ks.test) o el de Lilliefors (nortest::lillie.test))

8) Re-calibración del modelo: hacer depender la varianza del error de un producto de estructuras de varianzas y cova-
rianzas vf (varComb) y re-ajustar el modelo.
vf1 <- varConstPower(form = ~POSINTURN|CLASS)
vf2 <- varExp(form = ~LENGTH_z|CLASS)
vf3 <- varIdent(form = ~1|VOWELS)
vf4 <- varExp(form = ~FREQ_z)
vf <- varComb(vf1, vf2, vf3, vf4)
a) Volver a evaluar los supuestos: ¾mejora el ajuste?; b) inspeccionar el box-plot de las distancias de Cook para identicar
posibles observaciones inuyentes; c) comparar el modelo con y sin las posibles observaciones inuyentes o mediante una
regresión robusta.

9) Modelo nal: enunciar el modelo nal y desglosarlo por nivel de NativeLanguage. ¾Cuánto valen: σ̂e2 , σ̂u0
2
speaker
?
Interpretar los coecientes del modelo. Gracar los valores predichos para los predictores signicativos.

10) a) ¾Cuáles son las estimaciones de los parámetros de las estructuras de varianza y covarianza involucradas? b)
Mostrar la matriz R para el SPEAKER S01 y calcular las varianzas del error para los errores e1 y e5 ; c) Mostrar la
matriz V de varianzas y covarianzas de las observaciones (para S01) y su contraparte con las correlaciones; d) calcular
el coeciente de correlación intra-clase para las observaciones 1 y 5.

También podría gustarte