Está en la página 1de 5

Práctico: Tema 2.

26 de abril de 2022

1. Ejercicio 1

Un experimento consistió en la presentación de input (escuchar diálogos) a los sujetos en las siguientes condiciones
[Group]: (1) FSF = Fast-Slow-Fast, (2) FSS = Fast-Slow-Slow, (3) Control = velocidad normal. Se tomó pre-test y un
post-test de decodicación fonológica. La respuesta fue la ganancia de Score entre pre y post tests [GainScore]. El archivo
con los datos es: 'JensenVinther2003.RData'.
1. Hacer: (a) una tabla descriptiva con n muestral, media y desvío para cada grupo; (b) Un box-plot con los tres grupos.
Interpretar los resultados.
2. Sea Y = GainScore y X = Group y el modelo: E [Yi | X1i ] = β0 + β1 X1i . Plantear el modelo para cada nivel de X1 .
3. Resultados del ajuste: a) interpretar el signicado de cada coeciente estimado; b) ¾Cuáles parámetros resultan sig-
nicativos? Para β0 , β1 y β2 plantear las hipótesis nula e alternativa para la inferencia individual de cada parámetro;
calcular tobs y p = 2P (tn−p ≥| tobs |);c) ¾Cuál es la varianza del modelo?;d) interpretar el R2 y el test F para la
regresión; e) dar un intervalo de conanza del 95 % para cada parámetro.
4. ¾Es signicativa la diferencia de medias entre las condiciones FSS y FSF? Para responder hacer comparaciones
múltiples usando el método de Tukey.
5. Diagnóstico del modelo: a) hacer grácos de los residuos e interpretarlos; b) calcular los residuos estandarizados; c) A
partir de dichos residuos estandarizados: (i) aplicar el test de Shapiro-Wilks para evaluar el supuesto de normalidad;
(ii) aplicar el test de Levene sobre Group para evaluar homoscedasticidad; (iii) para testear independencia aplicar
el test de Durbin-Watson y gracar la función de autocorrelación sobre los residuos; c) aplicar el test de residuos
estudentizados para evaluar la presencia de posibles observaciones inuyentes. ¾Qué se concluye sobre los supuestos
y outliers?

2. Ejercicio 2

Este ejercicio explora un diseño experimental factorial 2 × 2 (dos factores con dos niveles en cada factor) y cuatro
tratamientos dados por la cruza entre los niveles de los factores. El interés radicaba en las asociaciones que pueden
hacer las personas entre proximidad conceptual / fonológica y distancia física en expresiones metafóricas del tipo las
miradas sobre el asunto están demasiado lejos. Los sujetos debían leer un texto sobre dos ciudades. Dichas ciudades
podían tener un nombre fonológicamente similar o diferente (condición: Phon = dierent, similar). Además, el texto
acentuaba diferencias o similaridades entre ambas ciudades (condición: Sem = dierent, similar). Luego, los sujetos
debían marcar con una equis la ubicación de las ciudades en el mapa de una isla. La variable respuesta era la distancia
(en milímetros) del segmento que unía las dos equis. Se deseaba modelar la distancia (variable respuesta) en función de
la similaridad semántica / fonológica. El diseño tenía los siguientes tratamientos, a los cuales los participantes fueron
aleatorizados: (1) Dierent - Dierent, (2) Dierent - Similar, (3) Similar - Dierent, (4) Similar - Similar. Es decir que
se trata de un modelo con interacción. El archivo con los datos es: 'winter_matlock_2013_similarity.csv'.
1. Una vez cargados los datos, eliminar los valores faltantes y, si es necesario, pasar las variables cualitativas al tipo
factor. Además, crear una nueva variable con la interacción entre los niveles de Phon y Sem. ¾Cual es el rango
de la variable Distancia (respuesta)?
2. Análsis descriptivo: (a) contar las observaciones por tratamiento; (b) describir cada tratamiento mediante su media
y el desvío típico; (c) gracar el box-plot de cada tratamiento: ¾Que observa respecto de la simetría, la diferencia
entre las medianas y la diferencia entre los rangos intrecuartil?; (d) hacer un gráco de interacción (gráco de
perles): ¾Hay evidencia gráca de interacción?.

1
3. Sean:Y = Distance, X1 = Sem (Niveles: 0 = Dierent, 1 = Similar), X2 = P hon (Niveles: 0 = Dierent;
1 = Similar). Ajustar el modelo: E [Yi |X1i = x1i , X2i = x2i ] = β0 + β1i X1i + β2i X2i + β3i X1i X2i . Calcular los
residuos estandarizados, hacer grácos y testear los supuestos de independencia, normalidad (Shapiro-Wilks) y
homoscedasticidad para la interacción (Levene). ¾Hay outliers inuyentes según el test de residuos estudentizados?
4. Si el supuesto de normalidad no se verica, transformar la respuesta mediante el lambda de Box. Volver a tes-
tear los supuestos con el modelo usando la respuesta transformada: ¾Ahora hay normalidad? , ¾la interacción es
homoscedástica?.
5. Si en el modelo con la respuesta transformada resulta heteroscedástico para la variable de interacción, aplicar un
modelo GLS a la respuesta trasformada: E [g (Yi ) |X1i = x1i , X2i = x2i ] = β0 + β1i X1i + β2i X2i + β3i X1i X2i , con
estructura de varianza covarianza (para la interacción): V = σj2 , j = 1, ..., 4 (varIdent(f orm =∼ 1|Sem ∗ P hon),
o sea con una varianza diferente para cada grupo / tratamiento). (i) Sacar los residuos estandarizados; (ii) aplicar
sobre dichos residuos el test de Shapiro-Wilks y el de Levene sobre la interacción. ¾Se cumplen los supuestos?
6. Interpretar el modelo GLS del punto (5). (i) Calcular las medias de cada grupo, usando los modelos resultantes de las
combinaciones entre los niveles de X1 , X2 , X1 X2 ; (iii) hacer un gráco de interacción con la respuesta transformada;
(ii) Interpretar todos los coecientes del modelo estimado y calcularlos; (iii) ¾Hay efectos signicativos? ¾Qué se
concluye respecto del objetivo del experimento?

3. Ejercicio 3

Tomemos como ejemplo una base de datos con: (i) 146 ítems léxicos, (ii) X1 = Log10Length: su longitud expresada en
cantidad de sílabas (transformada en logaritmo en base diez), (iii) X2 = P OS : la clase de palabra según ADJ, VERB,
NOUN, (iv) RT : el tiempo medio de reacción en milisegundos (variable respuesta). Los datos están en ELP.c.RData.
1. Pasar el tiempo de reacción de segundos a milisegundos (RT /1000) y nombrar a la nueva variable RT sec; ltrar los
datos para quedarse con la clase de palabra VERB y ADJ.
2. Gracar los datos empíricos (RT versos Log10Length según POS). ¾Qué se observa? ¾Podría haber interacción?
3. Sean: Y = RT sec; X1 = Log10Length y X2 = P OS (0 = ADJ y 1 = VERB). Ajustar el modelo: E [Yi |X1i = x1i , X2i = x2i
β0 + β1i X1i + β2i X2i + β3i X1i X2i . Calcular los residuos estandarizados, hacer grácos y testear los supuestos de in-
dependencia, normalidad (Shapiro-Wilks) y homoscedasticidad para la interacción entre POS y Los10Length
discretizada (en tres niveles) (usar Levene). ¾Se cumplen los supuestos?
4. Calcular el lambda de Box. Luego reajustar el modelo usando la variable respuesta transformada. ¾Ahora se cumplen
los supuestos?
5. Continuar con el modelo ajustado en (4). a) Gracar el ajuste con los valores predichos. b) interpretar el signicado
de cada coeciente estimado; c) ¾Cuáles parámetros resultan signicativos? plantear las hipótesis nula e alternativa
para la inferencia individual de cada parámetro; calcular tobs y p = 2P (tn−p ≥| tobs |); d) Calcular el coeciente
estimado de la interacción; e) ¾Cuál es la varianza del modelo?; f) interpretar el R2 y el test F para la regresión; g)
dar un intervalo de conanza del 95 % para cada parámetro.
6. Observaciones inuyentes: a) ver cuáles observaciones son potencialmente inuyentes según los criterios de las si-
guientes técnicas: i) test de residuos estudentizados; ii) Leverage; iii) Distancia de Cook; iv) DFts; v) Dfbetas (uno
para cada coeciente); b) ajustar una regresión robusta. ¾Hay outliers? ¾Coinciden con los encontrados en el punto
anterior?; c) Comparar la regresión robusta y la del punto (2), ¾Se modican mucho las conclusiones?

4. Ejercicio 4

En este ejercicio se considera la relación entre iconicidad de una palabra (si la forma de una palabra se parece a su
signicado, por ejemplo, bum, click, zumbeo, etc.) como variable respuesta y las siguientes predictoras continuas:
(i) Experiencia sensorial (SER): escala subjetiva (en el rango [1, 7]) que medía el grado en que una palabra evocaba una
experiencia sensorial (vista, olfato, sonido, tacto, gusto); (ii) Densidad semántica del vecindario de la palabra (ARC):
grado de conectividad entre las palabras del vecindario de una determinada palabra. Este último predictor describe la idea
de que en ciertas regiones del lexicón mental las palabras se hallan más conectadas entre sí, o sea que tienen signicados
similares. En dichas regiones la iconicidad crearía confusión y sería poco eciente porque con varias formas icónicas, sus
signicados también sonarían de modo similar. Por ende, la hipótesis es que una determinada lengua debería estar sesgada
contra la iconicidad en regiones con palabras de vecindario léxico más denso. En cambio, en zonas de menor densidad hay

2
menos oportunidad de confundir conceptos. Las hipótesis son las siguientes: (a) Cuánto más icónica es una palabra más
evoca una experiencia sensorial; (b) cuanto más icónica es una palabra, menos denso es su vecindario léxico. El archivo
con los datos es: 'sidhu&pexman_2017_iconicity.csv'.
1. Una vez cargados los datos, (i) escalar y centrar las predictoras SER y ARC, llamar a las nuevas variables
SER_z y ARC_z; (ii) crear una variable para la interacción entre las predictoras SER_z y ARC_z y
llamarla Inter_z (Interz = SERz × ARCz ); (iii) ¾el rango de la respuesta (Iconicity) incluye al cero?
2. Sean:Y = Iconicity , X1 = SERz , X2 = ARCz . El modelo lineal con interacción es: E [Yi |X1i = x1i , X2i = x2i ] =
β0 + β1i X1i + β2i X2i + β3i X1i X2i . Plantear también el modelo jando X2 = x2 , ¾Qué indica el coeciente de
interacción β3 ?. Ajustar el modelo.
3. Calcular los residuos estandarizados, hacer grácos y testear los supuestos de independencia (test de Durbin-Warson),
normalidad (Shapiro-Wilks) y homoscedasticidad para la interacción (Levene) [Discretizar la variable Inter, con
niveles: bajo, medio, alto]. ¾Se cumplen los supuestos? ¾Hay outliers inuyentes según el test de residuos
estudentizados?
4. Calcular el lambda de Box. Para ello, reemplazar los ceros en la variable respuesta por una cantidad pequeña
 = 0,0001. Luego reajustar el modelo usando mínimos cuadrados generales (gls) usando la variable respuesta
transformada y una estructura de correlación. ¾Ahora se cumplen los supuestos? Gracar los valores predichos e
interpretar los coecientes estimados. ¾Qué observa ahora respecto de la interacción?

5. Ejercicio 5

Cargar el paquete languageR, que contiene la base de datos ratings, con datos de tipos de ratings para 81 palabras
sobre plantas y animales. Las variables a usar son las siguientes: (1) Word: token (palabra); (2) Class: tipo semántico
(planta o animal); (3) Frequency: log(frecuencia) de la palabra; (4) meanSizeRating: rating subjetivo medio del tamaño
del referente (variable respuesta).
1. Gracar la variable respuesta meanSizeRating en el eje Y contra Frequency en el eje X, estraticando por tipo
de clase semántica (planta o animal); ajustar una regresión Loess para cada tipo. ¾Se observa un efecto de
curvatura? (falta de linealidad)
2. Sea X1 = F requency ; X2 = Class; Y = meanSizeRating . Ajustar un modelo polinomial: E [Yi | X1i = x1i , X2i = x2i ] =
2
β0 + β1 X1i + β2 X1i + β3 X2i . Plantear el modelo para cada valor de X2 .
3. Ajustar un modelo polinomial con interacción: E [Yi | X1i = x1i , X2i = x2i ] = β0 +β1 X1i +β2 X1i
2
+β3 X2i +β4 X1i X2i .
Plantear el modelo para cada valor de X2 . ¾Es la interacción signicativa?
4. Ajustar el modelo del punto (2) e interpretarlo: a) interpretar el signicado de cada coeciente estimado; b) ¾Cuáles
parámetros resultan signicativos? Para β1 y β3 plantear las hipótesis nula e alternativa para la inferencia individual
de cada parámetro; calcular tobs y p = 2P (tn−p ≥| tobs |);c) ¾Cuál es la varianza del modelo?;d) interpretar el R2 y
el test F para la regresión; e) dar un intervalo de conanza del 95 % para cada parámetro.
5. Diagnóstico del modelo: a) hacer un gráco de los residuos e interpretarlos; b) calcular los residuos estandarizados; c)
A partir de dichos residuos estandarizados: (i) Aplicar el test de Durbin-Watson y la función de autocorrelación para
evaluar el supuesto de independencia; (ii) aplicar el test de Shapiro-Wilks para evaluar el supuesto de normalidad; (iii)
aplicar el test de Levene sobre Class y Frequency discretizada (en tres niveles) para evaluar homoscedasticidad.
¾Qué se concluye?
6. Observaciones inuyentes: a) ver cuáles observaciones son potencialmente inuyentes según los criterios de las si-
guientes técnicas: i) test de residuos estudentizados; ii) Leverage; iii) Distancia de Cook; iv) DFts; v) Dfbetas (uno
para cada coeciente); b) ajustar una regresión robusta. ¾Hay outliers? ¾Coinciden con los encontrados en el punto
anterior?; c) Comparar la regresión robusta y la del punto (2), ¾Se modican mucho las conclusiones?
7. Ajustar dos modelos lineales generales [GLS] según: E [Yi | X1i = x1i , X2i = x2i ] = β0 +β1 X1i +β2 X1i
2
+β3 X2i (mismo
modelo que en (2)) pero con estructuras de varianza: (i) V = σ | F requency | ; j = 1, 2 (varP ower(f orm =∼
2 2δj

F requency|Class)); (ii) V = σ 2 e2δj F requency ; j = 1, 2 (varExp(f orm =∼ F requency|Class)). A partir de cada


uno: (i) Sacar los residuos estandarizados; (ii) aplicar sobre dichos residuos el test de Shapiro-Wilks y el de Levene
sobre Class y Frequency discretizada (en 3 niveles). ¾Las estructuras de varianza causan alguna diferencia en
el resultado de los tests? ¾Se cumplen todos los supuestos?

3
6. Ejercicio 6

En este ejercicio se estudia el efecto de una serie de predictoras sobre la iconicidad de una palabra (si la forma de una pa-
labra se parece a su signicado, por ejemplo, bum, click, zumbeo, etc.). Los datos están en: '"perry_winter_2017_iconicity.RDa
Las variables son las siguientes:
(a) Iconicidad (Iconicity): escala subjetiva (en el rango [-5, 5]) donde el extremo inferior indica que la palabra suena
como lo opuesto de su signicado y el extremo superior indica que la palabra suena como su signicado.
(b) Sistematicidad (Syst): La contribución de cada palabra a una medida general de correlación entre forma ~
signicado (usando todas las palabras).
(c) Experiencia sensorial (SER): escala subjetiva (en el rango [1, 7]) que medía el grado en que una palabra evocaba
una experiencia sensorial (vista, olfato, sonido, tacto, gusto).
(d) Concretud (Conc): escala subjetiva que indica cuán concreta es una palabra.
(c) Imaginabilidad (CorteseImag): escala subjetiva que indica la capacidad de una palabra para evocar imágenes o
sonidos.
(d) Frecuencia (Freq): frecuencia de la palabra en el corpus SUBTLEX (subtitle corpus of movie speech)
(e) Clase de palabra (POS): variable categórica con niveles: "Grammatical", "Verb", "Adjective", "Noun", "Inter-
jection", "Name", "Adverb".

6.1. Parte I

1. Cargar los datos. (i) Vericar si hay datos faltantes; (ii) pasar a factor la variable POS y mirar sus niveles.
2. Describir los datos: (i) para cada grupo (nivel) de POS: (a) sacar la cantidad de observaciones, la media y el
desvío típico; (b) ¾Cómo se ordenan las medias de iconicidad de las interjecciones, adjetivos, sustantivos y verbos?
¾Que tipos de palabras son las menos icónicas?; (c) hacer un box-plot con la variable POS.
3. Reasignar el nivel de referencia de POS a las interjecciones. Sea Y = Iconicity y X1 = P OS y el modelo:
E [Yi | X1i ] = β0 + β1 X1i . Plantear el modelo para cada nivel de X1 .
4. Ajustar el modelo del punto (3) e interpretarlo: a) interpretar el signicado de cada coeciente estimado; b) ¾Cuáles
parámetros resultan signicativos? Para β0 y β1 plantear las hipótesis nula e alternativa para la inferencia individual
de cada parámetro; calcular tobs y p = 2P (tn−p ≥| tobs |);c) ¾Cuál es la varianza del modelo?;d) interpretar el R2 y
el test F para la regresión.
5. Hacer comparaciones múltiples. ¾Cuáles pares NO resultan signicativos?

6.2. Parte II

1. Filtrar los datos para quedarse solamente con aquellos con tipo de palabra de verbo y sustantivo. Gracar la
Iconicidad versus experiencia sensorial (SER) según el tipo de palabra. ¾Se observa no linealidad? ¾Se observa
interacción?
2. Sea Y = Iconicity , X1 = SER, X2 = P OS . Se propone un modelo polinomial con interacción: E [Yi | X1i = x1i , X2i = x2i ] =
2
β0 + β1 X1i + β2 X1i + β3 X2i + β4 X1i X2i . Plantear el modelo para cada nivel de X2 .
3. Ajustar el modelo del punto (2) e interpretarlo: a) interpretar el signicado de cada coeciente estimado; b) ¾Cuáles
parámetros resultan signicativos? plantear las hipótesis nula e alternativa para la inferencia individual de cada
parámetro; calcular tobs y p = 2P (tn−p ≥| tobs |); c) Calcular el coeciente estimado de la interacción; d) ¾Cuál es
la varianza del modelo?; e) interpretar el R2 y el test F para la regresión; f) dar un intervalo de conanza del 95 %
para cada parámetro.
4. Hacer un gráco con los valores predichos Ŷ . Para ello, eliminar las observaciones con datos faltantes en la variable
SER.
5. Centrar la variable SER (restarle a cada observación la media de SER). Volver a ajustar el modelo centrado.
¾Qué sucede con el signo del coeciente estimado β3 ? ¾Cómo se interpreta ahora ducho coeciente?
6. Diagnóstico del modelo: a) hacer un gráco de los residuos e interpretarlos; b) calcular los residuos estandarizados; c)
A partir de dichos residuos estandarizados: (i) Aplicar el test de Durbin-Watson y la función de autocorrelación para
evaluar el supuesto de independencia ;(ii) aplicar el test de Shapiro-Wilks para evaluar el supuesto de normalidad;
(iii) aplicar el test de Levene sobre la interacción entre POS y SER discretizada (en tres niveles) para evaluar
homoscedasticidad. ¾Qué se concluye?

4
7. Observaciones inuyentes: a) ver cuáles observaciones son potencialmente inuyentes según los criterios de las si-
guientes técnicas: i) test de residuos estudentizados; ii) Leverage; iii) Distancia de Cook; iv) DFts; v) Dfbetas (uno
para cada coeciente); b) ajustar una regresión robusta. ¾Hay outliers? ¾Coinciden con los encontrados en el punto
anterior?; c) Comparar la regresión robusta y la del punto (2), ¾Se modican mucho las conclusiones?
8. Ajustar un modelo lineal general [GLS] según: E [Yi | X1i = x1i , X2i = x2i ] = β0 + β1 X1i + β2 X1i 2
+ β3 X2i +
β4 X1i X2i (mismo modelo que en (2)) pero con estructura de varianza: V = σ e 2 2δj P OS
; j = 1, 2 (varExp(f orm =∼
SER|P OS)). A partir de cada uno: (i) Sacar los residuos estandarizados; (ii) aplicar sobre dichos residuos el test de
Shapiro-Wilks y el de Levene sobre la interacción entre POS y SER discretizada (en 3 niveles). ¾Se cumplen
todos los supuestos?

6.3. Parte III

1. Se deja de lado ahora la variable POS. Transformar la variable frecuencia como Log10F req = log10(F req) y
estandarizar todas las variables continuas como: SER_z, CorteseImag_z , Syst_z , Freq_z. Hacer una
matriz de correlación entre las variables. ¾Algún par tiene correlación alta?
2. Ajustar un modelo lineal con la variable respuesta Iconicity y el resto de las predictoras estandarizadas. Calcular
el índice VIF para cada predictora. Evaluar la colinealidad.
3. Eliminar la variable Conc_z. Eliminar las observaciones con datos faltantes. Ajustar un modelo lineal con la
variable respuesta Iconicity y el resto de las predictoras estandarizadas pero incluyendo todas las interacciones
dobles entre las predictoras.
4. Elegir el mejor modelo aplicando el paradigma de teoría de la información. Una vez identicado, interpretar las
interacciones que se incluyeron en el modelo nal.

También podría gustarte