Está en la página 1de 1

Taller #2a

Modelos de Regresión Avanzados


Análisis de Datos en Ingenierı́a II

Prof. Jorge I. Vélez


Oficina: L6, 4-24
Importante
El taller debe realizarse en parejas y debe entregarse antes del 5 de Abril de 2016 a las 12:00 m.
El único medio de entrega es el correo electrónico. Deben enviar un documento de Word que incluya el código R
utilizado como apéndice a jvelezv@uninorte.edu.co. El asunto del mensaje debe ser “Taller 2a - XXXXXXXXX”
donde XXXXXXXXX es el CIU del vocero del grupo.
Los resultados sean interpretados en contexto con el enunciado. Si bien el planteamiento de las hipótesis, la
elección del estadı́stico de prueba y los cálculos subsecuentes son importantes, el análisis e interpretación
tendrá un peso mayor en la calificación.

Ejercicio 1 (50 %) Se tienen n = 200 registros de las variables x1 , x2 , . . . , x7 y una variable respuesta y en un
proceso industrial de recubrimiento de superficies. Para acceder a los datos, ejecute las siguientes
lı́neas en la consola de R. El archivo en formato .txt estará ubicado en la ruta que aparezca en
pantalla. Por favor reemplace el carnet 200042840 por el correspondiente al vocero del grupo.

R> source("https://dl.dropboxusercontent.com/u/9601860/generatedata.R")
R> datos(200042840)
R> rm(datos)

a) Es posible hablar de la existencia de multicolinealidad? Calcule la matriz de correlación y la


matriz de dispersión usando la función pairs en R. Concluya.
b) Cuál es la variable que parece influenciar en mayor medida la variable respuesta y? Cuál variable
influencia y en menor medida?.
c) Ajuste un modelo de regresión lineal múltiple. Escriba la expresión del modelo ajustado.
d) Realice la prueba de significancia global y las pruebas de significancia marginales. Existe multi-
colinealidad?. Cuál es la variable con mayor efecto sobre E[y| x]?
e) Determine el factor de inflación de varianza (VIF) y el ı́ndice de condición (IC) para el modelo
ajustado. Son los resultados consistentes con sus observaciones iniciales? Concluya.

f ) Determine la combinación de variables que minimiza el MSE y aquellas que maximizan el
poder de predicción y el porcentaje de variabilidad explicada de la respuesta.
g) Utilice backward elimination y contraste los resultados con los obtenidos en el numeral anterior
Existe alguna discrepancia? Por qué? Concluya.
h) Realice el análisis de residuales, determine si existen observaciones atı́picas e influenciales, y
valide los supuestos sobre el error.
i) Determine E[y| x0 ] y calcule los intervalos de confianza y predicción del 99 % cuando

x0 = (0.715, 0.589, 0, 0, 1.243, 0.879, 0.987)

Ejercicio 2 (25 %) Responder, usando R, las preguntas del problema 9.3.2 en http://www.stat.colostate.edu/
regression_book/chapter9.pdf.

Ejercicio 3 (25 %) Considere los datos presentados en la sección 3.1 y la Figura 2a de http://revistas.usta.
edu.co/index.php/estadistica/article/view/5/5. Estime el modelo de Regresión Logı́stica y de-
termine la probabilidad de obtener un embrión normal cuando la dosis de mRNA es 8 pg. Para
efectos interpretativos, ver la sección 1 de http://revistas.usta.edu.co/index.php/estadistica/
article/view/60/1704.

También podría gustarte