Está en la página 1de 8

Trabajo Regresin Lineal

Fecha de entrega: mayo 20



1. Caractersticas del Trabajo
a) El trabajo tiene dos partes: i) La primera parte es comn para todos los grupos, ii) Una segunda
parte para cada grupo, de acuerdo asignacin. Los valores son 60%, 40% respectivamente.
b) El reporte se elabora con nfasis en la sustentacin de los resultados. No se anexan programas
R.

2. Descripcin
La base de datos adjunta en archivo APC1modif.txt proporciona datos recolectados de un estudio
sobre la eficacia del control de infecciones nosocomiales, cuyo objetivo principal fue determinar si
los programas de vigilancia y control de infecciones han reducido las tasas de infeccin nosocomial
(adquiridas en los hospitales) en hospitales de Estados Unidos. Estos datos consisten de una
muestra aleatoria de 113 hospitales seleccionados de los 338 hospitales originales investigados.
Cada rengln del conjunto de datos tiene un nmero de identificacin y proporciona informacin
sobre otras 11 variables para un hospital. Los datos presentados corresponden al periodo de
estudio 1975-76. Las 12 variables son descritas en la Tabla1.

Considere como variable respuesta DPERM y como predictoras todas las dems variables dadas,
excepto ID, AEM y REGION.

Parte I
a) Haga la respectiva matriz de dispersin para el conjunto de variables a considerar, analice las
relaciones que puedan existir entre la variable respuesta y las predictoras, y entre predictoras.
b) Ajuste un modelo de regresin lineal mltiple, muestre la tabla de parmetros ajustados y
escriba la ecuacin ajustada. Calcule la Anova del modelo Es significativo el modelo? Qu
proporcin de la variabilidad total de la respuesta es explicada por el modelo? Opine sobre esto
ltimo.





c) Calcule los coeficientes de regresin estandarizados y concluya acerca de cul de las variables
aporta ms a la respuesta segn la magnitud en valor absoluto de tales coeficientes (cuidado,
no confunda esto con la significancia de los coeficientes de regresin).


d) Pruebe la significancia individual de cada uno de los parmetros del modelo (excepto
intercepto), usando la prueba t


y para dos cualesquiera de las predictoras, usando la prueba F con sumas de cuadrados extras
con test lineal general; en cada caso, especifique claramente el modelo reducido y completo,
estadstico de la prueba, su distribucin, clculo de valor P, decisin y conclusin a la luz de los
datos.



e) Calcule las sumas de cuadrados tipo I (secuenciales) y tipo II (parciales) Cul de las variables
tienen menor valor en tales sumas? Qu puede significar ello?





f) Construya y analice grficos de los residuales estudentizados vs. Valores ajustados y contra las
variables de regresin utilizadas. Qu informacin proporcionan estas grficas?
g) Construya una grfica de probabilidad normal para los residuales estudentizados. Existen
razones para dudar de la hiptesis de normalidad sobre los errores en este modelo?
h) Diagnostique la presencia de observaciones atpicas, de balanceo y/o influenciales. Recuerde
que cada unidad de observacin es una institucin hospitalaria. En particular, las
observaciones 47 y 112 se diferencian del resto? Ajuste el modelo de regresin sin estas dos
observaciones, presente slo la tabla de parmetros ajustados resultante Cambian
notoriamente las estimaciones de los parmetros, sus errores estndar y/o la signficancia?
Qu concluye al respecto? Evale el grfico de normalidad para los residuales estudentizados
para este ajuste mejor la normalidad? Concluya sobre los efectos de este par de
observaciones.
i) Para el modelo con todas las variables, realice diagnsticos de multicolinealidad mediante:
Matriz de correlacin de las variables predictoras
VIFs
Proporciones de varianza

j) En el modelo ajustado sin las observaciones 47 y 112, construya modelos de regresin
utilizando los mtodos de seleccin (muestre de cada mtodo slo la tabla de resumen de este,
la tabla ANOVA y la de parmetros estimados del modelo finalmente resultante):
Seleccin segn


Seleccin segn el estadstico C
p

Stepwise
Seleccin hacia adelante o forward
Seleccin hacia atrs o backward

k) Con base en los anteriores numerales, Cul modelo sugiere para la variable respuesta? por
qu?
Tabla 1. Descripcin de la base de datos

Nmero de la variable Cdigo Variable Nombre variable Descripcin
1 ID Nmero de identificacin del registro 1-113
2 DPERM Longitud de permanencia Longitud promedio de permanencia de todos los pacientes
en el hospital (en das).
3 EDAD Edad Edad promedio de los pacientes (en aos).
4 RINF Riesgo de infeccin Probabilidad promedio estimada de adquirir infeccin en el
hospital (en porcentaje).
5 RRC Razn de rutina de cultivos Razn del nmero de cultivos desarrollados al nmero de
pacientes sin signos o sntomas de infeccin adquirida en
el hospital, por 100.
6 RRX Razn de rutina de rayos X del pecho

Razn del nmero de rayos X llevados a cabo al nmero
de pacientes sin signos o sntomas de neumona, por 100.
7 NCAMAS Nmero de camas Nmero promedio de camas en el hospital durante el
periodo de estudio.
8 AEM Afiliacin a escuela de medicina 1=SI, 2=NO
9 REGION Regin Regin geogrfica, donde 1=NE, 2=NC, 3=S, 4=W.
10 PDP Censo promedio diario Nmero promedio de pacientes en el hospital por da
durante el periodo de estudio.
11 NENFERM Nmero de enfermeras Nmero promedio de tiempos completos equivalentes
registrados y enfermeras de prctica licenciadas durante
el periodo de estudio (nmero de tiempos completos + 1/2
del nmero de tiempo parcial).
12 FSD Facilidades y servicios disponibles

Porcentaje de 35 facilidades potenciales y servicios que
son proporcionados por el hospital.




Parte II (TEMA A)

Sin considerar las observaciones 47 y 112 de la base de datos original, y usando variables
indicadoras R1, R2, R3 para las regiones 1, 2 y 3 respectivamente, suponga inicialmente que las
rectas de regresin de DPERM VS. RINF en cada regin no son iguales (que difieren tanto en
intercepto como en las pendientes) realice lo siguiente:
a) Plantee el modelo de regresin apropiado si se espera una diferencia entre las rectas de
DPERM VS. RINF que corresponden a las cuatro regiones.
b) Ajuste el modelo general (muestre la tabla de parmetros estimados) y halle las
ecuaciones ajustadas de las rectas en cada regin.
c) Analice supuestos de normalidad y varianza constante mediante los residuales, para el
modelo general (residuales estudentizados vs. valores ajustados y vs. RINF). Identifique en estos
grficos las observaciones segn la regin a la cual pertenecen.
d) Determine si existe diferencia entre las ordenadas en el origen de las rectas
correspondientes a las regiones.
e) Determine si existe diferencia en las pendientes de las rectas correspondientes a las
regiones. Interprete a la luz de los datos.
f) Si se quiere probar que la recta de DPERM vs. RINF es diferente para cada REGION,
plantee la hiptesis a probar, el estadstico de prueba y regin crtica al nivel de 0.05, realice la
prueba y concluya.
g) Determine si las rectas de las regiones 2 y 3 son iguales. Nota: Aqu el estadstico de
prueba se calcula recordando la siguiente expresin:


) ))

))
)


Donde el modelo completo es el modelo en 1) y el modelo reducido es el resultante de aplicar lo
que dice H0 acerca de los parmetros relativos a los interceptos y pendientes en las regiones 2 y 3.

H0 : intercepto regin 2 = intercepto regin 3, y pendiente regin 2 = pendiente regin 3
H1 : intercepto regin 2 intercepto regin 3 y/o pendiente regin 2 pendiente regin 3

Traduzca estas hiptesis en trminos de los parmetros apropiados en el modelo. Ajuste el modelo
reducido, muestre la tabla de parmetros ajustados y escriba las ecuaciones de ajuste para cada
regin. Interprete los resultados a la luz de los datos.

A continuacin ayuda R para la Parte II (complete la programacin, dnde sea necesario).

Cdigo R

#LEER DATOS EN APC1modif.TXT
datos=read.table(file.choose(),header=T)

#CONSULTA DE NOMBRE DE VARIABLES EN OBJETO datos
names(datos)

#CREANDO UN MARCO DE DATOS EXCLUYENDO LAS OBSERVACIONES 47 Y 112
datos3=datos[-c(47,112),]
attach(datos3)

###REGRESIN LINEAL CON VARIABLES INDICADORAS (DE LA VARIABLE REGIN)
#DEFINIENDO COMO FACTOR A LA VARIABLE REGION
#Y SELECCIONANDO SU NIVEL 4 COMO EL NIVEL DE REFERENCIA
REGION=as.factor(REGION)
REGION=relevel(REGION,ref="4")

#AJUSTANDO MODELO GENERAL
modeloRINF=lm(DPERM~RINF*REGION)
summary(modeloRINF)

#REALIZACIN DEL TEST LINEAL GENERAL PEDIDO EN g.
library(car)
names(coef(modeloRINF)) #Observe nombre de los trminos en modeloRINF a ser
#usados en la especificacin del test lineal

linearHypothesis(modeloRINF,c("REGION2=REGION3","RINF:REGION2=RINF:REGION3"))

##MODELO REDUCIDO PARA RECTAS IGUALES DPERM VS. RINF EN ZONAS 2 Y 3
MATRIZ.DISEORINF=as.data.frame(model.matrix(modeloRINF)) #obtencin de la matriz de diseo del modelo inicial
names(MATRIZ.DISEORINF) #Observe cmo quedan nombradas las variables del modelo en modeloRINF

#AJUSTANDO EL MODELO NULO O REDUCIDO
modeloRINF2=lm(DPERM~RINF+REGION1+I(REGION2+REGION3)+RINF:REGION1+RINF:I(REGION2+REGION3),data=MATRIZ.DISEORINF)
summary(modeloRINF2)
detach(datos3)


Parte II (TEMA B)

Sin considerar las observaciones 47 y 112 de la base de datos original, y usando variables
indicadoras R1, R2, R3 para las regiones 1, 2 y 3 respectivamente, suponga inicialmente que las
rectas de regresin de DPERM VS. PDP en cada regin no son iguales (que difieren tanto en
intercepto como en las pendientes) realice lo siguiente:
a) Plantee el modelo de regresin apropiado si se espera una diferencia entre las rectas de
DPERM VS. PDP que corresponden a las cuatro regiones.
b) Ajuste el modelo general (muestre la tabla de parmetros estimados) y halle las
ecuaciones ajustadas de las rectas en cada regin.
c) Analice supuestos de normalidad y varianza constante mediante los residuales, para el
modelo general (residuales estudentizados vs. valores ajustados y vs. PDP). Identifique en estos
grficos las observaciones segn la regin a la cual pertenecen.
d) Determine si existe diferencia entre las ordenadas en el origen de las rectas
correspondientes a las regiones.
e) Determine si existe diferencia en las pendientes de las rectas correspondientes a las
regiones. Interprete a la luz de los datos.
f) Si se quiere probar que la recta de DPERM vs. PDP es diferente para cada REGION,
plantee la hiptesis a probar, el estadstico de prueba y regin crtica al nivel de 0.05, realice la
prueba y concluya.
g) Determine si el efecto medio de PDP sobre DPERM es igual en las cuatro regiones (no
depende de la regin). Nota: Aqu el estadstico de prueba se calcula recordando la siguiente
expresin


) ))

))
)


donde el modelo completo es el modelo en 1) y el modelo reducido es el resultante de aplicar lo
que dice H0 acerca de las pendientes en las regiones.
H0 : pendiente regin 1 = pendiente regin 2 = pendiente regin 3 =pendiente regin 4
H1 : Alguna de las pendientes es distinta

Traduzca estas hiptesis en trminos de los parmetros apropiados en el modelo. Ajuste el modelo
reducido, muestre la tabla de parmetros ajustados y escriba las ecuaciones de ajuste para cada
regin. Interprete los resultados a la luz de los datos.

A continuacin ayuda R para la Parte II (complete la programacin, donde sea necesario).

Cdigo R

#LEER DATOS EN APC1modif.TXT
datos=read.table(file.choose(),header=T)

#CONSULTA DE NOMBRE DE VARIABLES EN OBJETO datos
names(datos)
#CREANDO UN MARCO DE DATOS EXCLUYENDO LAS OBSERVACIONES 47 Y 112
datos3=datos[-c(47,112),]
attach(datos3)

#REGRESIN LINEAL CON VARIABLES INDICADORAS (DE LA VARIABLE REGIN)
#DEFINIENDO COMO FACTOR A LA VARIABLE REGION
#Y SELECCIONANDO SU NIVEL 4 COMO EL NIVEL DE REFERENCIA
REGION=as.factor(REGION)
REGION=relevel(REGION,ref="4")
modeloPDP=lm(DPERM~PDP*REGION)
summary(modeloPDP)

#REALIZACIN DEL TEST LINEAL GENERAL PEDIDO EN g.
names(coef(modeloPDP)) #Observe nombre de los terminos en modeloPDP a ser
#usados en la especificacin del test lineal

library(car)
linearHypothesis(modeloPDP,c("PDP:REGION1=0","PDP:REGION2=0","PDP:REGION3=0"))

#MODELO REDUCIDO PARA PROBAR QUE LAS RECTAS DE DPERM VS. PDP TIENEN MISMA PENDIENTE
modeloPDP2=lm(DPERMPDP+REGION)
summary(modeloPDP2)
detach(datos3)


Parte II (TEMA C)

Sin considerar las observaciones 47 y 112 de la base de datos original, y usando variables
indicadoras R1, R2, R3 para las regiones 1, 2 y 3 respectivamente, suponga inicialmente que las
rectas de regresin de DPERM VS. RRX en cada regin no son iguales (que difieren tanto en
intercepto como en las pendientes) realice lo siguiente:
a) Plantee el modelo de regresin apropiado si se espera una diferencia entre las rectas de
DPERM VS. RRX que corresponden a las cuatro regiones.
b) Ajuste el modelo general (muestre la tabla de parmetros estimados) y halle las
ecuaciones ajustadas de las rectas en cada regin.
c) Analice supuestos de normalidad y varianza constante mediante los residuales, para el
modelo general (residuales estudentizados vs. valores ajustados y vs. RRX). Identifique en estos
grficos las observaciones segn la regin a la cual pertenecen.
d) Determine si existe diferencia entre las ordenadas en el origen de las rectas
correspondientes a las regiones.
e) Determine si existe diferencia en las pendientes de las rectas correspondientes a las
regiones. Interprete a la luz de los datos.
f) Si se quiere probar que la recta de DPERM vs. RRX es diferente para cada REGION,
plantee la hiptesis a probar, el estadstico de prueba y regin crtica al nivel de 0.05, realice la
prueba y concluya.
g) Determine si el efecto medio de RRX sobre DPERM es igual en las regiones 2, 3, y 4.
Nota: Aqu el estadstico de prueba se calcula recordando la siguiente expresin


) ))

))
)


donde el modelo completo es el modelo en 1) y el modelo reducido es el resultante de aplicar lo
que dice H0 acerca de las pendientes en las regiones.
H0 : pendiente regin 2 = pendiente regin 3 =pendiente regin 4
H1 : Alguna de las tres pendientes es distinta

Traduzca estas hiptesis en trminos de los parmetros apropiados en el modelo. Ajuste el modelo
reducido, muestre la tabla de parmetros ajustados y escriba las ecuaciones de ajuste para cada
regin. Interprete los resultados a la luz de los datos.

A continuacin una ayuda de R para la Parte II (complete la programacin, dnde sea necesario).

Cdigo R

#LEER DATOS EN APC1modif.TXT
datos=read.table(file.choose(),header=T)

#CONSULTA DE NOMBRE DE VARIABLES EN OBJETO datos
names(datos)

#CREANDO UN MARCO DE DATOS EXCLUYENDO LAS OBSERVACIONES 47 Y 112
datos3=datos[-c(47,112),]
attach(datos3)

#REGRESIN LINEAL CON VARIABLES INDICADORAS (DE LA VARIABLE REGIN)
#DEFINIENDO COMO FACTOR A LA VARIABLE REGION
#Y SELECCIONANDO SU NIVEL 4 COMO EL NIVEL DE REFERENCIA
REGION=as.factor(REGION)
REGION=relevel(REGION,ref="4")
modeloRRX=lm(DPERM~RRX*REGION)
summary(modeloRRX)

#REALIZACIN DEL TEST LINEAL GENERAL PEDIDO EN 7.
names(coef(modeloRRX)) #Observe nombre de los trminos en modeloRRX
library(car)
linearHypothesis(modeloRRX,c("RRX:REGION2=0","RRX:REGION3=0"))

#AJUSTANDO EL MODELO NULO O REDUCIDO
MATRIZ.DISEORRX=as.data.frame(model.matrix(modeloRRX))
names(MATRIZ.DISEORRX) #Observe cmo quedan nombradas las variables del modelo en modeloRRX
modeloRRX2=lm(DPERM~RRX+REGION1+REGION2+REGION3+RRX:REGION1,data=MATRIZ.DISEORRX)
summary(modeloRRX2)
detach(datos3)

3. Presentacin, Valor del Trabajo y Condiciones
Para la presentacin de este informe no se admite la inclusin de los resultados del R tal cual los
produce el paquete, estos deben ser debidamente editados colocndolos en tablas. En lo posible,
todas las figuras del mismo tamao de modo que sea clara la informacin y la escala grfica pero
sin exagerar el tamao al punto de ocupar media pgina con una sola figura.

4. Asignaciones parte II para el Trabajo
La asignacin de los temas de la parte II es la siguiente:

Grupo Integrantes Tema
1



Estefani Gallego Ortiz
Eder Alexis Polania Macias
Sebastin Moreno Soto

A



2



3



4



5



6
Marlon Gracia
Diana Carolina Gutirrez
John Jairo Restrepo

Diana Milena Vlez
Luis Fernando Parra
Diana Lucia Giraldo

Juan Pablo Botero
Marisol Garcia
Mauricio Henao

Lina Marcela Patio
Juan Felipe Restrepo
Csar Cardona

Juliana Torres
Liliana Carolina Molina
Andrea Paola Delgado


B



C



A



B



C

También podría gustarte