Está en la página 1de 25

SAS

INTERMEDIO
Giampaolo Orlandoni Josefa Ramoni
Instituto de Estadstica Aplicada Universidad de Los Andes Mrida. Venezuela

Caracas 2012

ANLISIS DE REGRESIN Proc REG, Proc LOGISTIC


1. Anlisis de Regresin Lineal Mltiple: Diagnsticos y anlisis de residuales. Colinealidad, Heterocedasticidad y Autocorrelacin. 2. Modelos de regresin con variables categricas independientes p 3. Modelos de regresin de respuesta cualitativa

ANLISIS DE REGRESIN LINEAL: Evaluacin de supuestos Proc REG

1. Anlisis de Regresin Lineal Mltiple: Diagnsticos y anlisis de residuales. Colinealidad Heterocedasticidad y Colinealidad, Autocorrelacin.

REGRESINLINEALMLTIPLE
Y = 1 + 2 x2 + . . . + K xK + U
VARIABLE DEPENDIENTE VARIABLES INDEPENDIENTES (ENDOGENA) (EXOGENAS, EXPLICATIVAS) (CUANTITATIVA) (CUALITATIVAS/CUANTITATIVAS) COMPONENTE ALEATORIO

DIRECCION DE LA RELACION
SE BUSCA ESTIMAR E(Y/X2,X3,...,XK)

REGRESINMLTIPLE
LA VARIABLE DEPENDIENTE (EXPLICATIVA, CONOCIDA)

ES

FUNCIN

LINEAL

DE

Y = B1 + B2 X2 + B3 X3 + U

(POBLACIN)

B1 : INTERCEPTO B2 Y B3: PARMETROS DESCONOCIDOS (PENDIENTES) U: TERMINO DE ERROR. SE ASUME SEA NORMAL (0, 2)
y = b 1 + b2 X2 + + b3 X3 + u bi ES UN ESTIMADOR DE Bi ANALISIS DE REGRESION PERMITE AJUSTAR LA UNICA MEJOR LINEA QUE SE AJUSTA A LOS DATOS. SE EMPLEA EL METODO DE MINIMOS CUADRADOS ORDINARIOS (MCO): MINIMIZAR LA SUMA DE LOS RESIDUOS AL CUADRADO. CUADRADO (MUESTRA)

REGRESINMLTIPLE:SUPUESTOS
EL MODELO CLSICO DE REGRESIN LINEAR ASUME QUE: LAS VARIABLES EXPLICATIVAS RELACIONADAS ENTRE SI NO ESTN FUERTEMENTE

EL MODELO ESTA CORRECTAMENTE ESPECIFICADO: LA FORMA FUNCIONAL Y LAS VARIABLES INCLUIDAS SON ADECUADAS EL VALOR ESPERADO DE LOS RESIDUOS ES CERO LAS VARIANZAS DE LOS ERRORES ES CONSTANTE LOS ERRORES NO ESTN AUTOCORRELACIONADOS PARA EFECTOS DE PRUEBA DE HIPTESIS, LOS RESIDUOS SON NORMALES

PROC REG

PROC REG DATA=archivo; MODEL variable dependiente=variable(s) p ( ) independiente(s) p ( ) RUN;

/ opciones

proc reg data=avion; model cpm = alf utl asl spa / stb r p; title DETERMINANTES DE COSTO PASAJERO MILLA; Run;
MODEL INDICA QUE EL MODELO A AJUSTAR ES LINEAL:

STB produce el conjunto de coeficientes de regresin estandarizados. Coeficientes que se obtienen estimando el modelo utilizando variables estandarizadas. Son comparables entre si. si

cpm = b1 + b2 alf + b3 utl + b4 asl + b5 spa + u

RESULTADOSREGRESIN
Parameter Estimates Variable Intercept alf utl asl spa DF 1 1 1 1 1 Parameter Standard Estimate Error 8.59553 -7.21137 -0.21282 0.33277 -4.95030 0.90278 1.32056 0.06509 0.18133 1.21695 t Value 9.52 -5.46 -3.27 1.84 -4.07 Pr > |t| <.0001 .0001 <.0001 0.0029 0.0771 0.0004

Si el factor de carga aumenta un punto porcentual, los costos por pasajero milla disminuyen en 7.2 cntimos de dlar.

Con un p-valor de 0.0001, se concluye que ALF tienen un efecto significativo sobre el costo. Esto significa que el peso de ALF en la determinacin de costos es suficientemente grande como para ser medida por encima de cualquier comportamiento aleatorio de los datos.

EVALUACINBSICADELMODELODEREGRESIN
AJUSTE DEL MODELO: R2 y R2 ajustado SIGNIFICANCIA DEL R2: (PRUEBA F EN TABLA ANOVA) Ho: B2=B3=B4=B5=0 (R2 = 0) H1: AL MENOS UN Bi 0 (R2 0) RESIDUOS: DIFERENCIA ENTRE EL VALOR OBSERVADO Y EL VALOR PREDICHO. DEBEN MOSTRAR COMPORTAMIENTO ALEATORIO. PATRONES DE COMPORTAMIENTO INDICAN DIFERENTES PROBLEMAS, DEPENDIENDO DEL GRAFICO VIOLACIN DE SUPUESTOS

CHEQUEOGENERAL:GRFICOSDERESIDUOS
1 GRAFICO DE RESIDUOS CONTRA VALORES AJUSTADOS SIRVE 1. COMO DIAGNOSTICO GENERAL (SUPUESTO DE CORRECTA ESPECIFICACION):
SI ALEATORIOS, EL MODELO REPRESENTA BIEN LOS DATOS SI NO ALEATORIOS, PUEDE QUE EL MODELO REQUIERA OTRA VARIABLE (GRAFICO DE REAL VS PREDICHO), LA FORMA FUNCIONAL NO SEA LA ADECUADA O LOS DATOS REQUIERAN ALGN TIPO DE TRANSFORMACIN.

2. GRAFICO (TABLA) DE RESIDUOS ESTANDARIZADOS:


SI UN RESIDUO ES MUY GRANDE, (NEGATIVO O POSITIVO), ESA OBSERVACIN DEBE SER UN OUTLIER (NO SE AJUSTA AL RESTO DE LOS DATOS)

3. GRAFICO DE RESIDUOS CONTRA EL TIEMPO PUEDE INDICAR TENDENCIA 4. GRAFICO DE LOS RESIDUOS CONTRA LA VARIABLE INDEPENDIENTE PUEDE INDICAR LA NECESIDAD DE UN TERMINO CUADRTICO

1.EVALUANDOSUPUESTOS:CORRECTAESPECIFICACIN
EL MODELO ESTA CORRECTAMENTE ESPECIFICADO: LAS VARIABLES INCLUIDAS SON LAS ADECUADAS CORRECTA FORMA FUNCIONAL
CONSECUENCIAS DE LA VIOLACION DEL SUPUESTO: EL MODELO NO ES VALIDO COMO SE DETECTA: DIAGRAMAS DE DISPERSIN DE LOS RESIDUOS TEST ESPECFICOS EN LOS QUE LA HIPTESIS NULA PLANTEA QUE NO EXISTE ERROR DE ESPECIFICACIN.

2.EVALUANDOSUPUESTOS:NOCOLINEALIDAD
NO COLINEALIDAD PERFECTA ENTRE VARIABLES EXPLICATIVAS: NO EXISTE DEPENDENCIA LINEAL ENTRE LOS REGRESORES.

Y = B1 + B 2 X2 + B 3 X3 + U

Xj f(Xi)
CONSECUENCIAS DE LA COLINEALIDAD: COLINEALIDAD PERFECTA O EXACTA: LOS COEFICIENTES INDETERMINADOS (NO NICOS). NICOS) EL MODELO NO PUEDE ESTIMADO SON SER

COLINEALIDAD NO EXACTA: COEFICIENTES DETERMINADOS, PERO LAS ESTIMACIONES SON POCO PRECISAS (GRANDES ERRORES ESTNDAR). INFERENCIA NO CONFIABLE.

2.EVALUANDOSUPUESTOS:NOCOLINEALIDAD
CPM tiene correlacin significativa i ifi i con todas d l las variables explicativas. Es decir, cada una de ellas puede ser til en la estimacin de l costos los t Existe relacin positiva significativa entre longitud de vuelos sin parada ASL y las horas de uso /da UTL y el tamao promedio del avin SPA Existe relacin negativa significativa entre el tamao promedio del avin SPA y el factor de carga ALF

Pearson Correlation Coefficients, N = 33 Prob > |r| under H0: Rho=0

cpm
cpm alf utl asl spa 1.00000 -0.37378 0.37378 0.0321 -0.37197 0.0330 -0.35078 -0 35078 0.0453 -0.29758 0.0926

alf
-0.37378 0.0321 1.00000 -0.20538 0.2515 -0.08719 -0 08719 0.6295 -0.49490 0.0034

utl
-0.37197 0.0330 -0.20538 0.20538 0.2515 1.00000 0 0.62842 62842 <.0001 0.32442 0.0655

asl
-0.35078 0.0453 -0.08719 0.08719 0.6295 0.62842 <.0001 1 1.00000 00000 0.60710 0.0002

spa
-0.29758 0.0926 -0.49490 0.49490 0.0034 0.32442 0.0655 0 0.60710 60710 0.0002 1.00000

COLINEALIDAD PERFECTA
EL MODELO NO PUEDE SER ESTIMADO
PROC REG ESTA PROGRAMADO PARA DETECTAR LA EXISTENCIA DE COLINEALIDAD PERFECTA Y, DE EXISTIR, UTILIZA MTODOS DE ESTIMACIN ALTERNATIVOS (INVERSA GENERALIZADA)
Analysis of Variance Source Model Error Corrected Total DF 4 28 32 Sum of Squares 6.57115 4.35752 10.92867 0.39449 3.10570 12.70228 Mean Square 1.64279 0.15563 R-Square R Square Adj R-Sq F Value 10.56 Pr > F <.0001

Root MSE Dependent Mean Coeff Var

0.6013 0.5443

NOTE: Model is not full rank. Least-squares solutions for the parameters are not unique. Some statistics will be misleading. A reported DF of 0 or B means that the estimate is biased. NOTE: The following parameters have been set to 0, since the variables are a linear combination of other variables as shown.
factor = -alf + spa Parameter Estimates

Variable Intercept alf utl asl spa factor

DF 1 B 1 1 B 0

Parameter Estimate 8.59553 -7.21137 -0.21282 0.33277 -4.95030 0

Standard Error 0.90278 1.32056 0.06509 0.18133 1.21695 .

t Value 9.52 -5.46 -3.27 1.84 -4.07 .

Pr > |t| <.0001 <.0001 0.0029 0.0771 0.0004 .

COLINEALIDAD NOPERFECTA
COMO SE DETECTA: 1. ANLISIS DE LA ESTRUCTURA DE LAS EXPLICATIVAS 2 EL NIVEL DE SIGNIFICANCIA DEL MODELO 2. PARMETROS INDIVIDUALES 3. EL FACTOR INFLADOR DE VARIANZA VARIABLES Y DE SUS

proc reg data=marines; model manh = occup checkin hours common wings cap rooms/ vif collinoint; run; VIF calculaelfactor infladordevarianzadelos parmetrosestimados: VIF=1/(1Ri2). Criterios:Colinealidad si VIFi >10 VIFi>R2 collinnoint permiteanalizarlaestructuradelas variablesexplicativas. Criterios:Colinealidad si: Eigenvalues pequeos:cercade0 ndicedecondicin:mayorde30 Lasrestantescolumnasindicancualesvariables presentancolinealidad conrespectodeladetectada atravsdelosindicadoresanteriores(losmayores valoresenproporcindevarianza)

COLINEALIDAD NOPERFECTA
Parameter Estimates Variable Intercept occup checkin hours common wings cap rooms DF 1 1 1 1 1 1 1 1 Parameter Estimate 171.47336 21.04562 1 42632 1.42632 -0.08927 7.65033 -5.30231 -4.07475 0.33191 Standard Error 148.86168 4.28905 0 33071 0.33071 1.16353 8.43835 9.45276 3.30195 6.81399 t Value 1.15 4.91 4 31 4.31 -0.08 0.91 -0.56 -1.23 0.05 Pr > |t| 0.2663 0.0002 0 0005 0.0005 0.9398 0.3781 0.5826 0.2350 0.9618 Variance Inflation 0 43.63222 4 54154 4.54154 1.36076 4.06083 3.79996 56.60333 178.70159

Collinearity Diagnostics (intercept adjusted) Number Eigenvalue Condition Index 5.04674 0.72303 0.69939 0.31781 0.15871 0.05049 0.00384 1.00000 2.64197 2.68624 3.98494 5.63909 9.99779 36.25398 Proportion of Variation occup checkin hours 0.00970 0.70454 0.23867 0.02636 0.00643 0.00341 common 0.00505 0.04625 0.13255 0.28025 0.00490 0.05860 0.47240 wings 0.00686 0.04961 0.03443 0.41437 0.11620 0.36479 0.01376 cap rooms

1 2 3 4 5 6 7

0.00082851 0.00649 0.00000824 0.00948 0.00164 0.00262 0.00165 0.27170 0.72155 0.05107 0.05098 0.77761 0.10408

0.00061879 0.00021117 3.276095E- 0.00002561 7 0.00167 0.00021312

0.00085179 0.00002193 0.02905 0.10251 0.86530 0.00326 0.00026446 0.99600

0.00028999 0.01088

COLINEALIDAD NOPERFECTA
COMO SE CORRIGE: REDEFINIR EL MODELO (NO SIEMPRE OBVIO): 1. DEFLACTAR SERIES TEMPORALES 2. COMBINE VARIABLES (COMPONENTES PRINCIPALES, ANLISIS FACTORIAL) 3. ELIMINAR O SELECCIONAR VARIABLES EJEMPLO: 1. ESTIMAR LOS REQUERIMIENTOS DE PERSONAL POR HABITACIN: DIVERSAS VARIABLES PARECEN ESTAR RELACIONADAS CON EL TAMAO. ESTE COMPORTAMIENTO OBVIO ENCUBRE OTRAS RELACIONES INTERESANTES. Enlaregresinoriginalnohay evidenciadequefactoresdiferentesal Collinearity Diagnostics (intercept adjusted) Number Eigenvalue Condition Proportion of Variation tamaoafectenlosrequerimientosde Index roccup p rcheckin rhours mano rcommon rcap p deobrarwings (tsg versus R2)
1 2 3 4 5 6 1.86857 1.60150 0.98733 0.79505 0.55242 0.19514 1.00000 1.08017 1.37570 1.53306 1.83916 3.09446 0.08439 0.00608 0.00125 0.00662 0.00114 0.90052 0.04704 0.05954 0.11108 0.00045640 0.10459 0.67730 0.03517 0.10051 0.12041 0.22446 0.37964 0.13981 0.05073 0.02792 0.33657 0.08378 0.14062 0.36038 0.01733 0.12645 0.00866 0.68037 0.14084 0.02635 0.03745 0.10898 0.07968 0.02407 0.47758 0.27224

COLINEALIDADNOEXACTA
EJEMPLO: 2. ESTRUCTURA MULTIVARIANTE: EL ACP ES UNA TCNICA DE ANLISIS MULTIVARIANTE QUE INTENTA DESCRIBIR LA RELACIN ENTRE UN CONJUNTO DE VARIABLES. -ACP CREA NUEVAS VARIABLES A PARTIR DE TRANSFORMACIONES LINEALES DE LAS ORIGINALES -LOS COMPONENTES NO ESTN CORRELACIONADOS ENTRE SI -NO SIEMPRE TIENEN INTERPRETACIONES TILES
proc princomp data=marines out=acp; var occup checkin h ki hours h common wings i cap rooms; Proc reg data=acp; model manh = prin1-prin7; run;
The PRINCOMP Procedure Eigenvectors Prin1 occup checkin hours common wings cap rooms 0.427129 0.385625 0 258063 0.258063 0.321746 0.362662 0.420433 0.436405 Prin2 -.016121 0.176465 0 832573 0.832573 -.368518 -.369182 0.003662 -.057519 Prin3 -.223824 -.402776 0 476599 0.476599 0.613557 0.302495 -.256780 -.163207 Prin4 -.190675 0.271250 -.106772 106772 0.601401 -.707400 0.123786 0.035291 Prin5 -.106859 0.748651 -.037258 037258 0.056206 0.264716 -.510810 -.304228 Prin6 -.773655 0.154482 0 015315 0.015315 -.109608 0.264551 0.541268 -.048847 Prin7 0.347686 -.002249 -.007541 007541 0.085824 0.014167 0.433666 -.826692

run;

Componente detamao

Horas:tiempo es independiente detamao

Common

COLINEALIDADNOEXACTA
Parameter Estimates Variable Intercept Prin1 Prin2 Prin3 DF 1 1 1 1 Parameter Estimate Standard Error t Value 18.65 16.55 0 31 0.31 -3.51 Pr > |t| <.0001 .0001 <.0001 0 7617 0.7617 0.0022
Las horas de operacin no tienen un impacto importante A mayor tamao de establecimien tos, mayores los requerimientos i i t de mano de obra

2050.00708 109.89931 827.09516 40 58272 40.58272 49.97252 132 02609 132.02609

-470.67262 134.23841

Los requerimientos de mano de obra son menores en los establecimientos bl i i con grandes d reas comunes y bajo nmero de registros

COLINEALIDADNOEXACTA
EJEMPLO: 3. SELECCIONAR VARIABLES: BUSCAR EL SUBCONJUNTO OPTIMO DE VARIABLES QUE MEJOR EXPLIQUEN A LA DEPENDIENTE (EL QUE PRODUCE EL MNIMO ERROR O MXIMO R2): MTODOS DE ESTIMACIN PASO A PASO (STEP-TYPE).
Number in

proc reg data=marines; model manh = occup checkin hours common wings cap rooms / selection= rsquare best=3; run;

Model

R-Square

Variables in Model

1 0.9619 occup 1 0.8888 rooms 1 0.8149 checkin -------------------------------------------------------------------2 0.9765 occup checkin 2 0.9645 occup cap 2 0.9634 occup rooms -------------------------------------------------------------------3 0.9839 occup checkin cap 3 0.9803 occup p checkin rooms 3 0.9767 occup checkin common -------------------------------------------------------------------4 0.9851 occup checkin common cap 4 0.9845 occup checkin cap rooms 4 0.9839 occup checkin common rooms -------------------------------------------------------------------5 0 0.9854 9854 occup checkin h ki common wings i cap 5 0.9851 occup checkin hours common cap 5 0.9851 occup checkin common cap rooms -------------------------------------------------------------------6 0.9854 occup checkin hours common wings cap 6 0.9854 occup checkin common wings cap rooms 6 0 0.9851 9851 occup checkin hours common cap rooms -------------------------------------------------------------------7 0.9854 occup checkin hours common wings cap rooms

3.EVALUANDOSUPUESTOS:RESIDUOSCONVARIANZACONSTANTE
LA VARIANZA DE LOS RESIDUOS ES CONSTANTE: NO DEPENDE DE LAS VARIABLES EXPLICATIVAS

V(Ui) f(Xi)
CONSECUENCIAS DE LA VIOLACION DEL SUPUESTO: INCORRECTA ESTIMACIN DE LA VARIANZA DE LOS ESTIMADORES. ESTIMADORES LOS RESULTADOS DE LAS PRUEBAS DE HIPTESIS NO SON CONFIABLES. COMO SE DETECTA: DIAGRAMAS DE DISPERSIN DE LOS RESIDUOS TEST ESPECFICOS EN LOS QUE LA HIPTESIS NULA PLANTEA QUE LOS RESIDUOS SON HOMOCEDASTICOS. HOMOCEDASTICOS

VARIANZACAMBIANTE
proc reg data=diamonds; model price = carats carat2 / r SPEC; run;
SO C SOLUCIN: SPEC pruebalahiptesisdevarianzade residuosconstante. Elanlisisdelosresiduospermitedetectar outliers quepuedencrearproblemasde varianzasheterogneas.Tambinpueden graficarselosresiduoscontralosvalores predichosocontralasvariablesexplicativas enbuscadepatrones. patrones procreg data=predpond; weightpeso; modelprice=caratscarat2 /r; run; procreg data=diamonds; modelprice=caratscarat2 /white; run;

1)TRANSFORMACINLOGARTMICA 2)MNIMOSCUADRADOS PONDERADOS:lasobservacionesson ponderadasp p porunp pesoq quaayuda y a corregirelproblema. Frecuentementeseusalavarianza delosresiduoscomoponderador. 3)TRANSFORMACINDEWHITE:no alteralasestimacionesdelos coeficientes fi i sino i nicamente i sus desviacionesestndar.

4.EVALUANDOSUPUESTOS:RESIDUOSINDEPENDIENTES
LOS RESIDUOS NO DEPENDEN DE SI MISMOS. LAS S VIOLACIONES O C O S MAS S FRECUENTES CU S S SE DAN EN S SERIES S DE TIEMPO.
CONSECUENCIAS DE LA VIOLACION DEL SUPUESTO: INCORRECTA ESTIMACIN DE LA VARIANZA DE LOS ESTIMADORES. EL R2 PUEDE ESTAR SOBRE-ESTIMADO. COMO SE DETECTA: DIAGRAMAS DE DISPERSIN DE LOS RESIDUOS TEST ESPECFICOS EN LOS QUE LA HIPTESIS NULA PLANTEA QUE LOS RESIDUOS NO ESTN AUTOCORRELACIONADOS. AUTOCORRELACIONADOS

Ut f(Ut-1)

RESIDUOSAUTOCORRELACIONADOS
proc reg data=consumo; model cons = curr ddep gnp wages income/ dw; run; DW calculaelestadsticoDurbinWatson paraprobarsiexisteonounproceso autorregresivo deprimerordenenlos residuosAR(1):ut =ut1+ Ho:=0(residuosnoautocorrelacionados) H1:0 Elanlisisdelosresiduospermitedetectar tendenciaseneltiempoquepueden indicarautocorrelacin enlosresiduos. Durbin-Watson D Number of Observations 1st Order Autocorrelation 0.949 76 0.518

RESIDUOSAUTOCORRELACIONADOS
proc autoreg data=consumo; model cons = curr ddep gnp wages income / nlag = 4; run; SOLUCIN: 1) MNIMOCUADRADOSGENERALIZADOS, ASUMIENDOESTRUCTURASDE CORRELACINDELOSRESIDUOS(MODELO AUTOREGRESIVODEORDENd): Aplica p MCO avariablestransformadasdemodo taldecorregirelproblemadeautocorrelacion.

2)REGRESINENPRIMERA DIFERENCIA(ELMODELOCAMBIA TOTALMENTE):eliminalatendencia delasvariables

proc reg data=consumo; model dcons = dcurr dddep dgnp dwages dincome / dw; run;

También podría gustarte