Está en la página 1de 23

SAS

INTERMEDIO
Giampaolo Orlandoni Josefa Ramoni

Instituto de Estadstica Aplicada Universidad de Los Andes Mrida. Venezuela

ANLISIS DE REGRESIN CON VARIABLES CATEGORICAS Proc REG, Proc LOGISTIC

1. Modelos de regresin con variables categricas independientes 2. Modelos de regresin de respuesta cualitativa

MODELOS CON VARIABLES CATEGRICAS EXPLICATIVAS


REPRESENTAN CUALIDADES, CATEGORAS O ATRIBUTOS: MASCULINO O FEMENINO; BLANCO O NEGRO; BSICA, BACHILLER O UNIVERSITARIO; ANTES Y DESPUS DE LA IMPLEMENTACIN DE UNA MEDIDA DE POLTICA ECONMICA, ETC. LAS VARIABLES CUALITATIVAS QUE SOLO ADQUIEREN DOS VALORES SE LLAMAN DICOTMICAS. LAS CUALIDADES ENTRAN EN EL MODELO DE REGRESIN A TRAVS DE VARIABLES DICOTMICAS. SI UNA VARIABLE CUALITATIVA TIENE m CATEGORAS, ESTA ENTRA EN EL MODELO A TRAVS DE m-1 VARIABLES DICOTMICAS, A FIN DE EVITAR COLINEALIDAD PERFECTA.

LA CATEGORA A LA CUAL NO SE LE ASIGNA UNA VARIABLE DICOTMICA SE CONOCE COMO BASE, DE COMPARACIN, DE CONTROL O REFERENCIA. ESTA CATEGORA ES USADA COMO REFERENCIA PARA TODAS LAS COMPARACIONES. LA SELECCIN DE LA CATEGORA DE REFERENCIA QUEDA A DECISIN DEL INVESTIGADOR.

MODELOS CON VARIABLES CATEGRICAS EXPLICATIVAS


SUELDOi = 1 + 2 SEXOi + 3 EDADi + Ui
Efecto del atributo SEXO sobre el sueldo promedio: diferencial de sueldo entre el grupo analizado (HOMBRE) y el de control (MUJER)

1 SEXO =

SI ES HOMBRE

sueldo/eda d igual para todos

0 OTRO CASO (MUJER)

SUELDOi = 1 + 2 SEXOi + 3 EDADi + 4 EDADi*SEXOi + Ui

Cunto ms (o menos) gana el hombre comparado con la mujer

Efecto de la edad sobre el sueldo para el grupo de control

Efecto adicional de la edad sobre el sueldo de los hombres

MODELOS CON VARIABLES CATEGRICAS EXPLICATIVAS


SUELDOi = F(EDUCAi , EDADi ) + Ui
BSICA =1 SI BSICA 0 OTRO CASO MEDIA = 1 SI BACHILLER 0 OTRO CASO UNIVERSITARIA =1 SI UNIVERSITARIO 0 OTRO CASO

SUELDOi = 1 + 2 MEDIAi + 3 UNIVERSITARIAi + 4 EDADi + Ui

Cuanto ms gana el trabajador con educacin media comparado con el de bsica

Cuanto mas gana el trabajador universitario comparado con el de bsica

Efecto de la edad sobre el sueldo, igual para todos

MODELOS CON VARIABLES CATEGRICAS EXPLICATIVAS


RENDIMIENTOi = F(TIPO DE ESCUELAi , TIPO DE AYUDAi , EDU3) + Ui proc reg data=pobres; model rend2 = escuela; proc reg data=TempArray; model rend2 = al1 al2; proc reg data=ArrayInter; model rend2 = escuela al1 al2 al_esc1 al_esc2 edu3; run; SALARIOi = F(EDADi, SECTORi, EDUCAi) + Ui

Prog reg data=ehm97; model logsal=edad edad2 sector educa2 educa3; by sexo; run;

CREACIN DE DICOTMICAS
EJEMPLO 3I-5-POBRES

data TempArray; set pobres; array al(3) al1-al3; do i = 1 to 3; al(i)=(almuerzo=i); end; drop i; run;

/*CREACION DE VARIABLES DUMMYS CON INTERACCION*/


data ArrayInter; set pobres; array al(3) al1-al3; array al_esc(3) al_esc1-al_esc3; do i = 1 to 3; al(i)=(almuerzo=i); al_esc(i)=al(i)*escuela; end; drop i; run;

CREACIN DE DICOTMICAS
EJEMPLO 3I-6-EHM97

data ehm97arreglo; set ehm97; array educa(3) educa1-educa3;

do i = 1 to 3;
educa(i)=(educ=i); end;

drop i;
Run;

MODELOS CON VARIABLES CATEGRICAS EXPLICATIVAS


TCPi = F(IPC, TUSACD, CC) + Ui
0000000000000000 1111111111111

proc reg data=tcambio; model tcp = ipc tusacd ; proc reg data=tcambio; model tcp= ipc tusacd cc ccipc cctusa; run; EJEMPLO 3I-7-TCAMBIO data tcambiomod; set tcambio; label cc='CC'; if periodo<='15JAN2003'd then cc=0; else if periodo >'15JAN2003'd then cc=1; ccipc=ipc*cc; cctusa=cc*tusacd; run;

MODELOS DE RESPUESTA CATEGRICA

MODELOS DE RESPUESTA CATEGRICA


MODELOS DE RESPUESTA BINARIA: XITO O FRACASO, SI / NO

MODELOS DE RESPUESTA ORDENADA: BAJO, MEDIO, ALTO


MODELOS DE RESPUESTA NOMINAL: MARCA DE PRODUCTO TODOS ESTOS MODELOS SE ESTIMAN GENERALMENTE A TRAVS DE REGRESIN LOGSTICA, LA CUAL ANALIZA LA RELACIN ENTRE ESTAS RESPUESTAS Y UN CONJUNTO DE VARIABLES EXPLICATIVAS, X.

ADEMS DE LOS MTODOS BASADOS EN LA FUNCIN LOGSTICA, EXISTEN OTROS, COMO POR EJEMPLO, LOS BASADOS EN LA REGRESIN PROBABILSTICA.

MODELOS DE RESPUESTA BINARIA


MODELOS DE RESPUESTA BINARIA: XITO O FRACASO, SI / NO

1 SI OCURRE EL EVENTO (TRABAJA)


Y= 0 OTRO CASO (NO TRABAJA)

LA PROBABILIDAD DE RESPUESTA QUE SE QUIERE MODELAR.


P=Prob(Y=1 | X) EL MODELO DE REGRESIN LOGSTICA TIENE LA FORMA LOGIT (P) = LOG[ P/(1-P) ] = + X ODDS

MODELOS DE RESPUESTA ORDINAL


MODELOS DE RESPUESTA ORDINAL: Y ESTA RESTRINGIDA A UN NUMERO GENERALMENTE PEQUEO (K+1) DE VALORES ORDINALES: 1, 2,K, K+1. 1 2 3 4 EDUCACIN BSICA EDUCACIN MEDIA EDUCACIN TCNICA EDUCACIN UNIVERSITARIA LOGIT (Prob(Y i | X) = i + X (BAJO) (MEDIO) (ALTO) (MUY ALTO) i=1,2,,K

Y=

Interceptos pendientes individuales comunes

MODELOS DE RESPUESTA MULTINOMIAL (RESPUESTA DISCRETA)


MODELOS DE RESPUESTA DISCRETA: MODELOS CUYAS K+1 POSIBLES RESPUESTAS NO SIGUEN UN ORDEN DETERMINADO (MODELO LOGIT GENERALIZADO)

Y=

MEDIO DE TRANSPORTE: BICICLETA / MOTO MEDIO DE TRANSPORTE: TAXI MEDIO DE TRANSPORTE: AUTOBS MEDIO DE TRANSPORTE: VEHCULO PROPIO LOG [(Prob(Y= i | X)/Prob(Y=k+1| X)] = i + iX i=1,2,,K

EN TODOS ESTOS MODELOS, LAS VARIABLES EXPLICATIVAS PUEDEN SER CATEGRICAS (CLASS) O VARIABLES CONTINUAS, CON O SIN INTERACCIN. TODOS ELLOS SE CONOCEN COMO EFFECTS.

PROC LOGISTIC
PROC LOGISTIC < options >; MODEL Y = X; RUN; Y PUEDE SER O NO NUMERICA

PROC LOGISTIC POR DEFECTO ESTIMA LA PROBABILIDAD DE NIVELES BAJOS DE RESPUESTA.

POR EJEMPLO, SUPONGA UNA VARIABLE DE RESPUESTA BINARIA


Y= 1 (TRABAJA) 2 Y=0 (NO TRABAJA) 1

POR DEFECTO, PROC LOGISTIC ASIGNA EL VALOR ORDENADO 1 A LA RESPUESTA Y=0 Y EL VALOR ORDENADO 2 A LA RESPUESTA Y=1
COMO RESULTADO, PROC LOGISTIC MODELA LA PROBABILIDAD DE NO-EVENTO (NO TRABAJAR)

PROC LOGISTIC
PARA MODELAR EL EVENTO RECODIFICAR LA VARIABLE RESPUESTA: EVENT: INDIQUE EXPLCITAMENTE QUE OPCIN DE RESPUESTA DESEA MODELAR

model Y(event=1) = X;
REF: ESPECIFIQUE LA OPCIN DE REFERENCIA O DE NO-EVENTO

model Y(ref=0) = X;
DESCENDING: ESPECIFIQUE EL ORDEN DE LA VARIABLE RESPUESTA

model Y(descending)=X; ASIGNE FORMATO A LA VARIABLE , DE MODO TAL QUE EL PRIMER VALOR
FORMATEADO (UNA VEZ ORDENADOS) CORRESPONDA AL EVENTO

proc format;

value Trabaja 1=event 0=nonevent; run;


proc logistic; format Y Trabaja.; model Y=X; run;

1. EJEMPLO DE RESPUESTA BINARIA title 'REGRESION SOBRE DATOS DE REMISION DE CANCER'; proc logistic data=Remission outest=betas covout; model remiss(event='1')=cell smear infil li blast temp Output out=pred p=phat lower=lcl upper=ucl predprob=(individual crossvalidate); run;
Ordered Total Value remiss Frequency 1 0 18 2 1 9 Probability modeled is remiss=1. Model Fit Statistics Intercept and Covariates 35.751 44.822 21.751

Criterion AIC SC -2 Log L

Intercept Only 36.372 37.668 34.372

Testing Global Null Hypothesis: BETA=0 Test Likelihood Ratio Score Wald Chi-Square 12.6211 9.4609 4.5302 DF 6 6 6 Pr > ChiSq 0.0495 0.1493 0.6053

1. EJEMPLO DE RESPUESTA BINARIA


The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Error Wald Chi-Square

Parameter

DF

Estimate

Pr > ChiSq

Efecto de cambios en cada variable sobre la probabilidad de ocurrencia del evento

Intercept cell smear infil li blast temp

1 1 1 1 1 1 1

58.0385 24.6613 19.2933 -19.6009 3.8960 0.1511 -87.4337

71.2364 47.8376 57.9499 61.6814 2.3371 2.2786 67.5735

0.6638 0.2658 0.1108 0.1010 2.7789 0.0044 1.6742

0.4152 0.6062 0.7392 0.7507 0.0955 0.9471 0.1957

Odds Ratio Estimates Point Estimate >999.999 >999.999 <0.001 49.203 1.163 <0.001 95% Wald Confidence Limits <0.001 <0.001 <0.001 0.504 0.013 <0.001 >999.999 >999.999 >999.999 >999.999 101.191 >999.999

Effect cell smear infil li blast temp

Efecto de cambios en cada variable sobre el cociente de probabilidad (favor/en contra)

Association of Predicted Probabilities and Observed Responses Percent Concordant Percent Discordant Percent Tied Pairs 88.3 11.7 0.0 162 Somers' D Gamma Tau-a c 0.765 0.765 0.353 0.883

1. EJEMPLO DE RESPUESTA BINARIA


predprob=(individual crossvalidate); run;
_ r e m O i b s s s 1 2 3 4 5 6 . . . 1 1 0 0 1 0 s m e a r 0.83 0.36 0.88 0.87 0.75 0.65 i n f i l 0.66 0.32 0.70 0.87 0.68 0.65 b l a s t 1.100 0.740 0.176 1.053 0.519 0.519 _ F R O M _ 1 1 0 0 1 0 _ I N T O _ 1 0 0 0 1 0 L E V E L _ 1 1 1 1 1 1

c e l l 0.80 0.90 0.80 1.00 0.90 1.00

l i
1.9 1.4 0.8 0.7 1.3 0.6

t e m p 0.996 0.992 0.982 0.986 0.980 0.982

I P _ 0 0.20934 0.56491 0.84443 0.70914 0.30298 0.71992

I P _ 1 0.79066 0.43509 0.15557 0.29086 0.69702 0.28008

X P _ 0 0.42102 0.97928 0.72020 0.57765 0.47201 0.65276

X P _ 1 0.57898 0.02072 0.27980 0.42235 0.52799 0.34724

p h a t 0.79066 0.43509 0.15557 0.29086 0.69702 0.28008

l c l 0.13222 0.03393 0.00635 0.03849 0.16335 0.05649

u c l 0.98943 0.94409 0.84162 0.80780 0.96442 0.71655

IP_1: Prob (Y=1 | X) Ip_0: Prob (Y=0 | X)

Prob (Y=1 | X) Probabilidad estimada de remisin, dados los valores de las variables explicativas

1. EJEMPLO DE RESPUESTA BINARIA


model remiss(event='1')=cell smear infil li blast temp / selection=stepwise slentry=0.3 slstay=0.35 details ctable lackfit;
Summary of Stepwise Selection Effect Entered Removed li temp cell Number In 1 2 3 Score Chi-Square 7.9311 1.2591 1.4700 Wald Chi-Square

Step 1 2 3 .

DF 1 1 1

Pr > ChiSq 0.0049 0.2618 0.2254

Hosmer and Lemeshow Goodness-of-Fit Test Chi-Square 6.2983 7 DF Pr > ChiSq 0.5054

Ho: correcto ajuste del modelo H1: falta de ajuste en modelo

PROC LOGISTIC PERMITE 4 MTODOS DE SELECCIN: FORWARD, BACKWARD, STEPWISE Y BEST SUBSET

1. EJEMPLO DE RESPUESTA BINARIA


Classification Table
Prob Level Correct Event NonEvent 0 7 7 7 7 8 8 9 9 9 10 Incorrect Event NonEvent 0 0 0 0 0 0 0 0 1 1 1 Correct Percentages Sensitivity 100.0 100.0 100.0 100.0 100.0 100.0 100.0 100.0 88.9 88.9 88.9 Specificity 0.0 38.9 38.9 38.9 38.9 44.4 44.4 50.0 50.0 50.0 55.6 False POS 66.7 55.0 55.0 55.0 55.0 52.6 52.6 50.0 52.9 52.9 50.0 False NEG . 0.0 0.0 0.0 0.0 0.0 0.0 0.0 10.0 10.0 9.1

0.000 0.020 0.040 0.060 0.080 0.100 0.120 0.140 0.160 0.180 0.200

9 9 9 9 9 9 9 9 8 8 8

18 11 11 11 11 10 10 9 9 9 8

33.3 59.3 59.3 59.3 59.3 63.0 63.0 66.7 63.0 63.0 66.7

A un nivel de prob de 0.2: se clasificaron correctamente 8 eventos y 10 no eventos. 8 no eventos se clasificaron incorrectamente como eventos y 1 evento se clasifico incorrectamente como evento. La tasa de correcta especificacin fue 18/27=66.7%

Los puntos de corte de la probabilidad puede controlarse con la opcion PPROB=

2. EJEMPLO DE RESPUESTA BINARIA


Pain No Yes Frequency Percent 35 25 58.33 41.67 Cumulative Cumulative Frequency Percent 35 60 58.33 100.00

ods graphics on;


proc logistic data=Neuralgia plots=(roc(id=obs) effect); /*Por defecto, estima prob de no dolor, Pain=no*/ class Treatment Sex; model Pain= Treatment Sex Treatment*Sex Age Duration / ctable; run; ods graphics off;

3. EJEMPLO DE RESPUESTA ORDINAL


data Cheese; do Additive = 1 to 4; do y = 1 to 9; input freq @@; output; end; end; label y='Taste Rating'; datalines; 0 0 1 7 8 8 19 8 1 6 9 12 11 7 6 1 0 0 1 1 6 8 23 7 5 1 0 0 0 0 1 3 7 14 16 11 ; proc logistic data=Cheese; /* Modela la prob mas baja: Desagradable*/ freq freq; class Additive (param=ref ref='4'); model y=Additive / ctab covb; title1 'EXPERIMENTO DE CATA DE QUESO DE RESPUESTA MULTIPLE'; Run;
Analysis of Maximum Likelihood Estimates Paramet er Intercept 1 Intercept 2 Intercept 3 Intercept 4 Intercept 5 Intercept 6 Intercept 7 Intercept 8 Additive 1 Additive 2 Additive 3 DF Estimate Standar Wald d ChiError Square -7.0801 -6.0249 -4.9254 -3.8568 -2.5205 -1.5685 -0.0669 1.4930 1.6128 4.9645 3.3227 0.5624 0.4755 0.4272 0.3902 0.3431 0.3086 0.2658 0.3310 0.3778 0.4741 0.4251 Pr > Chi Sq

1 1 1 1 1 1 1 1 1 1 1

158.485 <.0001 1 160.550 <.0001 0 132.948 <.0001 4 97.7087 <.0001 53.9704 <.0001 25.8374 <.0001 0.0633 0.8013

20.3439 <.0001 18.2265 <.0001 109.642 <.0001 7 61.0931 <.0001

Tendencia hacia valores bajo de categora (desagrado) para el primer aditivo, comparado con el cuarto: El cuarto aditivo tiene mejor saber que le primero. Los otros son incluso peores que el primero. Ranking de preferencias: 4to, 1ro, 3ro, 2do

Odds Ratio Estimates Effect Additive 1 vs 4 Additive 2 vs 4 Additive 3 vs 4 Point Estimate 5.017 143.241 27.734 95% Wald Confidence Limits 2.393 56.558 12.055 10.520 362.777 63.805

También podría gustarte