Está en la página 1de 58

SAS

BASICO
Giampaolo Orlandoni M. Josefa Ramoni P.

Instituto de Estadstica Aplicada p FACES Universidad de Los Andes Mrida. Venezuela

Caracas 2011

ESTADISTICA DESCRIPTIVA PROCEDIMIENTOS SAS

ESTADISTICA DESCRIPTIVA PROCEDIMIENTOS SAS: 1. PROC MEANS 2. 2 PROC FREQ 3. PROC UNIVARIATE

METODOLOGIA ESTADISTICA
1METODOLOGIAESTADISTICA 2DATOSESTADISTICOS 1.1CONCEPTOYNATURALEZA. 1.2CLASIFICACION:TEMPORALES,ATEMPORALES 1.3ESCALASDEMEDIDA:NOMINAL,ORDINAL,INTERVALOS 3VARIABLESESTADISTICAS 2.1VARIABLESCATEGORICASOCUALITATIVAS 2.2VARIABLESCUANTITATIVAS:DISCRETAS,CONTINUAS 4ANALISISDECRIPTIVODELOSDATOSESTADISTICOS 3.1GRAFICOS:HISTOGRAMAS,CAJAS,TENDENCIA,DISPERSION 3.1 DISTRIBUCIONDEFRECUENCIAS.ABSOLUTA.RELATIVA. 3 1DISTRIBUCION DE FRECUENCIAS ABSOLUTA RELATIVA 3.2MEDIDASDESCRIPTIVAS: 1TENDENCIACENTRAL 2POSICION 3DISPERSION 4FORMA 5ASOCIACION

METODOLOGIAESTADISTICA
IDENTIFICACIONDELPROBLEMA D E S C R I P T I V A OBTENCIONDEDATOS PROCESAMIENTOYSINTESISDEDATOS PROCESAMIENTO Y SINTESIS DE DATOS

DATOSdelaPOBLACION

DATOSdelaMUESTRA

ConjuntototaldemedicionesSubconjuntorepresentativodela delacaractersticadelprocesopoblacin(grupodemediciones) CARACTERISTICASPOBLACIONALES (PARAMETROS) ValoresdesconocidosdelaPoblacin Seestimanconbaseenmuestras CARACTERISTICASMUESTRALES (ESTIMADORES) Funcindelamuestra Seinfierenalapoblacin

LAESTADSTICA: Estudia Fenmenos Aleatorios: Fenmenos parcialmente predecibles debido a su variabilidad inherente. IdentificayAnalizalaVariabilidadInherentedelosFenmenosAleatorios. Proporcionamtodospararecolectar,organizar,resumiryanalizarinformacin confinesdescriptivoseinferenciales.

PROBLEMAS, INFORMACION Y DATOS ESTADISTICOS


REALIDAD UNIDADES EXPERIMENTALES MEDIDAS RELEVANTES DATOS ESTADISTICOS INFORMACION UTIL

INDISPENSABLE:

Planificar la recoleccin de datos dentro del marco de las preguntas que deben contestarse. Datos correctos y exactos, recopilados mediante elaborados diseos muestrales, son intiles si no permiten resolver las preguntas de p p g inters.

PROCESO GENERADOR DE INFORMACION UTIL PARA LA TOMA DE DECISIONES Y LA SOLUCION DE PROBLEMAS:


1. FORMULACION DEL PROBLEMA O PREGUNTAS QUE DEBEN RESOLVERSE 2. RECOPILAR DATOS RELATIVOS A LAS CUESTIONES PLANTEADAS 3. ORGANIZAR Y ANALIZAR LOS DATOS EN FORMA ADECUADA 1. ANALISIS GRAFICO 2. ANALISIS NUMERICO

DATOS ESTADISTICOS
RESULTADO NUMERICO DE MEDIDAS SOBRE UNIDADES EXPERIMENTALES SU O U CO S SO U S S OBSERVACIONES DISPONIBLES PARA EL ANALISIS ESTADISTICO INFORMACION: ESTA BASADA EN DATOS. PERMITE RESOLVER PROBLEMAS CLASIFICACION DE LOS DATOS: 1-DATOS TEMPORALES: SERIES CRONOLOGICAS DATOS DE UN MISMO ELEMENTO EN DISTINTOS PERIODOS DE TIEMPO EJEMPLO: PIB anual, Consumo 2-DATOS ATEMPORALES: MATRICES DE DATOS DATOS DE DIFERENTES ELEMENTOS EN UN MISMO PERIODO DE TIEMPO EJEMPLO: Carros
X1 X2 ... Xj ......... Xp

ESCALASDEMEDIDA 1. NOMINAL 2. 2 ORDINAL 3. INTERVALO 4. RELACION

MATRIZ deDATOS

Xij

ESCALAS DE MEDIDA
ESCALA CARACTERISTICAS 1.IDENTIFICACIONYCLASIFICACIONDEUNIDADES NOMINAL EJEMPLOS 1.CLASIFICACION POR SEXO 1.PORCENTAJES 2.MODA MEDIDAS ESTADISTICAS 2.CLASIFICACIONPOZOS 2.LOSNUMEROSINDICANLACLASEOCATEGORIA. NOINDICANCANTIDADDELACARACTERISTICADE PETROLEROS LASUNIDADES (PRODUCTIVO, (PRODUCTIVO SECO) 1.ORDENAMIENTOYPOSICIONRELATIVADELAS UNIDADES 2.INDICASIUNAUNIDADTIENEMASOMENOS CANTIDADDELACARACTERISITICAQUEOTRA CANTIDAD DE LA CARACTERISITICA QUE OTRA UNIDAD 3.NOINDICALAMAGNITUDDELASDIFERENCIAS ENTRELASUNIDADES 4.PERMITEMEDIROPINIONES,ACTITUDES, PREFERENCIAS 1.MEDIA 1.LASDIFERENCIASENTREUNIDADESPUEDEN COMPARARSE. INTERVALOS 2.LASDISTANCIASIGUALESENLAESCALA REPRESENTANVALORESIGUALESENLA CARACTERISTICAQUESEMIDE 3.ELPUNTOCEROESARBITRARIO 3 EL PUNTO CERO ES ARBITRARIO 1.ELPUNTOCEROESFIJO RELACION 1.EDAD 2.LARELACIONENTRELOSVALORESDELAESCALA 2.INGRESO 3.COSTOS SEPUEDECALCULAR 2.RANGO 1.TEMPERATURA (F, 1 TEMPERATURA (F C) 2.OPINIONES 3.INDICES 3.VARIANZA 3 VARIANZA 4.DESVIACIONESTANDAR 5.COEFICIENTECORRELACION 6.COEFICIENTEVARIACION 1.FRACTILES S O O SOCIAL 1.CLASE ECONOMICA SO 2.CALIDAD DEL CRUDO: (PESADO, LIVIANO) 2.MEDIANA

ORDINAL

1.MEDIAGEOMETRICA 2.COEFICIENTE VARIACION

VARIABLE ESTADISTICA
VA: REPRESENTA CARACTERISTICAS DE LOS ELEMENTOS QUE CONFORMAN VA: LA POBLACION O MUESTRA CLASIFICACION: CUALITATIVAS, CUANTITATIVAS

Variable
CUALITATIVA CATEGRICA

Ejemplos
Bueno Malo (CalidadAparato, Servicio) Pasa No pasa Pasa Nopasa Defecto NoDefecto Color N.PozosPerforados N D f A id F ll NmeroDefectos,Accidentes,Fallas NivelEducativo CategoraProfesional Temperatura p Presin Tiempo,Edad VolumendeCrudoExtrado Dureza PresinArterial Precios

Caractersticas
Atributos Cualidades ValoresEnteros NmeroCasos

Grficos
BARRAS SECTORES MOSAICOS

BARRAS MOSAICOS ASOCIACION HISTOGRAMA HISTOGRAMA POLIGONO

CUANTITATIVA DISCRETA

CUANTITATIVA CONTINUA

ValoresReales

CAJAS TENDENCIA TENDENCIA ASOCIACION


8

VARIABLESDISCRETAS DIAGRAMAdeBARRAS.GRAFICOSDESECTORES(Carros.dat)

Frecuencia Class Cl 1 2 3 CIL 4 6 8 104 30 17 0.689 0.199 0.113

Frec. Acumulada 104 134 151 0.689 0.887 1.000

Absoluta R l ti Ab l t Relativa Ab l t R l ti Absoluta Relativa

PROCEDIMIENTOSAS ANALYZE

VARIABLES CONTINUAS HISTOGRAMA de FRECUENCIAS. DIAGRAMA de CAJA. DISTRIBUCION de FRECUENCIAS (Carros.dat)


22 19 20 ElHistogramaindicalamezcladetrespoblaciones(origen) Elanlisisdebehacerseporgrupodeorigen El anlisis debe hacerse por grupo de origen
PROCEDIMIENTOSAS ANALYZE VARIABLEDATA ONE VARIABLE ANALYSIS ONEVARIABLEANALYSIS

DISTRIBUCIONDEFRECUENCIAS
Limite Clase 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Total Limite Punto Medio 14.3 16.9 19.4 22.0 24.6 27.1 27 1 29.7 32.3 34.9 37.4 40.0 40 0 42.6 45.1 47.7 Frecuencia Absoluta 1 11 19 10 12 20 14 18 22 11 5 3 3 1 150 Relativa 0.0067 0.0733 0.1267 0.0667 0.0800 0.1333 0 1333 0.0933 0.1200 0.1467 0.0733 0.0333 0 0333 0.0200 0.0200 0.0067 Frecuencia Acumulada Absoluta 1 12 31 41 53 73 87 105 127 138 143 146 149 150 Relativa 0.0067 0.0800 0.2067 0.2733 0.3533 0.4867 0 4867 0.5800 0.7000 0.8467 0.9200 0.9533 0 9533 0.9733 0.9933 1.0000 Inferior Superior 13.0 15.6 15.6 18.1 18.1 20.7 20.7 23.3 23.3 25.9 25.9 25 9 28.4 28 4 28.4 31.0 31.0 33.6 33.6 36.1 36.1 38.7 38.7 38 7 41.3 41 3 41.3 43.9 43.9 46.4 46.4 49.0

DIAGRAMA DE CAJA (BOX Plot)


Sntesisgrficadelosdatos.Indica:ubicacin,dispersin,asimetra LosladosdelacajarepresentanelprimerytercerquartilQ1,Q3.Lalneamediadela Los lados de la caja representan el primer y tercer quartil Q1, Q3. La lnea media de la cajarepresentalamedianaosegundoquartilQ2. Losvaloresmximoyelmnimonooutlierssegraficancomopuntosalfinaldelaslneas RangoIntercuartilRI=(Q3 Q1):medidadeladispersindel50%centraldelosdatos g ( ) p
Min Valor No Outlier = Max[X(1), Q1-1.5(Q3-Q1)]
1.5(Q3-Q1)

Q1

Q1=25%

X
Q2

RI=(Q3 Q1)

Q2=50%

Q3

Q3=75%

1.5(Q3 - Q1)

Max Valor No Outlier = Min[X(n), Q3+1.5(Q3-Q1)]


VALORES EXTREMOS (0, *)

11

GRAFICOSDETENDENCIA Anlisisdepatronesytendencias Visualiza el comportamiento de los datos en el tiempo Visualizaelcomportamientodelosdatoseneltiempo

Tendencia creciente

Tendencia decreciente

Corrida de proceso

Valores anormales

Ciclo s

Variabilidad creciente
12

SINTESIS DESCRIPTIVA DE LOS DATOS ESTADISTICOS

1-TENDENCIA CENTRAL 2-POSICION 3-DISPERSION 4-FORMA 5-ASOCIACION 5 ASOCIACION


GIAMPAOLO ORLANDONI MERLI. 2011

AGRAFICOSYTABLAS
GRAFICOS TABLAS UNIVARIANTES.MULTIVARIANTES TABLASDE FRECUENCIAS TABLASCRUZADAS MEDIAARITMETICA MEDIA ARITMETICA 1. TENDENCIACENTRAL MEDIANA MODA MAXIMO 2. POSICION (ORDEN) MINIMO ( , ) CUANTILES(CUARTILES,PERCENTILES) RANGO,RANGOINTERCUARTILICO 3. DISPERSION (VARIABILIDAD) VARIANZA,DESVIACIONESTNDAR COEFICIENTEDEVARIACION 4. FORMA ASIMETRIA(SESGO) CURTOSIS(ACHATAMIENTO) COVARIANZA CORRELACION
14

BMEDIDASDESCRIPTIVAS

5. ASOCIACION

1-MEDIDAS DE TENDENCIA CENTRAL

MediaAcotada Media Acotada (Media Recortada) Media Media Geomtrica(G)

ConjuntoTotalDatos Conjunto Total Datos (%Menor+%Mayor) G (X1 X2 Xn G=(X1*X2**Xn)1/n Log(G)=(log(Xi))/n

Seeliminaunporcentaje(510%)delos Se elimina un porcentaje (510%) de los valoresmsaltosybajosdelconjuntode datos(datosoutliers) EscaladeMedidaNoLineal.

15

2-MEDIDAS DE POSICION (MEDIDAS DE ORDEN)

3-MEDIDAS DE DISPERSION (VARIABILIDAD)

DESVIACION ESTANDAR (S)


Raz cuadrada positiva de la Varianza. Medida de dispersin ms comn RazcuadradapositivadelaVarianza.Medidadedispersinmscomn SeexpresaenlasmismasunidadesquelaVariableEstadstica. EstandarizalosvaloresdelaVE(VEconmediaceroydesviacinestndar unitaria) unitaria) Z=(X)/ ~(0;1) Z (X ) / ~ (0;1) Permitecalcularlaproporcindedatoscontenidoenciertointervaloalrededor delamedia:ElIntervalo( K)contienealmenos(11/K2),K>1

COEFICIENTE DE VARIACIN: Medida de Dispersin Relativa


UNIDAD Tiempo Espera Salario Minutos BsF Media 78.7 1000.0 Desv Est 12.14 215.35 CV (%) 12.05 21.53 1Comparacin demuestrascondistintasunidadesdemedidaydiferentespromedios

2Comparacin demuestrasconlasmismasunidadesdemedida,ydiferentespromedios Temperatura A TemperaturaB C C 1100 800 225 200 20.45


18 25.00

4-MEDIDAS DE FORMA

19

HISTOGRAMAS y FORMAS

NORMAL

BIMODAL

INTERVALO VACIO

ASIMETRIA POSITIVA

ASIMETRIA NEGATIVA

UNIFORME

DATOS OUTLIERS

AREAS BAJO LA CURVA NORMAL

-3

-2

68.26% 68 26% 95.44% 99.73%

+2

+3

21

FORMA GENERAL DE LOS PROCEDIMENTOS SAS


PROC (NOMBRE) DATA=LIBRERA.ARCHIVO OPCIONES; GRUPOS,

(PROC)

BY =PARTICIN DEL CONJUNTO DE DATOS EN POR LAS VARIABLES LISTADAS EN BY BY.

DEFINIDOS

CLASS =VARIABLES DE CLASIFICACIN EN EL ANLISIS. FREQ ID VAR =VARIABLE QUE INDICA LA FRECUENCIA DE OCURRENCIA =VARIABLES INDICADORAS EN LA SALIDA DEL PROCEDIMIENTO.

OUTPUT=SALIDA DE DATOS. =VARIABLES EMPLEADAS POR EL PROCEDIMIENTO PONDERACIN. WEIGHT=VARIABLE

FORMAT=ESPECIFICA EL FORMATO. LABEL =ETIQUETAS DESCRIPTIVAS CON NOMBRES DE VARIABLES. TITLE =TITULO

PROC MEANS
PROC MEANS DATA=LIBRERA.ARCHIVO OPCIONES; BY CLASS FREQ FREQ ID WEIGHT VAR WEIGHT TYPES WAYS

VARIABLES; VARIABLES/OPCIONES; VARIABLE; VARIABLES; VARIABLE; ; VARIABLES VARIABLE; REQUEST; LIST;

OUTPUT=OUT= ARCHIVO/OPCIONES;

PROC MEANS
EJEMPLO 1
Data Notas;
Input Nombre $ Sexo $ Status $ Anio $ Seccion $ Nota1 Nota2;
Datalines; Alarcon F 2 97 A 90 87 Bravo M 1 98 A 92 97 Camacho M 2 98 B 81 71 Duran M 1 97 A 85 72 Espinoza F 1 98 B 89 80 Franco M 1 97 B 78 73 Garces F 2 97 A 82 91 Hernandez F 1 98 B 84 80 Montilla M 2 97 A 88 86 Navas M 1 97 B 91 93

; Proc sort data=Notas; By Anio Status; run; Proc print; run;

Proc MEANS fw=6 d t oc S 6 data=Notas; ot s; Class Anio; Var Nota2; run;

PROC MEANS
EJEMPLO 2
Proc MEANS fw=6 data=Notas; Class Status Anio; Var Nota2; a ota ; Output out=sumstat1 mean=NotaPromedio idgrp; run; Proc print data=sumstat1 noobs; title1 'Notas '; run;

EJEMPLO 3
Proc MEANS fw=6 data=Notas Noprint; Class Status Anio; Var Nota2; Output out=sumstat2 mean=NotaPromedio idgrp (max(Nota2) obs out (Nombre)=MejorNota); run; Proc print d t P i t data=sumstat2 noobs; t t2 b title1 'Notas '; run; \DataSAS\html\3_MeansNotas.html

ANALISISDEUNCASO Estructura delDataSetpacientes


Variable PACN SEXO VISITA HR SBP DBP DX AE Descripcin Paciente Num Gnero Visita Fecha Vi it F h Heart Rate Presin Sistlica Presin Diastlica es st c Cdigo Diagnstico Evento Adverso Tipo Valores Vlidos Caracter Numerales Caracter M , 'F' MMDDYY10. MMDDYY10 Fecha lid F h vlida Numrica 40 - 100 Numrica 80 - 200 Numrica u c 60 - 120 0 Caracter 1 a 3 dgitos Caracter '0 , '1'

INPUT
libname clinica 'c:\DataSAS'; Data clinica.pacientes; Infile 'c:\DataSAS\pacientes.txt' lrecl=30 truncover; Input @1 PacNo $3. $3 @15 HR 3. PacN Sexo Visita HR SBP DBP Dx AE @4 Sexo $1 $1. @5 Visita mmddyy10 mmddyy10. @18 SBP 3. @21 DBP 3. @24 Dx $3. @27 AE $1.; = "Paciente Num" = "Genero" Genero = "Fecha Visita" = "Corazn Tasa" = "Presin Sistlica Presin Sistlica" = "Presin Diastlica" = "Diagnstico Cdigo" = "Evento Adverso? ;

Format visit mmddyy10.; Proc Print data=clinica.pacientes; run;


\DataSAS\html\4_Clinica0.html

Archivo Datos pacientes.txt pacientes txt

'c:\DataSAS\pacientes.txt' lrecl=30 truncover;

001M11/11/1998 88140 80 002F11/13/1998 84120 78 003X10/21/1998 68190100 004F01/01/1999101200120 XX5M05/07/1998 68120 80 006 06/15/1999 72102 68 007M08/32/1998 88148102 M11/11/1998 90190100 008F08/08/1998210 / / 009M09/25/1999 86240180 010f10/19/1999 40120 011M13/13/1998 68300 20 012M10/12/98 60122 74 013208/23/1999 74108 64 014M02/02/1999 22130 90 002F11/13/1998 84120 78 003M11/12/1999 58112 74 015F 82148 88 017F04/05/1999208 84 019M06/07/1999 58118 70 123M15/12/1999 60 321F 900400200 020F99/99/9999 10 20 8 022M10/10/1999 48114 82 023f12/31/1998 22 34 78 024F11/09/199876 120 80 025M01/01/1999 74102 68 027FNOTAVAIL 02 FNOTAVAIL NA 166106 028F03/28/1998 66150 90 029M05/15/1998 006F07/07/1999 82148 84

10 X0 31 5A 10 61 0 0 70 41 10 41 0 1 1 X0 0 31 20 0 10 51 0 21 0 10 51 70 0 30 41 10

PROC FREQ Deteccin de Valores Invlidos


The FREQ Procedure

PROC FREQ DATA=PACIENTES; TITLE "Frequencia"; TABLES SEXO/NOCUM NOPERCENT; RUN;

SEXO 2 F M X f

Frequency 1 12 14 1 2

Frequency Missing = 1

PROC FREQ

PROC FREQ DATA=LIBRERA.ARCHIVO OPCIONES; BY VARIABLES; EXACT ESTADSTICOS/OPCIONES; OUTPUT ESTADSTICOS OUT SAS DATA SET ; OUTPUT OUT=SAS-DATA TABLES /OPCIONES; TEST ESTADSTICOS; WEIGHT VARIABLE; RUN; RUN;

ProcFREQyProcFORMAT.Detectar Valores Invlidos


PROCFORMAT; ; VALUE$Sexo'F','M'='Valido' ''='Missing' OTHER='Miscoded'; VALUE$DX'001' '999'='Valido' ''='Missing' OTHER='Miscoded'; VALUE$AE'0','1'='Valido' $ ' '' ' ' ld ' ''='Missing' OTHER='Miscoded'; run; PROCFREQDATA=Clinica.Pacientes; TITLE"UsodeFORMATS"; TITLE "Uso de FORMATS" FORMATSexo$Sexo. DX$DX. AE$AE.; AE $AE ; TABLESSexoDXAE/NOCUMNOPERCENT; run; Gnero Sexo Frequency Miscoded 4 Valid 25 Frequency Missing = 1 Diagnstico Cdigo Dx Frequency Miscoded 2 Valid 21 Frequency Missing = 8 Evento Ad E Adverso AE Frequency Miscoded 1 Valid 29 Frequency Missing = 1

PROCPRINTconWHERE
PROC PRINT DATA li i DATA=clinica.pacientes; i t WHERE Sexo not in ('F','M') or VERIFY(DX,' 0123456789') ne 0 or AE not in ('0','1'); ( 0 1 ); TITLE "Lista de datos Invlidos"; ID PacN; VAR Sexo DX AE; run; Lista PacN
002 003 004 006 010 013 002 023

Datos Invalidos GENDER


F X M

DX
X 3 1 6 1 1 X

AE
0 1 A 1 0 0 0

f 2 F f

ProcPRINTyWHERE Lista devalores fuera derango


PROC PRINT DATA=clinica.Pacientes; WHERE HR NOT BETWEEN 40 AND 100 AND OR OR HR IS NOT MISSING SBP NOT BETWEEN 80 AND 200 AND SBP IS NOT MISSING DBP NOT BETWEEN 60 AND 120 AND DBP IS NOT MISSING;

TITLE "Valores fuera de rango"; ID PAcN; ; VAR HR SBP DBP; run;

Valores Fuera de Rango


PACN
004 008 009 010 011 014 017 321 020 023 101 210 86 . 68 22 208 900 10 22

HR

200 . 240 40 300 130 . 400 20 34

SBP

120 . 180 120 20 90 84 200 8 78

DBP

DATA_NULL_DataStep.Valores fuera derango


DATA _NULL_; NULL ; Infile 'C:\DataSAS\dat\pacientes.txt; FILE PRINT; ***Salida a Ventana Output; Input @1 PacN $3. @4 Sexo $1. @15 HR 3. @18 SBP 3. @21 DBP 3. ; IF (HR LT 40 AND HR NE .) OR HR GT 100 THEN PUT PAcN= HR=; IF (SBP LT 80 AND SBP NE .) OR SBP GT 200 THEN PUT PAcN= SBP=; IF (DBP LT 60 AND DBP NE .) OR DBP GT 120 THEN PUT PAcN= DBP=; ) PAcN DBP ;
Lista Valores Fuera Rango
PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PAcN PA N PAcN PAcN PAcN PAcN =004 =008 =009 =009 =010 =011 =011 =014 =017 =321 =321 =321 =020 020 =020 =020 =023 =023 HR= HR= SBP= DBP= SBP= SBP= DBP= HR= HR= HR= SBP= DBP= HR= HR SBP= DBP= HR= SBP= 101 210 240 180 40 300 20 22 208 900 400 200 10 20 8 22 34

PROC MEANS Verificacin Outliers


PROC MEANS DATA= Pacientes N NMISS MIN MAX MAXDEC=1; TITLE Verificar Variables Numricas; Verificar Numricas ; VAR HR SBP DBP; RUN;

Detectar Outliers mediante Desviacin Estandar


Proc MEANSdata=Clinica.Pacientes noprint; var hr; outputout=means(drop=_type__freq_) p ( p _ yp _ _ q_) mean=m_hr std=s_hr ; run; proc print data=means;run; %let n sd =2; n_sd 2; data_null_;setClinica.Pacientes; file print; if n =1thensetmeans; print; if_n_ 1 then set means; st =&n_sd*s_hr; ifhrlt (m_hr st)andhrne . orhrgt (m_hr +st)thenputpacn =hr=; or hr gt (m hr + st) then put pacn = hr = ; run;
Data Set MEANS m_hr s_hr 104.871 153.026 Outlier: PacN=321HR=900

PROC MEANS
LIMPIANDO DATOS Y ELIMINANDO VARIABLES

Data Nuevo; ; Set clinica.pacientes (keep=PacN Sexo HR SBP DBP); IF sexo='M' or sexo ='F' or sexo ='m' or sexo ='f; IF sexo ='F' or sexo ='f' THEN sexo='F' ; Proc print data = nuevo; run;

Data clinica.pacientes; Infile 'c:\DataSAS\dat\pacientes.txt' lrecl=30 truncover; Input @1 PacN $3 @4 Sexo $1 @5 Visita mmddyy10 $3. $1. mmddyy10. @15 HR 3. @18 SBP 3. @21 DBP 3. @24 Dx $3. @27 AE $1.; Data Nuevo; Set clinica.pacientes (keep=PacN Sexo HR SBP DBP AE); If sexo='M' or sexo ='F' or sexo ='m' or sexo ='f' ; If sexo ='F' or sexo ='f' then sexo='F' ; Data Nuevo2; set nuevo; if AE ne '0' and AE ne '1' then delete ; if HR='.' and SBP='.' and DBP='.' then delete; Proc SORT DATA=Nuevo2; BY Sexo; run; Proc MEANS DATA=nuevo2 fw=6; ; By Sexo; Class AE; VAR HR SBP DBP; OUTPUT OUT=SalClinica1 MEAN=M_HR M_SBP M_DBP; MEAN=M HR M SBP M DBP; run; Proc Print data = salclinica1; run;

PROC MEANS

ESTADISTICAS BASICAS PROC MEANS PROC SUMMARY


PROC MEANS DATA= nuevo fw=6; * NOPRINT; /*Equivalente a PROC SUMMARY DATA= nuevo; */ ; CLASS Sexo; VAR HR SBP DBP; OUTPUT OUT=SalClin1 MEAN=M_HR M_SBP M_DBP; run; proc print data = salclin1; run;

Proc Means con BY en lugar de CLASS

PROC MEANS DATA=nuevo NOPRINT; BY sexo; ; VAR HR SBP DBP; OUTPUT OUT=SalidaClin MEAN=M_HR M_SBP M_DBP; run; proc print data = salidaClin; run;

Proc MEANS: DS Segmentado por Sexo y AE


PROC MEANS DATA nuevo fw=6; * NOPRINT; DATA= fw 6; CLASS Sexo AE; VAR HR SBP DBP; OUTPUT OUT=SalClin2 MEAN=M_HR M_SBP M_DBP; MEAN M HR M SBP M DBP run; proc print data = salclin2; run;

La Variable _TYPE_
CLASS Sexo AE;

Class Variables Sexo 0 0 1 1 AE 0 1 0 1

Representacin Binario 00 01 10 11 Decimal 0 1 2 3

Proc Means: Opcin NWAY


PROC MEANS DATA= nuevo fw=6 NWAY; CLASS Sexo AE; VAR HR SBP DBP; OUTPUT OUT=SalClin2 MEAN=M_HR M_SBP M_DBP; MEAN M HR M SBP M DBP run; proc print data = salclin2; run;

Sexo F F M M

AE 0 1 0 1

_TYPE_ 3 3 3 3

_FREQ_ 11 2 8 5

M_HR 93.56 93 56 491.00 71.25 59.60

M_SBP M_DBP 102.00 102 00 80.60 80 60 274.00 144.00 135.71 82.86 177.20 88.00

Proc Means: Estadsticas Seleccionadas


PROC MEANS DATA=nuevo2 fw=6; CLASS Sexo; VAR HR SBP DBP; ; OUTPUT OUT=SalClin4 MEAN =M_HR M_SBP M_DBP MAX =MAX_HR MAX_SBP MAX_DBP MEDIAN =MED_HR MED_SBP MED_DBP; RUN; Proc Print data = salclin4; run;

Estadsticas Disponibles

Proc MEANS: WEIGHT


Ejemplo de uso de WEIGHT con Proc MEANS. Un grupo de 20 personas estiman el tamao de un objeto que mide 30 cm Cada persona se coloca a distancias cm. difentes del objeto. A medida que la distancia aumenta, las estimaciones se hacen menos precisas. Medida de Precisin: recproco de la distancia ( p (1/Distancia): asigna mayor p ) g y peso a estimaciones hechas a distancias ms cercanas del objeto. El DS Tamao contiene estimacin, distancia, precision para cada persona Data TamaDist; Input Distan Tama @@; Prec=1/Distan; Datalines; Datalines; 1.5 30 1.5 20 1.5 30 1.5 25 3 43 3 33 3 25 3 30 4.5 25 4.5 36 4.5 48 4.5 33 6 43 6 36 6 23 6 48 7.5 30 7.5 25 7.5 50 7.5 38 ; PROC MEANS calcula la estimacin promedio del tamao del objeto ignorando la ponderacin correspondiente (por defecto asigna un peso de 1 para cada observacin). Proc MEANS data=TamaDist maxdec=3 n mean var stddev; var tama; Title1 Anlisis del DS TamaDist sin Ponderar'; run;

Los siguientes dos programas PROC MEANS usan la medida de precisin en el WEIGHT Al ponderar por precision, la estimacin del tamao del objeto est ms cerca del tamao real: Uso de VARDEF=DF Proc Means Data= TamaDist maxdec=3 n mean var std; weight prec; var tama; output out=wtstats var=Est_SigmaSq std=Est_Sigma; E Si S d E Si title1 'Anlisis del DS TamaDist con Peso usando Default VARDEF=DF'; run; u ; Uso de VARDEF=WEIGHT Proc Means Data TamaDist maxdec 3 n mean var std Data=TamaDist maxdec=3 vardef=weight; weight prec; ; var tama; title1 'Anlisis del DS TamaDist con Peso usando VARDEF=WEIGHT'; run; ..\..\..\..\..\DataSAS\html\3_ProcMeansWeight.html

Proc MEANS: FREQ


Estos datos representan la velocidad (millas nuticas/hora) y el gasto en combustible, registrados cada hora. La variable Horas representa el nmero de horas que el barco mantiene el mismo gasto y velocidad. Los dos PROC MEANS muestran el efecto de usar Horas como variable frecuencia. 1-PROC MEANS sin variable frecuencia: Proc Means data=FrecVelo maxdec=2 n mean; Var course veloc; cou se e oc; title 'Velocidad Promedio sin Frecuencia'; run; /* Sin Variable Frecuencia, cada observacin tiene una frecuencia de 1. El nmero total de observaciones es 8. */ / 2-El segundo PROC MEANS usa Horas como variable frecuencia */ Proc Means data=FrecVelo maxdec=2 n mean; Var course speed; p ; Freq horas; title 'Velocidad Promedio con Frecuencia'; run; / /*Al usar Horas como Variable Frecuencia, la frecuencia de cada , observacin es el valor de Horas. */ ..\..\..\..\..\DataSAS\html\3_ProcMeansFreq.html

PROC MEANS con CLASSDATA


PROC MEANS statement options: p CLASSDATA= EXCLUSIVE PRINTALLTYPES CLASS Archivo de Prueba Data Tortatipo; Input sabor $ 1-3 capas ; datalines; Van 1 Van 2 Van 3 Cho 1 Cho 2 Cho 3; Proc Means data=Torta range median min max fw=7 maxdec=0 classdata=tortatipo exclusive printalltypes; Var Score2; Class sabor capas; Title Score para Sabor y Capas Tipos Tortas';

PROC MEANS con CLASSDATA


Calcula las estadsticas solicitadas para las variablesdeclaradas enVar Programa Ensayo ,ypara todas las combinaciones delas variablesespecificadas enClass. Programa Maestro DATATorta; DATA Torta; INPUTNombre$112Edad1314Score11617 Score2 1920Sabor$2325Capas30; DataTortatipo; D T i InputSabor $13Capas ; datalines; Van 1 Van 2 Van 3 Cho 1 Cho 2 Cho 3; Proc Means data=Torta classdata=tortatipo exclusive printalltypes; VarScore2; Class sabor capas;

Programa P Ensayo Se calculan las estadstica de las variables en Var, para las combinaciones que son posible con los valores de las variables ledas en el programa ensayo.

PROC MEANS con PROC FORMAT


DATATorta; INPUTNombre$112Edad1314Score11617 $ Score2 1920Sabor$2325Capas30;

Proc Format; value $sbrfmt


'Chocolate'='Cho' Chocolate = Cho 'Vainilla'='Van' 'Ron','Esp'='OtrosSabr';

value edadfmt (multilabel)


15 29='<30a' 15 29 '< 30 a' 30 50='entre30y50a' 51 high='>50a' 15 19='15 19' 20 25='20 20 25 '20 25' 25 39='25 39' 40 55='40 55' 56 high='>=56';run; Proc M P Means d t T t f 6 data=Tortafw=6nminmax meanmediannonobs; i di b class sabor/order=freq; class edad/mlf order=fmt; types saborsabor*edad; var S Score2; 2

format Edadedadfmt.Sabor$sbrfmt.; ..\..\..\..\..\DataSAS\html\3_ProcMeansFormat.html

PROC MEANS con IC Media


DATATorta; INPUTNombre$112Edad1314Score11617 INPUT N b $ 1 12 Ed d 13 14 S 1 16 17 Score2 1920Sabor$2325Capas30;

Proc Format; value $sbrfmt


'Chocolate'='Cho'Vainilla'='Van'Ron','Esp'='OtrosSabr';

value edadfmt (multilabel)


15 29='<3030 50=30 5051 high='>50' 15 19='15 1920 25='20 2525 39='25 39' 40 55='40 5556 high='>=56';run;

proc means data=Tortafw=6n alpha=0.1clm meannonobs;


class sabor/order =freq; freq; classedad /mlf order=fmt; types sabor; var Score2; format edadedadfmt.sabor$sbrfmt.; title 'ICMediaMuestral'; run;

..\..\..\..\..\DataSAS\html\3_ProcMeansIC.html

PROC UNIVARIATE

PROC UNIVARIATE DATA=LIBRERA ARCHIVO OPCIONES: DATA=LIBRERA.ARCHIVO BY VARIABLES; CLASS VARIABLES/OPCIONES; FREQ VARIABLE; ID VARIABLES; HISTOGRAM VARIABLE/ OPCIONES; HISTOGRAM ID VARIABLES; INSET ESTADSTICOS OUTPUT O O OUT=ARCHIVO=NOMBRE VARIABLES; C O O S PROBPLOT VARIABLES/OPCIONES; QQPLOT VARIABLES/OPCIONES; ; VAR VARIABLES ;

PROC UNIVARIATE con ODS


ODS SELECT EXTREMEOBS; PROC UNIVARIATE data=clinica.pacientes; VAR HR SBP DBP DBP; ID PAcN; RUN;
Procedimiento UNIVARIATE Variable: DBP (Presin Diastlica)

Extreme Observations
--------Lowest-------Value PAcN Obs 8 020 23 20 011 12 64 013 14 68 025 27 68 006 6 --------Highest------Value PAcN Obs 106 027 28 120 004 4 120 010 11 180 009 10 200 321 22

NEXTROBSOptionPROCUNIVARIATE
ODS SELECT EXTREMEOBS; PROC UNIVARIATE data=clinica.pacientes NEXTROBS=3; VAR HR SBP DBP; ; ID PAcN; RUN;
Procedimiento UNIVARIATE Variable: DBP (Presin Diastlica) Extreme Observations --------Lowest-------Value PATNO Obs 8 020 23 20 011 12 64 013 14 --------Highest------Value PATNO Obs 120 010 11 180 009 10 200 321 22

PROC UNIVARIATE con ODS


ods html file ='C:\DataSAS\html\3_UnivariateOds1.html'; DataVelocidad; label Velocidad='Velocidad(millas/hora)'; DOVelocEx =66to85; InputNumero@@; Output; End; Datalines; 232136891013 121462001101 ; procprintdata=Velocidad;run; title 'Analisis deDSVelocidad'; ODSselect Moments; ; Proc Univariate data=Velocidad; Freq Numero; Var VelocEx; run; ods html close;

PROC UNIVARIATE con ODS


ods html file ='C:\DataSAS\html\3_UnivariateOds2.html'; DataAire (keep=Sitio Ozono); label Sitio='N.Sitio' Ozono='NivelOzono'; doi=1to3; d i inputSitio@@; Uso de la estructura doj=1to15; DO . END inputOzono@@; input Ozono @@; en lectura de datos output; end; end; datalines; 102463478234138956 134536212432464631 137897867679898785; ODSSelect Moments SSPlots; proc univariate data=Aireplot; by Sitio; var Ozono;run; ods html close;

También podría gustarte