Documentos de Académico
Documentos de Profesional
Documentos de Cultura
BASICO
Giampaolo Orlandoni M. Josefa Ramoni P.
Caracas 2011
ESTADISTICA DESCRIPTIVA PROCEDIMIENTOS SAS: 1. PROC MEANS 2. 2 PROC FREQ 3. PROC UNIVARIATE
METODOLOGIA ESTADISTICA
1METODOLOGIAESTADISTICA 2DATOSESTADISTICOS 1.1CONCEPTOYNATURALEZA. 1.2CLASIFICACION:TEMPORALES,ATEMPORALES 1.3ESCALASDEMEDIDA:NOMINAL,ORDINAL,INTERVALOS 3VARIABLESESTADISTICAS 2.1VARIABLESCATEGORICASOCUALITATIVAS 2.2VARIABLESCUANTITATIVAS:DISCRETAS,CONTINUAS 4ANALISISDECRIPTIVODELOSDATOSESTADISTICOS 3.1GRAFICOS:HISTOGRAMAS,CAJAS,TENDENCIA,DISPERSION 3.1 DISTRIBUCIONDEFRECUENCIAS.ABSOLUTA.RELATIVA. 3 1DISTRIBUCION DE FRECUENCIAS ABSOLUTA RELATIVA 3.2MEDIDASDESCRIPTIVAS: 1TENDENCIACENTRAL 2POSICION 3DISPERSION 4FORMA 5ASOCIACION
METODOLOGIAESTADISTICA
IDENTIFICACIONDELPROBLEMA D E S C R I P T I V A OBTENCIONDEDATOS PROCESAMIENTOYSINTESISDEDATOS PROCESAMIENTO Y SINTESIS DE DATOS
DATOSdelaPOBLACION
DATOSdelaMUESTRA
ConjuntototaldemedicionesSubconjuntorepresentativodela delacaractersticadelprocesopoblacin(grupodemediciones) CARACTERISTICASPOBLACIONALES (PARAMETROS) ValoresdesconocidosdelaPoblacin Seestimanconbaseenmuestras CARACTERISTICASMUESTRALES (ESTIMADORES) Funcindelamuestra Seinfierenalapoblacin
LAESTADSTICA: Estudia Fenmenos Aleatorios: Fenmenos parcialmente predecibles debido a su variabilidad inherente. IdentificayAnalizalaVariabilidadInherentedelosFenmenosAleatorios. Proporcionamtodospararecolectar,organizar,resumiryanalizarinformacin confinesdescriptivoseinferenciales.
INDISPENSABLE:
Planificar la recoleccin de datos dentro del marco de las preguntas que deben contestarse. Datos correctos y exactos, recopilados mediante elaborados diseos muestrales, son intiles si no permiten resolver las preguntas de p p g inters.
DATOS ESTADISTICOS
RESULTADO NUMERICO DE MEDIDAS SOBRE UNIDADES EXPERIMENTALES SU O U CO S SO U S S OBSERVACIONES DISPONIBLES PARA EL ANALISIS ESTADISTICO INFORMACION: ESTA BASADA EN DATOS. PERMITE RESOLVER PROBLEMAS CLASIFICACION DE LOS DATOS: 1-DATOS TEMPORALES: SERIES CRONOLOGICAS DATOS DE UN MISMO ELEMENTO EN DISTINTOS PERIODOS DE TIEMPO EJEMPLO: PIB anual, Consumo 2-DATOS ATEMPORALES: MATRICES DE DATOS DATOS DE DIFERENTES ELEMENTOS EN UN MISMO PERIODO DE TIEMPO EJEMPLO: Carros
X1 X2 ... Xj ......... Xp
MATRIZ deDATOS
Xij
ESCALAS DE MEDIDA
ESCALA CARACTERISTICAS 1.IDENTIFICACIONYCLASIFICACIONDEUNIDADES NOMINAL EJEMPLOS 1.CLASIFICACION POR SEXO 1.PORCENTAJES 2.MODA MEDIDAS ESTADISTICAS 2.CLASIFICACIONPOZOS 2.LOSNUMEROSINDICANLACLASEOCATEGORIA. NOINDICANCANTIDADDELACARACTERISTICADE PETROLEROS LASUNIDADES (PRODUCTIVO, (PRODUCTIVO SECO) 1.ORDENAMIENTOYPOSICIONRELATIVADELAS UNIDADES 2.INDICASIUNAUNIDADTIENEMASOMENOS CANTIDADDELACARACTERISITICAQUEOTRA CANTIDAD DE LA CARACTERISITICA QUE OTRA UNIDAD 3.NOINDICALAMAGNITUDDELASDIFERENCIAS ENTRELASUNIDADES 4.PERMITEMEDIROPINIONES,ACTITUDES, PREFERENCIAS 1.MEDIA 1.LASDIFERENCIASENTREUNIDADESPUEDEN COMPARARSE. INTERVALOS 2.LASDISTANCIASIGUALESENLAESCALA REPRESENTANVALORESIGUALESENLA CARACTERISTICAQUESEMIDE 3.ELPUNTOCEROESARBITRARIO 3 EL PUNTO CERO ES ARBITRARIO 1.ELPUNTOCEROESFIJO RELACION 1.EDAD 2.LARELACIONENTRELOSVALORESDELAESCALA 2.INGRESO 3.COSTOS SEPUEDECALCULAR 2.RANGO 1.TEMPERATURA (F, 1 TEMPERATURA (F C) 2.OPINIONES 3.INDICES 3.VARIANZA 3 VARIANZA 4.DESVIACIONESTANDAR 5.COEFICIENTECORRELACION 6.COEFICIENTEVARIACION 1.FRACTILES S O O SOCIAL 1.CLASE ECONOMICA SO 2.CALIDAD DEL CRUDO: (PESADO, LIVIANO) 2.MEDIANA
ORDINAL
VARIABLE ESTADISTICA
VA: REPRESENTA CARACTERISTICAS DE LOS ELEMENTOS QUE CONFORMAN VA: LA POBLACION O MUESTRA CLASIFICACION: CUALITATIVAS, CUANTITATIVAS
Variable
CUALITATIVA CATEGRICA
Ejemplos
Bueno Malo (CalidadAparato, Servicio) Pasa No pasa Pasa Nopasa Defecto NoDefecto Color N.PozosPerforados N D f A id F ll NmeroDefectos,Accidentes,Fallas NivelEducativo CategoraProfesional Temperatura p Presin Tiempo,Edad VolumendeCrudoExtrado Dureza PresinArterial Precios
Caractersticas
Atributos Cualidades ValoresEnteros NmeroCasos
Grficos
BARRAS SECTORES MOSAICOS
CUANTITATIVA DISCRETA
CUANTITATIVA CONTINUA
ValoresReales
VARIABLESDISCRETAS DIAGRAMAdeBARRAS.GRAFICOSDESECTORES(Carros.dat)
PROCEDIMIENTOSAS ANALYZE
DISTRIBUCIONDEFRECUENCIAS
Limite Clase 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Total Limite Punto Medio 14.3 16.9 19.4 22.0 24.6 27.1 27 1 29.7 32.3 34.9 37.4 40.0 40 0 42.6 45.1 47.7 Frecuencia Absoluta 1 11 19 10 12 20 14 18 22 11 5 3 3 1 150 Relativa 0.0067 0.0733 0.1267 0.0667 0.0800 0.1333 0 1333 0.0933 0.1200 0.1467 0.0733 0.0333 0 0333 0.0200 0.0200 0.0067 Frecuencia Acumulada Absoluta 1 12 31 41 53 73 87 105 127 138 143 146 149 150 Relativa 0.0067 0.0800 0.2067 0.2733 0.3533 0.4867 0 4867 0.5800 0.7000 0.8467 0.9200 0.9533 0 9533 0.9733 0.9933 1.0000 Inferior Superior 13.0 15.6 15.6 18.1 18.1 20.7 20.7 23.3 23.3 25.9 25.9 25 9 28.4 28 4 28.4 31.0 31.0 33.6 33.6 36.1 36.1 38.7 38.7 38 7 41.3 41 3 41.3 43.9 43.9 46.4 46.4 49.0
Q1
Q1=25%
X
Q2
RI=(Q3 Q1)
Q2=50%
Q3
Q3=75%
1.5(Q3 - Q1)
11
Tendencia creciente
Tendencia decreciente
Corrida de proceso
Valores anormales
Ciclo s
Variabilidad creciente
12
AGRAFICOSYTABLAS
GRAFICOS TABLAS UNIVARIANTES.MULTIVARIANTES TABLASDE FRECUENCIAS TABLASCRUZADAS MEDIAARITMETICA MEDIA ARITMETICA 1. TENDENCIACENTRAL MEDIANA MODA MAXIMO 2. POSICION (ORDEN) MINIMO ( , ) CUANTILES(CUARTILES,PERCENTILES) RANGO,RANGOINTERCUARTILICO 3. DISPERSION (VARIABILIDAD) VARIANZA,DESVIACIONESTNDAR COEFICIENTEDEVARIACION 4. FORMA ASIMETRIA(SESGO) CURTOSIS(ACHATAMIENTO) COVARIANZA CORRELACION
14
BMEDIDASDESCRIPTIVAS
5. ASOCIACION
15
4-MEDIDAS DE FORMA
19
HISTOGRAMAS y FORMAS
NORMAL
BIMODAL
INTERVALO VACIO
ASIMETRIA POSITIVA
ASIMETRIA NEGATIVA
UNIFORME
DATOS OUTLIERS
-3
-2
+2
+3
21
(PROC)
DEFINIDOS
CLASS =VARIABLES DE CLASIFICACIN EN EL ANLISIS. FREQ ID VAR =VARIABLE QUE INDICA LA FRECUENCIA DE OCURRENCIA =VARIABLES INDICADORAS EN LA SALIDA DEL PROCEDIMIENTO.
FORMAT=ESPECIFICA EL FORMATO. LABEL =ETIQUETAS DESCRIPTIVAS CON NOMBRES DE VARIABLES. TITLE =TITULO
PROC MEANS
PROC MEANS DATA=LIBRERA.ARCHIVO OPCIONES; BY CLASS FREQ FREQ ID WEIGHT VAR WEIGHT TYPES WAYS
OUTPUT=OUT= ARCHIVO/OPCIONES;
PROC MEANS
EJEMPLO 1
Data Notas;
Input Nombre $ Sexo $ Status $ Anio $ Seccion $ Nota1 Nota2;
Datalines; Alarcon F 2 97 A 90 87 Bravo M 1 98 A 92 97 Camacho M 2 98 B 81 71 Duran M 1 97 A 85 72 Espinoza F 1 98 B 89 80 Franco M 1 97 B 78 73 Garces F 2 97 A 82 91 Hernandez F 1 98 B 84 80 Montilla M 2 97 A 88 86 Navas M 1 97 B 91 93
PROC MEANS
EJEMPLO 2
Proc MEANS fw=6 data=Notas; Class Status Anio; Var Nota2; a ota ; Output out=sumstat1 mean=NotaPromedio idgrp; run; Proc print data=sumstat1 noobs; title1 'Notas '; run;
EJEMPLO 3
Proc MEANS fw=6 data=Notas Noprint; Class Status Anio; Var Nota2; Output out=sumstat2 mean=NotaPromedio idgrp (max(Nota2) obs out (Nombre)=MejorNota); run; Proc print d t P i t data=sumstat2 noobs; t t2 b title1 'Notas '; run; \DataSAS\html\3_MeansNotas.html
INPUT
libname clinica 'c:\DataSAS'; Data clinica.pacientes; Infile 'c:\DataSAS\pacientes.txt' lrecl=30 truncover; Input @1 PacNo $3. $3 @15 HR 3. PacN Sexo Visita HR SBP DBP Dx AE @4 Sexo $1 $1. @5 Visita mmddyy10 mmddyy10. @18 SBP 3. @21 DBP 3. @24 Dx $3. @27 AE $1.; = "Paciente Num" = "Genero" Genero = "Fecha Visita" = "Corazn Tasa" = "Presin Sistlica Presin Sistlica" = "Presin Diastlica" = "Diagnstico Cdigo" = "Evento Adverso? ;
001M11/11/1998 88140 80 002F11/13/1998 84120 78 003X10/21/1998 68190100 004F01/01/1999101200120 XX5M05/07/1998 68120 80 006 06/15/1999 72102 68 007M08/32/1998 88148102 M11/11/1998 90190100 008F08/08/1998210 / / 009M09/25/1999 86240180 010f10/19/1999 40120 011M13/13/1998 68300 20 012M10/12/98 60122 74 013208/23/1999 74108 64 014M02/02/1999 22130 90 002F11/13/1998 84120 78 003M11/12/1999 58112 74 015F 82148 88 017F04/05/1999208 84 019M06/07/1999 58118 70 123M15/12/1999 60 321F 900400200 020F99/99/9999 10 20 8 022M10/10/1999 48114 82 023f12/31/1998 22 34 78 024F11/09/199876 120 80 025M01/01/1999 74102 68 027FNOTAVAIL 02 FNOTAVAIL NA 166106 028F03/28/1998 66150 90 029M05/15/1998 006F07/07/1999 82148 84
10 X0 31 5A 10 61 0 0 70 41 10 41 0 1 1 X0 0 31 20 0 10 51 0 21 0 10 51 70 0 30 41 10
SEXO 2 F M X f
Frequency 1 12 14 1 2
Frequency Missing = 1
PROC FREQ
PROC FREQ DATA=LIBRERA.ARCHIVO OPCIONES; BY VARIABLES; EXACT ESTADSTICOS/OPCIONES; OUTPUT ESTADSTICOS OUT SAS DATA SET ; OUTPUT OUT=SAS-DATA TABLES /OPCIONES; TEST ESTADSTICOS; WEIGHT VARIABLE; RUN; RUN;
PROCPRINTconWHERE
PROC PRINT DATA li i DATA=clinica.pacientes; i t WHERE Sexo not in ('F','M') or VERIFY(DX,' 0123456789') ne 0 or AE not in ('0','1'); ( 0 1 ); TITLE "Lista de datos Invlidos"; ID PacN; VAR Sexo DX AE; run; Lista PacN
002 003 004 006 010 013 002 023
DX
X 3 1 6 1 1 X
AE
0 1 A 1 0 0 0
f 2 F f
HR
SBP
DBP
PROC MEANS
LIMPIANDO DATOS Y ELIMINANDO VARIABLES
Data Nuevo; ; Set clinica.pacientes (keep=PacN Sexo HR SBP DBP); IF sexo='M' or sexo ='F' or sexo ='m' or sexo ='f; IF sexo ='F' or sexo ='f' THEN sexo='F' ; Proc print data = nuevo; run;
Data clinica.pacientes; Infile 'c:\DataSAS\dat\pacientes.txt' lrecl=30 truncover; Input @1 PacN $3 @4 Sexo $1 @5 Visita mmddyy10 $3. $1. mmddyy10. @15 HR 3. @18 SBP 3. @21 DBP 3. @24 Dx $3. @27 AE $1.; Data Nuevo; Set clinica.pacientes (keep=PacN Sexo HR SBP DBP AE); If sexo='M' or sexo ='F' or sexo ='m' or sexo ='f' ; If sexo ='F' or sexo ='f' then sexo='F' ; Data Nuevo2; set nuevo; if AE ne '0' and AE ne '1' then delete ; if HR='.' and SBP='.' and DBP='.' then delete; Proc SORT DATA=Nuevo2; BY Sexo; run; Proc MEANS DATA=nuevo2 fw=6; ; By Sexo; Class AE; VAR HR SBP DBP; OUTPUT OUT=SalClinica1 MEAN=M_HR M_SBP M_DBP; MEAN=M HR M SBP M DBP; run; Proc Print data = salclinica1; run;
PROC MEANS
PROC MEANS DATA=nuevo NOPRINT; BY sexo; ; VAR HR SBP DBP; OUTPUT OUT=SalidaClin MEAN=M_HR M_SBP M_DBP; run; proc print data = salidaClin; run;
La Variable _TYPE_
CLASS Sexo AE;
Sexo F F M M
AE 0 1 0 1
_TYPE_ 3 3 3 3
_FREQ_ 11 2 8 5
M_SBP M_DBP 102.00 102 00 80.60 80 60 274.00 144.00 135.71 82.86 177.20 88.00
Estadsticas Disponibles
Los siguientes dos programas PROC MEANS usan la medida de precisin en el WEIGHT Al ponderar por precision, la estimacin del tamao del objeto est ms cerca del tamao real: Uso de VARDEF=DF Proc Means Data= TamaDist maxdec=3 n mean var std; weight prec; var tama; output out=wtstats var=Est_SigmaSq std=Est_Sigma; E Si S d E Si title1 'Anlisis del DS TamaDist con Peso usando Default VARDEF=DF'; run; u ; Uso de VARDEF=WEIGHT Proc Means Data TamaDist maxdec 3 n mean var std Data=TamaDist maxdec=3 vardef=weight; weight prec; ; var tama; title1 'Anlisis del DS TamaDist con Peso usando VARDEF=WEIGHT'; run; ..\..\..\..\..\DataSAS\html\3_ProcMeansWeight.html
Programa P Ensayo Se calculan las estadstica de las variables en Var, para las combinaciones que son posible con los valores de las variables ledas en el programa ensayo.
..\..\..\..\..\DataSAS\html\3_ProcMeansIC.html
PROC UNIVARIATE
PROC UNIVARIATE DATA=LIBRERA ARCHIVO OPCIONES: DATA=LIBRERA.ARCHIVO BY VARIABLES; CLASS VARIABLES/OPCIONES; FREQ VARIABLE; ID VARIABLES; HISTOGRAM VARIABLE/ OPCIONES; HISTOGRAM ID VARIABLES; INSET ESTADSTICOS OUTPUT O O OUT=ARCHIVO=NOMBRE VARIABLES; C O O S PROBPLOT VARIABLES/OPCIONES; QQPLOT VARIABLES/OPCIONES; ; VAR VARIABLES ;
Extreme Observations
--------Lowest-------Value PAcN Obs 8 020 23 20 011 12 64 013 14 68 025 27 68 006 6 --------Highest------Value PAcN Obs 106 027 28 120 004 4 120 010 11 180 009 10 200 321 22
NEXTROBSOptionPROCUNIVARIATE
ODS SELECT EXTREMEOBS; PROC UNIVARIATE data=clinica.pacientes NEXTROBS=3; VAR HR SBP DBP; ; ID PAcN; RUN;
Procedimiento UNIVARIATE Variable: DBP (Presin Diastlica) Extreme Observations --------Lowest-------Value PATNO Obs 8 020 23 20 011 12 64 013 14 --------Highest------Value PATNO Obs 120 010 11 180 009 10 200 321 22