Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Paquete de Programas para El An Alisis y Manejo de Datos Desarrollado Internacionalmente
Paquete de Programas para El An Alisis y Manejo de Datos Desarrollado Internacionalmente
Paquete de Programas
para el An
alisis y Manejo de Datos
Desarrollado Internacionalmente
Abril de 2008
c UNESCO 2001-2008
Copyright
Publicado por
UNESCO, Organizaci
on de las Naciones Unidas
para la Educacion, la Ciencia y la Cultura
7, Place de Fontenoy
75352 Paris 07 SP, Francia
Traduccion en espa
nol:
Prof. Bernardo LIEVANO
Profesor de Fisica y Matem
aticas
Escuela Colombiana de Ingeniera, Bogota, Colombia
Prefacio
Objetivos de IDAMS
La idea en IDAMS, es poner a disposicion de los Estados Miembros de UNESCO, exento de costo, un
paquete de programas para el manejo y el analisis estadstico de datos. IDAMS utilizado en combinaci
on con
CDS/ISIS (programas de UNESCO para la administracion y recuperaci
on de datos de texto), entrega a los
Estados Miembros de un paquete de programas integrado que permite el procesamiento de datos de texto
y numericos de una manera unificada para prop
osito cientfico y administrativo en universidades, institutos
de investigacion, administraciones nacionales, etc. El objetivo final es ayudar a los Estados Miembros a
progresar en la racionalizaci
on del manejo de sus diversos sectores de actividad, objetivo crucial para el
establecimiento de planes de desarrollo adecuados y las correspondientes monitoras de su ejecuci
on.
II
La primera versi
on (1.0) sali
o en 1989, con las mismas facilidades de la versi
on para computadores
grandes.
La versi
on 2.0 sali
o en 1990 y era totalmente compatible con la versi
on para OS. Es mas, suministraba en
la Interfaz del Usuario, facilidades para preparar el diccionario, entrada de datos, preparacion y ejecuci
on
de archivos de setup e impresion de resultados.
La versi
on 3.0 apareci
o en 1992 junto con la versi
on para OS. Sin embargo, la Interfaz del Usuario era
mucho mas amigable ya que tena nuevos editores para el diccionario y los datos, ofreca un acceso directo
a prototipos de setup para todos los programas y se enriqueci
o con un modulo para exploraci
on interactiva
gr
afica.
Las dos versiones intermedias (3.02 y 3.04) que salieron en 1993 y 1994 respectivamente, incluan mejoras
tecnicas internas y la depuraci
on de los programas. La versi
on 3.02 fue la u
ltima totalmente compatible con
la versi
on de computadores grandes.
La existencia independiente de micro IDAMS comenz
o en 1993. Los programas se sometieron a pruebas
completas y sistem
aticas, especialmente en el
area del manejo de errores del usuario y se hizo una depuracion
total.
La versi
on 4.0 que apareci
o en 1996 (
ultima versi
on para DOS) incluye una Interfaz del Usuario mas amigable, posibilidad de ambiente personalizado, Manual del Usuario en linea, lenguaje de control simplificado,
nuevas modalidades de presentacion gr
afica y capacidad de producir versiones en distintos idiomas. Dos
nuevos programas aparecieron para dar al usuario tecnicas de analisis de conglomerados y de b
usqueda de
estructura. Se reorganiz
o el Manual del Usuario para presentar los t
opicos de una manera mas concisa y mas
f
acil de consultar. Inicialmente estaba solo en ingles.
Desde 1998, la versi
on 4 se desarroll
o progresivamente en Espa
nol, Frances, Arabe y Ruso.
2000: primera versi
on de IDAMS para Windows y desarollo posterior
La versi
on 1.0 de IDAMS para el sistema operativo grafico Windows de 32 bits se puso a prueba en 2000
y su distribuci
on se inici
o en 2001. Ofrece una moderna Interfaz del Usuario, nuevas caractersticas para
facilitar el uso y acceso en lnea al Manual de Referencia con la ayuda est
andar de Windows. Nuevos componentes interactivos de analisis suministran herramientas para construcci
on de tablas multidimensionales,
la exploraci
on grafica de datos y analisis de series de tiempo.
La versi
on 1.1 sali
o en septiembre de 2002 con las siguientes mejoras: (1) externalizaci
on de textos para
el uso de los programas en otros idiomas ademas del ingles; (2) concordancia de los textos en los resultados.
Fue una primera versi
on para Windows que aparecio en ingles, frances y espa
nol.
La versi
on 1.2 sali
o en julio de 2004 en ingles, frances y espa
nol, y contiene nuevas funciones en tres
programas, en la Interfaz del Usuario, y en los componentes interactivos para la exploraci
on grafica de datos
y el analisis de series de tiempo. Ella sali
o en abril 2006 en portugues.
La versi
on 1.3 sali
o igualmente en ingles, frances, espa
nol y portugues, y contiene un nuevo programa para
analisis de variancia multivariado (MANOVA), c
alculo de coeficiente de variabilidad en cuadro programas,
mejora de tratamiento de variables de Recode con decimales en SCAT y TABLES, y armonizacion completa
de la longitud de registro de datos.
Reconocimientos
En primer lugar, se debe agradecer al profesor Frank-M. Andrews ( 1994) del Instituto para la Investigacion
en Ciencias Sociales de la Universidad de Michigan, Estados Unidos de America, y a este Instituto el cual
autorizo a UNESCO tomar el c
odigo fuente de OSIRIS III.2 para usarlo en el desarrollo del paquete de
programas IDAMS. A partir de entonces, continu
o el aporte de adiciones y mejoras sustanciales. En este
aspecto, fueron particularmente importantes: el Dr. Jean-Paul Aimetti, Administrador de D.H.E. Conseil,
Paris y profesor en el Conservatoire National des Arts et Metiers (CNAM), Pars (Francia); los profesores J.P. Benzecri y E.-R. Iagolnitzer, U.E.R. de Mathematiques, Universite de Pars V (Francia); el ingeniero Tibor
Diamant y el Dr. Zoltan Vas de la Universidad Jozsef Attila, Szeged (Hungra); la profesora Anne-Marie
Dussaix, Ecole Superieure des Sciences Economiques et Commerciales (ESSEC), Cergy-Pontoise (Francia);
el Dr. Igor S. Enyukov y el ingeniero Nicola D. Vylegjanin, StatPoint, Mosc
u (Federacion Rusa); el Dr
III
Peter Hunya, quien fue Director del Laboratorio Kalmar de Cibernetica, Universidad Jozsef Attila, Szeged
(Hungra), y quien fue el Administrador del Programa IDAMS en UNESCO entre julio 1993 y febrero 2001;
Jean Massol, EOLE, Pars (Francia); la profesora Anne Morin, Institut de Recherche en Informatique et
Syst`emes Aleatoires (IRISA), Rennes (Francia); Judith Rattenbury, ex-directora, Data Processing Division,
World Fertility Survey, Londres y actualmente fundadora y cabeza de publicaciones SJ MUSIC, Cambridge
(Reino Unido); J.M. Romeder y la Association pour le Developpement et la Diffusion de lAnalyse des
Donnees (ADDAD), Pars (Francia); el profesor Peter J. Rousseeuw, Universitaire Instelling Antwerpen,
Amberes (Belgica); el Dr. A.V. Skofenko, Academia de Ciencias, Kiev (Ucrania); el ingeniero Neal Van Eck,
Philadelphia College of Textiles and Science, Philadelphia (EEUU); Nicole Visart quien lanzo el programa
IDAMS y quien, en adici
on a sus contribuciones tecnicas en todas las etapas, aseguro la coordinaci
on y el
monitoreo de todo el proyecto hasta su retiro en 1992.
Es imposible dar el credito a todas las personas, ademas de las mencionadas, quienes han contribuido con
ideas y esfuerzo para IDAMS y para OSIRIS III.2 del cual se derivo IDAMS. Hasta ahora, IDAMS se
desarrolla principalmente en UNESCO. A continuacion se presenta una lista de los principales programas,
componentes y facilidades incluidas en IDAMS, con los nombres de sus autores y programadores, y las
instituciones en las cuales se llev
o a cabo el trabajo.
Interfaz del Usuario y facilidades b
asicas
Recodificacion de datos
Ellen Grun
Peter Solenberger
Tibor Diamant
Jean-Claude Dauphin
ISR
ISR
UNESCO
UNESCO
Jean-Claude Dauphin
UNESCO
Acceso en lnea al
Manual del Usuario
Pawel Hoser
Jean-Claude Dauphin
CHECK
CONCHECK
CORRECT
IMPEX
LIST
MERCHECK
MERGE
SORMER
SUBSET
TRANS
Tina Bixby
Jean-Claude Dauphin
Carl Bixby
Sylvia Barge
Tibor Diamant
Tina Bixby
Jean-Claude Dauphin
Neal Van Eck
Tibor Diamant
Peter Hunya
Marianne Stover
Sylvia Barge
Jean-Claude Dauphin
Karen Jensen
Sylvia Barge
Zoltan Vas
Tina Bixby
Nancy Barkman
Jean-Claude Dauphin
Carol Cassidy
Jean-Claude Dauphin
Judy Mattson
Judith Rattenbury
Jean-Claude Dauphin
Jean-Claude Dauphin
ISR
UNESCO
ISR
ISR
UNESCO
ISR
UNESCO
Van Eck Computing Consulting
UNESCO
UNESCO
ISR
ISR
UNESCO
ISR
ISR
JATE
ISR
ISR
UNESCO
ISR
UNESCO
ISR
ISR
UNESCO
UNESCO
IV
Facilidades para el an
alisis de datos
CLUSFIND
CONFIG
DISCRAN
FACTOR
MANOVA
MCA
MDSCAL
ONEWAY
PEARSON
POSCOR
QUANTILE
RANK
REGRESSN
SCAT
SEARCH
TABLES
TYPOL
Tablas multidimensionales
GraphID
TimeSID
Leonard Kaufman
Peter J. Rousseeuw
Neal Van Eck
Tibor Diamant
Herbert Weisberg
J.-M. Romeder
and ADDAD
Peter Hunya
Tibor Diamand
J.P. Benzecri,
E.R. Iagolnitzer
Peter Hunya
Charles E. Hall
Elliot M. Cramer
Neal Van Eck
Tibor Diamand
Edwin Dean
John Sonquist
Tibor Diamant
Joseph Kruskal
Frank Carmone
Lutz Erbring
Spyros Magliveras
Tibor Diamant
John Sonquist
Spyros Magliveras
Neal Van Eck
Ronald Nuttal
Tibor Diamant
Peter Hunya
Robert Messenger
Tibor Diamant
Anne-Marie Dussaix
Albert David
Peter Hunya
A.V. Skofenko
M.A. Efroymson
Bob Hsieh
Neal Van Eck
Peter Solenberger
Judith Goldberg
John Sonquist
Elizabeth Lauch Baker
James N. Morgan
Neal Van Eck
Tibor Diamant
Neal Van Eck
Tibor Diamant
Jean-Paul Aimetti
Jean Massol
Peter Hunya
Jean-Claude Dauphin
Jean-Claude Dauphin
Igor S. Enyukov
Nicola D. Vylegjanin
Igor S. Enyukov
Con relaci
on a la documentaci
on, se debe agradecer a todas las personas que han aportado su colaboraci
on, en particular a Judith Rattenbury quien redact
o la primera versi
on del Manual en ingles (1988)
as como la revision de las versiones posteriores hasta 1998; Jean-Paul Griset (UNESCO, Paris) quien concibio junto con Nicole Visart el dise
no tipogr
afico utilizado para el Manual hasta 1998; Teresa Krukowska
(grupo IDAMS, UNESCO, Paris) quien compilo los captulos de las formulas estadsticas y a partir de 1998
mantiene al da la versi
on original inglesa, hizo el nuevo dise
no tipogr
afico y es responsable de la produccion
electronica de las versiones en ingles, espa
nol, frances y portugues, y se hace cargo de la concordancia de los
textos en ingles, espa
nol, frances y portugues hasta donde esto es posible.
Reconocimientos a los autores de los documentos de OSIRIS de los cuales se tomo material para el Manual
del Usuario de WinIDAMS, as: Volumen 1 del Manual del Usuario de OSIRIS III.2 (editado por Sylvia
Barge y Gregory A. Marks) y el Volumen 5 (compilado por Laura Klem), Insituto para la Investigacion
Social, Universidad de Michigan, Estados Unidos de America.
De la misma manera, se agradece la cooperaci
on a los traductores de la documentacion y del paquete de
software en espa
nol, frances y portugues:
Profesor Jose Raimundo Carvalho, CAEN P
os-graduacao em Economia, UFC, Fortaleza, Brasil, por
la traducci
on del Manual y de los textos que hacen parte integral de los programas en portugues.
Profesor Bernardo Lievano, Escuela Colombiana de Ingeniera (ECI) Bogota, Colombia, por la traduccion del Manual y de los textos que hacen parte integral de los programas en espa
nol.
Profesora Anne Morin, Institut de Recherche en Informatique et Syst`emes Aleatoires (IRISA), Rennes,
Francia, por su contribuci
on a la traducci
on de los textos que hacen parte integral de los programas
en frances.
Nicole Visart, Grez-Doiceau, Belgica, por la traducci
on del Manual en frances.
Las siguientes instituciones se han encargado de las traducciones en arabe y en ruso del paquete y del Manual:
ALECSO - Departmento de Documentacion e Informaci
on, T
unez, T
unez, y Universidad Hidrometeorol
ogica
del Estado Ruso, Departmento de Telecomunicaciones, San Petersburgo, Federacion Rusa.
Indice general
1. Introducci
on
1.1. Interfaz del Usuario de WinIDAMS . . . . . . .
1.2. Facilidades para el manejo de datos . . . . . . .
1.3. Facilidades para el analisis de datos . . . . . .
1.4. Los datos en IDAMS . . . . . . . . . . . . . . .
1.5. Comandos de IDAMS y el archivo Setup . . . .
1.6. Caractersticas est
andar de IDAMS . . . . . . .
1.7. Importacion y exportacion de datos . . . . . .
1.8. Intercambio de datos entre CDS/ISIS e IDAMS
1.9. Estructura de este Manual . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Nociones fundamentales
1
1
2
3
5
5
5
6
6
7
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
11
11
11
11
11
11
12
12
12
13
13
13
14
14
16
16
17
18
20
20
20
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
21
21
21
23
23
25
25
25
25
27
27
31
. . . . . . .
. . . . . . .
. . . . . . .
de archivos
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE GENERAL
VIII
4. Facilidad Recode
4.1. Reglas de codificacion . . . . . . . . . . . . . . . . . . . . . .
4.2. Conjunto de muestra de proposiciones Recode . . . . . . . . .
4.3. Tratamiento de datos faltantes . . . . . . . . . . . . . . . . .
4.4. Como funciona Recode . . . . . . . . . . . . . . . . . . . . . .
4.5. Operandos b
asicos . . . . . . . . . . . . . . . . . . . . . . . .
4.6. Operadores b
asicos . . . . . . . . . . . . . . . . . . . . . . . .
4.7. Expresiones . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8. Funciones aritmeticas . . . . . . . . . . . . . . . . . . . . . .
4.9. Funciones logicas . . . . . . . . . . . . . . . . . . . . . . . . .
4.10. Proposiciones de asignacion . . . . . . . . . . . . . . . . . . .
4.11. Proposiciones especiales de asignacion . . . . . . . . . . . . .
4.12. Proposiciones de control . . . . . . . . . . . . . . . . . . . . .
4.13. Proposiciones condicionales . . . . . . . . . . . . . . . . . . .
4.14. Proposiciones de definicion/de asignacion de valores iniciales
4.15. Ejemplos de uso de proposiciones de Recode . . . . . . . . . .
4.16. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.17. Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
33
33
33
34
34
35
35
36
37
45
46
47
48
50
50
52
54
55
5. Manejo y an
alisis de datos
5.1. Validaci
on de datos con IDAMS . . . . . . . . . . . . .
5.1.1. Visi
on general . . . . . . . . . . . . . . . . . . .
5.1.2. Verificacion si los datos son completos . . . . .
5.1.3. Detecci
on de valores no numericos e invalidos .
5.1.4. Verificacion de consistencia . . . . . . . . . . .
5.2. Manejo/transformaci
on de datos . . . . . . . . . . . .
5.3. Analisis de datos . . . . . . . . . . . . . . . . . . . . .
5.4. Ejemplo de un peque
no trabajo a ejecutar con IDAMS
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
57
57
57
58
58
59
59
60
60
II
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6. Instalaci
on
6.1. Requisitos del sistema . . . . . . . . .
6.2. Procedimiento de instalaci
on . . . . .
6.3. Prueba de la instalaci
on . . . . . . . .
6.4. Archivos y carpetas creados durante la
6.4.1. Carpetas de WinIDAMS . . . .
6.4.2. Archivos instalados . . . . . . .
6.5. Desintalacion . . . . . . . . . . . . . .
63
. . . . . . .
. . . . . . .
. . . . . . .
instalaci
on
. . . . . . .
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
65
65
65
65
66
66
66
67
7. Primeros pasos
7.1. Visi
on general de los etapas con WinIDAMS . . . .
7.2. Creaci
on de un ambiente de aplicacion . . . . . . .
7.3. Preparaci
on del diccionario . . . . . . . . . . . . .
7.4. Captura de datos . . . . . . . . . . . . . . . . . . .
7.5. Preparaci
on del setup . . . . . . . . . . . . . . . .
7.6. Ejecuci
on del setup . . . . . . . . . . . . . . . . . .
7.7. Revisi
on de los resultados y modificacion del setup
7.8. Impresi
on de los resultados . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
69
69
70
71
73
75
76
76
78
8. Archivos y carpetas
79
8.1. Archivos en WinIDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
8.2. Las carpetas en WinIDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9. Interfaz del Usuario
9.1. Concepto general . . . . . . . . . . . . . . . . . . . .
9.2. Men
us comunes a todas las ventanas de WinIDAMS
9.3. Personalizacion del ambiente para una aplicacion . .
9.4. Crear/actualizar/mostrar archivos Diccionario . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
81
81
82
83
85
INDICE GENERAL
IX
III
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
texto y RTF
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
10.Agrupaci
on de datos (AGGREG)
10.1. Descripci
on general . . . . . . . . . . .
10.2. Caractersticas est
andar de IDAMS . .
10.3. Resultados . . . . . . . . . . . . . . . .
10.4. Dataset de salida . . . . . . . . . . . .
10.5. Dataset de entrada . . . . . . . . . . .
10.6. Estructura del setup . . . . . . . . . .
10.7. Proposiciones de control del programa
10.8. Restricciones . . . . . . . . . . . . . .
10.9. Ejemplo . . . . . . . . . . . . . . . . .
87
89
90
91
92
92
94
95
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
97
97
98
98
98
99
100
100
102
102
11.Construcci
on de un dataset IDAMS (BUILD)
11.1. Descripci
on general . . . . . . . . . . . . . . . .
11.2. Caractersticas est
andar de IDAMS . . . . . . .
11.3. Resultados . . . . . . . . . . . . . . . . . . . . .
11.4. Dataset de salida . . . . . . . . . . . . . . . . .
11.5. Diccionario de entrada . . . . . . . . . . . . . .
11.6. Datos de entrada . . . . . . . . . . . . . . . . .
11.7. Estructura del setup . . . . . . . . . . . . . . .
11.8. Proposiciones de control del programa . . . . .
11.9. Ejemplos . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
103
103
104
104
105
105
106
106
106
107
12.Verificaci
on de c
odigos (CHECK)
12.1. Descripci
on general . . . . . . . . . . .
12.2. Caractersticas est
andar de IDAMS . .
12.3. Resultados . . . . . . . . . . . . . . . .
12.4. Dataset de entrada . . . . . . . . . . .
12.5. Estructura del setup . . . . . . . . . .
12.6. Proposiciones de control del programa
12.7. Restricciones . . . . . . . . . . . . . .
12.8. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
109
109
109
109
110
110
110
112
112
13.Verificaci
on de consistencia (CONCHECK)
13.1. Descripci
on general . . . . . . . . . . . . . . .
13.2. Caractersticas est
andar de IDAMS . . . . . .
13.3. Resultados . . . . . . . . . . . . . . . . . . . .
13.4. Dataset de entrada . . . . . . . . . . . . . . .
13.5. Estructura del setup . . . . . . . . . . . . . .
13.6. Proposiciones de control del programa . . . .
13.7. Restricciones . . . . . . . . . . . . . . . . . .
13.8. Ejemplos . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
115
115
115
115
116
116
116
118
118
14.Verificaci
on de intecalaci
on de registros (MERCHECK)
14.1. Descripci
on general . . . . . . . . . . . . . . . . . . . . . . .
14.2. Caractersticas est
andar de IDAMS . . . . . . . . . . . . . .
14.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14.4. Datos de salida . . . . . . . . . . . . . . . . . . . . . . . . .
14.5. Datos de entrada . . . . . . . . . . . . . . . . . . . . . . . .
14.6. Estructura del setup . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
121
121
123
123
123
124
124
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE GENERAL
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
129
129
129
130
130
130
130
131
132
132
16.Importaci
on/exportaci
on de datos (IMPEX)
16.1. Descripci
on general . . . . . . . . . . . . . . .
16.2. Caratersticas est
andar de IDAMS . . . . . .
16.3. Resultados . . . . . . . . . . . . . . . . . . . .
16.4. Archivos de salida . . . . . . . . . . . . . . .
16.5. Archivos de entrada . . . . . . . . . . . . . .
16.6. Estructura del setup . . . . . . . . . . . . . .
16.7. Proposiciones de control del programa . . . .
16.8. Restricciones . . . . . . . . . . . . . . . . . .
16.9. Ejemplos . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
135
135
135
136
136
137
139
139
142
142
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
145
145
145
145
146
146
147
147
148
18.Intercalaci
on de datasets (MERGE)
18.1. Descripci
on general . . . . . . . . . . .
18.2. Caractersticas est
andar de IDAMS . .
18.3. Resultados . . . . . . . . . . . . . . . .
18.4. Dataset de salida . . . . . . . . . . . .
18.5. Dataset de entrada . . . . . . . . . . .
18.6. Estructura del setup . . . . . . . . . .
18.7. Proposiciones de control del programa
18.8. Restricciones . . . . . . . . . . . . . .
18.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
149
149
149
150
150
152
152
153
155
155
19.Clasificaci
on e intercalaci
on de archivos (SORMER)
19.1. Descripci
on general . . . . . . . . . . . . . . . . . . . .
19.2. Caractersticas est
andar de IDAMS . . . . . . . . . . .
19.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . .
19.4. Diccionario de salida . . . . . . . . . . . . . . . . . . .
19.5. Datos de salida . . . . . . . . . . . . . . . . . . . . . .
19.6. Diccionario de entrada . . . . . . . . . . . . . . . . . .
19.7. Datos de entrada . . . . . . . . . . . . . . . . . . . . .
19.8. Estructura del setup . . . . . . . . . . . . . . . . . . .
19.9. Proposiciones de control del programa . . . . . . . . .
19.10.Restricciones . . . . . . . . . . . . . . . . . . . . . . .
19.11.Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
157
157
157
157
157
157
158
158
158
159
159
160
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE GENERAL
XI
20.Subdivisi
on de datasets (SUBSET)
20.1. Descripci
on general . . . . . . . . . . .
20.2. Caractersticas est
andar de IDAMS . .
20.3. Resultados . . . . . . . . . . . . . . . .
20.4. Dataset de salida . . . . . . . . . . . .
20.5. Dataset de entrada . . . . . . . . . . .
20.6. Estructura del setup . . . . . . . . . .
20.7. Proposiciones de control del programa
20.8. Restricciones . . . . . . . . . . . . . .
20.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
161
161
161
161
162
162
162
163
164
164
21.Transformaci
on de datos (TRANS)
21.1. Descripci
on general . . . . . . . . . . .
21.2. Caractersticas est
andar de IDAMS . .
21.3. Resultados . . . . . . . . . . . . . . . .
21.4. Dataset de salida . . . . . . . . . . . .
21.5. Dataset de entrada . . . . . . . . . . .
21.6. Estructura del setup . . . . . . . . . .
21.7. Proposiciones de control del programa
21.8. Restricciones . . . . . . . . . . . . . .
21.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
165
165
165
165
165
166
166
167
168
168
IV
Facilidades para an
alisis de datos
171
22.An
alisis de conglomerados (CLUSFIND)
22.1. Descripci
on general . . . . . . . . . . . . .
22.2. Caractersticas est
andar de IDAMS . . . .
22.3. Resultados . . . . . . . . . . . . . . . . . .
22.4. Dataset de entrada . . . . . . . . . . . . .
22.5. Matriz de entrada . . . . . . . . . . . . .
22.6. Estructura del setup . . . . . . . . . . . .
22.7. Proposiciones de control del programa . .
22.8. Restricciones . . . . . . . . . . . . . . . .
22.9. Ejemplos . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
173
173
173
173
174
175
175
175
177
178
23.An
alisis de configuraci
on (CONFIG)
23.1. Descripci
on general . . . . . . . . . . .
23.2. Caractersticas est
andar de IDAMS . .
23.3. Resultados . . . . . . . . . . . . . . . .
23.4. Matriz de configuracion de salida . . .
23.5. Matriz de distancias de salida . . . . .
23.6. Matriz de configuracion de entrada . .
23.7. Estructura del setup . . . . . . . . . .
23.8. Proposiciones de control del programa
23.9. Restricci
on . . . . . . . . . . . . . . .
23.10.Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
179
179
179
179
180
180
180
181
181
183
183
24.An
alisis discriminatorio (DISCRAN)
24.1. Descripci
on general . . . . . . . . . . .
24.2. Caractersticas est
andar de IDAMS . .
24.3. Resultados . . . . . . . . . . . . . . . .
24.4. Dataset de salida . . . . . . . . . . . .
24.5. Dataset de entrada . . . . . . . . . . .
24.6. Estructura del setup . . . . . . . . . .
24.7. Proposiciones de control del programa
24.8. Restricciones . . . . . . . . . . . . . .
24.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
185
185
185
186
186
187
187
188
190
190
25.Funciones de distribuci
on y de Lorenz (QUANTILE)
191
INDICE GENERAL
XII
25.1. Descripci
on general . . . . . . . . . . .
25.2. Caractersticas est
andar de IDAMS . .
25.3. Resultados . . . . . . . . . . . . . . . .
25.4. Dataset de entrada . . . . . . . . . . .
25.5. Estructura del setup . . . . . . . . . .
25.6. Proposiciones de control del programa
25.7. Restricciones . . . . . . . . . . . . . .
25.8. Ejemplo . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
191
191
191
192
192
192
194
194
26.An
alisis factorial (FACTOR)
26.1. Descripci
on general . . . . . . . . . . .
26.2. Caractersticas est
andar de IDAMS . .
26.3. Resultados . . . . . . . . . . . . . . . .
26.4. Dataset(s) de salida . . . . . . . . . .
26.5. Dataset de entrada . . . . . . . . . . .
26.6. Estructura del setup . . . . . . . . . .
26.7. Proposiciones de control del programa
26.8. Restricciones . . . . . . . . . . . . . .
26.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
197
197
197
198
198
199
199
200
203
203
27.Regresi
on lineal (REGRESSN)
27.1. Descripci
on general . . . . . . . . . . .
27.2. Caractersticas est
andar de IDAMS . .
27.3. Resultados . . . . . . . . . . . . . . . .
27.4. Matriz de correlaci
on de salida . . . .
27.5. Dataset de residuos de salida . . . . .
27.6. Dataset de entrada . . . . . . . . . . .
27.7. Matriz de correlaci
on de entrada . . .
27.8. Estructura del setup . . . . . . . . . .
27.9. Proposiciones de control del programa
27.10.Restricciones . . . . . . . . . . . . . .
27.11.Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
205
205
206
207
207
208
208
208
209
209
212
212
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
215
215
216
216
217
217
217
218
218
218
220
220
29.An
alisis de clasificaci
on m
ultiple (MCA)
29.1. Descripci
on general . . . . . . . . . . . . .
29.2. Caractersticas est
andar de IDAMS . . . .
29.3. Resultados . . . . . . . . . . . . . . . . . .
29.4. Dataset(s) de residuos de salida . . . . . .
29.5. Dataset de entrada . . . . . . . . . . . . .
29.6. Estructura del setup . . . . . . . . . . . .
29.7. Proposiciones de control del programa . .
29.8. Restricciones . . . . . . . . . . . . . . . .
29.9. Ejemplos . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
221
221
222
222
224
224
225
225
227
227
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
30.An
alisis multivariado de variancia (MANOVA)
231
30.1. Descripci
on general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
30.2. Caractersticas est
andar de IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
INDICE GENERAL
30.3. Resultados . . . . . . . . . .
30.4. Dataset de entrada . . . . .
30.5. Estructura del setup . . . .
30.6. Proposiciones de control del
30.7. Restricciones . . . . . . . .
30.8. Ejemplos . . . . . . . . . .
XIII
. . . . . .
. . . . . .
. . . . . .
programa
. . . . . .
. . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
232
233
234
234
236
236
31.An
alisis de variancia de una entrada (ONEWAY)
31.1. Descripci
on general . . . . . . . . . . . . . . . . . .
31.2. Caractersticas est
andar de IDAMS . . . . . . . . .
31.3. Resultados . . . . . . . . . . . . . . . . . . . . . . .
31.4. Dataset de entrada . . . . . . . . . . . . . . . . . .
31.5. Estructura del setup . . . . . . . . . . . . . . . . .
31.6. Proposiciones de control del programa . . . . . . .
31.7. Restricciones . . . . . . . . . . . . . . . . . . . . .
31.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
239
239
239
239
240
241
241
242
243
casos (POSCOR)
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
245
245
245
246
246
246
247
247
250
250
33.Correlaci
on de Pearson (PEARSON)
33.1. Descripci
on general . . . . . . . . . . .
33.2. Caractersticas est
andar de IDAMS . .
33.3. Resultados . . . . . . . . . . . . . . . .
33.4. Matrices de salida . . . . . . . . . . .
33.5. Dataset de entrada . . . . . . . . . . .
33.6. Estructura del setup . . . . . . . . . .
33.7. Proposiciones de control del programa
33.8. Restricciones . . . . . . . . . . . . . .
33.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
253
253
253
254
255
255
255
256
257
257
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
259
259
260
260
261
262
263
264
265
35.Diagramas de dispersi
on (SCAT)
35.1. Descripci
on general . . . . . . . . . . .
35.2. Caractersticas est
andar de IDAMS . .
35.3. Resultados . . . . . . . . . . . . . . . .
35.4. Dataset de entrada . . . . . . . . . . .
35.5. Estructura del setup . . . . . . . . . .
35.6. Proposiciones de control del programa
35.7. Restricciones . . . . . . . . . . . . . .
35.8. Ejemplo . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
267
267
267
268
268
269
269
270
271
36.B
usqueda de estructura (SEARCH)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
273
INDICE GENERAL
XIV
36.1. Descripci
on general . . . . . . . . . . .
36.2. Caractersticas est
andar de IDAMS . .
36.3. Resultados . . . . . . . . . . . . . . . .
36.4. Dataset de residuos de salida . . . . .
36.5. Dataset de entrada . . . . . . . . . . .
36.6. Estructura del setup . . . . . . . . . .
36.7. Proposiciones de control del programa
36.8. Restricciones . . . . . . . . . . . . . .
36.9. Ejemplos . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
273
273
274
274
275
275
275
278
278
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
281
281
282
282
284
284
284
285
285
290
291
38.Tipologa y clasificaci
on ascendente (TYPOL)
38.1. Descripci
on general . . . . . . . . . . . . . . . .
38.2. Caractersticas est
andar de IDAMS . . . . . . .
38.3. Resultados . . . . . . . . . . . . . . . . . . . . .
38.4. Dataset de salida . . . . . . . . . . . . . . . . .
38.5. Matriz de configuracion de salida . . . . . . . .
38.6. Dataset de entrada . . . . . . . . . . . . . . . .
38.7. Matriz de configuracion de entrada . . . . . . .
38.8. Estructura del setup . . . . . . . . . . . . . . .
38.9. Proposiciones de control del programa . . . . .
38.10.Restricciones . . . . . . . . . . . . . . . . . . .
38.11.Ejemplos . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
293
293
293
294
295
295
295
296
296
296
299
299
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
An
alisis interactivo de datos
301
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
303
303
303
305
306
307
309
40.Exploraci
on gr
afica de datos
40.1. Visi
on general . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40.2. Preparaci
on del analisis . . . . . . . . . . . . . . . . . . . . . .
40.3. Ventana principal de GraphID para analisis de un dataset . . .
40.3.1. Barra de men
u y barra de herramientas . . . . . . . . .
40.3.2. Manipulacion de la matriz de graficos de dispersi
on . . .
40.3.3. Histogramas y densidades . . . . . . . . . . . . . . . . .
40.3.4. Lneas de regresion (Lneas suavizadas) . . . . . . . . .
40.3.5. Diagramas de caja y bigotes . . . . . . . . . . . . . . . .
40.3.6. Grafico agrupado . . . . . . . . . . . . . . . . . . . . . .
40.3.7. Diagramas de dispersi
on tridimensionales y su rotacion
40.4. Ventana de GraphID para analisis de una matriz . . . . . . . .
40.4.1. Barra de men
u y barra de herramientas . . . . . . . . .
40.4.2. Manipulacion de la matriz en pantalla . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
313
313
313
313
314
316
318
318
319
320
320
321
321
322
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE GENERAL
XV
41.An
alisis de series de tiempo
41.1. Visi
on general . . . . . . . . . . . . . . . . . . .
41.2. Preparaci
on del analisis . . . . . . . . . . . . .
41.3. Ventana principal de TimeSID . . . . . . . . .
41.3.1. Barra de men
u y barra de herramientas
41.3.2. Ventana de series de tiempo . . . . . . .
41.4. Transformaci
on de series de tiempo . . . . . . .
41.5. Analisis de series de tiempo . . . . . . . . . . .
VI
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
F
ormulas estadsticas y referencias bibliogr
aficas
323
323
323
323
324
326
327
328
331
42.An
alisis de conglomerados
42.1. Estadsticas univariadas . . . . . . . . . . . . . . . . . . . . . . . . . .
42.2. Medidas estandarizadas . . . . . . . . . . . . . . . . . . . . . . . . . .
42.3. Matriz de disimilitudes calculada a partir de un dataset de IDAMS . .
42.4. Matriz de disimilitudes calculada a partir de una matriz de similitudes
42.5. Matrix de disimilitudes calculada a partir de una matriz de correlaci
on
42.6. Reparticion alrededor de medoides (PAM) . . . . . . . . . . . . . . . .
42.7. Reparticion para grandes datasets (CLARA) . . . . . . . . . . . . . .
42.8. Conglomeraci
on difusa (FANNY) . . . . . . . . . . . . . . . . . . . . .
42.9. Conglomeraci
on jer
arquica acumulativa (AGNES) . . . . . . . . . . .
42.10.Conglomeraci
on jer
arquica divisiva (DIANA) . . . . . . . . . . . . . .
42.11.Conglomeraci
on monotetica (MONA) . . . . . . . . . . . . . . . . . .
42.12.Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
333
333
333
334
334
334
334
336
336
337
338
339
339
43.An
alisis de configuraci
on
43.1. Configurati
on centrada . . . . . .
43.2. Configurati
on normalizada . . . .
43.3. Soluci
on en ejes principales . . .
43.4. Matriz de productos escalares . .
43.5. Matriz de distancias entre puntos
43.6. Configuraci
on rotada . . . . . .
43.7. Configuraci
on transladada . . . .
43.8. Rotaci
on varimax . . . . . . . . .
43.9. Configuraci
on clasificada . . . . .
43.10.Referencias . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
341
341
341
342
342
342
342
342
343
343
343
. . . . . . . . . .
2 grupos . . . .
mas de 2 grupos
. . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
345
345
346
347
348
45.Funciones de distribuci
on y de Lorenz
45.1. Formula para los puntos de separacion . . . . . . .
45.2. Puntos de separacion de la funci
on de distribuci
on
45.3. Puntos de separacion de la funci
on de Lorenz . . .
45.4. Curva de Lorenz . . . . . . . . . . . . . . . . . . .
45.5. El coeficiente de Gini . . . . . . . . . . . . . . . . .
45.6. Estadstica D de Kolmogorov-Smirnov . . . . . . .
45.7. Nota sobre los pesos . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
349
349
349
350
350
350
350
351
46.An
alisis factorial
46.1. Estadsticas univariadas . . . . . . . . .
46.2. Datos de entrada . . . . . . . . . . . . .
46.3. Matrices n
ucleo (matrices de relaciones)
46.4. Huella . . . . . . . . . . . . . . . . . . .
46.5. Valores y vectores propios . . . . . . . .
46.6. Tabla de valores propios . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
353
353
354
354
355
355
356
44.An
alisis discriminatorio
44.1. Estadsticas univariadas .
44.2. Discriminaci
on lineal entre
44.3. Discriminaci
on lineal entre
44.4. Referencias . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
INDICE GENERAL
XVI
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
356
358
358
360
360
360
47.Regresi
on lineal
47.1. Estadsticas univariadas . . . . . . . . . . . . . . . . . . . . . .
47.2. Matriz de sumas totales de cuadrados y productos cruzados . .
47.3. Matriz de sumas de cuadrados residuales y productos cruzados
47.4. Matriz de correlaci
on total . . . . . . . . . . . . . . . . . . . . .
47.5. Matriz de correlaci
on parcial . . . . . . . . . . . . . . . . . . .
47.6. Matriz inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47.7. Estadsticas de resumen del analisis . . . . . . . . . . . . . . . .
47.8. Estadsticas de analisis para los predictores . . . . . . . . . . .
47.9. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47.10.Nota sobre la regresion por pasos . . . . . . . . . . . . . . . . .
47.11.Nota sobre la regresion descendente . . . . . . . . . . . . . . . .
47.12.Nota sobre la regresion con intercepto cero . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
361
361
361
362
362
362
362
363
364
365
365
366
366
48.Escalamiento multidimensional
48.1. Orden de los c
alculos . . . . . . . . . . . . . .
48.2. Configuraci
on inicial . . . . . . . . . . . . . .
48.3. Centrado y normalizaci
on de la configuracion
48.4. Historia de los c
alculos . . . . . . . . . . . . .
48.5. Esfuerzo para la configuracion final . . . . . .
48.6. Configuraci
on final . . . . . . . . . . . . . . .
48.7. Configuraci
on clasificada . . . . . . . . . . . .
48.8. Resumen . . . . . . . . . . . . . . . . . . . . .
48.9. Nota sobre ataduras en los datos de entrada .
48.10.Nota sobre los pesos . . . . . . . . . . . . . .
48.11.References . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
367
367
367
367
368
370
370
370
370
371
371
372
49.An
alisis de clasificaci
on m
ultiple
49.1. Estadsticas de la variable dependiente . . . . . . . . . . . . . . . . . . .
49.2. Estadsticas de los predictores para analisis de clasificacion m
ultiple . .
49.3. Estadsticas del analisis para analisis de clasificacion m
ultiple . . . . . .
49.4. Estadsticas de resumen de residuos . . . . . . . . . . . . . . . . . . . .
49.5. Estadsticas de categora de los predictores, para analisis de variancia de
49.6. Estadsticas del analisis, para analisis de variancia de una entrada . . .
49.7. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
una entrada
. . . . . . .
. . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
373
373
374
376
376
377
377
377
50.An
alisis multivariado de variancia
50.1. Estadsticas generales . . . . . . . . . . . . . . . . . .
50.2. Calculos para una prueba en un analisis multivariado .
50.3. Analisis univariado . . . . . . . . . . . . . . . . . . . .
50.4. Analisis de covariancia . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
379
379
381
384
384
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51.An
alisis de variancia de una entrada
385
51.1. Estadsticas descriptivas para cada categora de la variable de control . . . . . . . . . . . . . . 385
51.2. Estadsticas del analisis de variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
52.Puntajes basados en el orden parcial
52.1. Terminologa especial y definiciones .
52.2. Calculo de puntajes . . . . . . . . .
52.3. Referencias . . . . . . . . . . . . . .
de
. .
. .
. .
casos
389
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
53.Correlaci
on de Pearson
393
53.1. Estadsticas pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
53.2. Medias y desviaciones est
andar no pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
INDICE GENERAL
XVII
53.3. Ecuaci
on de regresion para puntajes primarios
53.4. Matriz de correlaci
on . . . . . . . . . . . . . . .
53.5. Matriz de productos cruzados . . . . . . . . . .
53.6. Matriz de covariancia . . . . . . . . . . . . . .
54.Ordenamiento de alternativas
54.1. Manejo de los datos de entrada . . . .
54.2. Metodo basado en la logica cl
asica . .
54.3. Metodos basados en la logica difusa: la
54.4. Metodo difuso-1: capas no dominadas
54.5. Metodo difuso-2: rangos . . . . . . . .
54.6. Referencias . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
394
394
394
394
. . . . . . . . . . . .
. . . . . . . . . . . .
relacion de entrada .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
395
395
396
398
400
402
403
55.Diagramas de dispersi
on
405
55.1. Estadsticas univariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
55.2. Estadsticas univariadas por parejas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
55.3. Estadsticas bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
56.B
usqueda de estructura
56.1. Analisis de medias . . .
56.2. Analisis de regresion . .
56.3. Analisis de Ji-cuadrada
56.4. Referencias . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
407
407
409
410
411
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
421
421
421
422
422
423
424
424
425
426
426
427
Ap
endice: Mensajes de error de los programas de IDAMS.
429
Indice alfab
etico.
431
Captulo 1
Introducci
on
IDAMS es un paquete de programas para la validaci
on, manejo y analisis estadstico de datos. Consiste en
un grupo de programas y facilidades que usan el mismo ambiente de manera que un solo lenguaje permite el
acceso a las diferentes funciones en todos los programas. Ejemplos del tipo de datos que se pueden procesar
con IDAMS son: respuestas a las preguntas de una encuesta, informacion acerca de los libros en una biblioteca.
caractersticas personales y desempe
no de los alumnos en una escuela, medidas de un experimento cientfico.
La caracterstica que tienen en com
un estos datos es que consisten en valores de variables para cada una de
las colecciones de objetos/casos (por ej. en una encuesta, las preguntas corresponden a las variables y los
encuestados a los casos).
Existen numerosos paquetes y programas que ayudan al analisis estadstico de tales datos. Una caracterstica
especial de IDAMS es que tambien suministra facilidades para hacer una validaci
on extensa de los datos (por
ej. verificacion de c
odigos y de consistencia) antes del analisis. En lo que concierne al analisis, IDAMS realiza
tecnicas clasicas tales como construcci
on de tablas, analisis de regresion, analisis de variancia de una entrada,
analisis de discriminaci
on y conglomerados y tambien algunas tecnicas mas avanzadas tales como analisis
factorial de componentes principales, analisis factorial de correspondencias, c
alculo de puntajes basados en el
orden parcial de casos, ordenamiento de alternativas, segmentacion y tipologa iterativa. Ademas, la versi
on
de IDAMS para Windows (WinIDAMS) ofrece los componentes interactivos para construcci
on de tablas
multidimensionales, exploraci
on gr
afica de datos y analisis de series de tiempo.
1.1.
1.2.
Introducci
on
Agrupaci
on de datos (AGGREG). Permite agrupar en un solo registro los registros que vienen de varios
casos y produce a la salida un nuevo dataset con un registro por grupo, por ejemplo los miembros de
una familia se reagrupan en un registro que representa la familia. Las variables en el nuevo registro son
estadsticas de resumen de variables especficas de los registros individuales, por ej. la suma, media, valor
mnimo/maximo.
Construcci
on de un dataset IDAMS (BUILD). Lee un archivo de datos primarios (que puede tener
m
ultiples registros por caso) junto con un diccionario que describe las variables que se van a seleccionar.
BUILD verifica la presencia de valores no numericos en campos numericos; los campos en blanco se pueden
recodificar a valores numericos especificados por el usuario y otros no numericos se reportan y reemplazan
con nueves. La salida es un dataset IDAMS que comprende un archivo Datos con un solo registro por caso
y un diccionario asociado que describe cada campo en los registros de datos.
Verificaci
on de c
odigos (CHECK). Reporta casos que tengan valores invalidos en las variables. Los c
odigos
validos para cada variable los especifica el usuario y se toman del diccionario.
Verificaci
on de consistencia (CONCHECK). Reporta casos con inconsistencias entre dos o mas variables.
Las proposiciones de Recode de IDAMS se utilizan para especificar las relaciones logicas a verificar.
Verificaci
on de intercalaci
on de registros (MERCHECK). Verifica que esten presentes los registros
correctos para cada caso en un archivo de m
ultiples registros por caso. Produce un archivo de salida que
tiene un n
umero igual de registros por caso. Se pueden eliminar registros invalidos o duplicados y se pueden
insertar registros faltantes con c
odigos de valores faltantes especificados por el usuario.
Correcci
on de datos (CORRECT). Actualiza un archivo al aplicar correcciones a valores individuales de
variables para casos especificados. El archivo Resultados contiene un informe escrito con la historia de las
correcciones y estas se pueden archivar.
Importaci
on/exportaci
on de datos (IMPEX). La importacion tiene por objeto crear datasets o matrices de IDAMS a partir de archivos que vienen de otro programa. La exportacion pretende hacer posible
el uso de archivos Datos y Matrices, almacenados o creados por IDAMS, en otros paquetes. Se pueden
importar/exportar archivos de texto en formato libre y en formato DIF.
Listado de datasets (LIST). Se pueden listar los valores de variables seleccionadas (originales o recodificadas) y casos seleccionados en formato de columnas.
Intercalaci
on de datasets (MERGE). Se pueden intercalar dos datasets emparejando casos de acuerdo con
un conjunto com
un de variables llamadas variables de emparejamiento. Hay cuatro opciones para seleccionar
casos en el dataset de salida: (1) solo casos presentes en ambos archivos (interseccion); (2) cada caso en
ambos archivos (uni
on); (3) cada caso en el primer archivo; (4) cada caso en el segundo archivo. El usuario
especifica cuales variables de cada uno de los dos archivos de entrada van a la salida. Existe una opcion para
encajar un caso de un archivo con mas de un caso del segundo archivo, por ej. para a
nadir datos de hogares
de un archivo al registro de cada individuo en un segundo archivo.
Clasificaci
on e intercalaci
on de archivos (SORMER). Es un utilitario de uso general para clasificar
datos en forma ascendente o descendente hasta por 12 campos de clasificacion. Se pueden intercalar hasta
16 archivos.
Subdivisi
on de datasets (SUBSET). Produce un nuevo dataset (archivos Datos y Diccionario) con casos
y variables seleccionados del dataset de entrada. Tiene una opcion para verificar casos duplicados.
Transformaci
on de datos (TRANS). Este programa se usa para guardar las variables creadas por la
facilidad Recode de IDAMS en un dataset permanente.
1.3.
Facilidades para el an
alisis de datos
An
alisis de conglomerados (CLUSFIND). Ejecuta analisis de conglomerados dividiendo un conjunto de
objetos (casos o variables) en un conjunto de conglomerados determinado por uno de 6 algoritmos, 2 basados
en la divisi
on alrededor de medoides, 1 basado en la logica difusa y los otros 3 basados en una conglomeracion
jerarquica.
An
alisis de configuraci
on (CONFIG). Ejecuta analisis sobre una configuracion de entrada, creada por
ejemplo con el programa MDSCAL. Tiene la capacidad de centrar, normalizar, rotar, trasladar dimensiones,
calcular distancias entre puntos y productos escalares. Se puede graficar la configuracion despues de cada
transformaci
on.
An
alisis discriminatorio (DISCRAN). Busca la mejor funci
on lineal de discriminaci
on de un conjunto de
variables que produce, hasta donde sea posible, una agrupaci
on a priori de los casos. Utiliza un procedimiento
por pasos, es decir, en cada paso entra la variable mas poderosa. El programa distingue tres muestras de
casos: la muestra b
asica sobre la cual se hacen los analisis discriminatorios principales, muestra de prueba
sobre la cual se verifica la potencia de la funci
on de discriminacion y muestra anonima que se usa solo para
clasificar los casos. Se pueden guardar en un dataset la u
ltima asignacion de grupos a los casos y valores de
los dos primeros factores discriminatorios (para analisis con mas de 2 grupos).
Funciones de distribuci
on y de Lorenz (QUANTILE). Funciones de distribuci
on con 2 a 100 subintervalos, funciones de Lorenz, curva de Lorenz y coeficientes de Gini, y la prueba de Kolmogorov-Smirnov.
An
alisis factorial (FACTOR). Consiste en un conjunto de analisis factoriales de componentes principales
(productos escalares, covariancias, correlaciones) y an
alisis factorial de correspondencias. Para cada analisis
construye una matriz que representa las relaciones entre las variables y calcula sus valores propios y vectores
propios. Calcula los factores para los casos y las variables dando para cada caso y cada variable su ordenada,
su calidad de representacion y su contribucion a los factores. Estos factores se pueden guardar en el dataset y
se puede obtener una representacion gr
afica de casos y variables en el espacio factorial. El programa distingue
entre casos y variables activas y pasivas.
Regresi
on lineal (REGRESSN). Suministra una capacidad general de regresion m
ultiple para analisis de
regresion lineal est
andar y por pasos. Se puede usar un dataset o una matriz de correlaci
on como entrada.
Se pueden imprimir residuos con la estadstica de Durbin-Watson para su correlaci
on de primer orden, y
tambien puede llevarse al archivo de salida, por ej. para analisis posteriores.
Escalamiento multidimensional (MDSCAL). Este es un procedimiento de escalamiento multidimensional
no metrico para el analisis de similitudes. Opera sobre una matriz de medidas de similitud o disimilitud y
est
a dise
nado para hallar la mejor representacion geometrica de los datos. El usuario controla la dimensi
on
de la configuracion, la metrica usada y la manera de manejar las ataduras (valores iguales) en los datos de
entrada.
An
alisis de clasificaci
on m
ultiple (MCA). Examina las relaciones entre varias variables predictoras (control) y una sola variable dependiente y determina el efecto de cada predictor antes y despues del ajuste de sus
intercorrelaciones con otros predictores. Suministra informacion de las relaciones bivariadas y multivariadas
entre predictores y la variable dependiente. Se pueden imprimir los residuos y llevarlos a un dataset.
An
alisis de variancia multivariado (MANOVA). Ejecuta analisis de variancia univariado y multivariado,
y analisis de covariancia, usando un modelo general lineal. Se pueden usar hasta ocho factores (variables
dependientes). Cuando hay mas de una variable dependiente, se ejecutan ambos analisis univariado y multivariado. El programa aplica una solucion exacta con un nombre igual o diferente de casos en las celdas.
An
alisis de variancia de una entrada (ONEWAY). Estadsticas descriptivas dentro de las categoras
de la variable de control y estadsticas de analisis de variancia de una entrada tales como: suma total de
cuadrados, suma de cuadrados entre medias, suma de cuadrados dentro grupos, eta y eta cuadrada (no
ajustada y ajustada) y el valor de la prueba F.
Puntajes basados en el orden parcial de casos (POSCOR). Calcula puntajes de escala ordinales a partir
de variables de intervalos u ordinales. Se calculan los puntajes para cada caso involucrado en el analisis y
miden la posicion relativa del caso dentro del conjunto de los mismos. Los puntajes, opcionalmente con otras
variables especificadas por el usuario, salen en la forma de un dataset IDAMS.
Introducci
on
Correlaci
on de Pearson (PEARSON). Calcula los coeficientes r de correlaci
on de Pearson, covariancias
y coeficientes de regresion. Se puede solicitar eliminacion de datos faltantes por parejas o por casos. Las
matrices de correlaci
on y de covariancias de salida se pueden guardar en un archivo.
Ordenamiento de alternativas (RANK). Determina un orden de alternativas por rangos usando datos
preferenciales y tres procedimientos diferentes de asignacion de rangos, uno basado en la logica clasica y
otros dos basados en la logica difusa. Los datos preferenciales pueden representar una selecci
on o un rango
de alternativas. Se pueden especificar dos tipos de relaciones individuales preferenciales: debil y estricta. Con
la asignacion difusa de rangos, los datos determinan completamente los resultados obtenidos mientras que
con la asignacion cl
asica el usuario tiene la posibilidad de controlar los c
alculos.
Diagramas de dispersi
on (SCAT). Diagramas de dispersi
on, estadsticas univariadas (media, desviacion
est
andar y N), estadsticas bivariadas (r de Pearson y estadsticas de regresion: coeficiente B y constante A).
B
usqueda de estructura (SEARCH). Un procedimiento de segmentacion binaria para desarrollar modelos
predictivos. La pregunta que dicotoma y en que variable predictora se obtendr
a el maximo aprovechamiento
de la capacidad para predecir valores de la variable dependiente dentro de un esquema iterativo, es la base
del algoritmo usado.
Tablas univariadas y bivariadas (TABLES). Las opciones incluyen: (1) distributiones de frecuencia
univariadas simples y acumulativas y de porcentajes; (2) estadsticas univariadas: media, mediana, moda,
variancia, desviaci
on est
andar, asimetra, kurtosis, mnimo y maximo; (3) tablas de frecuencias bivariadas con
porcentajes por fila, columna y total; (4) tablas de valores medios de una variable adicional; (5) estadsticas
bivariadas: pruebas-t de medias entre pares de filas, Ji-cuadrada, coeficiente de contingencia, V de Cramer,
Tau a, b, c de Kendall, Gama, Lambda, Ro de Spearman, estadsticas para la medicina basada en evidencia,
y tres pruebas no par
ametricas: Wilcoxon, Mann-Whitney y Fisher.
Tipologa y clasificaci
on ascendente (TYPOL). Crea una variable de clasificacion como el resumen
de un gran n
umero de variables cuantitativas y cualitativas. El usuario escoge el n
umero inicial y final de
grupos, el tipo de distancia usada y la manera de comenzar la tipologa inicial. Los grupos de la tipologa
inicial se estabilizan con un procedimiento iterativo. El n
umero de grupos se puede reducir con un algoritmo
de clasificacion jer
arquica ascendente. El programa distingue entre variables activas que participan en la
construcci
on de la tipologa y variables pasivas para las cuales se calculan las estadsticas principales dentro
de los grupos de la tipologa.
Tablas interactivas multidimensionales. El componente Tablas multidimensionales permite visualizar
y personalizar tablas con frecuencias, porcentajes de fila, de columna y totales, estadsticas univariadas
(suma, conteo, media, maximo, mnimo, variancia, desviacion est
adar) de variables adicionales y estadsticas
bivariadas. Se pueden anidar hasta siete variables en filas y columnas. Se puede repetir la construcci
on de
tablas para cada valor hasta tres variables de pagina. Tambien se pueden imprimir las tablas o exportarlas
en formato libre (coma o car
acter de tabulaci
on como delimitador) o en formato HTML.
Exploraci
on gr
afica interactiva de los datos. Un componente separado, GraphID, est
a disponible en
WinIDAMS para explorar datos a traves de despliegues graficos. El despliegue b
asico se encuentra en la
forma de graficos de dispersi
on m
ultiple para diferentes pares de variables. Se puede graficar informacion
adicional tal como histogramas y lneas de regresion. Los graficos se pueden manejar de varias maneras. Por
ejemplo, se pueden marcar en un gr
afico casos seleccionados y luego resaltarlos en todos los otros graficos.
Se pueden aumentar partes del gr
afico (zoom). Las matrices de IDAMS se muestran como graficos de tres
dimensiones en los cuales se representan las variables/los c
odigos en dos de los ejes y la tercera dimensi
on
se usa para mostrar el tama
no de la estadsitica en la matriz (por ej. coeficiente de correlaci
on) para cada
par de variables.
An
alisis interactivo de series de tiempo. Otro componente separado, TimeSID, suministra la posibilidad de analisis interactivo de series de tiempo. Contiene analisis de tendencias, correlaciones auto y
cruzadas, analisis gr
afico y estadstico de los valores de las series de tiempo, pruebas de aleatoriedad y tendencia, predicci
on a corto plazo, periodogramas y estimaci
on de densidades espectrales. Las series se pueden
transformar calculando promedios, composiciones aritmeticas, diferencias secuenciales, razones de cambio,
se pueden suavizar con promedios moviles y se pueden descomponer usando filtros de frecuancia.
1.4.
Dataset IDAMS - el archivo Datos. El archivo de entrada a IDAMS puede ser cualquier archivo de
caracteres (ASCII) de formato fijo, es decir, los valores de una variable ocupan la misma posicion en el
registro para cada caso. Las caracersticas del archivo Datos son:
1-50 registros por caso;
cada caso puede contener hasta 4096 caracteres;
n
umero de casos limitado para la capacidad de disco y la representacion numerica interna;
las variables pueden ser numericas (hasta 9 caracteres) o alfabeticas (hasta 255 caracteres).
Dataset IDAMS - el archivo Diccionario. El diccionario se usa para describir los datos:
puede contener hasta 1000 variables identificadas con un n
umero u
nico entre 1 y 9999;
para cada variable, contiene como mnimo el n
umero de la variable, su tipo (numerica o alfabetica), su
localizacion en el registro de datos;
para cada variable se puede especificar tambien un nombre de variable, dos c
odigos de datos faltantes,
el n
umero de cifras decimales y n
umero de referencia;
para variables cualitativas se pueden incluir sus c
odigos y nombres correspondientes.
El conjunto de los dos archivos Diccionario y Datos se conoce como dataset IDAMS.
Matrices IDAMS. Algunos programas de analisis utilizan como entrada una matriz de valores rectangular
o cuadrada en lugar de un archivo de datos primarios.
La matriz cuadrada se usa para arreglos simetricos de estadsticas bivariadas con una constante en la
diagonal. Solamente se guarda la esquina superior derecha de la matriz, sin la diagonal.
La matriz rectangular es para arreglos no simetricos. El significado de filas y columnas vara seg
un el
programa de IDAMS.
1.5.
1.6.
Caractersticas est
andar de IDAMS
Selecci
on de casos. Por defecto, en una ejecuci
on de un programa de IDAMS se procesan todos los casos
de un archivo Datos. Para escoger un subconjunto, se incluye una proposicion de filtro en el setup, por ej.
INCLUDE V3=1 (incluir solo aquellos casos para los cuales la variable 3 es igual a 1).
Introducci
on
Selecci
on de variables. Las variables son referidas por sus n
umeros de variable asignados en el diccionario.
Se especifica un conjunto de variables en una lista de variables que sigue a continuacion de palabras clave
tales como VARS, CONVARS, OUTVARS. Tales listas de variables tambien pueden incluir variables R
construidas con la facilidad Recode de IDAMS (ver mas adelante) por ej. VARS=(V3-V6,V129,R100,R101).
Transformaci
on/recodificaci
on de datos. Es una poderosa herramienta de recodificacion que permite
asignar nuevos c
odigos y construir nuevas variables. Las instrucciones de recodificacion las escribe el usuario
en el lenguaje Recode de IDAMS. Incluye la posibilidad de hacer c
alculos aritmeticos as como tambien
el uso de varias funciones especiales para operaciones tales como agrupamiento de variables, creacion de
variables ficticias, etc. Tambien se permiten proposiciones condicionales. Los siguientes son ejemplos de
proposiciones de Recode para construir tres nuevas variables R100, R101, R102:
R100=V4+V5
R101=BRAC(V10,0-15=1,16-60=2,60-98=3,99=9)
IF (MDATA(V3,V4) OR V4 EQ 0) THEN R102=99 ELSE R102=V3*100/V4
Las variables R as construidas para cada caso se pueden usar temporalmente en el programa que se est
a ejecutando o se pueden guardar en un dataset con el programa TRANS.
Ponderaci
on de datos. Cuando se usan procedimentos complejos de muestreo durante la recolecci
on de
datos, puede ser necesario usar diferentes ponderaciones de los casos durante el analisis. Tales ponderaciones
se guardan como una variable en el archivo Datos. Se utiliza entonces el par
ametro WEIGHT para invocar
la ponderaci
on en las proposiciones de control del programa, por ej. WEIGHT=V5.
Tratamiento de datos faltantes y datos malos . Se pueden identificar valores especiales como c
odigos
de datos faltantes para cada variable numerica y guardarlos en el diccionario. Durante el procesamiento de
los datos, el manejo de datos faltantes se hace con dos par
ametros:
MDVALUES (especifica cuales de los c
odigos de datos faltantes se usaran para verificar datos faltantes
en las variables numericas);
MDHANDLING (especifica que hacer cuando se encuentren datos faltantes).
Normalmente se supone que los datos se han depurado antes del analisis. Si no es este el caso entonces se
dispone del par
ametro BADDATA para omitir casos con valores no numericos o con valores en blanco en
campos numericos o para tratar esos valores como datos faltantes.
1.7.
Importaci
on y exportaci
on de datos
IDAMS no utiliza formatos internos especiales para almacenar los datos. Cualquier archivo de caracteres
ASCII de formato fijo puede ser descrito con un diccionario IDAMS y luego ser ledo por IDAMS. Por el
contrario, los datos en formato libre separados con Tab, coma o punto y coma se pueden importar a traves
de la Interfaz del Usuario de WinIDAMS. Aun mas, el programa IMPEX permite crear datos de IDAMS de
formato fijo a partir de un archivo de texto en cualquier formato libre o en formato DIF.
Los datos creados por IDAMS son siempre archivos de caracteres de formato fijo. Los archivos pueden entrar
directamente a otro programa junto con la informacion descriptiva apropiada para dicho programa. Los
datos en formato libre separados con Tab, coma o punto y coma se pueden obtener a traves de la Interfaz del
Usuario de WinIDAMS. Aun mas, el programa IMPEX permite a exportar un archivo IDAMS de formato
fijo como archivo de texto en formato libre o formato DIF.
Las matrices IDAMS se guardan en un formato especfico de IDAMS (descrito en el captulo Los datos en
IDAMS). Se puede usar el programa IMPEX para importar/exportar matrices con formato libre.
1.8.
Hay un programa separado, WinIDIS, el cual prepara la descripcion de los datos y hace la transferencia de los
mismos entre IDAMS y CDS/ISIS (programas de UNESCO para el manejo de bases de datos y recuperaci
on
de informacion). La transferencia es controlada por los archivos de descripcion de datos de IDAMS e ISIS
(el diccionario IDAMS y la tabla de definicion de campos de CDS/ISIS). Para ir de ISIS a IDAMS siempre
se construyen nuevos archivos de diccionario y de datos y se pueden intercalar con otros datos usando las
facilidades de manejo de datos de IDAMS. Para ir de IDAMS a ISIS, hay tres posibilidades: (1) se puede
construir una base de datos completamente nueva, (2) se pueden a
nadir los registros transferidos a una base
de datos existente como nuevos registros de la base de datos, (3) se pueden actualizar los registros de una
base de datos existente con los datos transferidos.
1.9.
Todas las caractersticas generales de IDAMS, incluida la facilidad Recode, se describen en la Parte 1 de
este Manual.
La Parte 2 incluye las instrucciones de instalaci
on, la descripcion de archivos y carpetas usadas en
WinIDAMS, una secci
on titulada Primeros pasos la cual lleva al usuario a traves de los pasos requeridos
para hacer una ejecuci
on de IDAMS y la descripcion de la Interfaz del Usuario de WinIDAMS.
En las Partes 3 y 4 se dan descripciones detalladas de cada programa IDAMS. Estas documentaciones
contiene las secciones siguientes:
Descripci
on general. Una descripci
on del prop
osito principal del programa.
Caractersticas est
andar de IDAMS. Descripcion de las posibilidades de selecci
on de casos y de
variables, transformaci
on de datos, capacidad de ponderaci
on y manejo de datos faltantes.
Resultados. Detalles de los resultados destinados a ser impresos (o revisados en pantalla).
Descripci
on de archivos de salida y entrada. Una secci
on para cada dataset de IDAMS, cada
matriz y cualquier otro archivo de entrada o salida diferente, que proporciona una descripcion
de su contenido.
Estructura del setup. Una designacion de las definiciones de archivos, comandos de IDAMS y
proposiciones de control necesarias para ejecutar el programa.
Proposiciones de control del programa. Los par
ametros y formatos de cada una de las proposiciones de control del programa con un ejemplo para cada tipo.
Restricciones. Un resumen de las limitaciones del programa.
Ejemplos. Ejemplos de conjuntos completos de proposiciones de control para ejecutar el programa.
La Parte 5 suministra una descripci
on de los componentes interactivos de IDAMS para la construcci
on de
tablas multidimensionales, para la exploraci
on grafica de los datos y para el analisis de series de tiempo.
En la Parte 6 se pueden encontrar detalles de tecnicas estadsticas, formulas y referencias bibliograficas de
los programas de analisis.
Finalmente, los errores generados por los programas de IDAMS se resumen en el Apendice.
Parte I
Nociones fundamentales
Captulo 2
El dataset IDAMS
Descripci
on general
El dataset consiste en dos archivos distintos y asociados: un archivo Datos y un archivo Diccionario que
describe algunos o todos los campos (variables) en los registros de datos. Todos los archivos Diccionario/Datos
que salen de un programa IDAMS son datasets de IDAMS.
2.1.2.
M
etodo de almacenamiento y acceso
Los archivos Diccionario y Datos se leen y se escriben secuencialmente. De esta manera, se pueden guardar
en cualquier medio de almacenamiento. No hay un archivo especial interno del sistema de IDAMS como
en otros paquetes. Los archivos se encuentran en formato de texto/car
acter (ASCII) y se pueden procesar
en cualquier momento con utilitarios generales o editores o pueden entrar directamente a otros paquetes
estadsticos.
2.2.
2.2.1.
Archivos Datos
El arreglo de datos
Sin importar el formato que tengan los datos en el archivo, estos pueden visualizarse como un arreglo
rectangular de valores de variables, en donde el elemento xij es el valor de la variable representada por la
columna j-esima para el caso representado por la fila i-esima. Por ejemplo, los datos de una encuesta se
pueden mostrar de la manera siguiente:
Casos
Variables
identificaci
on
educaci
on
sexo
edad
...
___________________________________________________________________
caso 1
caso 2
.
.
1300
1301
1302
.
6
2
3
.
2
1
1
.
31
25
55
.
...
...
...
...
...
En el ejemplo, cada fila representa una persona que responde a una encuesta y cada columna representa una
pregunta del cuestionario.
12
2.2.2.
Este archivo contiene normalmente, pero no necesariamente, registros de longitud fija, ya que el final del
registro se reconoce con caracteres de alimentacion de retorno. Sin embargo, la longitud del registro mas
largo debe suministrarse en la especificaci
on de archivo (ver comando $FILES). No hay lmite para el n
umero
de registros del archivo Datos.
La longitud maxima de registro es 4096 caracteres.
Cada caso puede tener mas de un registro (hasta un maximo de 50). Si en una ejecuci
on particular de un
programa, se accede a las variables desde mas de un tipo de registro, entonces debe haber exactamente el
mismo n
umero de registros para cada caso. El programa MERCHECK puede usarse para crear archivos que
cumplan esta condicion. N
otese que cualquier archivo Datos de salida de un programa IDAMS siempre se
reestructura para tener un solo registro por caso.
Si un archivo de datos primarios tiene tipos de registro diferentes y el tipo de registro est
a codificado y
no tiene exactamente el mismo n
umero de registros por caso, los programas de IDAMS se pueden ejecutar
usando variables de un tipo de registro a la vez, mediante la selecci
on de ese tipo de registro al comienzo.
2.2.3.
Archivos jer
arquicos
IDAMS solo procesa archivos rectangulares como se indico anteriormente. Los archivos jerarquicos se
pueden manejar al almacenar registros de los diferentes niveles en diferentes archivos y despues se usan los
programas AGGREG y MERGE para producir registros compuestos que tengan las variables de los diferentes
niveles. Alternativamente, el archivo jer
arquico completo de datos se puede procesar de a un nivel a la vez
mediante el filtrado de registros para ese nivel (siempre que los tipos de registros esten codificados).
2.2.4.
Variables
13
Con excepci
on de BUILD, todos los programas de IDAMS aceptan valores en notaci
on exponencial,
por ej. el valor codificado como .215E02 se usera como 21.5.
Variables alfab
eticas. Se pueden guardar variables alfabeticas en los archivos Datos y pueden tener hasta
255 caracteres de longitud. Pueden usarse en los programas de manejo de datos. Las variables alfabeticas
de 1-4 caracteres pueden usarse tambien en filtros. Para usarlas en los programas de analisis deben ser
recodificadas a valores numericos. Esto se puede hacer con la funci
on BRAC de Recode.
2.2.5.
C
odigos de datos faltantes
El valor de una variable para un caso en particular puede ser desconocido por muchas razones, por ejemplo
una pregunta puede ser inaplicable a ciertos encuestados o uno de ellos puede rehusarse a contestar la
pregunta. Se pueden establecer c
odigos especiales para datos faltantes en cada variable numerica y se pueden
codificar en los datos cuando se necesiten. Se permiten dos codigos de datos faltantes: MD1 y MD2. En caso
de usarlos, cualquier valor en los datos igual a MD1 se considerar
a dato faltante; cualquier valor mayor
o igual que MD2 (si MD2 es positivo o cero) o menor o igual que MD2 (si MD2 es negativo) tambien se
considerar
a dato faltante.
Estos c
odigos de datos faltantes se guardan en el registro de diccionario de la variable. Igual que para valores
de datos, pueden ser enteros o decimales con punto decimal implcito o explcito. Si se especifica MD1 o
MD2 con punto decimal implcito, NDEC da el n
umero de dgitos a tratar como cifras decimales. Si se ha
codificado un punto decimal en MD1 o MD2, entonces NDEC determina el n
umero de dgitos a la derecha
del punto decimal que deben retenerse, y el valor se redondea apropiadamente.
Cuando los c
odigos MD1 y MD2 de una variable est
an en blanco en el diccionario, significa que no hay
c
odigos especiales numericos de datos faltantes. Durante una ejecuci
on de un programa IDAMS, los c
odigos
MD1 y MD2 del diccionario que esten en blanco se convierten a c
odigos de datos faltantes por defecto con
valores de 1,5 109 y 1,6 109 respectivamente.
Como los c
odigos de datos faltantes est
an limitados a un m
aximo de 7 dgitos (o 6 dgitos y un signo
negativo), pueden presentar problemas para variables de 8 y 9 dgitos. El usuario debe considerar el uso de
un primer c
odigo negativo de datos faltantes en este caso.
2.2.6.
Valores no num
ericos o en blanco en variables num
ericas - datos malos
En los programas de manejo de datos de IDAMS, estos simplemente se copian de un lado a otro y no
se lleva a cabo una conversi
on a modo computacional (binario); en este caso no se verifica si las variables
numericas tienen valores numericos. Sin embargo, cuando las variables se usan para analisis o en operaciones
de Recode, entonces sus valores se convierten a modo binario y los valores con caracteres no numericos
causaran problemas. Normalmente, se deben limpiar esos caracteres de los datos antes del analisis. Ademas,
valores en blanco en variables numericas no se tratan autom
aticamente como datos faltantes; se consideran
tambien como no numericos o datos malos.
Para permitir el analisis de datos con limpieza incompleta y para el manejo de campos en blanco no recodificados, se puede usar el par
ametro BADDATA para tratar los blancos y otros valores no numericos como
faltantes y de esta manera tener la posibilidad de eliminarlos del analisis. La especificaci
on del par
ametro
BADDATA=MD1 o BADDATA=MD2 resulta en la conversi
on de valores malos a los c
odigos MD1 o MD2
de la variable. Si los c
odigos MD1 o MD2 est
an en blanco, entonces los valores malos se convierten a los c
odigos de datos faltantes correspondientes por defecto (ver arriba) y entonces se tratan como valores faltantes
(ver tambien la descripci
on del par
ametro BADDATA en el captulo El archivo Setup de IDAMS).
2.2.7.
Los programas IDAMS crean siempre un archivo Datos y un diccionario correspondiente, es decir un dataset
IDAMS.
El archivo Datos contiene un registro para cada caso. La longitud del registro es la suma de los anchos de
campo de todas las variables de salida y es determinada por el programa.
14
2.3.
2.3.1.
El diccionario IDAMS
Descripci
on general
El diccionario se usa para describir las variables en los datos. Para cada variable, este debe contener como
mnimo el n
umero de la variable, su tipo y su localizacion dentro del registro de datos. Adicionalmente se
puede suministrar un nombre de variable, dos c
odigos de datos faltantes, el n
umero de cifras decimales y un
n
umero o nombre de referencia. La informaci
on se guarda en registros descriptores de variables conocidos
a veces como registros T. Registros opcionales C para variables categoricas dan nombres a los diferentes
c
odigos posibles. El primer registro del diccionario, el registro descriptor del diccionario, identifica el tipo
de diccionario, da los n
umeros de la primera y de la u
ltima variable usados en el diccionario y especifica el
n
umero de registros de datos que hacen un caso.
El diccionario original lo prepara el usuario para describir los datos primarios. Los programas de IDAMS
que construyen datasets siempre producen nuevos diccionarios que reflejan el nuevo formato de los datos.
Los registros del diccionario se guardan como registros de formato fijo de longitud de 80 caracteres.
A continuacion se ofrece una descripci
on detallada de cada tipo de registro de diccionario.
Registro descriptor de diccionario. Es siempre el primer registro del diccionario.
Columnas Contenido
4
5-8
9-12
13-16
20
15
Registros descriptores de variables (registros T). El diccionario tiene un registro de estos por cada
variable. Estos registros est
an arreglados en orden ascendente por n
umero de variable. Los n
umeros de
variables no necesitan ser contiguos. El n
umero maximo de variables es 1000.
Columnas Contenido
1
2-5
7-30
32-39
40
41
45-51
52-58
59-62
73-75
T
N
umero de variable.
Nombre de variable.
Localizacion; de acuerdo con la columna 20 del registro descriptor de diccionario.
o bi
en
32-33
N
umero secuencial de registro con la columna inicial de la variable.
34-35
N
umero de columna inicial.
36-37
N
umero secuencial de registro con la columna final de la variable.
38-39
N
umero de columna final.
o
32-35
Posicion inicial de la variable dentro del caso.
36-39
Ancho de campo (1-9 para las variables numericas y 1-255 para las variables alfabeticas).
N
umero de cifras decimales (solo variables numericas).
Blanco implica que no hay cifras decimales.
Tipo de variable.
Blanco
Numerica.
1
Alfabetica.
Primer c
odigo de datos faltantes para variables numericas (o blancos si no hay primer c
odigo de
datos faltantes).
Justificado a la derecha.
Segundo c
odigo de datos faltantes para variables numericas (o blancos si no hay segundo c
odigo
de datos faltantes).
Justificado a la derecha.
N
umero de referencia (opcional - se puede usar para alguna referencia alfanumerica inmodificable
para la variable, por ej. el n
umero original de la variable o una referencia a la pregunta).
Identificador de estudio (opcional - se puede usar para identificar el estudio al cual pertenece este
diccionario).
16
Columnas Contenido
1
2-5
6-9
C
N
umero de variable.
N
umero de referencia (opcional - se puede usar para alguna referencia inmodificable para la
variable, por ej. el n
umero original de la variable o una referencia a la pregunta).
Valor del c
odigo justificado a la izquierda.
Nombre para este c
odigo. (Nota: los programas de analisis solo usan los primeros 8 caracteres e
imprimen nombres de c
odigos aunque el nombre completo aparecer
a en el listado del diccionario).
Identificador de estudio (opcional).
15-19
22-72
73-75
2.3.2.
Ejemplo de un diccionario
Columnas:
1
2
3
4
5
6...
123456789012345678901234567890123456789012345678901234567890...
T
T
T
C
C
T
C
C
C
C
T
T
3
1
2
3
3
3
11
11
11
11
11
12
20
1 20
1
1
Identificaci
on
Edad
Sexo
1
Mujer
2
Hombre
Regi
on
1
Norte
2
Sur
3
Este
4
Oeste
Calificaci
on promedio
Nombre
1
6
8
5
2
1
16
17
31
31
30 1
99
000
900
Este es un diccionario que describe 6 campos en un registro de datos como se ven esquem
aticamente a
continuacion.
1-5
V1
6-7
V2
8
V3
16
V11
17-19
V12
31-60
V20
ID
Edad
Sexo
Region
Calif.
Nombre
Las localizaciones de variables se expresan en terminos de posicion inicial y ancho de campo (1 en la columna
20 del registro descriptor de diccionario) y hay un registro por caso (1 en la columna 16). Hay una cifra
decimal implcita en la variable de calificaci
on promedio (V12). La variable edad tiene c
odigo 99 para datos
faltantes. Para la calificaci
on promedio, los ceros significan datos faltantes as como todos los valores mayores
o iguales a 90.0. El nombre de cada encuestado (V20) se graba como una variable de tipo alfabetico (tipo 1)
de 30 caracteres. N
otese que los n
umeros de variable no necesitan ser contiguos y que no se requiere describir
todos los campos en los datos.
2.4.
Matrices IDAMS
Hay dos tipos de matrices IDAMS: cuadradas y rectangulares. Ambos tipos se describen por s mismos, pero
contrariamente al dataset IDAMS, el diccionario se guarda en el mismo archivo de los valores del arreglo.
En general, estas matrices se crean con un programa IDAMS para ser usadas como entrada a otro programa
y el usuario no tiene que estar familiarizado con el formato. Sin embargo, si es necesario preparar una matriz
de correlaci
on, una matriz de configuracion, etc. a mano, entonces se deben observar los formatos descritos
mas adelante.
Sin importar el tipo, todos los registros son de longitud fija de 80 caracteres.
2.4.1.
17
Descriptor de matriz
Formatos
Identificaci
on de
variables
Arreglo de valores
Medias y
desviaciones est
andar
111111111122222222223...
123456789012345678901234567890...
|
|
|
|
|
|
|
|
|
|
|
2
4
#F (12F6.3)
#F (6E12.5)
#T
1 EDAD
#T
3 EDUCACION
#T
9 RELIGION
#T 10 SEXO
-.011 -.174 -.033
.131 -.105
-.133
0.33350E 01 0.54950E 01 0.50251E 01 0.40960E 01
0.20010E 01 0.19856E 01 0.15000E 01 0.12345E 01
2. Una proposicion de formato Fortran que describe cada fila del arreglo de valores. La proposicion de
formato describe el n
umero de campos por registros de 80 caracteres y el formato de cada uno. Por
ejemplo, un formato de (12F6.3) indica que cada fila del arreglo se graba hasta con 12 valores por
registro, cada valor ocupa 6 columnas 3 de las cuales son decimales. Si una fila contiene mas de 12
valores, el valor 13 quedara en el siguiente registro, etc. Cada nueva fila del arreglo siempre comienza
en un nuevo registro.
Columnas Contenido
1-2
3-80
#F
Proposicion de formato, entre parentesis.
3. Una proposicion de formato Fortran que describe los vectores de medias y desviaciones est
andar de
variables. La proposicion de formato describe el n
umero de valores por registro y el formato de cada
uno.
Columnas Contenido
1-2
3-80
#F
Proposicion de formato, entre parentesis.
4. Registros de identificaci
on de variables. Son n registros, donde n es el n
umero de variables especificadas
en el registro descriptor de matriz. El orden de estos registros corresponde al orden de las variables
que asignan ndices a las filas (y columnas) del arreglo de valores. Cuando una matriz es creada por un
programa IDAMS, los n
umeros de variable y los nombres de las mismas se retienen del dataset IDAMS
del cual se generaron las estadsticas.
18
Las cuatro secciones anteriores de la matriz se llaman el diccionario de la matriz. En seguida del
diccionario de la matriz est
a el arreglo de valores.
5. El arreglo de valores. Como el arreglo es simetrico y tiene celdas diagonales que contienen una constante
(por. ej. una correlaci
on de 1.0 para una variable correlacionada consigo misma), solo se guarda el
angulo superior derecho sin la diagonal. N
otese que para una matriz de covariancia los elementos de la
diagonal pueden calcularse utilizando las desviaciones est
andar que est
an includas en el archivo de la
matriz (ver secci
on 7 mas adelante). En el ejemplo anterior de la matriz de 4 variables, el arreglo total
(antes de entrar en el formato de matriz cuadrada) sera as:
vars
1
3
9
10
1
1.000
-.011
-.174
-.033
3
-.011
1.000
.131
-.105
9
-.174
.131
1.000
-.133
10
-.033
-.105
-.133
1.000
9
-.174
.131
10
-.033
-.105
-.133
3
-.011
Cada fila de este arreglo reducido da comienzo a un nuevo registro y se escribe de acuerdo con el
formato especificado en el diccionario de la matriz (ver arriba).
6. Un vector de medias de variables. Los n valores se graban de acuerdo con la proposicion de formato
en el diccionario de la matriz.
7. Un vector de desviaciones est
andar de variables. Los n valores se graban de acuerdo con la proposicion
de formato en el diccionario de la matriz.
2.4.2.
La matriz rectangular difiere de la matriz cuadrada en que el arreglo de valores puede ser cuadrado (y no
simetrico) o rectangular. M
as a
un, como las variables no asignan ndices a las filas de algunos arreglos, por
ej. una tabla de frecuencias, la matriz rectangular puede o no puede contener registros de identificacion de
variables; la matriz rectangular no contiene ni medias ni desviaciones est
andar de variables.
Programas que leen/producen matrices rectangulares. Estas matrices son creadas por los programas CONFIG, MDSCAL, TABLES y TYPOL. Son apropiadas para como entrada a CONFIG, MDSCAL,
TYPOL.
19
Ejemplo.
Columnas:
Descriptor de matriz
Formatos
Identificaci
on de
variables
Arreglo de valores
111111111122222222223...
123456789012345678901234567890...
|
|
|
|
|
|
|
|
3
4
3
#F (l6F5.0)
#T
2 CI
#T
5 EDUCACION
#T
8 MOVILIDAD
#T 12 RIVALIDAD ENTRE HERMANOS
59
20
10
37
15
2
50
40
7
8
26
31
21-40
41-60
61-80
2. Una proposicion de formato Fortran que describe cada fila del arreglo de valores. El formato describe
un registro de 80 caracteres. Por ejemplo, un formato de (16F5.0) indica que cada fila del arreglo se
graba hasta con 16 valores por registro y cada valor ocupa 5 columnas sin ninguna cifra decimal.
Columnas Contenido
1-2
3-80
#F
La proposicion de formato, entre parentesis.
3. Registros de identificaci
on de variables. El orden de estos registros corresponde al orden de las variables/los c
odigos que asignan ndeces a las filas y columnas de la matriz. Cuando un programa de
IDAMS crea una matriz rectangular, los n
umeros y nombres de las variables/los c
odigos se retienen
del dataset o matriz de entrada del cual o de la cual se derivo el arreglo de valores.
Columnas Contenido
1-2
3-6
8-31
Las tres secciones anteriores de la matriz se llaman el diccionario de la matriz. A continuacion del
diccionario de la matriz est
a el arreglo de valores.
4. El arreglo de valores. Se guarda todo el arreglo. Cada fila del arreglo da comienzo a un nuevo registro
y se escribe de acuerdo con el formato especificado en el diccionario de la matriz.
20
2.5.
2.5.1.
Cada archivo en la forma de registros de formato fijo en modo de caracteres (ASCII) puede usarse directamente para los programas de IDAMS. Casi todos los paquetes de bases de datos y estadsticos tienen una
funci
on de exportar o convertir para producir archivos de datos de caracteres en formato fijo. Debe
prepararse entonces un diccionario IDAMS para describir los campos requeridos en los datos.
Un archivo de formato libre con Tab, coma o punto y coma como delimitador se puede importar directamente
utilizando la Interfaz del Usuario de WinIDAMS. Ver el captulo Interfaz del Usuario para mas detalles.
Los archivos de texto en formato libre (se puede utilizar para separar cualquier caracter, incluso blancos) y
en formato DIF se pueden importar usando el programa IMPEX.
Los datos almacenados en una base de datos CDS/ISIS se pueden importar con un programa WinIDIS.
2.5.2.
Matrices
Se puede usar el programa IMPEX para importar matrices en formato libre. Ademas, las matrices producidas
fuera de IDAMS, por ejemplo una matriz en una publicacion, pueden entrar de acuerdo con el formato descrito
en la secci
on Matrices IDAMS.
Captulo 3
Contenido y prop
osito
Para ejecutar los programas IDAMS el usuario prepara un archivo especial llamado archivo Setup, el cual
controla la ejecuci
on de los programas. El archivo Setup contiene comandos de IDAMS e instrucciones que
especifican lo que se requiere, tales como que programa se va a ejecutar, nombres de archivos, opciones a
escoger del programa e instrucciones de transformaci
on de variables; por. ej.
$RUN nombre de programa
$FILES
especificaci
on de archivos
$SETUP
proposiciones de control del programa
$RECODE
proposiciones de Recode
3.2.
Comandos de IDAMS
Estos comandos, los cuales comienzan con $, separan las diferentes clases de informacion que se suminsitran
a una ejecuci
on de un programa de IDAMS. Los comandos disponibles son:
$RUN programa
$FILES [RESET]
$RECODE
$SETUP
$DICT
$DATA
$MATRIX
$PRINT
$COMMENT [texto]
$CHECK [n]
La primera lnea en un archivo Setup debe ser siempre un comando $RUN que identifica el programa IDAMS
a ejecutar. Otros comandos relacionados con la ejecuci
on de este programa (seguidos de las proposiciones de
control asociadas o de datos) se pueden colocar en cualquier orden. Estos se siguen con un comando $RUN
para ejecutar el siguiente programa (si lo hay) y as sucesivamente.
Los comandos individuales de IDAMS se describen a continuacion en orden alfabetico.
$CHECK [n]. Cuando este comando est
a presente, el programa no se ejecutara si el programa inmediatamente precedente termin
o con un c
odigo de condicion mayor que n. Si el comando est
a presente pero no se
ha suministrado ning
un valor, n toma 1 por defecto.
22
$COMMENT texto. El texto en este comando se imprime en el listado del setup. Este comando no
tiene efecto en la ejecuci
on del programa.
$DATA. El comando $DATA se
nala que vienen los datos.
No se puede usar si el programa genera un archivo Datos de salida y no se ha especificado el archivo
DATAOUT, es decir que los datos de salida van a un archivo temporal por defecto.
No se puede usar si se usa el comando $MATRIX.
La longitud del registro de los datos en el setup no puede exceder de 80 caracteres. Si entran registros,
o lneas mas largas, solo se usaran los primeros 80 caracteres.
El comando $DATA desactiva el interruptor de impresion. As, a menos de que un comando $PRINT
venga inmediatamente despues del comando $DATA, los datos no se imprimen.
$DICT. El comando $DICT se
nala que viene un diccionario IDAMS.
No se puede usar si el programa genera un archivo Diccionario de salida y no se ha especificado el
archivo DICTOUT, es decir si el diccionario sale a un archivo temporal por defecto.
El comando $DICT desactiva el interruptor de impresion. As, a menos de que un comando $PRINT
venga inmediatamente despues del comando $DICT, el diccionario no se imprime.
$FILES [RESET]. Se
nala el comienzo de especificaci
on de archivos. Al comienzo de la ejecuci
on de los
programas de IDAMS se colocan nombres por defecto a cada archivo, con el uso de un archivo especial
idams.def. Cualquiera de estos nombres por defecto, se puede cambiar con proposiciones de especificaci
on
de archivo introducidas despues del comando $FILES (ver Especificaci
on de archivos mas adelante). Para
obtener nuevamente los nombres por defecto para archivos Fortran FT (excepto FT06 y FT50), use el
comando FILES RESET.
$MATRIX. El comando $MATRIX se
nala que viene una matriz o una serie de matrices.
No se puede usar si se usa $DATA.
El comando $MATRIX desactiva el interruptor de impresion. As, a menos que un comando $PRINT
venga inmediatamente despues del comando $MATRIX, la matriz no se imprime.
$PRINT. Se invierte el interruptor de impresion; si estaba activado, $PRINT lo desactiva; si estaba desactivado, $PRINT lo activa. Si la impresion estaba activada, las lneas del archvo Setup se imprimen como
una parte de los resultados.
Cuando se encuentra un comando $RUN, el interruptor de impresion siempre se activa. Los comandos
$DICT, $DATA y $MATRIX desactivan autom
aticamente el interruptor de impresion.
$RECODE. La presencia de este comando se
nala que se va a usar la facilidad Recode de IDAMS. La
facilidad Recode de IDAMS se describe en el captulo La facilidad Recode de este manual.
Las proposiciones de Recode normalmente siguen a continuacion del comando $RECODE. Si un nuevo
comando de IDAMS sigue inmediatamente despues de un comando $RECODE, se usan las proposiciones Recode del setup del programa precedente.
3.3 Especificaci
on de archivos
23
$RUN programa. $RUN especifica el programa que se va a ejecutar y siempre es la primera proposicion
en el setup.
programa es el nombre del programa de 1-8 caracteres.
Todos los comandos y proposiciones que van a continuacion del comando $RUN y van hasta el siguiente
comando $RUN se aplican al programa nombrado.
El interruptor de impresion se activa cuando se encuentra un comando $RUN. Ver la descripcion de
$PRINT.
$SETUP. El comando $SETUP se
nala el comienzo de las proposiciones de control del programa, es decir
el filtro, ttulo, proposicion de par
ametros, etc. (ver mas adelante).
Se requiere el comando $SETUP aun cuando haya proposiciones de control de programa imediatamente
despues del comando $RUN.
3.3.
Especificaci
on de archivos
Los nombres de los archivos a usar se dan despues del comando $FILES y toman el formato siguiente:
ddname=nombre de archivo
donde:
ddname es el nombre de la referencia de archivo usado interiormente para los programas, por ej.
DICTIN. Los archivos requeridos y los correspondientes ddnames para un programa en particular se
dan en la documentacion del programa en la secci
on titulada Estructura del setup.
nombre de archivo es el nombre del archivo fsico. Encierre el nombre entre comillas sencillas si este
tiene blancos. Ver la secci
on Carpetas en WinIDAMS para explicaciones adicionales.
RECL debe usarse si el primer registro del archivo Datos no es el mas largo. Si no se ha especificado
RECL la longitud de registro se toma como la longitud del primer registro. Si un registro posterior es
mas largo, se presenta un error de entrada.
Ejemplos:
DATAIN
PRINT
FT02
DICTIN
=
=
=
=
A:ECON.DAT RECL=92
RSLTS.LST
ECON.MAT
\\nec0102\commondata\econ.dic
Referirse a la secci
on Personalizacion del ambiente para una aplicacion en el captulo Interfaz del Usuario
para una descripci
on adicional.
3.4.
Ejemplo A. Hacer m
ultiples ejecuciones de un programa de analisis, por ej. ONEWAY con los mismos
datos pero, por ejemplo, con filtros diferentes.
$RUN ONEWAY
$FILES
DICTIN = CHEESE.DIC
DATAIN = CHEESE.DAT
$RUN ONEWAY
$SETUP
24
Ejemplo B. Ejecutar TABLES y ONEWAY usando el mismo diccionario y los mismos datos para cada
programa y con el mismo Recode; no imprimir las proposiciones de Recode.
$RUN TABLES
$FILES
DICTIN = ABC.DIC
DATAIN = ABC.DAT RECL=232
$SETUP
Proposiciones de control para TABLES
$RECODE
$PRINT
Proposiciones de Recode
$RUN ONEWAY
$SETUP
Proposiciones de control para ONEWAY
$RECODE
$COMMENT EL RECODE DE ENTRADA PARA TABLES SE USARA EN ONEWAY
Ejemplo C. Ejecutar TABLES usando Recode de IDAMS, diccionario en el setup, datos en disco. Imprimir
el diccionario de entrada.
$RUN TABLES
$FILES
DATAIN = A:MYDATA.DAT
$RECODE
Proposiciones de Recode
$SETUP
Proposiciones de control para TABLES
$DICT
$PRINT
Diccionario
Ejemplo D. Usar los datos de salida de un programa de manejo de datos como entrada a los programas de
analisis sin retener el archivo de salida, por ej. ejecutar TRANS seguido de TABLES usando los datos de
salida de TRANS mediante la especificaci
on del par
ametro INFILE=OUT. TABLES no se ejecuta si TRANS
tiene errores en las proposiciones de control.
$RUN TRANS
$FILES
DICTIN = MY.DIC
DATAIN = MY.DAT
$SETUP
Proposiciones de control para TRANS
$RECODE
Proposiciones de Recode
$RUN TABLES
$CHECK
$SETUP
Proposiones de control para TABLES, inclu
do el par
ametro INFILE=OUT
3.5.
25
3.5.1.
Descripci
on general
3.5.2.
3.5.3.
Filtros
Prop
osito. Una proposicion de filtro se usa para seleccionar un subconjunto de casos. Una proposicion
de filtro se expresa en terminos de variables y de los valores tomados por esas variables. Por ejemplo, si la
variable V5 indica sexo del encuestado en una encuesta y el c
odigo 1 representa mujer, entonces INCLUDE
V5=1 es una proposicion de filtro que especifica encuestados femeninos como el subconjunto deseado de
casos.
El filtro principal selecciona casos de un archivo Datos de entrada y se aplica en toda la ejecuci
on de
un programa. Estos filtros est
an disponibles en todos los programas de IDAMS que cargan un diccionario
(excepto BUILD y SORMER). Algunos programas permiten subdivisi
on adicional. Tales filtros locales se
aplican solamente a una accion especfica del programa, por ej. una tabla de frecuencias.
Ejemplos.
1. INCLUDE V2=1-5 AND V7=23,27,35 AND V8=1,2,3,6
2. EXCLUDE V10=2-3,6,8-9 AND V30=<5 OR V91=25
3. INCLUDE V50=FRAN,UK,MORO,INDI
Colocaci
on. Si se usa un filtro principal, es siempre la primera proposicion de control de programa. La
documentacion de cada programa indica si se pueden usar filtros locales tambien.
Reglas de codificaci
on.
La proposicion de filtro comienza con las palabras INCLUDE o EXCLUDE. Seg
un la palabra usada,
la proposicion de filtro define el subconjunto de casos a usar (INCLUDE) o ignorar (EXCLUDE) por
el programa.
26
Los valores se expresan en forma sencilla o en rangos y se separan con comas, por ej. 1-5, 8, 12-13.
Para variables numericas de filtro, los valores en el archivo de datos se convierten primero a
modo binario real con el n
umero correcto de cifras decimales del diccionario y despues se hace
la comparaci
on numericamente con el valor en el filtro. N
otese que esto significa que para una
variable con decimales, los valores de filtro se deben suministrar con el punto decimal en el lugar
correcto, por ej. V2=2.5-2.8.
Los casos con valores no numericos en una variable de filtro siempre se excluyen de la ejecuci
on.
Los valores en un filtro para variables alfabeticas.
Valores de 1-4 caracteres se expresan como cadenas de caracteres entre comillas sencillas, por ej.
F. No se requiere entrar los blancos a la derecha, es decir que se a
naden los blancos a la derecha.
Si la variable tiene un ancho de campo mayor que 4, entonces se usan solo los primeros cuatro
caracteres de los datos para comparar con la variable de filtro.
No se pueden usar rangos de cadenas de caracteres; solo se permiten valores individuales separados
con comas.
Nota. La primera proposicion despues del comando $SETUP se reconoce como filtro principal si comienza
con INCLUDE o EXCLUDE. Si los primeros caracteres que no esten en blanco son cualquier otra cosa, se
supone que la proposicion es un tltulo.
3.5.4.
27
Ttulos
Prop
osito. Una proposicion de ttulo se usa para titular los resultados que produce un programa. Algunos
programas de IDAMS imprimen este ttulo una vez al comienzo del listado mientras que otros lo utilizan
para titular cada p
agina del mismo.
Ejemplos.
1. TABLAS DE LOS DATOS DE LAS ELECCIONES - JULIO, 2000
2. LISTADO DE DATOS DE ENCUESTA CORREGIDOS A34
Colocaci
on. Todos los programas de IDAMS requieren una proposicion de ttulo. El ttulo es la primera
proposicion de control de programa o (si se usa filtro) la segunda. Si no se desea ttulo en especial, es necesario
de todas maneras incluir una lnea en blanco.
Reglas de codificaci
on.
La proposicion puede ser cualquier cadena de caracteres de los cuales se usan los primeros 80, es decir,
si entra un ttulo con mas de 80 caracteres, se trunca a los primeros 80.
Si el ttulo no esta encerrado entre comillas sencillas, las min
usculas se convierten a may
usculas y los
blancos se reducen a un solo blanco.
El ttulo no puede empezar con las palabras INCLUDE o EXCLUDE.
3.5.5.
Par
ametros
Prop
osito. Todos los programas de IDAMS se han dise
nado de una manera m
as o menos general de forma
tal que permitan al usuario seleccionar varias opciones. Estas opciones y valores se llaman parametros y
se suministran en las proposiciones de control del programa, tales como parametros, especificaciones de
regresion, especificaciones de tablas, etc. El usuario especifica los par
ametros en formato de palabra clave
est
andar con una palabra inglesa o su abreviaci
on para identificar una opcion.
Ejemplos.
1. WRITE=CORR WEIGHT=V3, PRINT=(DICT, PAIR)
(par
ametros de PEARSON)
2. DEPV=V5 METHOD=STEP VARS=(R3-R9,V30) WRITE=RESID
(par
ametros de regresi
on de REGRESSN)
3. ROWV=(V3,V9,V10) COLV=(V4,V11,V19) CELLS=(FREQ,ROWPCT) STATS=(CHI,TAUA)
(descripci
on de tabla de TABLES)
Colocaci
on. Todos los programas de IDAMS requieren la proposicion principal de par
ametros y debe
seguir despues de la proposicion de ttulo. Si se escogen todos los valores por defecto, debe suministrarse
una lnea con un asterisco. Cada documentacion de programa indica el tipo y contenido de cualesquiera
otras listas de par
ametros que se requieran e indica su posicion relativa a otras proposiciones de control del
programa.
Presentaci
on de par
ametros en formato de palabra clave en la documentaci
on de programas.
Toda la documentacion tiene una notaci
on est
andar en las secciones que describen los par
ametros de los que
se dispone. La notaci
on b
asica es la siguiente:
Una diagonal indica que se puede escoger solo uno de los terminos mutuamente excluyentes, por ej.
SAMPLE/POPULATION o PRINT=CDICT/DICT.
Una coma indica que se pueden escoger todos, algunos o niguno de los tems, por ej. STATS=(TAUA,
TAUB, GAMMA).
Cuando se combinan comas y diagonales, se puede escoger solo uno (o ninguno) de los tems dentro
de cada grupo separados por comas y conectados con diagonales, por ej. PRINT= (CDICT/DICT,
LONG/SHORT).
28
Tipos de palabras clave. Hay 5 tipos de palabras clave para especificar par
ametros.
1. Una palabra clave seguida de una cadena de caracteres. Este tipo de palabra clave identifica un
par
ametro que consiste en una cadena de caracteres, por ej.
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
El usuario puede especificar:
INFILE=IN2
(los ddnames serian DICTIN2 y DATAIN2)
2. Una palabra clave seguida de uno o mas n
umeros de variables, por ej.
WEIGHT=n
umero de variable
El n
umero de la variable de ponderaci
on, si se van a ponderar los datos.
VARS=(lista de variables)
Usar solo las variables en la lista; los n
umeros se pueden listar en cualquier orden con notaci
on V
o sin ella, es decir VARS=(V1-V3) o VARS=(1-3). N
otese que la documentacion de los programas
indica si se pueden usar variables V y R o solo variables tipo V.
El usuario puede especificar:
WEIGHT=V39
(la variable de ponderaci
on es V39)
VARS=(32,1,10)
(solo se usan las variables especificadas)
3. Una palabra clave seguida de uno o mas valores numericos, por ej.
MAXCASES=n
S
olo se procesar
an los primeros n casos.
IDLOC=(i1,f1,i2,f2, ...)
Columnas inicial y final para 1-5 campos de identificacion de caso.
El usuario puede especificar:
MAXCASES=100
(solo se procesar
an los primeros 100 casos)
IDLOC=(1,3,7,9)
(la identificaci
on de caso se halla en las columnas 1-3 y 7-9)
4. Una palabra clave seguida de uno o mas valores de palabras clave. Los valores de palabra clave pueden
ser una mezcla de opciones mutuamente excluyentes (separadas con diagonales) y opciones independientes (separadas con comas). Por ejemplo:
PRINT=(OUTDICT/OUTCDICT/NOOUTDICT,DATA)
OUTD
Imprimir diccionario de salida sin registros C.
OUTC
Imprimir diccionario de salida con registros C si los hay.
NOOU
No imprimir diccionario de salida.
DATA
Imprimir los valores de las variables de salida.
El usuario puede especificar:
PRINT=(OUTC,DATA)
(se imprime todo el diccionario de salida y se imprimen los datos)
29
PRINT=NOOUTDICT
(no se imprime el diccionario de salida ni los datos)
5. Un conjunto de palabras clave mutuamente excluyentes. De un conjunto de opciones solo se puede
seleccionar una de ellas, por ej.
SAMPLE/POPULATION
SAMP
Calcule la variancia y/o desviacion est
andar con la ecuaci
on de la muestra.
POPU
Usar la ecuaci
on de la poblacion.
Todas las palabras clave con excepci
on del u
ltimo tipo van seguidas de un signo igual (=). Los valores de
caracteres, numericos y palabras clave que siguen al signo igual se llaman valores asociados.
Reglas de codificaci
on.
Reglas para especificar palabras clave
S
olo se requiere suministrar las primeras 4 letras de una palabra clave o una palabra clave asociada,
aunque se puede suministrar toda la palabra clave. As, TRAN es una abreviaci
on apropiada para
de la palabra clave TRANSVARS. No hay abreviaci
on para palabras clave de 4 letras o menos.
Reglas para especificar valores asociados
El valor asociado es una lista de tems.
Los tems en la lista se separan con comas.
Por ejemplo:
R=(V2,3,5)
PRIN=(DICT,DATA,STAT)
MAXC=5
TRAN=(V5,V10-V25,V32)
IDLOC=(1,3,7,8)
El valor asociado es una cadena de caracteres.
La cadena debe encerrarse entre comillas sencillas si contiene caracteres no-alfanumericos, por ej.
FNAME=EDUCACION:ONDA 1. N
otese que los blancos, el punto y la coma son caracteres
no-alfanumericos. Cuando haya duda, use comillas sencillas.
Dos comillas sencillas consecutivas (no el car
acter de comilla doble) se deben usar para representar
una comilla sencilla, por ej. ANAME=KEVINS (la comilla sencilla extra se elimina una vez
que se ha ledo la cadena).
Es mejor no separar una cadena entre lneas.
Reglas para especificar listas de palabras clave
Las palabras clave (con o sin valores asociados) se separan unas de otras con comas o con uno o mas
blancos, por ej.
FNAME=FRED, TRAN=3
KAISER
Una lista de palabras clave puede continuar en tantas lneas como sea necesario pero un gui
on es
necesario al final de cada lnea para indicar la continuaci
on, por ej.
FNAME=FRED TRAN=3 KAISER
30
Detalles de par
ametros m
as comunes y no descritos totalmente en la documentaci
on de cada
programa.
1. BADDATA. Tratamiento de datos no numericos.
BADDATA=STOP/SKIP/MD1/MD2
Cuando se encuentran caracteres no numericos (incluidos blancos intercalados y campos totalmente en blanco) en variables numericas, el programa debe:
STOP
Terminar la ejecuci
on.
SKIP
Saltar el caso.
MD1
Reemplazar los valores no numericos por el primer c
odigo de datos faltantes (o por
1,5 109 si el primer c
odigo de datos faltantes no est
a specificado).
MD2
Reemplazar los valores no numericos por el segundo c
odigo de datos faltantes (o por
1,6 109 si el segundo c
odigo de datos faltantes no est
a specificado).
Para SKIP, MD1 y MD2 se imprime un mensaje acerca del n
umero de casos as tratados.
2. MAXCASES. N
umero maximo de casos a procesar.
MAXCASES=n
El valor dado es el maximo n
umero de casos que se van a procesar. Si n=0, no se leen casos;
esta opci
on se puede usar para probar setups sin leer datos. Si no se especifica el par
ametro, se
procesan todos los casos.
3. MDVALUES. Especifica cuales de los c
odigos de datos faltantes (MD1,MD2) del diccionario o de
las especificaciones de MDCODES en el Recode, si los hay, se van a usar para verificar datos faltantes
en los valores de las variables. N
otese que algunos programas tienen adicionalmente un par
ametro
MDHANDLING para especificar c
omo se van a manejar los valores faltantes en los datos.
MDVALUES=BOTH/MD1/MD2/NONE
BOTH
Los valores de las variables se verificar
an contra los c
odigos MD1 y los rangos de los
c
odigos definidos par MD2.
MD1
Los valores de las variables se verificar
an contra los c
odigos MD1 solamente.
MD2
Los valores de las variables se verificar
an contra los rangos de los c
odigos definidos par
MD2 solamente.
NONE
No se usaran c
odigos MD. Se consideran validos todos los valores de los datos.
Por defecto siempre se usan ambos c
odigos MD.
4. INFILE, OUTFILE. Especifican los ddnames con los cuales se definen los archivos Diccionario y
Datos de entrada y salida.
INFILE=IN/xxxx
OUTFILE=OUT/yyyy
Los archivos Diccionario y Datos de entrada y de salida para los programas de IDAMS se definen
con ddnames DICTxxxx, DATAxxxx, DICTyyyy, DATAyyyy. Normalmente tienen los valores por
defecto DICTIN, DATAIN. DICTOUT, DATAOUT. Si se usan varios programas de IDAMS en
el setup, por ejemplo programas que utilizan diferentes datasets como entrada o cuando se usa
la salida de un programa como entrada directa a otro programa (encadenamiento), entonces es
necesario algunas veces cambiar estos valores por defecto.
5. WEIGHT. Este par
ametro especifica la variable cuyos valores se usaran para ponderar los datos en
los casos.
WEIGHT=n
umero de variable
La variable especificada puede ser tipo V o tipo R, entera o decimal. Los casos con valores
de ponderaci
on faltantes, ceros, negativos y no numericos, siempre se saltan y se imprime un
mensaje acerca del total de casos as tratados. Si no se especifica el par
ametro WEIGHT, no se
hace ponderaci
on.
31
3.6.
Proposiciones de Recode
La facilidad Recode de IDAMS permite recodificar temporalmente los datos durante la ejecuci
on de programas de IDAMS. Los resultados de esas operaciones de recodificacion junto con las variables transferidas del
archivo de entrada se pueden guardar tambien en archivos permanentes con el programa TRANS.
La recodificacion se invoca con el comando $RECODE. Este comando y las proposiciones asociadas de
recodificacion se colocan despues del comando $RUN para el programa con el cual se va a usar la facilidad
Recode. Por ejemplo:
$RUN programa
$FILES
Definici
on de archivos
$RECODE
Proposiciones de Recode
$SETUP
Proposiciones de control
de programa
$RUN ONEWAY
$FILES
DICTIN=MYDIC
DATAIN=MYDAT
$RECODE
R10 = BRAC(V3,0-10=1,11-20=2)
R11 = SUM(V7,V8)
NAME R10 NIVEL EDUC., R11ING. TOT
$SETUP
INGRESO POR EDUC, SEXO
BADDATA=SKIP
CONVARS=(R10,V2) DEPVAR=R11
Una descripci
on completa de la facilidad Recode se encuentra en el captulo Facilidad Recode.
Captulo 4
Facilidad Recode
4.1.
Reglas de codificaci
on
proposicion
donde eti es una etiqueta opcional de 1-4 caracteres que comienza en la posicion 1 de la lnea y
est
a seguido, por lo menos, de un espacio en blanco. Las proposiciones sin etiqueta deben comenzar en
la posicion 2 o mas alla.
La etiqueta permite que proposiciones de control tales como GO TO, se refieran a una proposicion en
particular, por ej. GO TO ST1. No puede haber etiquetas en las proposiciones de iniciacion (CARRY,
MDCODES, NAME).
Para continuar una proposicion en otra lnea, coloque un gui
on al final de la lnea y contin
ue en la
lnea siguiente en cualquier posicion.
La longitud maxima de lnea es de 255 caracteres y el n
umero total maximo de caracteres por cada
proposicion es de 1024, excluidos los guiones de continuacion y los blancos despues de cada gui
on.
4.2.
Para dar alguna idea de como encajan los elementos del lenguaje de Recode, se ofrece a continuacion una
muestra de proposiciones Recode.
$RECODE
IF V5 LT 8 THEN REJECT
(excluir casos donde V5 < 8)
IF NOT MDATA(V6) THEN R51=TRUNC(V6/4) ELSE R51=0
R52=BRAC(V10,0-24=1,25-49=2,50-74=3, (agrupar valores de V10)
74-99=4,TAB=1)
R53=BRAC(V11,TAB=1)
(agrupar V11 igual que V10)
IF V26 INLIST(1-10) THEN R54=1 AND R55=1 ELSE R54=2
IF R54 EQ 1 THEN GO TO L1
R55=99
R56=V15 + V35
GO TO L2
L1 R56=99
L2 R57=COUNT(1,V20-V27,V29)
(cuantas de las variables tienen el valor 1)
NAME R52 EDAD AGRUPADA, R53 EDAD AGRUPADA EN MATRIM
MDCODES R55(99),R56(99)
34
4.3.
Facilidad Recode
4.4.
Verificaci
on de sintaxis e interpretaci
on. Las proposiciones de Recode se leen y se analizan para detectar
errores antes de ser interpretadas por otras proposiciones de control de programa de IDAMS y antes de la
ejecuci
on del programa. Si se encuentran errores, se imprimen mensajes de diagnostico y termina la ejecuci
on
del programa en curso.
Resultados. Recode imprime las proposiciones de Recode que fueron suministradas por el usuario junto
con los errores de sintaxis detectados, si los hubo. Esto se presenta antes de ejecutar el programa, es decir
antes de imprimir la interpretaci
on de las proposiciones de control del programa.
Iniciaci
on antes de comenzar a procesar un archivo de datos. Las tablas, c
odigos de datos faltantes,
nombres, etc. se inician (de acuerdo con las proposiciones de iniciacion/definicion proporcionadas por el
usuario) antes de comenzar la lectura de los datos, siempre que no haya errores de sintaxis. Las variables R
en las proposiciones CARRY se inician con cero.
Iniciaci
on antes de procesar cada caso. Al comenzar el procesamiento de cada caso y antes de la
ejecuci
on de las proposiciones de Recode para ese caso, todas las variables R con excepcion de aquellas
listadas en proposiciones CARRY, se inician con los valores internos por defecto de IDAMS para datos
faltantes (1,5 109 ).
Ejecuci
on de proposiciones de Recode. La recodificacion propiamente dicha tiene lugar despues de
haber ledo los datos para un caso y despues de haber aplicado el filtro principal. Los casos que no pasan
el filtro no van a las rutinas de Recode. Por lo tanto, no se pueden usar variables de Recode en filtros
principales.
El uso de las proposiciones de Recode es secuencial (es decir, la primera proposicion se usa primero, despues
la segunda, la tercera, etc.) excepto cuando se modifican con las proposiciones GO TO, BRANCH, RETURN,
REJECT, ENDFILE, ERROR (proposiciones de control). Cuando se han usado todas las proposiciones, el
caso se pasa al programa IDAMS que se ejecuta.
Cuando el programa ha terminado de usar el caso, se procesa el siguiente caso que haya pasado el filtro, la
variables R se re-inician (excepto las variables en CARRY) con los c
odigos de datos faltanes y se ejecutan
las proposiciones de Recode para ese caso y as sucesivamente hasta llegar al final del archivo de datos.
4.5 Operandos b
asicos
35
Prueba de proposiciones Recode. Se pueden presentar errores de logica que no son detectables por la
facilidad Recode. Para verificar los resultados buscados contra los generados por Recode, las proposiciones
de Recode deben probarse sobre unos pocos registros con el programa LIST y el par
ametro MAXCASES
iniciado por ejemplo a 10. Se pueden inspeccionar entonces los valores de las variables de entrada y de las
correspondientes variables de resultados.
Archivos usados por Recode. Cuando se encuentra un comando $RECODE en el archivo Setup, las
lneas subsiguientes se copian a un archivo de trabajo en la unidad FT46. El programa RECODE lee las
proposiciones Recode de este archivo y las analiza para buscar errores antes de pasar a la interpretaci
on
de otras proposiciones de control y antes de la ejecuci
on cualquier programa IDAMS. Si hay errores, se
imprimen los mensajes de diagnostico y se termina la ejecuci
on de ese programa de IDAMS.
Las proposiciones interpretadas se escriben en forma de tablas en un archivo de trabajo en la unidad FT49
en la cual las lee el programa IDAMS que se ejecuta.
Los mensajes acerca de las proposiciones de Recode se escriben en la unidad FT06 junto con los resultados
del programa que se ejecuta.
4.5.
Operandos b
asicos
Variables. Las variables de Recode se refieren a variables de entrada (variables V) o variables de resultado
(variables R). Se definen as:
Variables de entrada (Vn). V seguida de un n
umero. Estas son variables que siguen la definicion
del diccionario de entrada. Sus valores se pueden cambiar con Recode (por ej. V10=V10+V11).
Normalmente deben ser numericas, pero se pueden usar variables alfabeticas que no tengan mas
de cuatro (4) caracteres y en particular se pueden recodificar a valores numericos.
Variables de resultado (Rn). R seguida de un n
umero (1 a 9999). Estas son variables creadas
por el usuario. Las variables R, (excepto aquellas listadas en proposiciones CARRY - ver mas
adelante) se incian con el valor de datos faltantes por defecto 1,5 109 antes de procesar cada
caso.
Para usar una variable R en un programa, se especifica una R (en lugar de V) en la lista de variables correspondiente a un par
ametro de palabra clave (por ej. WEIGHT=R50 o VARS=(R10R20)). Cuando los programas las escriben, se puede identificar un n
umero de variables de resultado con un signo negativo. As, la variable 10 es V10 y la variable -10 es R10. Es menos
confuso usar n
umeros diferentes para las variables de resultado a los n
umeros de las variables de
entrada. Las variables R siempre son numericas.
Constantes num
ericas. Las constantes pueden ser enteras o decimales, positivas o negativas, por ej. (3,
5.5, -50, -0.5).
Constantes de caracteres. Las constantes de caracteres se encierran entre comillas sencillas (por ej.
ABCXYZ, M). Una comilla sencilla dentro de una constante de caracteres se debe representar por dos
comillas sencillas adyacentes (por ej. DONTS se escribira: DONTS). Se usan constantes de caracteres
en la proposicion NAME para asignar nombres a nuevas variables. Tambien pueden usarse en expresiones
logicas para verificar valores de variables alfabeticas (por ej. IF V10 EQ M); para estas comparaciones, solo
se usan los cuatro primeros caracteres y los valores de las variables/constantes con longitud inferior a cuatro
(4) caracteres, se llenan de espacios en blanco a la derecha. Las constantes de caracteres no se pueden usar
en funciones aritmeticas (a excepci
on de BRAC).
4.6.
Operadores b
asicos
Operadores aritm
eticos. Los operadores aritmeticos se usan dentro de los operandos aritmeticos. Los
operadores aritmeticos en orden de precedencia, son:
36
Facilidad Recode
EXP x
*
/
+
-
(negacion)
(exponenciacion a la potencia x, donde -181 < x < 175)
(multiplicaci
on)
(division)
(adicion)
(sustraccion)
Operadores relacionales. Los operadores relacionales se usan para determinar si existe o no alguna relacion
particular entre dos valores aritmeticos. Los operadores relacionales son:
LT
LE
GT
GE
EQ
NE
(menor que)
(menor o igual que)
(mayor que)
(mayor o igual que)
(igual)
(no igual)
Operadores l
ogicos. Los operadores logicos se usan entre operandos logicos. Los operandos logicos toman
solamente los valores verdadero o falso. Los operadores logicos son:
NOT
AND
OR
4.7.
(ambos)
(uno u otro)
Expresiones
Una expresion es una representacion de un valor. Una constante sola, una variable o una referencia de
una funci
on son expresiones. Las combinaciones de constantes, variables, funciones y otras expresiones con
operadores, son tambien expresiones. Recode puede evaluar expresiones aritmeticas y expresiones logicas.
N
otese que se pueden usar parentesis en cualquier parte dentro de una expresion para clarificar el orden de
evaluacion deseado.
Expresiones aritm
eticas. Las expresiones aritmeticas se construyen con operadores aritmeticos y variables,
constantes y funciones aritmeticas. Las expresiones aritmeticas producen un valor numerico. Ejemplos:
V732
44
R67/V807 + 25
LOG(R10)
(el
(la
(25
(el
valor de V732)
constante 44)
m
as el valor de R67 dividido por el valor de V807)
logaritmo del valor de R10)
Expresiones l
ogicas. Las expresiones logicas se eval
uan para obtener un valor de verdadero o falso. No
existen variables logicas en el lenguaje Recode, de manera que el resultado de la evaluacion de expresiones
logicas no se puede asignar a una variable. Las expresiones logicas se pueden usar solamente con proposiciones
IF. Ejemplos:
R5 EQ V33
Verdadera, si el valor de R5 es igual al valor de V333, falsa si no lo es.
(V62 GT 10) OR (R5 EQ V333)
Verdadera, si alguna de las dos expresiones logicas resulta verdadera, falsa si ambas expresiones logicas
resultan falsas.
MDATA(V10,R20) AND V9 GT 2
Verdadera, si el valor de V10 o el valor de R20 corresponden a un c
odigo de datos faltantes y si el valor de
V9 es mayor que 2, falsa, si lo anterior no se cumple.
4.8.
37
Funciones aritm
eticas
Todas las funciones aritmeticas devuelven un solo valor numerico. Las listas de argumentos para las funciones aritmeticas pueden ser listas simples encerradas entre parentesis o listas altamente estructuradas que
involucren elementos de palabras clave y elementos en posiciones especficas dentro de la lista. Las funciones
disponibles son:
Functi
on
Ejemplo
Prop
osito
ABS
BRAC
ABS(R3)
BRAC(V5,TAB=1,ELSE=9, 1-10=1,11-20=2)
BRAC(V10,F=1,M=2)
COMBINE V1(2), V42(3)
COUNT(1,V20-V25)
Valor absoluto
Agrupamiento univariado
COMBINE
COUNT
LOG
MAX
MD1,MD2
MEAN
MIN
NMISS
NVALID
RAND
RECODE
SELECT
LOG(V2)
MAX(V10-V20)
MD1(V3)
MEAN(V5-V8,MIN=2)
MIN(V10-V20)
NMISS(V3-V6)
NVALID(V3-V6)
RAND(0)
RECODE V7,V8,(1/1)(1/2)=1, (2-3/3)=2, ELSE=0
SELECT (BY=V10,FROM=R1-R5,9)
SQRT
STD
SUM
TABLE
TRUNC
VAR
SQRT(V2)
STD(V20-V25,MIN=4)
SUM(V6,V8,V9-V12,MIN=3)
TABLE(V5,V3,TAB=2,ELSE=9)
TRUNC(V26/3)
VAR(V6,R5-R10,MIN=7)
Recodificacion alfabetica
Combinaci
on de 2 variables
Conteo de ocurrencias de un valor a traves
de un conjunto de variables
Logaritmo de base 10
Valor maximo
Valor de c
odigo de datos faltantes
Valor medio
Valor mnimo
Nr. de valores de datos faltantes
Nr. de valores de datos no faltantes
N
umero aleatorio
Recodificacion multivariada
Seleccion del valor de una variable dentro de un
conjunto de variables seg
un una variable ndice
Raz cuadrada
Desviaci
on est
andar
Suma de valores
Recodificacion bivariada
Parte entera del valor del argumento
Variancia
38
Facilidad Recode
regla 1, regla 2, ..., regla n es el conjunto de reglas que definen los valores que BRAC debe devolver,
seg
un el valor de var. Las reglas se expresan en la forma: x=c, en donde x define uno o mas c
odigos y c
es el valor a devolver cuando el valor de var sea igual al c
odigo o c
odigos definidos por x. Las posibles
reglas (m es cualquier constante numerica o de caracteres) son:
>m=c (si el valor de var es mayor que m, devuelva c)
<m=c (si el valor de var es menor que m, devuelva c)
m=c (si el valor de var es igual a m, devuelva c)
m1-m2=c (si el valor de var est
a dentro del rango de m1 a m2, es decir m1<=var<=m2, devuelva
c).
Se pueden dar tantas reglas como sean necesarias. Se eval
uan de izquierda a derecha y se usa la primera
que se satisfaga. N
otese que se usan los smbolos > y < a cambio de los operadores logicos GT y
LT.
ELSE, TAB y las reglas se pueden especificar en cualquier orden.
No se permiten rangos de valores de variables alfabeticas, por ej. A-B no estan permitidos.
Ejemplos:
R1=BRAC(V10,TAB=1,ELSE=9,1-10=1,11-20=2,<0=0)
El valor de R1 sera 1 si la variable V10 est
a dentro del rango de 1 a 10, sera 2 si la variable V10 est
a dentro
del rango 11 a 20 y sera cero (0) cuando el valor de V10 sea menor que cero (0). Si V10 tiene cualquier otro
valor, por ej. -3, 10.5, 25, 0, entonces se aplica la clausula ELSE y R1 toma el valor de 9. Estas reglas de
agrupamiento entre parentesis se denominan tabla 1, de manera que pueden usarse posteriormente, por ej.
R2=V1 + BRAC(V2, TAB=1) * 3
En este ejemplo, para la variable V2 se aplicaran las mismas reglas que a la variable V10 de agrupamiento
entre parentesis del ejemplo previo. El valor asignado a la variable R2 sera igual al de la variable V1 +
(resultado del agrupamiento multiplicado por 3).
R100=BRAC(V10,F=1,M=2,ELSE=9)
Este es un ejemplo de recodificacion de una variable alfabetica, la cual tiene los valores F o M recodificados
a los valores numericos 1 y 2.
COMBINE. La funci
on COMBINE devuelve un valor u
nico para cada combinaci
on de valores de las
variables que se usan como argumentos. Esta funci
on se utiliza normalmente con variables categoricas.
Prototipo: COMBINE var1 (n1), var2 (n2),...,varm(nm)
Donde:
var1 a varm son las variables tipo V o tipo R que se van a combinar.
n1 a nm son los c
odigos maximos +1 de las respectivas variables.
La lista de argumentos para la funci
on COMBINE, no va entre parentesis.
Cada variable debe tener solamente valores no-negativos y enteros.
Los valores devueltos se calculan con la siguiente formula:
V1 + (n1 * V2) + (n1 * n2 * V3) + (n1 * n2 * n3 * V4) etc.
El usuario, sin embargo, determina normalmente el resultado de la funci
on al listar las combinaciones
de valores en una tabla, como se ve en el primer ejemplo que sigue a continuacion.
Ejemplos:
R1=COMBINE V6(2), R330(3)
39
V330
R1
0
1
0
1
0
1
0
0
1
1
2
2
0
1
2
3
4
5
Hombres
Mujeres
Hombres
Mujeres
Hombres
Mujeres
j
ovenes
j
ovenes
con edad media
con edad media
viejos
viejas
40
Facilidad Recode
MD2(var)
Donde var es cualquier variable de entrada (variable V) o cualquier variable de resultado previamente definida
(variable R).
Ejemplo:
R12=MD2(V20)
Para cada caso procesado, R12 tendra asignado el segundo c
odigo de datos faltantes para la variable de
entrada V20.
MEAN. La funci
on MEAN devuelve el valor de la media de un conjunto de variables. Se excluyen valores de
datos faltantes. El argumento MIN se usa para especificar el n
umero mnimo de valores validos para calcular
la media. En caso contrario, el sistema devuelve el valor por defecto 1,5 109 para datos faltantes.
Prototipo: MEAN(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el n
umero mnimo de datos validos, para los cuales se calcula el valor de la media. El valor por
defecto para n es 1.
Ejemplo:
R15=MEAN(R2-R4,V22,V5,MIN=2)
El resultado sera el valor de la media de las variables especificadas, si por lo menos dos de las variables tienen
valores no-faltantes. En caso contrario, el resultado ser
a 1,5 109 .
MIN. La funci
on MIN devuelve el valor mnimo de un conjunto de variables. Se excluyen valores de datos
faltantes. El argumento MIN se puede usar para especificar el mnimo n
umero de valores validos, a partir
del cual se calculara el valor mnimo. En caso contrario, se devuelve el valor 1,5 109 asignado por defecto
para datos faltantes.
Prototipo: MIN(varlist [,MIN=n] )
41
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el n
umero mnimo de valores validos, para los cuales se calcula el valor mnimo. El valor por
defecto para n es 1.
Ejemplo:
R10=MIN(V5,V7,V9,R2)
NMISS. La funci
on NMISS devuelve el n
umero de valores faltantes en un conjunto de variables.
Prototipo: NMISS(varlist)
Donde varlist es una lista de variables tipo V y tipo R.
Ejemplo:
R22=NMISS(R6-R10)
El valor que se devuelve, depende de cuantas de las variables R6-R10 tienen valores faltantes. El valor
maximo es de 5 para un caso, en el cual todas las cinco variables tengan datos faltantes.
NVALID. La funci
on NVALID devuelve el n
umero de valores validos (no faltantes) dentro de un conjunto
de variables.
Prototipo: NVALID(varlist)
Donde varlist es una lista de variables tipo V o tipo R.
Ejemplo:
R2=NVALID(V20,V22,V24)
El valor que se devuelve, depende de cuantas variables tienen valores validos. Se obtendr
a un maximo valor
de 3, si todas las variables tienen todos los valores validos. Se devuelve cero cuando faltan datos para todas
las tres variables.
RAND. La funci
on RAND devuelve un valor que corresponde a un n
umero aleatorio uniformemente distribuido, basado en los argumentos comienzo y lmite que se describen a continuacion.
Prototipo: RAND(comienzo [,lmite] )
Donde:
comienzo es una constante entera que se usa para iniciar la secuencia aleatoria. Si comienzo es cero,
entonces se usa el tiempo ordinario del reloj.
lmite es un argumento opcional. Es una constante entera que se usa para especificar el rango (3 significa
un rango de 1 a 3). El valor asumido por defecto es 10, es decir que el rango por defecto es de 1 a 10.
Ejemplos:
R1=RAND(0)
IF RAND(0) NE 1 THEN REJECT
Para cada caso procesado, R1 tendra asignado un n
umero aleatorio, uniformemente distribuido de 1 a 10.
La secuencia se inicia con el tiempo del reloj al ejecutar RAND por primera vez. N
otese que RAND puede
usarse con la proposicion REJECT para seleccionar una muestra aleatoria de casos. En el segundo ejemplo,
el resultado sera la inclusi
on de una muestra aleatoria de 1/10 de casos.
RECODE. La funci
on RECODE se usa para devolver un valor basado en los valores concurrentes de m
variables.
Prototipo: RECODE var1,var2,...,varm [,TAB=i] [,ELSE=valor] [,regla1,regla2,...,regla n]
42
Facilidad Recode
Donde:
var1,var2,...,varm es una lista de hasta 12 variables tipo V y tipo R que se van a probar.
TAB=i numera el conjunto de reglas de recodificacion establecidas en este uso de RECODE (opcional)
o bien, se refiere a un conjunto de reglas establecidas en una utilizaci
on previa de RECODE. Nota: la
clausula ELSE no se considera parte del conjunto de reglas de recodificacion.
ELSE=valor (opcional), indica el valor a devolver cuando ninguna de las listas de c
odigos coincide con
los valores de las variables. Aunque normalmente es una constante, tambien puede ser una expresion
aritmetica. Si ELSE se omite y ninguna de las listas de c
odigos coincide con los valores de las variables,
la funci
on no devuelve ning
un valor, es decir que su valor permanece sin modificarse. Cuando es la
primera proposicion de asignacion para una variable, entonces su valor sera el dato de entrada para
una variable tipo V o datos faltantes para una variable tipo R.
regla1, regla2, ..., regla n, es el conjunto de reglas que definen los valores a devolver, seg
un los valores
de var1, var2,..., varm. Cada regla es de la forma (lista de c
odigos 1)(lista de c
odigos 2) ... (lista de
c
odigos p)=c. Cada lista de c
odigos es de la forma (a1/a2/.../am) donde a1 es el c
odigo que se
compara con var1, a2 es el c
odigo que se compara con var2, etc. El valor c corresponde al n
umero que
se devuelve cuando var1, var2,...,varm coinciden con los c
odigos definidos en cualquiera de las listas de
c
odigos.
El prototipo para una regla es:
(a1/a2/.../am)(b1/b2/.../bm)...(x1/x2/.../xm)=c
Cada lista de c
odigos contiene una lista y/o un rango de valores para cada variable, por ej. con dos
variables, (3/2)(6-9/4)(0/1,3,5)=1.
Los c
odigos en una lista de c
odigos pueden separarse por una diagonal (indica AND) o por una barra
vertical (indica OR), aunque solo una o la otra pueden usarse en una lista de c
odigos dada.
Por ejemplo:
(a1/a2/a3)=c
(la funci
on devolver
a c si var1=a1 y var2=a2 y var3=a3)
(a1|a2|a3)=c
(la funci
on devolver
a c si var1=a1 o var2=a2 o var3=a3)
Las reglas se examinan de izquierda a derecha. La primera lista de c
odigos que coincida con los valores
de la lista de variables, determina el valor a devolver.
La lista de argumentos para la funci
on RECODE no va entre parentesis.
TAB, ELSE y las reglas pueden estar en cualquier orden.
Ejemplos:
R7=RECODE V1,V2,(3/5)(7/8)=1,(6-9/1-6)=2
A R7 se le asignar
a un valor basado en los valores de V1 y V2. En este ejemplo, R7 sera 1 si V1=3 y V2=5,
o si V1=7 y V2=8. R7 sera 2 si V1=6-9 y V2=1-6. En los dem
as casos, R7 permanecer
a sin cambios (ver
atr
as).
R7=RECODE V1,V2,TAB=1,ELSE=MD1(R7),(3/5)(7/8)=1,(6-9/1-6)=2
A R7 se le asignar
a un valor igual al del ejemplo anterior, excepto que a R7 se le asignar
a su propio valor
de MD1 cuando no se cumplan las reglas. TAB=1 permitira usar estas mismas reglas en otra llamada a la
funci
on RECODE.
Restricci
on: Cuando se use la funci
on RECODE, esta debe ser el u
nico operando al lado derecho del signo
igual.
SELECT. La funci
on SELECT devuelve el valor de la constante o variable en la lista que se define en
FROM y el cual se encuentra en la misma posicion definida por el valor de la variable en BY. (Advertencia:
si el valor de la variable en BY es menor que 1 o mayor que el n
umero de variables en la lista de FROM,
43
resulta un error fatal). Puede haber hasta 50 elementos en la lista de FROM, por lo tanto el valor maximo
para la variable en BY es 50. Una funci
on SELECT puede combinarse con otras funciones, operaciones y
variables y formar as expresiones complejas. Nota: la funci
on SELECT selecciona el valor de una sola
variable de un conjunto de variables; la proposici
on SELECT selecciona la variable que se va a usar para
el resultado. (Ver la secci
on Proposiciones especiales de asignacion para una descripcion de la proposicion
SELECT).
Prototipo: SELECT (FROM=lista de variables y/o constantes, BY=variable)
Ejemplo:
R10=SELECT (FROM=R1-R3,9,BY=V2)
R10 tendra asignado el valor de R1, R2, R3 o 9 para los valores 1, 2, 3 y 4 de la variable V2 respectivamente.
SQRT. La funci
on SQRT devuelve un valor que es la raz cuadrada del argumento entregado a la funci
on.
Prototipo: SQRT(arg)
Donde arg es cualquier expresion aritmetica.
Ejemplo:
R5=SQRT(V5)
STD. La funci
on STD devuelve la desviacion est
andar de los valores de un conjunto de variables. Se excluyen
valores de datos faltantes. El argumento MIN se usa para especificar el n
umero mnimo de valores validos
para los cuales se va a calcular la desviacion est
andar. En caso contrario el sistema asume el valor para datos
faltantes de 1,5 109 .
Prototipo: STD(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el n
umero mnimo de valores validos, para los cuales se calcula la desviacion est
andar. El valor
por defecto para n es 1.
Ejemplo:
R5=STD(V20-V24,R56-R58,MIN=3)
SUM. La funci
on SUM devuelve la suma de los valores de un conjunto de variables. Se excluyen valores
faltantes. El argumento MIN especifica el n
umero mnimo de valores validos de un caso, para calcular la
suma. En caso contrario se asume el valor para datos faltantes por defecto 1,5 109 .
Prototipo: SUM(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el n
umero mnimo de valores validos, para los cuales se calcula la suma. El valor por defecto para
n es 1.
Ejemplo:
R8=SUM(V20,V22,V24,V26,MIN=3)
Si tres o mas variables, tienen valores validos, se devuelve la suma de estas variables, de lo contrario, se
devuelve el valor 1,5 109 .
TABLE. La funci
on TABLE devuelve un valor basado en los valores concurrentes de dos variables.
Prototipo: TABLE (r, c, [TAB=i,] [ELSE=valor,] [PAD=valor,] COLS c1,c2,...,cm,
ROWS r1(vals fila r1),r2(vals fila r2),...,rn(vals fila rn))
44
Facilidad Recode
Donde:
r es una variable o constante que se usara como ndice de fila de una tabla.
c es una variable o constante que se usara como ndice de columna de una tabla.
TAB=i numera la tabla definida en este uso de TABLE (opcional) o bien, se refiere a una tabla definida
en una utilizaci
on previa de TABLE.
ELSE=valor da un valor para usar con pares de valores que no est
an definidos en la tabla. Este valor
puede ser una expresion aritmetica. El valor de ELSE usa 99 por defecto cuando no se especifica, o sea
que TABLE siempre devuelve un valor.
PAD=valor da un valor para insertar en cualquier celda definida por la especificaci
on COLS, pero no
definida por la especificaci
on ROWS.
TAB, ELSE y PAD pueden estar en cualquier orden.
c1,c2,...,cm son las columnas de la tabla. Se pueden usar rangos en la definicion de columnas.
r1,r2,...,rn son las filas de la tabla. El tama
no total de la tabla sera m por n, donde m es el n
umero de
columnas y n es el n
umero de filas.
(vals fila r1), (vals fila r2),...,(vals fila rn) son los valores retornados dependiendo de los valores de r y
c. Los valores se dan en el mismo orden de la especificaci
on de columnas; el primer valor corresponde
en c1, el segundo en c2, etc. Se pueden usar rangos en la definicion de los valores de las filas.
Ejemplos: suponga la siguiente tabla:
Fil:
Col:
2
3
5
6
8
1
1
1
3
9
1
2
2
3
9
2
2
2
3
9
2
2
2
3
9
3
3
3
3
9
4
4
4
4
9
R1=TABLE (V6, V4, TAB=1, ELSE=0, PAD=9, COLS 1-6, ROWS 2(1,1,2,2,3,4), 3(1,2,2,2,3,4),5(1,2,2,2,3,4),6(3,3,3,3,3,4),8(9))
Si V6 es igual a 5 y V4 es igual a 3, entonces a R1 se le asigna el valor 2 (la interseccion de la fila 5 y la
columna 3).
Si V6 es igual a 2 y V4 es igual a 6, entonces a R1 se le asigna el valor 4 (la interseccion de la fila 2 y la
columna 6).
Si V6 es igual a 4 y V4 es igual a 2, entonces a R1 se le asigna el valor 0 (la fila 4 no est
a definida; se usa el
valor de la clausula ELSE).
R5=TABLE (3, V8, TAB=7, ELSE=TABLE(V1,V8,TAB=1) )
Este ejemplo usara la tabla llamada 7 con 3 como ndice de fila y el valor de V8 como ndice de columna.
Si un valor de V8 no est
a en la tabla 7, entonces se usara la tabla denominada 1, con ndice de fila la
variable V1 e ndice de columna la variable V8.
TRUNC. La funci
on TRUNC devuelve el valor entero de un argumento.
Prototipo: TRUNC(arg)
Donde arg es cualquier expresion aritmetica de la cual se va a tomar la parte entera.
Ejemplo:
R5=TRUNC(V5)
R5 se le asignar
a el valor de la variable de entrada V5 truncada a un entero.
4.9 Funciones l
ogicas
45
VAR. La funci
on VAR devuelve la variancia de los valores de un conjunto de variables, excluyendo los datos
faltantes. El argumento MIN se usa para especificar el n
umero mnimo de valores validos, para los cuales se
va a calcular la variancia. En caso contrario el sistema asume el valor para datos faltantes de 1,5 109 .
Prototipo: VAR(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el n
umero mnimo de valores validos, para los cuales se calcula la variancia para el caso. El valor
por defecto para n es 1.
Ejemplo:
R9=VAR(V5-V10)
4.9.
Funciones l
ogicas
Cuando se eval
uan funciones logicas, estas devuelven un valor verdadero o falso. No se pueden usar como
operandos aritmeticos. Se usan funciones logicas en expresiones logicas y las expresiones logicas comprenden
la porcion de prueba de la proposicion condicional IF prueba THEN .... Las funciones disponibles son:
Funci
on
Exjemplo
Prop
osito
EOF
INLIST
MDATA
EOF. La funci
on EOF se usa para agrupar valores a traves de los casos. Ver el ejemplo 10 dado en la secci
on
Ejemplo de uso de proposiciones de Recode. La presencia de la funci
on EOF hace que las proposiciones
de Recode se ejecuten una vez mas despues de encontrar el fin de archivo. El valor de la funci
on EOF es
verdadero durante de esta pasada de las proposiciones de Recode, y es falso todas las otras veces.
Para la pasada final a traves de las proposiciones de Recode, las variables tipo V tendran el valor que tenan
despues de haber procesado totalmente el u
ltimo caso. Las variables tipo R (excepto aquellas listadas en
proposiciones CARRY), tendran asignado el valor 1,5 109 . Las variables tipo R de CARRY permanecer
an
sin modificacion. El usuario debe tener cuidado de establecer un camino correcto a seguir a traves de las
proposiciones de Recode cuando se haya llegado al fin de archivo.
Prototipo: EOF
Ejemplo:
IF R1 NE V1 OR EOF THEN GO TO L1
INLIST. La funci
on INLIST (abreviada IN) devuelve un valor verdadero si el resultado de una expresion
aritmetica es uno de los valores de un conjunto especificado de valores. Si la expresion es igual a un valor
por fuera del conjunto de valores, la funci
on devuelve el valor falso.
Prototipo: expr INLIST(valores)
expr IN(valores)
Donde:
expr es cualquier expresion aritmetica o una variable individual.
valores es una lista de valores. Pueden ser discretos y/o un rango de valores.
Ejemplos:
IF R12 INLIST(1-5,9,10) THEN V5=0
46
Facilidad Recode
4.10.
Proposiciones de asignaci
on
Estas son las unidades estructurales principales del lenguaje Recode. Se usan para asignar un valor a un
resultado. Se puede usar cualquier n
umero entre 1 y 9999 para una variable R, pero se evita confusi
on si los
n
umeros R son distintos de los n
umeros V de las variables en el diccionario, por ej. si hay 22 variables en
el diccionario entonces comience la numeraci
on de las variables R desde R30. Tambien se pueden usar para
asignar un valor nuevo a una variable de entrada. En este caso se pierde el valor original de la variable de
entrada durante la ejecuci
on del programa de IDAMS.
Prototipo: variable=expresion
Donde:
variable es cualquier variable de entrada (Vn) o de resultado (Rn).
expresion es cualquier expresion aritmetica que use opcionalmente funciones aritmeticas de Recode.
N
otese que para las variables usadas en la expresion, no se verifican autom
aticamente los datos faltantes
con excepcion de las funciones especiales MAX, MEAN, MIN, STD, SUM, VAR. En todos los dem
as
casos, se deben introducir proposiciones especificas para la verificacion de datos faltantes en donde sea
necesario. Para un ejemplo, ver Proposiciones condicionales mas adelante.
Ejemplos:
R10=5
A R10 se le asigna el valor constante 5.
R5=2*V10 + (V11 + V12)/2
Se puede usar cualquier expresion aritmetica y los parentesis se utilizan para cambiar la precedencia normal
de los operadores aritmeticos.
V20=SQRT(V20)
El valor en V20 se reemplaza por el valor de su raz cuadrada al usar la funci
on SQRT.
47
R20=BRAC(V6,0-15=1,16-25=2,26-35=3,36-90=4,ELSE=9)
A R20 se le asigna el valor 1, 2, 3, 4 o 9 de acuerdo con el grupo dentro del cual este el valor de la variable
V6.
R10=MD1(V10)
A R10 se le asigna un valor igual al primer c
odigo de datos faltantes de V10.
4.11.
DUMMY. La proposicion DUMMY produce una serie de variables ficticias, codificadas 0 o 1, a partir
de una sola variable.
Prototipo: DUMMY var1,...,varn USING var(val1)(val2)...(valn) [ELSE expresion]
Donde:
var1, var2,...,varn es una lista de las variables ficticias cuyos valores est
an definidos por esta proposicion.
Pueden ser variables tipo V o tipo R, pueden listarse individualmente o en rangos y deben estar
separadas por comas (por ej. R1-R3, R10, R7-R9, V20). El orden especificado se mantiene.
Las referencias dobles (R1, R3, R1) son validas.
var es cualquier variable tipo V o tipo R. El valor de esta variable es probado contra las listas de valores
(val1)(val2) etc. para asignar el valor apropiado a las variables ficticias.
(val1)(val2)...(valn) son listas de valores que se usan para asignar el valor de las variables ficticias.
Debe haber el mismo n
umero de listas como variables ficticias haya (var1, var2, ..., varn). Las listas de
valores pueden tener constantes solas o rangos o ambos.
expresion es cualquier expresion aritmetica que se usa como valor para todas las variables ficticias
cuando el valor de la variable var no se encuentra en una de las listas de valores. El valor por defecto
para expresion es la constante 0.
El valor de la variable var se prueba contra las listas de valores (el n
umero de listas de valores debe ser
igual al n
umero de variables ficticias); si var tiene un valor en la primera lista de valores, la primera
variable ficticia toma el valor 1 y las otras 0; si el valor de var se presenta en la segunda lista de valores,
la segunda variable ficticia toma el valor 1 y las dem
as 0, etc. Si el valor de var no se presenta en
ninguna de las listas de valores, todas las variables ficticias toman el valor especificado despues de la
clausula ELSE (valor por defecto 0).
Ejemplo:
DUMMY R1-R3 USING V8(1-4)(5,7,9)(0,8) ELSE 99
La tabla siguiente muestra los valores de R1, R2 y R3, basados en valores diferentes de V8:
V8:
R1:
R2:
R3:
1
1
0
0
2
1
0
0
3
1
0
0
4
1
0
0
5
0
1
0
7
0
1
0
8
0
0
1
9
0
1
0
0
0
0
1
OTROS
99
99
99
SELECT. La proposicion SELECT hace que la variable en la lista de FROM que tiene una posicion igual
al valor de la variable BY, tome el valor de la expresion a la derecha del signo igual, es decir, selecciona a
cual variable se le va a asignar un valor. Si el valor de la variable en BY es menor que 1 o mayor que el
n
umero de variables en la lista de FROM, resulta un error fatal. El n
umero maximo de variables en la lista
de FROM es de 50, por lo tanto, el maximo valor de la variable en BY es 50.
Prototipo: SELECT (FROM=lista de variables, BY=variable)=expresi
on
Ejemplos:
SELECT (FROM=R1, V3-V10, BY=R99)=1
SELECT (BY=V1, FROM=V8, R2, R5)=R7*5
48
Facilidad Recode
En el primer ejemplo, R1 tomara el valor de 1 si R99 es igual a 1; V3 tomara el valor de 1 si R99 toma el
valor de 2,...; y V10 tomara el valor de 1 si R99 toma el valor de 9. Si R99 es mayor que 9 o menor que 1,
se presentar
a un error fatal. Los valores de las ocho variables no referidas no se alterar
an.
SELECT se puede usar para un bucle as:
L1
R99=1
SELECT (BY=R99, FROM=R1, V3-V10)=0
IF R99 LT 9 THEN R99=R99+1 AND GO TO L1
Las nueve variables R1, V3-V10, tomaran el valor cero una despues de la otra, en tanto que R99 se incrementa
de 1 a 9. El bucle se completa cuando R99 es igual a 9 y a todas las variables se han asignado valores iniciales.
4.12.
Proposiciones de control
Las proposiciones de Recode se ejecutan normalmente sobre cada caso en orden desde el primero hasta el
u
ltimo. El orden se puede cambiar con una de las proposiciones de control:
Proposici
on
Ejemplo
Prop
osito
BRANCH
CONTINUE
ENDFILE
ERROR
GO TO
REJECT
RELEASE
BRANCH (V16,L1,L2)
CONTINUE
ENDFILE
ERROR
GO TO TOWN
REJECT
RELEASE
RETURN
RETURN
Ramificar seg
un el valor de una variable
Continuar con la siguiente proposicion
No procesar mas casos despues de este
Terminar la ejecuci
on completamente
Ramificar incondicionalmente
Rechazar el caso
Entregar el caso al programa para ser procesado
y asumir la ejecuci
on de las proposiciones Recode
nuevamente despues, sin leer otro caso
Usar el caso para analisis, sin recodificacion adicional
BRANCH. La proposicion BRANCH cambia la secuencia en la cual se ejecutan las proposiciones, seg
un el
valor de la variable.
Prototipo: BRANCH(var, etiquetas)
Donde:
var es una variable tipo V o tipo R.
etiquetas es una lista de una o mas etiquetas de proposiciones de 1-4 caracteres.
Ejemplo:
BRANCH(R99,LAB1,LAB2,LAB3)
La transferencia se hace a LAB1, LAB2 o LAB3, seg
un el valor de R99 sea 1, 2 o 3.
CONTINUE. CONTINUE es una proposicion simple que no ejecuta ninguna operaci
on. Se usa como un
punto conveniente al cual se hace la transferencia.
Prototipo: CONTINUE
Ejemplo:
AT
THAT
IF V17 EQ 10 THEN GO TO AT
R10=V11
GO TO THAT
R20=V11*100
CONTINUE
ENDFILE. La proposicion ENDFILE hace que Recode cierre el dataset de entrada, exactamente como si
hubiera encontrado un fin de archivo. Si se ha especificado la funci
on EOF, la funci
on EOF tomara un valor
49
verdadero para una pasada final a traves de las proposiciones de Recode desde el principio, despues de
haber ejecutado ENDFILE.
Prototipo: ENDFILE
Ejemplo:
IF V1 EQ 100 THEN ENDFILE
Esta proposicion se puede usar para probar un conjunto de proposiciones Recode o un setup de IDAMS con
los primeros n casos de un dataset.
ERROR. La proposicion ERROR hace que Recode termine con un mensaje de error que indica el n
umero
del caso y el n
umero de la proposicion de Recode en donde se present
o el error.
Prototipo: ERROR
Ejemplo:
IF R6 EQ 2 THEN GO TO B
ERROR
CONTINUE
GO TO. La proposicion GO TO se usa para cambiar la secuencia en la cual se ejecutan las proposiciones.
Cuando no hay un GO TO o un BRANCH, cada proposicion se ejecuta secuencialmente.
Prototipo: GO TO etiqueta
Donde etiqueta es una etiqueta de proposicion de 1 a 4 caracteres. La proposicion identificada por la etiqueta
puede estar antes o despues de GO TO. (Advertencia: tenga cuidado al referir una proposicion antes de GO
TO ya que pueden formarse bucles infinitos).
Ejemplo:
TOWN
1
GO TO TOWN
.
.
R10=R5
GO TO 1
R10=R5+V11
R11=...
REJECT. La proposicion REJECT hace que Recode rechace el caso presente y obtenga otro caso. El nuevo
caso se procesa desde el comienzo de las proposiciones de Recode. De esta manera, REJECT se puede usar
como un filtro con variables tipo R.
Prototipo: REJECT
Ejemplo:
IF MDATA (V8,V12-V13) THEN REJECT
RELEASE. La proposicion RELEASE hace que Recode entregue el caso al programa para procesarlo y
tome nuevamente el control despues de ese procesamiento sin leer otro caso. Despues de tomar el control
nuevamente, Recode contin
ua con la primera proposicion de Recode. RELEASE se puede usar para separar
un registro individual en varios casos para analisis. Nota: cuando se utiliza la proposicion RELEASE tenga
cuidado de no crear bucles infinitos.
Prototipo: RELEASE
Ejemplo:
CARRY (R1)
R1=R1+1
IF R1 LT V1 THEN RELEASE ELSE R1=0
RETURN. La proposicion RETURN hace que Recode regrese el control al programa de IDAMS. No se
ejecutan mas proposiciones Recode para el caso en cuestion.
50
Facilidad Recode
Prototipo: RETURN
Ejemplo:
4.13.
IF V8 LT 12 THEN GO TO A
RETURN
R10=V8
Proposiciones condicionales
La proposicion IF permite la asignacion condicional y/o control condicional. Es una proposicion compuesta
con varias proposiciones simples conectadas por las palabras clave THEN, AND y ELSE.
Prototipo:
IF prueba THEN prop1 [AND prop2 AND...prop n] [ELSE eprop1] [AND eprop2 AND...eprop n]
Donde:
prueba puede ser cualquier combinaci
on de expresiones logicas (incluidas funciones logicas) conectadas
con AND u OR y opcionalmente precedidas de NOT. Puede estar entre parentesis, pero esto no es
necesario.
prop1,...,prop n,eprop1,...,eprop n puede ser cualquier proposicion de asignacion o proposicion de control (excepto CONTINUE).
La(s) proposicion(es) entre THEN y ELSE se ejecutan si el resultado de la prueba es verdadero.
La(s) proposicion(es) despues de ELSE se ejecutan si el resultado de la prueba es falso. Si no hay
clausula ELSE, se ejecuta la siguiente proposicion.
Las palabras clave THEN y ELSE pueden estar seguidas cada una por cualquier n
umero de proposiciones, conectadas cada una con la palabra clave AND.
Ejemplos:
IF V5 EQ V6 THEN R1=1 ELSE R1=2
Asigne el valor 1 a la variable R1 si V5 es igual a V6; si no lo es, entonces asigne a R1 el valor 2.
IF MDATA(V7,V10-V12) THEN R6=MD1(V7) AND R10=99 ELSE R6=V7+V10+V11 AND R10=V12*V7
Asigne a la variable R6, el primer c
odigo de datos faltantes de la variable V7 cuando cualquiera de las
variables V7, V10, V11, V12 sean iguales a sus c
odigos de datos faltantes; si esta condicion no se cumple,
entonces haga R6 igual a la suma de V7, V10 y V11 y haga tambien R10 igual al producto de las variables
V12 y V7.
IF (V5 NE 7 AND R8 EQ 9) THEN V3=1 ELSE V3=0
Haga V3 igual a 1 cuando V5 no sea igual a V7 y R8 sea igual a 9 (debe cumplir ambas condiciones), en
caso contrario haga V3 igual a 0. (Nota: los parentesis no son necesarios).
IF MDATA(V6) OR V10 LT 0 THEN GO TO X
Si falta el valor de V6 o si V10 es menor que cero, vaya a la proposicion etiquetada X; de lo contrario,
continue con la siguiente proposicion.
4.14.
Proposiciones de definici
on/de asignaci
on de valores iniciales
Estas proposiciones se ejecutan una sola vez, antes de comenzar el procesamiento de los datos, para asignar
de valores iniciales que se van a utilizar durante la ejecuci
on de proposiciones de Recode. No se pueden usar
dentro de expresiones y no pueden tener etiquetas.
51
CARRY. La proposicion CARRY hace que los valores de las variables listadas sean llevados de caso en caso.
Las variables de CARRY son asignadas los valores iniciales con ceros solo una vez (antes de comenzar a leer
los datos). Las variables de CARRY se pueden usar como contadores o acumuladores para agrupamiento.
Prototipo: CARRY(varlist)
Donde varlist es una lista de variables tipo R.
Ejemplo:
CARRY(R1,R5-R10,R12)
MDCODES. La proposicion MDCODES cambia los c
odigos de datos faltantes del diccionario para las
variables de entrada o asigna c
odigos de datos faltantes a variables de resultado. Los valores por defecto que
usa Recode para variables tipo R y tipo V que no tengan especificaci
on de datos faltantes en el diccionario
y que no tengan especificaci
on en MDCODES son MD1=1,5 109 y MD2=1,6 109 .
Prototipo: MDCODES (varlist1)(md1,md2),(varlist2)(md1,md2), ..., (varlistn)(md1,md2)
Donde:
varlist1, varlist2, ..., varlistn son listas de variables individuales y de rangos de variables.
md1 y md2 son respectivamente, el primero y segundo c
odigos de datos faltantes para todas variables
listadas. Los c
odigos de datos faltantes que tengan decimales deben especificarse con el punto decimal
explcito. Advertencia: solo se retienen 2 cifras decimales para variables R y se redondean los valores
apropiadamente, por ej. md1 especificado como 9.999 se trata como 10.00 .
Se puede omitir cualquiera de los dos c
odigos md1 o md2. Si se omite md1, se debe colocar una coma
que preceda al valor de md2.
Ejemplos:
MDCODES V5(8,9)
El primer c
odigo de datos faltantes para V5 sera 8; el segundo sera 9.
MDCODES (R9-R11)(,99), V7(8,9), V6(9)
Para R9, R10 y R11, el primer c
odigo de datos faltantes sera 1,5 109 y el segundo sera 99.
Para V7, el primer c
odigo de datos faltantes sera 8 y el segundo sera 9.
Para V6, el primer c
odigo de datos faltantes sera 9 y el segundo sera 1,6 109 .
NAME. La proposicion NAME asigna nombres a variables tipo R o reasigna nombres a variables tipo V.
Prototipo: NAME var1 nombre1, var2 nombre2, ..., varn nombre n
Donde:
var1,var2,...,varn son variables tipo V o tipo R.
nombre1, nombre2, ..., nombre n son los nombres a asignar a estas variables.
El n
umero maximo de caracteres por nombre es 24; si es mas largo, el nombre se trunca a 24 caracteres.
El valor por defecto del nombre para una variable tipo R es RECODED VARIABLE Rn.
Para incluir un apostrofo en un nombre (por ej. PERSONS), usar dos comillas sencillas (por ej.
PERSONS).
Ejemplo:
NAME R1 V5 + V6, V1 PERSONS STATUS
52
Facilidad Recode
4.15.
Identificador de ciudad
Sexo
Edad
Nivel educativo
V8
V9
V10
V21
V22
V31
V32
V33
V34
V35
V41
V42
V43
V44
V45
1=hombre, 2=mujer
21-98, 99=sin definir
1=primaria, 2=secundaria,
3=universitaria, 9=sin definir
END
R101=SUM(V8,V9,MIN=1)
IF R101 EQ 1.5 * 10 EXP 9 THEN R101=-1
MDCODES R101(-1)
53
R105=1,
R105=0,
R105=0,
R105=0,
R106=0,
R106=1,
R106=0,
R106=0,
R107=0
R107=0
R107=1
R107=0 (valor por defecto si no hay valor para ELSE)
54
Facilidad Recode
Metodo b. Usar IFs, colocando un valor por defecto de 9 al comienzo.
R110=9
IF V5 EQ
IF V5 EQ
IF V5 EQ
IF V5 EQ
1
1
2
2
AND
AND
AND
AND
V6
V6
V6
V6
EQ 1 THEN R110=1
INLIST (2,3) THEN R110=2
EQ 1 THEN R110=3
INLIST (2,3) THEN R110=4
VIL
CARRY (R901,R902,R903,R904)
IF (R901 EQ 0) THEN R901=V1
IF (R901 NE V1) THEN GO TO VIL
IF EOF THEN GO TO VIL
R902=R902+1
R903=R903+V8+V9
IF (V31 EQ 1) THEN R904=R904+1
REJECT
R101=(R904*100)/R902
R101=BRAC(R101,<25=1,<50=2,<75=3,<101=4)
R102=R903/R902
R102=BRAC(R102,<1000=1,<2000=2,<5000=3,ELSE=4)
R901=V1
R902=1
R903=V8+V9
IF (V31 EQ 1) THEN R904=1 ELSE R904=0
NAME R102ingr. promedio, R101% con autom
ovil
R901 es una variable de trabajo usada para para retener el identificador de la ciudad; cuando se lee
el primer caso (R901=0), a R901 se le asigna el valor del identificador de ciudad (V1); R902 a R904
son variables de trabajo para el n
umero de personas en la ciudad, el ingreso total de las personas en
la ciudad y el n
umero de personas con autom
ovil en la ciudad respectivamente.
Mientras que el identificador de ciudad se mantiene igual, se acumulan los datos en las variables R902
a R904 (cuyos valores se llevan a medida que se lean nuevos casos). Entonces el caso se rechaza (no
pasa al analisis) y se lee el nuevo caso. Cuando aparece un cambio en el identificador de ciudad, se
ejecutan las instrucciones en la etiqueta VIL: los contenidos que tienen las variables R9902, R903 y
R904 en ese momento se usan para calcular las variables requeridas (media agrupada del ingreso y %
agrupado de propietarios de autom
oviles) y entonces se pasan estas variables al analisis despues de
colocar primero en las variables de trabajo los valores para el u
ltimo caso ledo (el primer caso de la
siguiente ciudad). Cuando se llega al final del archivo, necesitamos estar seguros de que se usaran los
datos de la u
ltima ciudad. La proposicion 4 hace esto.
4.16.
Restricciones
1. El maximo n
umero de variables R es 200.
2. El maximo n
umero de tablas numeradas (BRAC, RECODE, TABLE) es 20.
3. El maximo n
umero de caracteres en una proposicion de Recode, excluidos los guiones de continuacion
es 1024.
4.17 Nota
55
4. El n
umero maximo de etiquetas de proposiciones es aproximadamente 60.
5. El maximo n
umero de constantes, incluidas las de todas las tablas es aproximadamente 1500.
6. El maximo n
umero de nombres que se pueden definir en proposiciones NAME es 70.
7. El maximo n
umero de valores de datos faltantes que se pueden definir en proposiciones MDCODES es
100 y solo se retienen 2 cifras decimales para variables R.
8. El n
umero maximo de anidamientos con parentesis dentro de una proposicion (es decir, parentesis
dentro de parentesis) es 20.
9. El maximo n
umero de operadores aritmeticos es aproximadamente 400.
10. El maximo n
umero de variables en proposicion SELECT es 50.
11. El maximo n
umero de proposiciones IF es aproximadamente 100.
12. El maximo n
umero de anidamientos de funciones (es decir, referencias a funci
on como argumentos de
funci
on) es 25.
13. El maximo n
umero de proposiciones es aproximadamente 200.
14. El maximo n
umero de etiquetas en una proposicion BRANCH es 20.
15. El maximo n
umero de variables de CARRY es 100.
16. El m
aximo n
umero de variables dado en la secci
on de restricciones de cada documentacion de
programa de analisis, incluye variables R y variables V usadas en el analisis y variables V usadas en
Recode pero no en el analisis. As, si un programa tiene un maximo de 40 variables y se usan 40 variables
de entrada en el analisis, no se pueden usar mas variables de entrada que las 40 en las proposiciones
de Recode. Las variables R definidas en las proposiciones de Recode y que no se usan en el analisis, no
se necesita tenerlas en cuenta para el m
aximo n
umero de variables.
17. El filtrado se hace antes de la recodificacion, de manera que a las variables de resultado no se les pueda
hacer referencia en filtros principales.
4.17.
Nota
Captulo 5
Manejo y an
alisis de datos
5.1.
5.1.1.
Validaci
on de datos con IDAMS
Visi
on general
Antes de iniciar un analisis de datos con cualquier programa, los datos necesitan, normalmente, validarse.
Esta validaci
on comprende tpicamente tres etapas:
1. Verificar si los datos son completos, es decir verificar que todos los casos esperados est
an presentes en
el archivo de datos y verificar que existan los registros correctos para cada caso cuando hay registros
multiples per caso.
2. Verificar que las variables numericas solo tienen valores numericos y verificar que los valores son
validos.
3. Verificar la consistencia entre las variables.
Como muchos otros programas estadsticos, IDAMS exija que debe haber la misma cantidad de datos para
cada caso. Si los datos para un caso abarcan varios registros, entonces cada caso debe abarcar exactamente
el mismo conjunto de registros. Si algunas variables no se aplican a algunos casos, entonces se deben asignar
valores faltantes. La capacidad de IDAMS de verificacion de intercalaci
on de registros, permite chequear
que cada caso de datos tenga el conjunto correcto de registros. Esto se hace con el programa MERCHECK
el cual produce un archivo de salida rectangular en el cual se han eliminado los registros extra/duplicados
y los casos con registros faltantes se han rellenado o bien se les han asignado registros ficticios.
La verificacion de valores no numericos en variables numericas y la conversi
on opcional de campos en blanco
a valores numericos especificados por el usuario la hace el programa BUILD. La verificacion de otros c
odigos
invalidos la hace el programa CHECK en donde los que son c
odigos validos se definen en proposiciones
especiales de control o bien se toman de registros C en el diccionario que describe los datos.
Si los datos se introducen con la Interfaz del Usuario de WinIDAMS, no se permiten caracteres no numericos
(excepto campos en blanco) en campos numericos. M
as aun, existe la posibilidad de verificacion de c
odigos
durante la introduccion de datos y de una verificacion general de c
odigos invalidos en todo el archivo de
datos. Los registros C del diccionario, se usan para este prop
osito.
Las verificaciones de consistencia se pueden expresar en el lenguaje Recode de IDAMS y se usan con el
programa CONCHECK para listar casos con incosistencias.
Los errores hallados en cualquiera de estos pasos se pueden corregir o bien con la Interfaz del Usuario o con
el programa CORRECT. Una secuencia tpica de pasos para la deteccion y correccion de errores con IDAMS
se describe con mas detalle a continuacion.
58
5.1.2.
Paso 1
Manejo y an
alisis de datos
Verificaci
on si los datos son completos
Producir tablas de resumen que muestren la distribuci
on de los casos dentro de las unidades
de muestreo, zonas geogr
aficas, etc. para obtener una verificacion contra los totales esperados.
Esto es particularmente u
til en una encuesta por muestreo. Por ejemplo, supongamos que se
va a hacer una encuesta de hogares. Se toma una muestra seleccionando primero unidades
primarias de muestreo (UPM), despues, hasta cinco (5) areas dentro de cada UPM y luego se
entrevistan los hogares ubicados dentro de esas areas. La distribuci
on que tienen en los datos
los hogares por UPM y
area se puede obtener con la preparaci
on de un peque
no diccionario
que contenga solamente las dos variables: UPM y area. La tabla tendra el siguiente aspecto:
V2 AREA
V1
UPM
01
02
03
.
.
01
02
03
04
05
3
10
6
4
2
2
Paso 4
5.1.3.
Paso 5
Paso 6
Paso 7
Detecci
on de valores no num
ericos e inv
alidos
Preparar un diccionario para todas las variables, con las proposiciones apropiadas para el
manejo de campos en blanco. Ejecutar BUILD. La salida es un dataset IDAMS (archivos
Datos y Diccionario). Todos los valores no numericos inesperados se convierten en nueves (9)
y se indican en los resultados.
Con TABLES imprimir distribuciones de frecuencias de todas las variables cualitativas y los
valores maximos, mnimos y medios de las variables cuantitativas. Esto da una idea inicial
del contenido de los datos y muestra cuales variables tienen c
odigos invalidos (variables cualitativas) o valores muy grandes o muy peque
nos (variables cuantitativas). Tambien pueden
compararse posteriormente con un listado similar producido despues de la limpieza para observar c
omo la validaci
on afecto los datos.
Preparar proposiciones de control que especifiquen los c
odigos validos o los rangos de valores
para cada variable. Estas proposiciones se pueden preparar con anterioridad para todas las
5.2 Manejo/transformaci
on de datos
Paso 8
59
variables, o bien, despues del paso 6, solamente para aquellas variables de las cuales se sabe
que tienen c
odigos invalidos. Usar el dataset de salida del paso 5 como entrada al programa
CHECK para obtener un listado que muestre los casos que tienen valores invalidos. Tengase
en cuenta que la especificaci
on de c
odigos validos para las variables tambien se puede tomar
de los registros C del diccionario, si estos se introdujeron en el paso 5.
Preparar la correccion de errores en variables detectados en los pasos 5 y 7. Usar el programa
CORRECT para actualizar el dataset IDAMS creado en el paso 5.
Tengase en cuenta que las correcciones tambien se podran hacer con la Interfaz del Usuario
si el n
umero de casos no es muy grande. Sin embargo, el uso de CORRECT es un metodo
menos propenso a los errores.
5.1.4.
Paso 9
Verificaci
on de consistencia
Preparar proposiciones logicas de las verificaciones de consistencia que se van a hacer, por
ej. PREGNANT (V32) = no aplicable si y solo si SEX (V6) = masculino.
Asignar un n
umero de resultado a cada verificacion de consistencia y traducir la logica a
proposiciones de RECODE en donde el resultado se pone en uno (1) para una inconsistencia,
por ej.
IF V6 EQ 1 AND V32 NE 9 THEN R1001=1
IF V6 NE 1 AND V32 EQ 9 THEN R1001=1 ELSE R1001=0
Paso 10
Usar el conjunto de proposiciones de Recode con CONCHECK para imprimir los casos con
errores.
Corregir los casos con errores como en el paso 8.
Ejecute nuevamente los pasos 9 y 10 hasta que no se encuentren errores. Entonces los datos de salida de la
u
ltima ejecuci
on de CORRECT estar
an listos para analizarlos.
5.2.
Manejo/transformaci
on de datos
IDAMS posee un extenso conjunto de ayudas para generar ndices, medidas derivadas, agrupamientos
y otras transformaciones de los datos, incluida la recodificacion alfabetica. Las capacidades utilizadas mas
frecuentemente las provee la facilidad Recode, la cual puede llevar a cabo operaciones temporales en todos los
programas de analisis que usan como entrada un dataset IDAMS. Los resultados de la recodificacion se pueden
guardar como variables permanentes con el programa TRANS. Estas facilidades operan en las variables
que forman un caso y permiten recodificar los valores de una o mas variables, generar nuevas variables
mediante la combinaci
on de las mismas, controlar la secuencia de estas operaciones mediante la ejecuci
on de
proposiciones logicas y ejecutar un n
umero de proposiciones y funciones especializadas adicionales. La nueva
informacion del diccionario, necesaria para describir los resultados de las operaciones realizadas, se produce
autom
aticamente.
Para agrupaciones entre diferentes casos se dispone del programa AGGREG. AGGREG suministra sumas
aritmeticas y medidas relacionadas, rangos y conteos de valores de datos validos dentro de grupos de casos.
Las ejecuciones tpicas de AGGREG involucran el uso previo del programa SORMER para clasificar el
archivo Datos en los grupos deseados.
Hay un n
umero de circunstancias en las cuales es necesario combinar los registros de dos archivos diferentes,
por ejemplo, datos recolectados en puntos diferentes en el tiempo. En la medida en que se reciben nuevos
grupos de datos para las variables, el objetivo es a
nadirlos al registro que contena los datos previos para
el mismo caso o el mismo encuestado. El programa MERGE se encarga de esta labor, incluido el relleno
apropiado con datos faltantes cuando no se encuentren entrevistados en el nuevo grupo. Ejemplos similares
se presentan cuando en un programa de analisis se generan residuos o alg
un tipo de puntajes de escala para
cada caso y se necesita incluirlos en los datos originales.
Un proceso de combinaci
on algo diferente se presenta cuando se van a combinar datos obtenidos de diferentes
60
Manejo y an
alisis de datos
5.3.
An
alisis de datos
La consideracion fundamental del usuario con respecto a la escogencia de un programa de analisis es si este
posee las funciones estadsticas apropiadas. Una gua en esta materia est
a fuera del alcance de este manual.
En la Introduccion se puede hallar un resumen de la funci
on de cada programa de analisis de IDAMS. Se
dan mas detalles en la documentacion individual de cada programa. Las formulas usadas en cada programa
para calcular las estadsticas, y referencias se encuentran en la parte F
ormulas estadsticas y referencias
bibliograficas.
5.4.
Ejemplo de un peque
no trabajo a ejecutar con IDAMS
Supongamos que un dataset IDAMS contiene las respuestas al cuestionario de una encuesta e incluye las
siguientes variables:
V11 representa el sexo del encuestado seg
un la codificacion siguiente:
1. Hombre
2. Mujer
9. Sin informaci
on
61
Significado
Ingreso en el rango $0 a $9999
Ingreso en el rango $10,000 a $29,999
Ingreso de $30,000 o mayor
Rechazado, sin informacion, no sabe
$RUN TABLES
$FILES
DICTIN = ECON.DIC
DATAIN = ECON.DAT
$RECODE
R101=BRAC(V12,0-9999=1,10000-29999=2,30000-99998=3, ELSE=9)
NAME R101Ingreso agrupado
$SETUP
INCLUDE V11=2
EJEMPLO DE TABLES USANDO DATOS ECONOMICOS
*
TABLES
ROWVARS=(R101,V13-V16)
ROWVAR=R101 COLVARS=(V13-V16) CELLS=(FREQS,ROWPCT) STATS=CHI
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)
Parte II
Captulo 6
Instalaci
on
6.1.
6.2.
Procedimiento de instalaci
on
La versi
on 1.3 de WinIDAMS se almacena en CD de distribuci
on en archivo de autoextraccion
WinIDAMS\English\Install\WIDAMSR13E.EXE
WinIDAMS\French\Install\WIDAMSR13F.EXE
WinIDAMS\Portuguese\Install\WIDAMSR13P.EXE
WinIDAMS\Spanish\Install\WIDAMSR13S.EXE
:
:
:
:
la
la
la
la
versi
on
versi
on
versi
on
versi
on
en
en
en
en
ingl
es
franc
es
portugu
es
espa~
nol
6.3.
Prueba de la instalaci
on
Un archivo Setup con las proposiciones para ejecutar 4 programas de manejo de datos (CHECK, CONCHECK,
TRANS y AGGREG) y 6 programas de analisis (TABLES, REGRESSN, MCA, SEARCH, TYPOL y RANK)
se copia en la carpeta Trabajo durante la instalaci
on. Para ejecutarlo:
Active WinIDAMS con un doble click en su cono.
66
Instalaci
on
Aparece la ventana principal de WinIDAMS con una aplicacion por defecto desplegada en el panel
izquierdo. Abra la carpeta Setup. Hay all el archivo demo.set con las proposiciones para ejecutar los
10 programas
Con un doble click este archivo se abre en la ventana Setup. Ejec
utelo desde adentro de esta ventana. Los
resultados se escriben en el archivo idams.lst que se abre autom
aticamente en la ventana Resultados.
El archivo demo.lst con la versi
on distribuida de los resultados se encuentra en la carpeta Results.
Compare las dos versiones de resultados.
6.4.
6.4.1.
El nombre completo de la carpeta del sistema WinIDAMS se da en Seleccione la Carpeta Destino del
instalador y se crean las siguientes carpetas (ver el captulo Carpetas y archivos para una descripcion mas
detallada) durante la instalaci
on:
de la versi
on en ingl
es
de la versi
on en franc
es
<WinIDAMS13-EN>\appl
<WinIDAMS13-EN>\data
<WinIDAMS13-EN>\temp
<WinIDAMS13-EN>\trans
<WinIDAMS13-EN>\work
<WinIDAMS13-FR>\appl
<WinIDAMS13-FR>\data
<WinIDAMS13-FR>\temp
<WinIDAMS13-FR>\trans
<WinIDAMS13-FR>\work
de la versi
on en portugu
es
de la versi
on en espa~
nol
<WinIDAMS13-PT>\appl
<WinIDAMS13-PT>\data
<WinIDAMS13-PT>\temp
<WinIDAMS13-PT>\trans
<WinIDAMS13-PT>\work
<WinIDAMS13-SP>\appl
<WinIDAMS13-SP>\data
<WinIDAMS13-SP>\temp
<WinIDAMS13-SP>\trans
<WinIDAMS13-SP>\work
6.4.2.
Archivos instalados
6.5 Desintalaci
on
67
6.5.
Desintalaci
on
Captulo 7
Primeros pasos
7.1.
Visi
on general de los etapas con WinIDAMS
En este ejemplo, se prepara un diccionario IDAMS para la descripcion de los datos recogidos en un cuestionario y se toman los datos de algunos encuestados. Luego se prepara un conjunto de instrucciones (un
setup) y se usa para obtener distribuciones de frecuencias de Edad, Sexo, y Educacion (n
umero de a
nos
agrupado en 4 grupos). Se procede como sigue:
1. Cree un ambiente de la aplicacion.
2. Prepare y almacene un diccionario IDAMS que describa las variables en los datos.
3. Capture los datos (este paso sobra si los datos se capturaran fuera de WinIDAMS).
4. Haga y almacene un setup de instrucciones que especifique que se va a hacer con los datos.
5. Ejecute el programa de IDAMS seg
un el setup.
6. Revise los resultados y modifique el setup si es necesario; despues repita a partir del paso 4.
7. Imprima los resultados.
Para comenzar, primero active WinIDAMS. Vera la ventana principal de WinIDAMS
70
Primeros pasos
7.2.
Creaci
on de un ambiente de aplicaci
on
El ambiente de la aplicacion le permite definir rutas para tres carpetas. Todos los archivos de entrada/salida
se abrir
an/crear
an por defecto en una de estas carpetas. Esto le evita tener que escoger o suministrar siempre
la ruta completa de la carpeta.
Los archivos Diccionario y Datos: en la carpeta Datos.
Los archivos Setup y Resultados: en la carpeta Trabajo.
Los archivos temporales: en la carpeta Temporal.
Haga clic en Aplicacion en la barra de men
u y despues en Nuevo. Ahora ve el siguiente dialogo:
Crearemos una nueva aplicacion con el nombre MyAppl y con las carpetas de aplicacion C:\MyAppl\data,
C:\MyAppl\work y C:\MyAppl\temp suministrando estos nombres en los correspondientes cuadros de texto.
7.3 Preparaci
on del diccionario
71
Para cada carpeta de aplicacion creada que no exista, se vera un dialogo como el sigue a continuacion:
Haga clic en Yes (Si) para cada carpeta nueva y luego haga clic en OK. Ahora se ve la ventana principal
WinIDAMS nuevamente.
7.3.
Preparaci
on del diccionario
Crearemos un diccionario para describir los registros de datos para las siguientes variables:
N
umero
1
2
3
Nombre
Identificaci
on
Edad
Sexo
1 Hombre
2 Mujer
9 MD
Educacion
Ancho
3
2
1
C
odigo de datos faltantes (MD)
Teclee Ctrl/N o haga clic en Archivo/Nuevo. Estos comandos abren el dialogo del Nuevo documento:
El dialogo muestra la lista de tipos de documentos usados en WinIDAMS. Debe escoger IDAMS
Dictionary file (archivo Diccionario), ya seleccionado por defecto.
Haga clic en el campo de Nombre de archivo y suministre el nombre demog. Haga clic en OK. N
otese
que autom
aticamente se a
nade la extensi
on .dic al nombre del archivo.
72
Primeros pasos
Ahora se ve:
la ventana Aplicacion;
una ventana con dos paneles para entrar la descripcion de las variables y los c
odigos y nombres de
c
odigos opcionales asociados. Aparece el nombre completo del archivo Diccionario demog.dic.
73
7.4.
Captura de datos
Oprima Ctrl/N o haga clic en Archivo/Nuevo. Aparece el mismo dialogo de documento que ya se
vi
o para el diccionario.
Seleccione la lnea IDAMS Data file (archivo Datos) de la lista e introduzca el nombre del archivo
Datos. Por convencion, es mejor usar el mismo nombre para el archivo Datos y el archivo Diccionario
correspondiente. S
olo cambia la extensi
on de archivo, dic para el archivo Diccionario y dat para
el archivo Datos. El diccionario y los datos forman un dataset de IDAMS. Introduzca demog como
nombre de archivo y haga clic en OK.
Un dialogo Abrir archivo muestra ahora los diccionarios que existen para la aplicacion actual y solicita
escoger el diccionario que describe los datos. Escoja demog.dic y haga clic en Abrir.
74
Primeros pasos
Aparece ahora una ventana de entrada de datos con tres paneles. Los datos son introducidos solo en el
panel del fondo. Los otros dos paneles est
an sincronizados para mostrar la descripcion de la variable
para la cual est
an entrando los datos y los nombres de c
odigos si los hay. Se muestra el nombre completo
del archivo Datos demog.dat (la extensi
on .dat se a
nade autom
aticamente).
N
otese que en las imagenes que siguen, la ventana Aplicacion est
a cerrada.
Haga clic en el primer campo de la fila con un asterisco y teclee la primera lnea de datos como se ve
a continuacion, oprima la tecla Intro despues de cada dato. Tan pronto como se empiezan a entrar los
datos, aparece una nueva fila y aparece un lapiz en el encabezador de la fila a la cual est
an entrando
los datos, lo cual indica que se est
a editando esta fila.
Despues de entrar el valor de la u
ltima variable V4 y oprimir Intro, el primer campo de la fila siguiente
se habilita para recibir datos.
Introduzca los datos de los cinco casos que se dan a continuacion.
7.5 Preparaci
on del setup
75
7.5.
Preparaci
on del setup
76
Primeros pasos
$RUN identifica el programa de IDAMS deseado; despues del comando $FILES, se especifica el archivo
Datos y el archivo Diccionario correspondiente; en seguida, las proposiciones de Recode aparecen
precedidas de la lnea $RECODE (aqu se usa Recode para reunir a
nos de educacion en 4 grupos);
finalmente, se dan los par
ametros (de acuerdo con las reglas del programa TABLES) para la tarea (en
este caso se solicitan distribuciones de frecuencia univariadas), precedidas del comando $SETUP.
Haga clic en Archivo/Guardar y guarde el setup en el archivo demog1.set.
7.6.
Ejecuci
on del setup
Desde adentro de la ventana Setup, haga clic en Ejecutar/Setup actual. Se guarda el setup en un
archivo temporal y se ejecuta. Aparece un dialogo durante la ejecuci
on y desaparece si la ejecuci
on
tuvo exito.
Los resultados se escriben, por defecto, en el archivo idams.lst. Para cambiar esta accion por defecto,
se puede a
nadir debajo de $FILES una lnea PRINT con el nombre del archivo requerido, por ejemplo,
print=a:demog1.lst para guardar los resultados en un diskette.
7.7.
Revisi
on de los resultados y modificaci
on del setup
7.7 Revisi
on de los resultados y modificaci
on del setup
77
La tabla de contenido de los resultados que hay en el panel izquierdo permite localizar rapidamente
Si desea cambiar algo en el setup mientras revisa los resultados, entonces haga clic en el TAB demog1.set y haga las modificaciones requeridas. Oprima Ctrl/E para ejecutar.
78
Primeros pasos
7.8.
Impresi
on de los resultados
Seleccione Archivo/Imprimir.
Seleccione las p
aginas que desea imprimir y haga clic en OK.
Captulo 8
Archivos y carpetas
8.1.
Archivos en WinIDAMS
80
Archivos y carpetas
Archivos temporales de trabajo. No conciernen al usuario ya que se definen y se eliminan automaticamente. Tienen extensi
on de archivo .tmp y .tra.
8.2.
Aplicacion
Datos
Temporal
Transpuesta
Trabajo
<system
<system
<system
<system
<system
dir>\appl
dir>\data
dir>\temp
dir>\trans
dir>\work
on.
donde <system dir> es el nombre de la carpeta Sistema dado durante el proceso de instalaci
Referirse a la secci
on Personalizacion del ambiente para una aplicacion del captulo Interfaz del Usuario
para una descripci
on mas detallada de como las rutas definidas en la aplicacion se usan en los programas de
IDAMS.
Captulo 9
Concepto general
la barra de men
u para abrir men
us desplegables con opciones o comandos de WinIDAMS,
la barra de herramientas para escoger comandos rapidamente,
la barra de estado para mostrar informacion acerca del documento activo o de la opcion o comando
resaltado,
la ventana Aplicaci
on, ubicada en el lado izquierdo, para mostrar el nombre de la aplicacion,
carpetas y documentos para la aplicacion activa,
las ventanas de documentos para mostrar los diferentes documentos de WinIDAMS.
82
La barra de men
u y la barra de herramientas tienen contenidos fijos y dependiente de documentos. Los
men
us comunes a todos los tipos de documento se describen a continuacion y los men
us que dependen del
tipo de documento se describen en las secciones relevantes.
9.2.
Men
us comunes a todas las ventanas de WinIDAMS
La barra de men
u principal contiene siempre los siguientes siete men
us: Archivo, Edici
on, Ver, Ejecutar,
Interactivo, Ventana y Ayuda.
Archivo
Nuevo
Abrir
Cerrar
Guardar
Guardar como
Configurar impresora
Vista preliminar
Imprimir
Salir
Termina la sesi
on de WinIDAMS.
El men
u puede contener tambien la lista hasta de 7 documentos abiertos recientemente, es decir, documentos
usados en sesiones anteriores de WinIDAMS.
Edici
on
La disponibilidad y algunas veces el ttulo de algunos comandos en este men
u puede ser diferente en diferentes
ventanas.
Deshacer
Reversa la u
ltima accion.
Rehacer
Cortar
Hace nuevamente la u
ltima accion cancelada.
Mueve la selecci
on al portapapeles.
Copiar
Pegar
Copia la selecci
on al portapapeles.
Copia el contenido del portapapeles al sitio donde est
a ubicado el cursor.
Buscar
Reemplazar
Da comienzo al mecanismo de b
usqueda de Windows.
Da comienzo al mecanismo de reemplazo de Windows.
Buscar siguiente
N
otese que en las ventanas Resultados y Texto, las acciones de buscar/reemplazar se activan con los comandos
Buscar, Buscar adelante, Buscar atr
as, y Reemplazar.
9.3 Personalizaci
on del ambiente para una aplicaci
on
83
Ver
Barra de herramientas
Barra de estado
Aplicaci
on
Pantalla completa
Ejecutar
Con excepci
on de la ventana Setup, el men
u solo tiene un comando, Seleccionar setup, para seleccionar un
archivo con el setup a ejecutar.
Interactivo
Con este men
u, se puede acceder a tres componentes de analisis interactivo, a saber:
Tablas multidimensionales
Exploraci
on gr
afica de los datos
An
alisis de series de tiempo
Ver los captulos correspondientes para una descripcion detallada de cada componente.
Ventana
El men
u contiene la lista de ventanas abiertas y de comandos est
andar de Windows para organizarlos.
Ayuda
Manual de WinIDAMS
Acerca de WinIDAMS
9.3.
Personalizaci
on del ambiente para una aplicaci
on
El usuario puede definir y guardar los nombres de carpetas Datos, Tarbajo y Temporal en los archivos
Aplicacion con el nombre de la aplicacion como nombre del archivo. El nombre de la u
ltima aplicacion usada
es guardado por el sistema y las caractersticas que definen esta aplicacion se cargan al comienzo de la
siguiente sesi
on. Estas caractersticas se pueden cambiar en cualquier momento durante la sesi
on de trabajo
mediante la selecci
on/creacion y activaci
on de otra aplicacion.
Como es necesario, por lo menos, un archivo Aplicacion para usar WinIDAMS, se suministra una aplicacion
est
andar llamada Default y se activa cuando se usa WinIDAMS por primera vez despues de la instalaci
on.
Las caractersticas de definicion por defecto son:
Carpeta Datos
Carpeta Trabajo
Carpeta Temporal
<system dir>\data
<system dir>\work
<system dir>\temp
on. Esta aplicacion (guardadonde <system dir> es el nombre de la carpeta Sistema fijado durante la instalaci
da en el archivo Default.app) nunca debe suprimirse o modificarse.
El usuario puede crear, modificar, o suprimir los archivos Aplicacion (excepto el archivo Default.app) con
el men
u Aplicaci
on de la barra de men
u de la ventana principal de WinIDAMS. Contiene los siguientes
comandos:
84
Abrir
Mostrar
Cerrar
Actualizar
Creaci
on de una nueva aplicaci
on. La selecci
on del comando Nueva de men
u Aplicacion suministra un
cuadro de dialolgo para introducir el nombre de una nueva aplicacion y los nombres de las carpetas Datos,
Trabajo y Temporal. Con excepci
on del campo para el nombre de la aplicacion, el cual est
a libre, todos los
otros campos tienen valores tomados de la aplicacion por defecto, que se pueden modificar. Puede introducir
el nombre de la ruta o escogerlo, moviendo el resaltador al nombre requerido en el arbol de las carpetas.
Oprima el boton de OK para guardar la aplicacion. Con Cancelar, cancela la creacion de una nueva aplicacion
y regresa a la ventana principal de WinIDAMS con las caractersticas mostradas previamente.
Abrir una aplicaci
on. El comando Abrir de men
u Aplicacion llama al cuadro de dialogo para escoger un
archivo de aplicacion para abrir y suministra una lista de aplicaciones existentes en la carpeta Aplicacion.
Haciendo clic en el nombre requerido, se activan las caractersticas de esta aplicacion.
Modificar una aplicaci
on. Primero
abrala y luego cambie los valores de la misma manera que para crear
una aplicacion.
Mostrar las caractersticas de una aplicaci
on. Use el comando Mostrar de men
u Aplicacion para llamar
al cuadro de dialogo y haga clic en el nombre deseado.
Para mostrar las caractersticas de una aplicacion activa, haga doble clic en el nombre en la ventana Aplicacion.
Suprimir una aplicaci
on. Se puede retirar una aplicacion existente si se suprime el archivo correspondiente.
Use el comando Abrir de men
u Aplicacion para obtener una lista de archivos Aplicacion, escoja el archivo
para suprimir y use el boton derecho para acceder al comando de supresi
on de Windows. No se debe suprimir
el archivo Default.app.
Restaurar las caractersticas de WinIDAMS por defecto. Se puede hacer de dos maneras: con el
comando Cerrar de men
u Aplicacion, o bien para escoger y abrir el archivo Default.app.
Cerrar una aplicaci
on activa. Use el comando Cerrar de men
u Aplicacion. Se activa la aplicacion por
defecto.
Las rutas definidas en la aplicaci
on las usan los programas de IDAMS para prefijar el nombre de
cualquier archivo que no comience con <unidad>:\... o con \....
85
La ruta de la carpeta Datos : en las proposiciones con ddnames DICT..., DATA..., o FTnn referido a
matrices.
La ruta de la carpeta Trabajo : en las proposiciones con ddnames PRINT o FT06.
La ruta de la carpeta Temporal : los nombres de archivos temporales.
Ejemplo:
Carpeta Datos:
c:\MyStudy\students\data
Especificaci
on en el setup:
dictin=students2004.dic
Nombre completo del archivo diccionario: c:\MyStudy\students\data\students2004.dic
9.4.
La ventana Diccionario para crear, actualizar o mostrar un diccionario de IDAMS, se llama cuando:
usted crea un nuevo archivo Diccionario (el comando Nuevo/IDAMS Dictionary file (archivo Diccionario) de men
u Archivo o el boton Nuevo de la barra de herramientas),
usted abre un archivo Diccionario (con la extensi
on .dic) mostrado en la ventana Aplicacion (haga
doble clic en el nombre del archivo requerido de la lista de Datasets),
usted abre un archivo Diccionario (con cualquier extensi
on) que no est
a en la ventana Aplicacion (el
comando Abrir/Diccionario de men
u Archivo o el boton Abrir de la barra de herramientas).
Esta ventana suministra dos paneles: uno para la definicion de variables (panel Variables) y otro para los
c
odigos y los nombres de c
odigos de la variable en cuestion (panel Codigos). Una lnea azul en la parte
superior del panel, indica el panel activo.
Los encabezamientos de columna en el panel Variables tiene el siguiente significado:
N
umero
N
umero de variable.
Nombre
Loc, Ancho
Nombre de variable.
Posicion inicial y ancho del campo de la variable en el archivo Datos.
Dec
N
umero de cifras decimales; un blanco implica que no hay decimales.
86
Md1
Md2
Primer c
odigo de datos faltantes para variables numericas.
Segundo c
odigo de datos faltantes para variables numericas.
Refe
IdEs
N
umero de referencia.
Identificador del estudio.
87
9.5.
La ventana Datos se usa para crear, actualizar o mostrar un archivo Datos de IDAMS. N
otese que debe
haberse construido un diccionario de IDAMS que corresponda al archivo Datos y que con la ventana Datos
solo se pueden crear, actualizar o mostrar archivos Datos con un registro por caso. Esta ventana se llama
cuando:
usted crea un nuevo archivo Datos (el comando Nuevo/IDAMS Data file (archivo Datos) de men
u Archivo o el boton Nuevo de la barra de herramientas),
usted abre un archivo Datos (con la extensi
on .dat) mostrado en la ventana Aplicacion (haga doble
clic en el nombre del archivo requerido de la lista de Datasets),
usted abre un archivo Datos (con cualquier extensi
on) que no est
a en la ventana Aplicacion (el comando
Abrir/Datos de men
u Archivo o el boton Abrir de la barra de herramientas).
88
9.6 Importaci
on de archivos de datos
89
Las filas marcadas se pueden cortar, copiar o pegar con los comandos bajo Edici
on, con los botones equivalentes de la barra de herramientas o con las teclas de acceso rapido Ctrl/X, Ctrl/C y Ctrl/V respectivamente.
Con el boton derecho del rat
on se puede Insertar antes, Insertar despues, Suprimir o Borrar la fila activa
(aun si est
a marcado un bloque de filas).
Dos comandos para manejo de datos en el men
u Gestion de datos permiten verificacion de los datos
despues de la entrada de los mismos o bien de los datos venidos del exterior, y clasificacion de los datos:
Verificar c
odigos verifica valores de datos de todos los casos en el archivo Datos contra los c
odigos definidos
en el diccionario, los solos dados por validos. Al final de la verificacion, aparece un mensaje que muestra
el n
umero de errores encontrados y se ofrece la posibilidad de corregirlos uno a uno con el cuadro de
dialogo para correccion de datos. Este cuadro suministra el n
umero secuencial de caso, n
umero y
nombre de variable, valor de c
odigo invalido, y una lista de c
odigos validos como est
an definidos en el
diccionario.
Clasificar llama al cuadro de dialogo de la clasificacion para especificar hasta tres variables de clasificacion
y su correspondiente orden de clasificacion de cada una de ellas. Despues de hacer clic en OK, aparece
el archivo clasificado en el panel Datos.
Tambien se pueden clasificar los datos sobre una variable (una columna) con doble clic en el n
umero de
la variable del encabezado del panel de datos. Un doble clic clasifica los casos en orden ascendente. Para
obtener la clasificacion en orden descendiente, repita el doble clic.
Se proponen dos tipos de gr
afico para una variable en el men
u Graficos.
Gr
afico de barras suministra un gr
afico de barras basado en frecuencias o porcentajes de las categoras de
una variable cualitativa. Para variables cuantitativas, el usuario define el n
umero de barras (NB) en dos lados
de la media (M) y un coeficiente (C) para calcular el ancho de las barras (clases). El ancho de las barras
(BW) es igual al valor de la desviaci
on est
andar (STD) multiplicado para el coeficiente (BW=C*STD).
Las barras se construyen usando los valores M-NB*BW, ..., M-2BW, M-BW, M, M+BW, M+2BW, ...,
M+NB*BW. El alto de un ect
angulo= (frecuencia relativa de la clase)/(ancho de la clase). Ademas, para
variables cuantitativas se puede obtener una curva de la distribuci
on normal con la media y desviacion
est
andar calculadas.
Histograma, orientado a variables cuantitativas, suministra un histograma basado en frecuencias o porcentajes con el n
umero de barras especificado por el usuario.
Los graficos para variables cuantitativas contienen tambien estadsticas univariadas para la variable trazada
tales como: media, desviaci
on est
andar, variancia, asimetra y kurtosis. Las variables con puntos decimales se
multiplican por un factor de escala para obtener valores enteros. En este caso, se debe ajustar en consecuencia
los valores de la media, de la desviaci
on est
andar y de la variancia.
9.6.
Importaci
on de archivos de datos
WinIDAMS suministra una herramienta para importar archivos de datos directamente a IDAMS a traves
de la Interfaz del Usuario. Se puede acceder a esta herramienta en la ventana principal de WinIDAMS, en
la ventana Datos y en la ventana Tablas multidimensionales.
Se pueden importar tres tipos de archivos de formato libre:
archivos .txt delimitados con Tab,
archivos .csv separados con punto y coma,
archivos .csv separados con coma.
La informaci
on dada en la primera fila se considera como etiquetas de columnas y se usa como nombres de
variables durante el proceso de construcci
on del diccionario. Entonces, la presencia de etiquetas de columnas
es obligatoria en la primera fila de los archivos de entrada.
90
Ademas, el car
acter usado para separar campos se detecta en la primera fila y el car
acter usado en la notaci
on
decimal se detecta en la secunda fila del archivo. Entonces, si una variable tiene valores decimale, la presencia
de estos valores es obligatoria en la secunda fila del archivo.
Durante el proceso de importacion, el contenido de las variables alfabeticas importadas se puede cambiar a
c
odigos numericos, manteniendo los valores alfabeticos como nombres de c
odigos en el diccionario de IDAMS
creado. Comas usadas como separador decimal para variables numericas se convierten en puntos.
La operaci
on de importaci
on de datos se activa con el comando Importar de men
u Archivo, seguido
de la selecci
on del archivo requerido en el cuadro de dialogo est
andar Abrir de archivos. Se muestran juntos
con los valores de todos los campos para los tres primeros casos. Entonces, se puede verificar la lectura de
los datos antes de proceder a la importacion. Despues aparecen dos ventanas llamadas Datos externos y
Definicion de variables, ambas son ventanas de tipo hoja de c
alculo.
La ventana de Datos externos solo muestra el contenido del archivo a importar. No se permiten operaciones de edici
on con excepci
on de copiar una selecci
on al portapapeles.
La ventana de Definici
on de variables sirve para preparar descripcion de variables de IDAMS. Su
contenido inicial viene dado por defecto y sobre la base de los datos importados, pero hay libertad de
cambiarlo y completarlo si es necesario.
Las columnas tienen la siguiente informaci
on:
Descripci
on
Nombre de variable
Tipo
AnchM
ax
NDec
Md1
N
umero de cifras decimales; blanco implica que no hay cifras decimales.
Primer c
odigo de datos faltantes para variables numericas.
Md2
Recodificaci
on
Segundo c
odigo de datos faltantes para variables numericas.
Solicitud para recodificar una variable alfabetica a valores numericos.
Para modificar la definicion de variables, coloque el cursor dentro de la ventana y despes use las teclas de
navegaci
on o el rat
on para moverse al campo requerido y cambiar su contenido.
Use el comando Dataset de men
u Construir para crear el archivo Diccionario de IDAMS y el archivo Datos.
Ambos estar
an en la carpeta Datos de la aplicacion activa.
9.7.
Exportaci
on de archivos Datos de IDAMS
WinIDAMS tiene tambien una herramienta para exportar datos directamente a traves de la Interfaz del
Usuario. Esto se puede hacer desde la ventana Datos con el comando Exportar de men
u Archivo. El archivo
Datos de IDAMS que aparece en la ventana en que se est
a trabajando, se puede guardar en uno de los tres
tipos de archivos de formato libre:
archivos .txt delimitados por Tab,
archivos .csv separados con punto y coma.
archivos .csv separados con coma.
En la primera fila de los datos exportados, los nombres de variables del diccionario correspondiente, aparecen
como nombres de columnas.
Si existen nombres de c
odigos para una variable, los valores numericos de c
odigos se pueden sustituir opcionalmente por sus correspondientes nombres en el archivo de datos en salida. Ademas, las variables numericas
pueden salir con coma usada como separador decimal.
9.8.
91
La ventana Setup para preparar o mostrar un archivo Setup de IDAMS se llama cuando:
usted crea un nuevo archivo Setup (el comando Nuevo/IDAMS Setup file (archivo Setup) de men
u Archivo o el boton Nuevo de la barra de herramientas),
usted abre un archivo Setup (con extensi
on .set) mostrado en la ventana Aplicacion (haga doble clic
en el nombre del archivo requerido en la lista de Setups),
usted abre un archivo Setup (con cualquier extensi
on) que no este en la ventana Aplicacion (el comando
Abrir/Setup de men
u Archivo o el boton Abrir de la barra de herramientas.
La ventana suministra dos paneles: el de arriba es para preparar el archivo mismo de setup (panel Setup) y
el de abajo para mostrar los mensajes de error cuando se verifican proposiciones de filtro y Recode (panel
Mensajes). S
olo se puede editar el panel Setup. N
otese que se muestran los comandos de IDAMS en negrilla
y los nombres de programas en rosado si se han escrito correctamente. Los textos colocados en un comando
$comment se muestran en verde.
Para preparar un nuevo setup usted puede teclear todas las proposiciones o puede usar el prototipo de
setup del programa requerido y modificarlo seg
un sea necesario. Se suministran prototipos de setup para
todos los programas. Se puede acceder a ellos seleccionando el nombre del programa en la lista bajo el boton
Prototipos de la barra de herramientas. Para copiar el prototipo al panel Setup, haga clic en el nombre del
programa requerido. Para los detalles acerca de c
omo preparar archivos Setup, vea el captulo El archivo
Setup de IDAMS y la descripci
on del programa correspondiente.
Se pueden hacer operaciones de edici
on igual que con cualquier editor de textos ASCII, es decir, usted
puede Cortar, Copiar, y Pegar cualquier selecci
on usando los comandos de Edici
on, los botones equivalentes
de la barra de herramientas o las teclas de acceso rapido Ctrl/X, Ctrl/C y Ctrl/V respectivamente.
Dos comandos de verificaci
on de setup en el men
u Verificar permiten la verificacion de conjuntos de
proposiciones de filtro y de Recode.
Sintaxis de Recode activa la verificacion de la sintaxis en las proposiciones de Recode incluidas en el
setup. Todos los errores que se encuentren se reportan en el panel Mensajes con el n
umero del conjunto
de Recode, la lnea con error y el car
acter o caracteres que causan el problema de sintaxis. Haciendo
doble clic sobre la lnea erronea o en el mensaje de error en el panel Mensajes muestra esta lnea en
92
Sintaxis de filtros activa la verificacion de la sintaxis en las proposiciones de filtro incluidas en el setup.
Todos los errores que se encuentren se reportan en el panel Mensajes con el n
umero de la proposicion de
filtro, la lnea de la proposicion y el car
acter o caracteres que causan el problema de sintaxis. Haciendo
doble clic sobre la lnea erronea o en el mensaje de error en el panel Mensajes muestra esta lnea en el
panel Setup con una flecha amarilla.
N
otese que aunque la mayora de los errores de sintaxis en las proposiciones de filtro y de Recode se pueden
detectar y corregir aqu, IDAMS lleva a cabo otra verificacion sistem
atica de sintaxis durante la ejecuci
on
del setup. Tambien se reportan en los resultados, los errores de ejecuci
on que no se pueden detectar aqu.
9.9.
Ejecuci
on de los setups de IDAMS
Para ejecutar los programas de IDAMS (para los que se han preparado instrucciones y se han guardado en
un archivo Setup), use el comando Seleccionar setup de men
u Ejecutar en cualquier ventana de documento
de WinIDAMS. En el cuadro de dialogo est
andar de Windows, se pide escoger el archivo del cual se deben
tomar las instrucciones para la ejecuci
on.
Si usted est
a preparando sus instrucciones en la ventana Setup, puede ejecutar los programas del setup activo
usando el comando Setup actual de men
u Ejecutar.
El programa o los programas se ejecutaran y los resultados se escribiran en el archivo especificado para PRINT
bajo $FILES (por defecto IDAMS.LST en la carpeta Trabajo que este activa). Al final de la ejecuci
on, se
abrir
a el archivo de resultados en la ventana Resultados.
9.10.
La ventana Resultados para acceder, mostrar e imprimir partes seleccionadas de resultados se llama
cuando:
usted abre un archivo Resultados (con extensi
on .lst) mostrado en la ventana Aplicacion (haga doble
clic en el nombre del archivo requerido en la lista de Results),
usted abre un archivo Resultados (con cualquier extensi
on) que no est
a en la ventana Aplicacion (el
comando Abrir/Resultados de men
u Archivo o el boton Abrir de la barra de herramientas),
usted ejecuta el setup de IDAMS; se muestra autom
aticamente el contenido del archivo Resultados.
La tabla de contenido del archivo Resultados, facilita una navegaci
on rapida por los resultados. Puede
acceder al comienzo del resultado de un programa en particular o aun, a una secci
on en particular. Es mas,
el men
u Edici
on suministra acceso a una facilidad de b
usqueda.
93
La ventana est
a dividida en tres paneles: uno muestra la tabla de contenido de resultados (TDC) como una
estructura de
arbol, el segundo muestra el contenido de resultados y el tercero muestra mensajes de errores
y de advertencias incluidos en los resultados.
Por defecto, se retiene la divisi
on en las p
aginas del contenido de resultados hecha por los programas (la
opcion Modo de p
agina en el men
u Ver esta activa). Para hacer mas compacto el contenido de resultados,
desactive esta opci
on. Las lneas en blanco al final de las p
aginas se retiran de todas las p
aginas y los saltos
de p
agina insertados por los programas se reemplazan con la lnea de texto Page break.
Para abrir/cerrar r
apidamente el
arbol TDC se dispone de tres botones en el teclado numerico:
*
+
94
9.11.
Creaci
on/actualizaci
on de archivos en formato de texto y
RTF
WinIDAMS tiene un Editor General que le permite abrir y modificar cualquier tipo de documento en formato
de caracteres. Sin embargo, su funci
on b
asica es suministrar una facilidad para editar archivos Texto y ofrecer
aspectos sofisticados de formato y edici
on. Se debe evitar la manipulaci
on de archivos Diccionario, Datos o
Setup y la manipulaci
on de archivos Matriz debe hacerse cuidadosamente.
La ventana Texto se llama cuando:
usted crea un nuevo archivo Texto (el comando Nuevo/Text file (archivo Texto) o RTF file (archivo
RTF) de men
u Archivo, o el boton Nuevo de la barra de herramientas),
usted abre un archivo Matriz (con extensi
on .mat) mostrado en la ventana Aplicacion (haga doble clic
en el nombre del archivo requerido en la lista de Matrices),
usted abre cualquier archivo de caracteres que no este en la ventana Aplicacion (el comando Abrir/Con
el Editor General de men
u Archivo o el boton Abrir de la barra de herramientas).
Parte III
Captulo 10
Agrupaci
on de datos (AGGREG)
10.1.
Descripci
on general
AGGREG reune registros individuales (casos) en grupos definidos por el usuario y calcula las estadsticas
descriptivas de resumen para variables especificadas en cada grupo. Las estadsticas incluyen sumas, medias,
variancias, desviaciones est
andar, as como valores maximos y mnimos y el conteo de datos no faltantes. Se
crea un dataset IDAMS como salida, es decir, el archivo de datos agrupado (agregado) y descrito por un
diccionario IDAMS; el archivo de datos agrupados, contiene un registro (caso) por grupo con variables que
son el resumen a nivel de grupo de cada una de las variables de entrada seleccionadas.
En el captulo Tablas univariadas y bivariadas de la parte F
ormulas estadsticas y referencias bibliograficas se pueden encontrar f
ormulas para calular media, variancia y desviacion est
andar. Sin embargo, deben
ajustarse ya que los casos no est
an ponderados y el coeficiente N/(N-1) no se usa en el c
alculo de la variancia
y desviacion est
andar de la muestra. N
otese que las estadsticas se seleccionan para el conjunto total de
variables agrupadas. De esta manera, si hay 2 variables agrupadas y tres estadsticas seleccionadas, entonces
habr
a 6 variables calculadas.
AGGREG le permite al usuario cambiar el nivel de agrupaci
on de datos, por ejemplo, de miembros de una
familia a nivel de hogares o de distrito a nivel regional, etc. Por ejemplo, supongamos que un archivo de
datos contiene registros de cada individuo de un hogar y queremos analizar estos datos a nivel de hogares.
AGGREG nos permite agrupar valores de las variables de registros individuales de cada hogar para crear
un archivo de registros a nivel de hogares para analisis posteriores. Para ser mas especficos, si el archivo
de datos a nivel de individuos tiene una variable que nos da el ingreso personal, AGGREG podra crear
registros a nivel de hogares con una variable que describa el ingreso total por hogar.
Agrupamiento de datos. El usuario especifica hasta 20 variables de definicion de grupos (variables de
identificacion) que determinan el nivel de agrupamiento del archivo de salida. Por ejemplo, si se quieren
agrupar datos a nivel de miembros de una familia a nivel de hogares, entonces una variable que identifique
el hogar sera la variable de definicion de grupo. Cada vez que AGGREG lee un registro de entrada, busca
cambios en cualquiera de las variables de identificacion. Cuando se encuentra un cambio, se produce un
registro de salida que contiene estadsticas de resumen, calculadas con las variables agrupadas especificadas
para el grupo de registros que se acaban de procesar.
Inserci
on de constantes dentro de los registros de grupo. Se pueden insertar constantes dentro de
cada registro de grupo con los par
ametros PAD1, ... , PAD5, los cuales especifican las llamadas variables
pad. El valor de una variable pad es una constante.
Transferencia de variables. Se pueden transferir variables a los registros de salida. N
otese que solamente
los valores del primer caso dentro del grupo son transferidos.
98
10.2.
Agrupaci
on de datos (AGGREG)
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. El filtro est
andar est
a disponible para escoger un subconjunto de casos a
partir de los datos de entrada. Con los par
ametros, se especifican las variables de identificacion que definen
los grupos y las variables a ser agrupadas. Las variables de identificacion se incluyen autom
aticamente en el
dataset de salida.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. El valor de cada variable agrupada se compara con ambos c
odigos de
datos faltantes y si se detecta que se trata de un valor faltante, se excluye autom
aticamente de los c
alculos.
Un porcentaje suministrado por el usuario, el punto de corte (ver el par
ametro CUTOFF), determina el
n
umero de datos faltantes permitido antes de producir el valor de resumen como un c
odigo de datos faltantes.
Por ejemplo, supongamos que se quiere calcular la media de una variable agrupada dentro de un grupo y
este contiene 12 registros, 6 de los cuales tienen datos faltantes, es decir, el 50 %. Si el valor de CUTOFF es
75 %, se calcula la media de los 6 datos no faltantes y esta es la salida para el grupo. Si el valor de CUTOFF
es de 25 %, entonces no se calcula la media y se produce como salida el primer c
odigo de datos faltantes.
10.3.
Resultados
10.4.
Dataset de salida
El dataset de los datos agrupados en la salida es un archivo Datos descrito por un diccionario IDAMS.
Cada registro contiene valores de las variables de identificacion, de las variables calculadas, de las variables
transferidas y de las constantes pad; se produce un registro para cada grupo.
Orden y numeraci
on de variables. Las variables de salida se encuentran en el mismo orden relativo de
las variables de entrada a partir de las cuales fueron derivadas, sin importar si la variable de entrada se
uso como variable de identificaci
on, variable a ser agrupada o variable a ser transferida. De esta manera, si
se utiliza la primera variable de entrada, la variable o variables que se deriven de ella, seran la primera o
primeras variables de salida. Cada variable de entrada que se use como variable de identificacion o variable
a ser transferida, corresponde a una variable de salida; cada variable agrupada corresponde a 1-7 variables
de salida, seg
un el n
umero de estadsticas de resumen solicitadas (estas variables salen en el orden relativo:
suma, media, variancia, desviaci
on est
andar, conteo, mnimo, maximo). Las variables de salida son siempre
renumeradas, a partir del n
umero suministrado en el par
ametro VSTART. Las constantes pad siempre van
al final.
Nombres de variable. Las variables de salida tienen los mismos nombres de las variables de entrada de
las cuales se derivaron, con la excepci
on de que para las variables agrupadas se codifican los caracteres 23 y
24 del campo del nombre:
=
=
=
=
=
=
=
99
suma
media
variancia
desviaci
on est
andar
conteo
mnimo
maximo.
Las constantes pad, tienen los nombres de variable Pad variable 1, Pad variable 2, etc.
Tipo de variable. Las variables de identificacion y las variables transferidas salen con el mismo tipo de
variable que la de entrada. Las variables calculadas son siempre numericas.
Ancho de campo y n
umero de decimales. El ancho de campo de las variables agrupadas de salida
depende de las estadsticas, el ancho de campo de entrada (FW), el n
umero de cifras decimales de entrada
(ND) y las cifras decimales extra, solicitadas por el usuario en el par
ametro DEC. Los anchos de campo y el
n
umero de cifras decimales, se asignan de la manera mostrada a continuacion, donde FW=ancho del campo
de entrada y ND=n
umero de cifras decimales de entrada para las variables de entrada, y FW=6 y ND=0
para las variables que vienen de Recode.
Estadstica
Ancho de campo
Cifras decimales
SUMA
MEDIA
VARIANCIA
DESVIACION ESTANDAR
MINIMO
MAXIMO
COUNTEO
FW
FW
FW
FW
FW
FW
4
ND
ND + DEC ***
ND + DEC ***
ND + DEC ***
ND
ND
0
*
**
***
+
+
+
+
3*
DEC **
DEC **
DEC **
C
odigos de datos faltantes. Los c
odigos de datos faltantes para las variables de identificacion y para las
variables transferidas se toman del diccionario de entrada. El segundo c
odigo de datos faltantes (MD2) es
siempre blancos para variables calculadas. El valor del primer c
odigo de datos faltantes (MD1) se asigna de
la siguiente manera:
Variable de salida
FW de salida <= 7
FW de salida > 7
variable CONTEO
MD1 de salida
9s
-999999
9999
N
umeros de referencia. Las variables calculadas reciben un n
umero de referencia igual al de su variable
de base.
Registros C. Los registros C del diccionario de entrada se transfieren al diccionario de salida para las
variables de identificaci
on y para las variables transferidas.
Nota acerca del c
alculo de las estadsticas. Antes de producir la salida, los valores calculados se
redondean al ancho de campo y al n
umero de cifras decimales calculadas. Si el valor calculado excede a
999999999 o es inferior a -99999999, entonces sale como 999999999.
10.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Las variables de definicion de grupo
(identificadoras) y las variables a ser transferidas pueden ser numericas o alfabeticas, aunque las variables
numericas se tratan como cadenas de caracteres, es decir, un valor de 044 es diferente de 44. No pueden
ser variables recodificadas. Las variables a ser agrupadas deben ser numericas y pueden ser variables recodificadas.
100
Agrupaci
on de datos (AGGREG)
El archivo se procesa secuencialmente y se reunen los registros contiguos que tengan el mismo valor para
las variables identificadoras. De esta manera, el archivo de entrada debe clasificarse con las variables identificadoras como llave de clasificacion antes de usar AGGREG. Notar que AGGREG no verifica el orden de
clasificacion de los registros del archivo de entrada.
10.6.
$RUN AGGREG
$FILES
Epecificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
10.7.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de datos no numericos. Ver el captulo El archivo Setup de IDAMS.
101
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
IDVARS=(lista de variables)
Hasta 20 n
umeros de variable para definir los grupos. No se permiten variables R.
Sin valor por defecto.
AGGV=(lista de variables)
Variables V o R para ser agrupadas.
Sin valor por defecto.
STATS=(SUM, MEAN, VARIANCE, SD, COUNT, MIN, MAX)
Par
ametros para escoger las estadsticas solicitadas (se debe seleccionar al menos una de: SUM,
MEAN, VARIANCE, SD). Salen para cada grupo y para cada variable AGGV.
SUM
La suma.
MEAN
La media.
VARI
La variancia.
SD
La desviaci
on est
andar.
COUN
El n
umero de casos validos.
MIN
El valor mnimo.
MAX
El valor maximo.
SAMPLE/POPULATION
SAMP
Calcular la variancia y/o la desviacion est
andar con la ecuaci
on de muestra.
POPU
Usar la ecuaci
on de poblacion.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
VSTART=1/n
N
umero de variable para la primera variable en el dataset de salida.
CUTOFF=100/n
Porcentaje de casos con c
odigos MD permitidos antes de producir la salida de un c
odigo MD. Un
valor entero.
DEC=2/n
Para las variables calculadas que involucren media, variancia o desviacion est
andar: n
umero de
cifras decimales adicionales a aquellas de las correspondientes variables de entrada (ver restriccion
7).
TRANSVARS=(lista de variables)
Las variables cuyos valores, tal como aparezcan en el primer caso de cada grupo, se van a
transferir al archivo de salida. No se permiten variables R.
PAD1=constante
PAD2=constante
PAD3=constante
PAD4=constante
PAD5=constante
Se pueden a
nadir hasta 5 constantes al dataset de salida. El n
umero de caracteres dado, determina
el ancho del campo de la constante PAD.
102
Agrupaci
on de datos (AGGREG)
PRINT=(MDTABLES, GROUPS, DATA, CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT)
MDTA
Imprimir una tabla que suministre el porcentaje de datos faltantes encontrado para
cada variable agrupada en cada grupo.
GROU
Imprimir el n
umero de casos por grupo.
DATA
Imprimir los valores de cada variable calculada en cada registro de grupo.
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
NOOU
No imprimir el diccionario de salida.
10.8.
Restricciones
1. M
aximo n
umero de variables a ser agrupadas es 400.
2. M
aximo n
umero de variables de identificacion es 20.
3. M
aximo n
umero de caracteres en las variables de identificacion es 180.
4. M
aximo n
umero de variables a ser transferidas es 100.
5. No se permiten variables recodificadas como IDVARS o TRANSVARS.
6. La misma variable no pueden aparecer en dos listas de variables.
10.9.
Ejemplo
Producir un dataset de salida que contenga un caso agrupado para cada valor u
nico de V5 y V7; las variables
en cada caso van a ser la suma, la media y la desviacion est
andar de 4 variables de entrada y 1 variable
recodificada, agrupadas en los casos que forman el grupo (es decir, con los mismos valores de V5 y V7);
los valores de V10 y de V11 para el primer caso de cada grupo van a transferirse a los registros de salida;
se requiere un listado de los valores producidos para cada caso; en el archivo de salida, las variables se
numeraran a partir del n
umero 1001.
$RUN AGGREG
$FILES
PRINT
= AGGR.LST
DICTIN = IND.DIC
archivo Diccionario de entrada
DATAIN = IND.DAT
archivo Datos de entrada
DICTOUT = AGGR.DIC
archivo Diccionario de salida
DATAOUT = AGGR.DAT
archivo Datos de salida
$RECODE
R100=COUNT(1,V20-V29)
NAME R100INDICE DE SALUD
$SETUP
REUNION DE 4 VARIABLES DE ENTRADA Y UNA VARIABLE RECODIFICADA
IDVARS=(V5,V7) AGGV=(V31,V41-V43,R100) STATS=(SUM, MEAN, SD)
VSTART=1001 PRINT=DATA TRANS=(V10,V11)
Captulo 11
Construcci
on de un dataset IDAMS
(BUILD)
11.1.
Descripci
on general
BUILD toma un archivo de datos primarios, que puede contener varios registros por caso, junto con un
diccionario que describe las variables requeridas y crea un archivo Datos nuevo con un solo registro por caso
que contiene valores solamente para las variables especificadas. Al mismo tiempo, produce un diccionario
IDAMS de salida que describe el archivo Datos con nuevo formato, en otras palabras se crea un dataset
IDAMS.
Ademas de la reconstrucci
on de los datos, BUILD tambien verifica valores no numericos en variables numericas.
Por que usar BUILD? Cualquier programa IDAMS se puede usar sin tener que utilizar BUILD, al preparar
por separado un diccionario IDAMS. Sin embargo, se recomienda usar BUILD como un paso preliminar ya
que:
- verifica la correcta preparacion del diccionario,
- asegura que haya una correspondencia exacta entre el diccionario y los datos,
- asegura que no haya caracteres no numericos inesperados en los datos,
- reduce los datos a la forma de un solo registro compacto por caso,
- recodifica los espacios en blanco con valores especificados por el usuario.
Procesamiento de las variables num
ericas. Cuando BUILD procesa un campo como si tuviera una
variable numerica, verifica que el campo contenga un n
umero reconocible o contenga solamente blancos.
Si se presenta un valor diferente de los anteriores, por ej. 3J, 3-, ++2, etc. se imprime la posicion
secuencial del caso, el n
umero de variable asociado con el campo y el caso de entrada y se usa una cadena
de nueves como el valor de salida.
Las reglas de procesamiento son las siguientes:
Si un campo contiene un n
umero reconocible, el n
umero se edita a una forma est
andar antes de enviarlo
a la salida (ver el captulo Los datos en IDAMS para una descripcion mas detallada).
Si un campo contiene solo blancos, BUILD recodificar
a el valor asign
andole el primero o segundo
c
odigos de datos faltantes, nueves o ceros en el campo de salida o, si no se especifico recodificacion,
indicar
a un error y el campo de salida estar
a en blanco. La columna 64 de los registros T se puede usar
para especificar la recodificacion correspondiente a la variable (ver la secci
on Diccionario de entrada).
Si un campo contiene los blancos a la derecha, por ej. 04 en un campo numerico de tres dgitos o
los blancos entre digitos, por ej. 0 4, se reportar
a como un error y el valor se llenara con dgitos 9.
Si un campo contiene un valor positivo o negativo con el car
acter + o - mal colocado, por ej.
1-23, se reportar
a como un error y el valor se llenara con dgitos 9.
104
Construcci
on de un dataset IDAMS (BUILD)
Si un c
odigo de datos faltantes para una variable tiene un dgito mas que el campo de entrada, el
campo de salida sera un dgito mayor que el campo de entrada. Se puede usar cuando es necesario
aumentar el ancho del campo de salida sin cambiar el ancho del campo de entrada; por ejemplo, si se
han definido los c
odigos 0-9 y blanco para una variable que ocupa una sola columna, el campo blanco
no se podra recodificar con un valor numerico u
nico sin disponer de un c
odigo de salida de 2 dgitos.
Tabla que muestra ejemplos de ediciones hechas con BUILD
y el contenido del campo de salida
para un campo de entrada num
erico de 3 d
gitos
____________________________________________________________________________________
Valor
Nr. MD1
de
dec.
entrada
______ ___ ____
032
32
3 2
32
-03
-3
- 3
3.2
32
.32
3.2
.32
.35
-.3
-.3
-03
A32
3-2
11.2.
0
0
0
0
0
0
0
0
1
1
1
2
1
0
1
1
-
9999
8888
Recodif.
especif.
________
1
0
Ninguna
-
Valor
de
salida
______
0032
032
999
999
-03
-03
-03
003
032
003
032
032
004
-00
-03
-03
8888
000
999
999
Ancho del
campo de
salida
________
4
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
4
3
3
3
3
Mensaje de error
_______________
blancos intercalados en var...
blancos intercalados en var...
(s
olo si PRINT=RECO)
(s
olo si PRINT=RECO)
blancos en var ...
caracteres malos en var...
caracteres malos en var...
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Este programa no tiene provision para la selecci
on de casos a partir del
archivo de datos de entrada. El filtro est
andar no est
a disponible. Por medio de la descripcion de variables,
se puede seleccionar para los datos de salida cualquier subconjunto de los campos dentro de un caso.
Transformaci
on de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. BUILD no hace distincion entre datos verdaderos y valores de datos
faltantes. Sin embargo, los campos en blanco se pueden recodificar a c
odigos de datos faltantes, ceros o
nueves.
11.3.
Resultados
105
11.4.
Dataset de salida
BUILD crea un archivo Datos y el diccionario IDAMS correspondiente, es decir un dataset IDAMS. Tengase
en cuenta que los registros T producidos por BUILD siempre definen la ubicacion de las variables en terminos
de la posicion inicial y el ancho del campo.
El archivo Datos contiene un registro para cada caso o unidad de analisis. La longitud del registro es la suma
de los anchos de campo de todas las variables de salida y es determinada por el programa BUILD.
Valores de variables num
ericas. Los valores de las variables numericas se editan de acuerdo con una
forma est
andar que se describe en el p
arrafo Procesamiento de las variables numericas arriba.
Valores de variables alfab
eticas. Los valores de las variables alfabeticas no se editan y son los mismos
en la entrada y en la salida.
Ancho de campo. BUILD normalmente asigna como ancho de una variable el n
umero de caracteres del
campo de la variable de entrada correspondiente. Sin embargo, cuando un c
odigo de datos faltantes para
una variable tiene un dgito mas que el campo de entrada, el campo de salida sera un dgito mayor que el
campo de entrada.
Localizaci
on de variable. BUILD asigna los campos de salida seg
un el orden de los n
umeros de las
variables. De acuerdo con esto, si las dos primeras variables tienen anchos de salida de 5 y 3, se asignan las
posiciones 1-5 para la primera variable y 6-8 para la segunda variable, etc.
N
umero de referencia e identificador de estudio. El n
umero de referencia, si no es blanco, e identificador de estudio son los mismos que sus valores de entrada. Si el campo del n
umero de referencia de un
registro T o un registro C es blanco, se llena con el n
umero de la variable.
11.5.
Diccionario de entrada
Describe las variables que se van a seleccionar para la salida. El formato est
a descrito en el captulo Los
datos en IDAMS, la columna 64 del registro T se usa para especificar una regla de recodificacion de campos
en blanco en una variable de la manera siguiente:
blanco
0
1
2
9
Nota. La ventana Diccionario de la Interfaz del Usuario no permite acceso a la columna 64; entonces, use el
Editor General de WinIDAMS (Archivo/Nuevo/Archivo usando Editor General) o cualquier otro editor de
texto para llenar esta columna.
106
Construcci
on de un dataset IDAMS (BUILD)
11.6.
Datos de entrada
Los datos pueden ser cualquier archivo de registros de longitud fija, con uno o mas registros por caso, siempre
que se tenga exactamente el mismo n
umero de registros para cada caso. El archivo debe estar clasificado
por tipo de registro dentro de cada ID de caso. Los valores para cualquier variable deben localizarse en las
mismas columnas del mismo registro para cada caso.
Si los datos de entrada tienen mas de un registro por caso, debe usarse siempre MERCHECK antes que
BUILD para garantizar que los datos tengan los mismos registros para cada caso.
N
otese que BUILD no acepta notaci
on exponencial en los datos.
11.7.
$RUN BUILD
$FILES
Especificaci
on de archivos
$SETUP
1. T
tulo
2. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
11.8.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-2, a continuacion.
1. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
2. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MAXERROR=50
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
11.9 Ejemplos
107
LRECL=80/n
Longitud de cada registro de los datos de entrada.
(Se usa para verificar si las posiciones de comienzo de las variables en los registros T son validas).
MAXCASES=n
N
umero maximo de casos a usar del archivo de entrada.
Por defecto: se usan todos los casos.
VNUM=CONTIGUOUS/NONCONTIGUOUS
CONT
Verifica que las variables esten numeradas en orden ascendente y consecutivo en el
diccionario de entrada.
NONC
Verifica solamente que las variables esten numeradas en orden ascendente.
MAXERR=10/n
N
umero maximo de casos con errores antes de terminar la ejecuci
on de BUILD.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
PRINT=(RECODES, CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT)
RECO
Imprimir los casos de entrada que tengan uno o mas campos, todos en blanco, que
hayan sido recodificados.
CDIC
Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
NOOU
No imprimir el diccionario de salida.
11.9.
Ejemplos
Ejemplo 1. Construir un dataset IDAMS (archivos Diccionario y Datos); los registros de datos de entrada
tienen una longitud de registro de 80 con 3 registros por caso; las variables tienen una numeraci
on no
contigua en el diccionario de entrada; la variable 2 es el identificador completo (columnas 5-10) mientras
que las variables V3 y V4 contienen las dos partes del identificador (columnas 5-8, 9-10 respectivamente);
los campos en blanco se reemplazaran por el primer c
odigo de datos faltantes de las variables V101, V122,
V168, y con ceros para la variable V169; los blancos en la variable V123 (edad) se trataran como errores.
$RUN BUILD
$FILES
DATAIN = ABCDATA.DAT RECL=80
archivo Datos de entrada
DICTOUT = ABC.DIC
archivo Diccionario de salida
DATAOUT = ABC.DAT
archivo Datos de salida
$SETUP
CONSTRUCCION DE UN DATASET IDAMS
VNUM=NONC MAXERR=200
$DICT
3
1 169
3
T
1 CODIGO CIUDAD
1 1 1 3
T
2 IDENTIFICADOR DEL ENCUE
5 10
T
3 NUMERO DEL HOGAR
5
8
T
4 NUMERO DEL ENCUESTADO
9 10
T 101 POS. DEL ENCUE EN FAMIL
13
0
9
1
T 122 SEXO
225
9
1
T 123 EDAD
48 49
T 168 OCUPACION
358 59
99
98
1
T 169 INGRESO
61 65
99998
0
ID
ID
ID
ID
QS1
QS2
QS2
QS3
QS3
108
Construcci
on de un dataset IDAMS (BUILD)
Captulo 12
Verificaci
on de c
odigos (CHECK)
12.1.
Descripci
on general
CHECK verifica si las variables tienen datos validos y produce un listado con todos los c
odigos invalidos por
identificador de caso y n
umero de variable.
Especificaci
on de c
odigos. Hay dos maneras de especificar los c
odigos de las variables a verificar. Primera,
las proposiciones de control del programa incluyen un conjunto de especificaciones de c
odigos en el cual se
definen las variables y sus c
odigos validos. Segunda, el usuario puede suministrar una lista de variables de la
cual se van a tomar c
odigos validos de los registros C en el diccionario. En cualquier ejecuci
on de CHECK,
el usuario puede aplicar el primer metodo para unas variables y el segundo para otras. Las especificaciones
de c
odigo para variables en el setup tienen prioridad sobre las especificaciones del diccionario.
M
etodo usado para verificar valores de los datos. Los valores de los datos para variables numericas
y alfabeticas se verifican car
acter por c
aracter contra los c
odigos validos especificados. As, si se da una
especificaci
on de c
odigos validos de V2=02,03, un valor de 2 en los datos sera invalido; un blanco a la
izquierda en los datos no se considera igual a cero. Si se especifican valores de c
odigos con menos dgitos que
el ancho de campo de la variable, se suponen ceros a la izquierda. As, si se da la especificaci
on V2=2,3,
donde V2 es una variable de 2 dgitos, los valores validos para la comparaci
on de los datos seran 02,03. De
manera similar, si se suministran -3 y 1 como c
odigos validos para una variable de 3 dgitos, CHECK
editara los c
odigos con -03 y 001 antes de efectuar cualquier comparaci
on de datos con estos valores.
Nota. Si se encuentra un error de sintaxis en una especificaci
on de c
odigos, se verifica el resto de las
especificaciones de c
odigos pero no se procesan los datos.
12.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. El filtro est
andar est
a disponible para seleccionar un subconjunto de casos
del dataset de entrada. El usuario escoge las variables a verificar, especificandolas en una lista de variables
y/o en las especificaciones de c
odigos.
Transformaci
on de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. CHECK no hace distincion entre datos sustantivos y valores de datos
faltantes; todos los datos reciben el mismo tratamiento.
12.3.
Resultados
110
Verificaci
on de c
odigos (CHECK)
Documentaci
on de c
odigos inv
alidos. Para cada caso en el que se encuentre una variable con un c
odigo
invalido, CHECK imprime el valor o los valores de la(s) variable(s) de identificacion, las variables con error
y sus valores.
12.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. CHECK puede verificar datos validos
en variables numericas y alfabeticas. Si el diccionario contiene registros C, estos pueden usarse para definir
c
odigos validos de las variables.
Para los valores de las variables numericas se supone que se encuentran en la forma que tendran despues
de haber pasado por el programa BUILD. Esta suposicion implica que no hay blancos a la izquierda (fueron
reemplazados por ceros), que un signo negativo, si lo hay, aparece en el extremo izquierdo del campo y que
no aparecen puntos decimales explcitos.
12.5.
$RUN CHECK
$FILES
Especificaci
on de archivos
$SETUP
1.
2.
3.
4.
Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de c
odigos (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
12.6.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
INCLUDE V10=3
AND
V20=1-9
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
111
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
IDVA=(V1-V4) VARS=(V22-V26,V101-V102)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
START=1/n
N
umero secuencial del primer caso a ser verificado.
VARS=(lista de variables)
Variables para las cuales se van a tomar codigos validos de los registros C en el diccionario.
MAXERR=100/n
M
aximo n
umero de casos permitidos con c
odigos invalidos; si se excede este n
umero, se termina
la ejecuci
on del programa.
IDVARS=(lista de variables)
Hasta 20 variables cuyos valores se imprimen cuando se encuentra un c
odigo invalido. Estas consistiran normalmente como mnimo, de las variables que identifican un caso pero pueden incluir otras
variables que suministren informacion adicional al usuario. Las variables pueden ser alfabeticas o
numericas.
Sin valor por defecto.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de c
odigos (opcional). Estas especificaciones definen las variables a verificar y sus
valores de c
odigo validos o invalidos.
Ejemplos:
V3=1,3,5-9
V7,V9,V12-V14= 2,50-75,100
V50 <> 75
Formato general
lista de variables = lista de valores de c
odigo
o
lista de variables <> lista de valores de c
odigo
Reglas de codificaci
on
Cada especificaci
on de c
odigos debe comenzar en una lnea nueva. Para continuar en otra lnea, interrumpa despues de una coma y coloque un gui
on. Se pueden usar todas las lneas de continuacion que
sean necesarias. Pueden aparecer blancos en cualquier lugar de las especificaciones.
112
Verificaci
on de c
odigos (CHECK)
Lista de variables
Cada n
umero de variable debe estar precedido por una letra V.
Las variables se pueden expresar una por una (separadas con una coma), por rangos (separadas
con un gui
on) o una combinaci
on de ambos (V1,V2,V10-V20).
Las variables se pueden definir en cualquier orden.
Todas las variables agrupadas en una expresion deben tener el mismo ancho de campo (por ej. para
V2,V3=10-20 V2 y V3 deben tener ambas el mismo ancho de campo definido en el diccionario).
Las variables a verificar pueden ser numericas o alfabeticas.
V
alido (=) o inv
alido (<>)
Un signo = indica que los valores de c
odigo que siguen son los c
odigos validos para las variables
especificadas. Todos los dem
as c
odigos se documentar
an como errores.
<> (no igual) indica que los c
odigos que siguen son invalidos. Todos los casos que tengan estos
c
odigos para las variables especificadas se documentar
an como errores.
Lista de valores de c
odigo
Los c
odigos se pueden expresar uno por uno (separados con una coma), por rangos (separados
con un gui
on) o una combinaci
on de ambos.
Para variables numericas, no es necesario suministrar ceros a la izquierda (por ej. V1=1-10), pero
recuerde que si se verifican varias variables para c
odigos comunes, todas deben tener definido en
el diccionario el mismo ancho de campo.
Para datos con cifras decimales, no coloque el punto decimal en el valor, pero suministre el valor
de manera que refleje exactamente las cifras decimales implicadas, por ej. el n
umero 2 con un
decimal debe ser dado como 20.
Para valores alfabeticos, no es necesario colocar blancos a la derecha, estos son a
nadidos por el
programa de manera que completen la longitud del ancho de campo de la variable.
Para definir un blanco o para especificar un valor con blancos intercalados, encierre el valor entre
comillas sencillas. (por ej. V10=NEW YORK,WASHINGTON, ).
Los valores de c
odigo se pueden definir en cualquier orden.
Notas.
1) Si se dan dos especificaciones diferentes para la misma variable, solo se utilizara la u
ltima de ellas.
2) Las especificaciones de c
odigos para una variable reemplazan el uso de registros de nombres de
c
odigos del diccionario para las variables especificadas con el par
ametro VARS.
12.7.
Restricciones
1. El maximo n
umero de variables de identificacion es 20.
2. El maximo n
umero de c
odigos distintos que se pueden suministrar en las especificaciones de c
odigo es
4000. Esta restriccion se puede obviar con rangos de c
odigos ya que un rango de c
odigos se cuenta solo
como 2 c
odigos.
12.8.
Ejemplos
Ejemplo 1. Busqueda de c
odigos ilegales en variables cualitativas y valores fuera de rango en variables
cuantitativas; los u
nicos c
odigos validos para las variables V10, V12 y V21 a V25 son 1 a 5 y 9; el c
odigo
9998 es ilegal para la variable V35; los c
odigos 0 y 8 son ilegales para las variables V41, V44 y V46; las
variables V71 a V77 deben tener valores dentro del rango de 0 a 100 o 999; los casos se identifican con las
variables V1, V2 y V4; no se usan los valores de c
odigos del diccionario.
12.8 Ejemplos
113
$RUN CHECK
$FILES
PRINT = CHECK1.LST
DICTIN = STUDY1.DIC
archivo Diccionario de entrada
DATAIN = STUDY1.DAT
archivo Datos de entrada
$SETUP
BUSQUEDA DE CODIGOS ILEGALES Y VALORES FUERA DE RANGO
IDVARS=(V1,V2,V4)
V10,V12,V21-V25=1-5,9
V35<>9998
V41,V44,V46<>0,8
V71-V77=0-100,999
Ejemplo 2. Verificacion de la validez del c
odigo unicamente para un subconjunto de casos (cuando la
variable V21 es igual a 2 o igual a 3 y la variable V25 es igual a 1); los c
odigos validos para algunas variables
se toman de los registros C del diccionario; adicionalmente, se da una especificaci
on valida para la variable
V48; los casos se identifican con la variable V1.
$RUN CHECK
$FILES
DICTIN = STUDY2.DIC
archivo Diccionario de entrada
DATAIN = STUDY2.DAT
archivo Datos de entrada
PRINT = CHECK.PRT
$SETUP
INCLUDE V21=2,3 AND V25=1
BUSQUEDA DE CODIGOS ILEGALES
IDVARS=V1 VARS=(V18-V28,V36-V41)
V48=15-45,99
Captulo 13
Verificaci
on de consistencia
(CONCHECK)
13.1.
Descripci
on general
El uso de CONCHECK junto con las proposiciones de Recode de IDAMS ofrece la capacidad de verificacion de
consistencia la cual permite probar relaciones ilegales entre valores de diferentes variables. Las proposiciones
condicionales incluidas en el setup de CONCHECK se usan para denominar cada una de las verificaciones e
indicar que variables se deben listar ante un error.
La verificacion de consistencia se define por medio de Recode al probar una relacion logica y despues asignar
el valor 1 a una variable R si la condicion no se satisface, por ej. si V3 no puede tomar logicamente el valor
de 9 cuando V2 toma el valor de 3, se puede usar la siguiente proposicion de Recode:
IF V2 EQ 3 AND V3 EQ 9 THEN R100=1 ELSE R100=0
Cuando se detecta una inconsistencia en un caso, se imprimen los identificadores del caso (ID). Ademas se
imprimen tambien los valores de un conjunto de variables definidas con el par
ametro VARS. Este conjunto
de variables se usa para tener una vision general del caso, de manera que se pueda detectar mas facilmente
la raz
on de la inconsistencia y asegurar que la correccion de una inconsistencia no va a producir otra. Para
cada condicion de consistencia que falle se puede imprimir un conjunto separado de variables con el n
umero
y nombre de la condicion; este conjunto consiste normalmente de las variables que se verifican.
13.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. El filtro est
andar est
a disponible para escoger un subconjunto de casos a
verificar. Las variables a imprimir cuando se presenten inconsistencias se especifican con el par
ametro VARS
(para el caso) o CVARS (para una condicion individual).
Transformaci
on de datos. Las proposiciones de Recode se usan para indicar las validaciones de consistencia requeridas.
Tratamiento de datos faltantes. CONCHECK no hace distincion entre datos sustantivos y valores de
datos faltantes; todos los datos reciben el mismo tratamiento.
13.3.
Resultados
116
Verificaci
on de consistencia (CONCHECK)
Inconsistencias. Para cada caso que presente una inconsistencia se imprime una lnea de identificacion con
el n
umero de secuencia del caso y opcionalmente los valores de los identificadores de caso. A continuacion se
imprimen los valores de las variables especificadas en el par
ametro VARS.
Para cada inconsistencia individual detectada en un caso, se imprimen el n
umero y nombre de la condicion
correspondiente y los valores de las variables especificadas en la proposicion de condicion.
Estadsticas de error. Al final de la ejecuci
on se imprime una tabla de resumen con el n
umero de casos procesados, el n
umero de casos que tienen por lo menos una inconsistencia y, para cada condicion de
consistencia, su n
umero y nombre y el n
umero de casos que no pasaron la prueba.
13.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden usar variables numericas o
alfabeticas.
13.5.
$RUN CONCHECK
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode que indican las inconsistencias
$SETUP
1.
2.
3.
4.
Filtro (opcional)
T
tulo
Par
ametros
Proposiciones de condici
on
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
13.6.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
INCLUDE V1=1
117
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
IDVARS=(V1,V3-V4) MAXERR=50
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MAXERR=999/n
N
umero maximo de inconsistencias a imprimir antes de detener la ejecuci
on de CONCHECK.
IDVARS=(lista de variables)
Hasta 5 variables cuyos valores se imprimiran para identificar casos con inconsistencias.
Por defecto: se imprime el n
umero secuencial de caso.
VARS=(lista de variables)
Variables a imprimir para cualquier caso que tenga por lo menos un error.
FILLCHAR=cadena de caracteres
Hasta 8 caracteres usados para separar variables cuando se imprimen las inconsistencias.
Por defecto: 2 espacios.
PRINT=(CDICT/DICT, VNAMES)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
VNAM
Cuando se imprimen variables para casos inconsistentes, imprimir los primeros 6 caracteres del nombre en vez de los n
umeros de las variables.
4. Proposiciones de condici
on (se debe dar por lo menos una). Se suministra una proposicion de
condicion para cada consistencia a verificar con una referencia a las correspondientes proposiciones
de Recode, un nombre para la prueba y las variables cuyos valores se deben imprimir cuando falle la
prueba.
Las reglas de codificacion son las mismas de los par
ametros. Cada proposicion condicional debe comenzar en una nueva lnea.
Ejemplo:
TEST=n
umero de variable
Una variable para la cual un valor no igual a cero, indica que una verificacion de consistencia ha
fallado.
Sin valor por defecto.
118
Verificaci
on de consistencia (CONCHECK)
CVARS=(lista de variables)
Lista de variables cuyos valores se deben imprimir cuando se presente esta inconsistencia.
Por defecto: solo se imprimen las variables especificadas en IDVARS y VARS.
CNUM=n
N
umero de condicion.
Por defecto: n
umero secuencial de la condicion.
CNAME=cadena de caracteres
Nombre para esta condicion, hasta 40 caracteres.
Por defecto: no asigna nombre.
13.7.
Restricciones
1. S
olo se imprimen los primeros 4 caracteres de las variables alfabeticas.
2. Los nombres de condicion no pueden tener mas de 40 caracteres de longitud.
3. El n
umero maximo de variables de identificacion es 5.
4. El n
umero maximo de variables a imprimir para cada caso con errores es 20 (lista de variables en
VARS).
5. El n
umero maximo de variables a imprimir para cada condicion es 20 (lista de variables en CVARS).
13.8.
Ejemplos
13.8 Ejemplos
$RUN CONCHECK
$FILES
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
PARTE 2 DE LA VERIFICACION DE CONSISTENCIA
MAXERR=400 IDVARS=(V1,V3) VARS=(V5-V10,V200-V231)
TEST=R1 CNUM=201 CVARS=(V203-V205)
TEST=R2 CNUM=202 CVARS=(V203,V210-V212)
TEST=R3 CNUM=203 CVARS=(V214,V215)
TEST=R4 CNUM=204 CVARS=(V222-V226)
TEST=R5 CNUM=205 CVARS=(V229,V230)
$RECODE
R900=1
A
SELECT (FROM=(R1-R5), BY R900) = 0
IF R900 LT 5 THEN R900=R900+1 AND GO TO A
IF V203 IN(1-5,17,20-25) AND V204 EQ 3 OR V205 EQ M THEN R1=1
IF V203 GT 6 AND MDATA(V210,V211,V212) THEN R2=1
IF 2*TRUNC(V214/2) EQ V214 OR V215 EQ 0 THEN R3=1
IF COUNT(1,V222-V226) LT 2 THEN R4=1
IF MDATA(V229) AND NOT MDATA(V230) THEN R5=1
119
Captulo 14
Verificaci
on de intecalaci
on de
registros (MERCHECK)
14.1.
Descripci
on general
segundo
campo
identificador
de caso
campo
identificador
de registro
En este ejemplo hay dos tipos de registro para cada caso, que se identifican con los n
umeros 10 o 12 en las
columnas 35 y 36. El identificador de caso (ID de caso) est
a compuesto por dos campos no consecutivos en
las columnas 4-7 y 18-19. As SE2301, es un identificador de caso, SE2302 es otro y SE2401 es otro.
122
Verificaci
on de intecalaci
on de registros (MERCHECK)
Eliminaci
on de registros inv
alidos. Se imprime de manera opcional pero no se transmite al archivo de
salida, un registro de datos de entrada conocido como registro extra, el cual contiene un identificador de
registro no definido en las Descripciones de registros. Adicionalmente, hay dos opciones para eliminar otros
tipos de registros invalidos.
Los registros que no tengan una constante especfica, se rechazan. (Ver los par
ametros CONSTANT,
CLOCATION, y MAXNOCONSTANT).
El usuario puede especificar el valor del identificador del primer caso valido. Todos los casos con un
identificador cuyo valor sea menor que el valor especificado, se rechazan. (Ver el par
ametro BEGINID).
Opciones para el manejo de casos con registros faltantes. El usuario debe escoger, con el par
ametro
DELETE, una de las tres formas posibles para el manejo de los casos incompletos.
1. DELETE=ANYMISSING. No se produce caso de salida cuando faltan uno o mas tipos de registro.
2. DELETE=ALLMISSING. Un caso no sale si no se encuentra por lo menos un identificador valido de
registro.
3. DELETE=NEVER. El programa nunca excluye ning
un caso que tenga uno o mas registros faltantes.
En esta alternativa, el programa construye un registro para cada tipo de registro faltante y lo llena
con blancos o con valores suministrados por el usuario. Ver el par
ametro PADCH y el par
ametro
PAD de las Descripciones de registros. La complementacion tiene lugar en columnas diferentes de
las de identificaci
on de campos de caso y de campos de registro. El programa siempre inserta los
identificadores apropiados para casos y registros.
Opciones para el manejo de casos con registros duplicados. Un registro duplicado es aquel que tiene
los mismos identificadores de caso y de registro que otro, sin interesar el contenido de ambos registros. El
usuario especifica cual duplicado debe mantenerse si hay mas de un registro de entrada con los mismos
identificadores de caso y de registro. Por ejemplo, la opcion DUPKEEP=1 hace que el programa guarde el
primer registro y descarte los otros. El caso no se transfiere al archivo de salida si se encuentra un n
umero de
duplicados menor que n (donde DUPKEPP=n), es decir, que para borrar casos con registros duplicados, se
especifica un valor grande para n. Precauci
on: puede suceder que registros con identificadores duplicados no
contengan los mismos datos. Corresponde al usuario decidir la conveniencia de retener o no un determinado
registro.
Opciones para el manejo de registros eliminados. Los registros de datos de entrada que se han
eliminado, es decir, aquellos que no van al archivo de salida, se pueden colocar en otro archivo (ver el
par
ametro WRITE).
Selecci
on de tipos de registro. MERCHECK le permite al usuario subdividir tipos de registros, seleccionados a partir de un archivo de entrada mas amplio. Incluya simplemente solo los identificadores requeridos
en las Descripciones de registros y escoja una opcion apropiada para la impresion de errores (EXTRAS=n o
PRINT=ERRORS, por ejemplo) y un valor razonable para MAXERR. Es esencial minimizar la impresion
de casos con errores ya que casi siempre cada caso con identificadores faltantes en el archivo de entrada,
sera impreso como error debido a registros con identificacion invalida (es decir, aquellos que no se han
especificado en las Descripciones de registros).
Capacidad de comenzar nuevamente. El par
ametro BEGINID se usa para volver a comenzar el programa
MERCHECK cuando la ejecuci
on anterior termino antes de haber procesado todos los datos de entrada.
El usuario debe determinar el identificador del u
ltimo caso procesado y asignar al par
ametro BEGINID ese
valor +1. (Si el programa termina porque se excedio el valor del par
ametro MAXERR, en el listado de salida
aparecer
a el u
ltimo registro leido y el valor asignado al par
ametro BEGINID debera ser el identificador de
caso de ese registro).
Nota. MERCHECK tiene por objeto la verificacion de archivos de datos con m
ultiples registros por caso
y debe haber un identificador de registro en cada registro. Te
oricamente, MERCHECK se podra usar
para eliminar registros duplicados y registros sin alguna constante especfica para archivos con casos de
un solo registro por caso. Sin embargo, esto solo puede hacerse si los registros contienen alguna constante
cuyo valor se pueda asimilar a un identificador de registro. Este tipo de operaci
on se realiza mejor con el
programa SUBSET al usar un filtro que excluya los registros que carezcan de una constante y con la opcion
DUPLICATE=DELETE para eliminar los duplicados. (Ver la documentacion de SUBSET).
14.2.
123
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Con excepcion de las definiciones anteriores, esta opcion no se encuentra
en este programa.
Transformaci
on de datos y datos faltantes. Estas opciones no se aplican en MERCHECK.
14.3.
Resultados
Casos con errores. El listado completo de la documentacion de cada caso con errores tiene tres partes: un
resumen de los errores, registros no transferidos al archivo de salida (registros malos) y los casos transferidos
al archivo de salida (casos buenos) tal como aparecen en este archivo de salida. Ver mas adelante para mayor
informacion sobre estos componentes. Para datos con un gran n
umero de tipos de registros y muchos casos
con errores, el listado de los casos errados puede ser costoso y para algunos jobs innecesario. La cantidad de
listado requerido depende del mayor o menor conocimiento que el usuario tenga acerca de los datos y de su
habilidad para corregir o re-corregir los errores. Por ejemplo, si un usuario espera que se presenten muchos
rellenos (padding), pero ninguna o casi ninguna duplicaci
on de registros o registros invalidos, es suficiente
tener en el papel solo el resumen de los errores y especificar que se almacenen los casos con errores (si los
hay) (ver la opci
on WRITE=BADRECS) y listarlos posteriormente. Se pueden aplicar varios controles a la
cantidad de listado obtenido con los par
ametros PRINT, EXTRAS, DUPS y PADS.
Casos con errores: resumen de errores. El resumen de errores consiste en una identificacion del caso
con errores (conteo de caso o ID de caso) y uno de tres tipos de mensaje referentes a los errores que se
presentaron. El conteo secuencial de los casos no considera los registros o casos eliminados porque ellos
aparecen antes del comienzo del identificador o les falta la constante requerida. El identificador del caso se
toma de los identificadores del campo tal como se haya especificado en el par
ametro IDLOC.
Se reportan tres tipos de errores, a saber:
1. tipo de registro invalido,
2. casos con registros faltantes,
3. casos con registros duplicados.
Casos con errores: registros malos. Se presentan los registros invalidos y los registros duplicados, as como tambien todos los registros de casos que se han rechazado por carencia de registros. Se imprimen en el
orden en que se encuentran en el archivo de entrada.
Casos con errores: registros buenos. Cuando se guarda un caso, despues de haber detectado un error,
los registros que pasan al archivo de salida, incluidos aquellos que se han rellenado, se imprimen.
Registros anteriores a BEGINID. Su impresion es opcional. Ver par
ametro PRINT=LOWID.
Registros sin clasificar. Normalmente se imprimen, sin embargo el listado puede suprimirse. Ver par
ametro
PRINT=NOSORT.
Registros sin constante especificada. Se imprime cualquier registro que carezca de la constante especificada por el usuario en las columnas adecuadas. Este listado se puede suprimir. Ver par
ametro PRINT=NOCONSTANT.
Estadsticas de ejecuci
on. Al final de resultados, se imprimen los totales de registros faltantes, registros
invalidos y registros duplicados asi como tambien, el n
umero total de casos ledos, casos escritos, casos
eliminados y casos con errores.
14.4.
Datos de salida
Los datos de salida van a un archivo con longitud de registro igual a la de los registros de entrada y con el
mismo n
umero de registros por caso. Cada caso tiene cada uno de los tipos de registro especificados en las
descripciones de registros.
124
Verificaci
on de intecalaci
on de registros (MERCHECK)
14.5.
Datos de entrada
Los datos de entrada consisten en un archivo con registros de longitud fija, clasificado normalmente por el
ID del caso y dentro de este, por el identificador de registro. La longitud del registro no puede exceder de
128 caracteres.
14.6.
$RUN MERCHECK
$FILES
Especificaci
on de archivos
$SETUP
1. T
tulo
2. Par
ametros
3. Descripciones de registros (tantas como se requieran)
$DATA (condicional)
Datos
Archivos:
FT02
DATAxxxx
DATAyyyy
PRINT
14.7.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
2. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MAXE=25
RECORDS=8
IDLOC=(1,5)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para el archivo Datos de entrada.
Por defecto: DATAIN.
MAXCASES=n
N
umero maximo de casos a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MAXERR=10/n
N
umero maximo de casos con errores. Cuando hay casos que tengan (n + 1) errores, termina la
ejecuci
on del programa. Los casos que est
an antes del parametro BEGINID, los casos sin clasificar
y los registros sin constante, no se cuentan como casos con errores. Se consideran casos con error
los que contienen registros invalidos, duplicados o faltantes.
125
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para el archivo Datos de salida.
Por defecto: DATAOUT.
RECORDS=2/n
N
umero de registros por caso (tal como se hayan definido en las Descripciones de registros).
IDLOC=(i1,f1, i2,f2, ...)
Columnas inicial y final para identificacion de 1-5 campos de identificacion de caso. Debe suministrarse por lo menos una columna. Si hay mas de un campo de identificacion de caso, entonces
deben especificarse en el orden en el cual los datos est
an clasificados.
Sin valor por defecto.
BEGINID=ID del caso
El caso con el identificador mas bajo a partir del cual el programa comienza el proceso: de 1-40
caracteres encerrados entre comillas sencillas si contiene caracteres no alfanumericos. Si se usan
casos con identificadores de campos m
ultiples, el valor debe ser el resultado de la concatenaci
on
de los identificadores individuales de cada campo clasificados.
Por defecto: blancos.
NOSORT=0/n
N
umero maximo de casos sin clasificar tolerado por el programa. Cuando se presenta un n
umero
de casos sin clasificar igual o mayor que (n+1), la ejecuci
on del programa termina.
DELETE=NEVER/ANYMISSING/ALLMISSING
Especifica bajo que condiciones referentes a registros faltantes, se borra o no se borra un caso.
NEVE
Nunca rechaza un caso por registros faltantes. Si falta uno o todos los registros, el
programa rellena (con blancos o con valores especificados por el usuario), todos los
registros que falten y rechaza cualquier registro con identificador invalido, antes de la
salida del caso.
ANYM
No sale ning
un caso para el cual falten uno o mas registros, es decir que no se graban
casos incompletos.
ALLM
No sale ning
un caso para el cual no haya registros validos, es decir, cuando todos los
registros para un caso tienen valores invalidos de los ID de registro.
PADCH=x
Caracter para usar cuando se rellenan los registros. Los caracteres no alfanumericos deben estar
entre comillas sencillas. Ver tambien Descripciones de registros para mayores detalles sobre la
accion de relleno (padding) de registros.
Por defecto: blancos.
DUPKEEP=1/n
Especifica (para registros duplicados) que se debe guardar el n-esimo duplicado. Si se encuentran
menos duplicados que n, el caso en el cual estos se presentan se elimina (a
un si se especifica
DELETE=NEVER).
WRITE=BADRECS
Crear un archivo de los registros rechazados (casos malos).
CONSTANT=valor
Valor de una constante. Debe ir entre comillas sencillas si contiene caracteres no alfanumericos.
Cualquier registro de datos de entrada sin la constante, se rechaza. La localizacion de la constante
debe ser la misma en todos los registros de entrada, sin importar el tipo de registro.
126
Verificaci
on de intecalaci
on de registros (MERCHECK)
CLOCATION=(i, f)
(Se suministra solo cuando se usa CONSTANT). Localizacion del campo de la constante.
i
Columna inicial para el campo de la constante en cada registro.
f
Columna final para el campo de la constante en cada registro.
MAXNOCONSTANT=0/n
(Se suministra solo cuando se usa CONSTANT). N
umero maximo de registros sin la constante que
son tolerados por el programa. Cuando se encuentran n + 1 registros sin constante, MERCHECK
termina la ejecuci
on.
PRINT=(CONSTANT/NOCONSTANT, SORT/NOSORT, ERRORS/NOERRORS, LOWID,
BADRECS, GOODRECS)
CONS
Imprimir registros sin constante especificada.
NOCO
No imprimir registros sin constante especificada.
SORT
Imprimir mensaje de tres lneas para los casos por fuera del orden de clasificacion.
NOSO
No imprimir casos por fuera del orden de clasificacion.
LOWI
Imprimir todos los registros que tengan un identificador de caso menor de BEGINID.
Las siguientes opciones de impresion, se refieren a los listados de casos con errores (es decir,
registros faltantes, duplicaciones e invalidos).
ERRO
Imprimir resumen de errores para cada caso con un error.
NOER
No imprimir resumen de errores para casos con errores.
BADR
Imprimir registros rechazados (malos) para casos con errores.
GOOD
Imprimir registros aceptados (buenos) para casos con errores.
EXTRAS=0/n
DUPS=0/n
PADS=0/n
Si un caso tiene un n
umero de registros invalidos (extra/duplicados/con relleno) inferior a n y no
otros errores, no se imprime. As, un caso que tenga solamente 2 registros invalidos y no le falten
registros o no tenga registros duplicados, no se imprime si se asigna EXTRAS=3; pero, por otra
parte, se imprime de acuerdo con la especificaci
on en PRINT si le falta 1 registro.
Por defecto: se imprimen todos los casos con errores, de acuerdo con las especificaciones de PRINT.
3. Descripciones de registros (obligatoria: una por cada tipo de registro que se seleccione como salida).
Las reglas de codificacion son las mismas de los par
ametros. Cada descripcion de registro debe comenzar
en una nueva lnea.
Ejemplo:
RECID=21
RIDLOC=1
RECID=3
RIDLOC=2
PAD=43599999998889999999881119
RECID=xxxxx
Un c
odigo de tipo de registro, de 1-5 caracteres no blancos. Debe encerrarse entre comillas sencillas
si contiene caracteres en min
usculas.
Sin valor por defecto.
RIDLOC=i
Columna inicial para el identificador de campo.
Sin valor por defecto.
PAD=xxx....
Valores a usar cuando se rellena un registro de este tipo. La cadena de valores debe estar entre
comillas sencillas cuando contenga caracteres no alfanumericos. El primer car
acter se colocar
a en
la columna 1 del registro rellenado de salida, etc. Para pasar a la lnea siguiente, coloque un gui
on.
Si la longitud de la cadena es menor que la longitud de registro, entonces el resto se rellena hacia
la derecha con el PADCH especificado en la proposicion del par
ametro.
Por defecto: se usa PADCH para toda la cadena.
Nota: los valores correctos de los identificadores de caso y registro, se insertan autom
aticamente
en las posiciones correctas, en el registro que se ha rellenado.
14.8 Restricciones
14.8.
127
Restricciones
14.9.
Ejemplos
128
Verificaci
on de intecalaci
on de registros (MERCHECK)
$RUN MERCHECK
$FILES
FT02
= BAD.DAT
archivo de registros malos de salida
DATAIN = DATA.DAT RECL=126
archivo Datos de entrada
DATAOUT = GOOD.DAT
archivo Datos de salida (s
olo con casos buenos)
$SETUP
VERIFICACION DE INTERCALACION DE DATOS
IDLO=(1,3) RECO=2 WRITE=BADRECS MAXE=20 CONS=HST CLOC=(124,126)
RECID=TT RIDLOC=4
RECID=AB RIDLOC=7
Captulo 15
Correcci
on de datos (CORRECT)
15.1.
Descripci
on general
CORRECT ofrece la facilidad de corregir la informacion contenida en un dataset IDAMS. Se pueden corregir
valores de las variables individuales en casos especificados o eliminar casos en forma total.
CORRECT sirve para corregir errores en variables individuales de casos especficos que hayan sido detectados por BUILD, CHECK o CONCHECK. La preparacion de instrucciones de actualizacion es facil. Las
verificaciones se llevan a cabo de manera que exista compatibilidad entre los datos y la correccion y se
imprime una buena documentacion en la cual se describen todas las correcciones hechas.
Operaci
on del programa. CORRECT lee primero el diccionario y almacena la informaci
on acerca de
todas las variables del dataset. A continuacion se procesan las instrucciones de correccion. Despues de leer
una instrucci
on, CORRECT lee el archivo Datos y copia los casos hasta identificar el caso especificado en la
instruccion. CORRECT ejecuta la instruccion, bien sea, imprimiendo el caso o revisando los valores de las
variables seleccionadas y llevando el caso al archivo de salida o elimin
andolo del mismo, seg
un lo apropiado.
Cuando se han agotado todas las instrucciones, los casos restantes, si los hay, se copian al archivo de salida
y la ejecuci
on termina en forma normal. Si hay errores en el orden de clasificacion de las instrucciones de
correccion o en el orden de clasificacion de los casos, y tambien, si hay errores de sintaxis en las instrucciones
de correccion, CORRECT informa de la situaci
on en el listado de salida y pasa a la instruccion siguiente.
Correcci
on de variables. El usuario especifica la identificacion del caso seguida de los n
umeros de variables
que se van a corregir, junto con sus nuevos valores. Se pueden corregir las variables numericas (enteras o
decimales) y alfabeticas.
Correcci
on de variables de identificaci
on de casos. Si se va a corregir un campo de identificacion, se
afectara, normalmente, el orden de clasificacion y por lo tanto debe usarse el par
ametro CKSORT=NO. Si
la variable de identificaci
on contiene caracteres no-numericos erroneos, entonces se encierra su valor entre
comillas sencillas en la instrucci
on de correccion.
Eliminaci
on de casos. El usuario puede eliminar un caso del archivo Datos mediante la especificaci
on de
la informaci
on de identificaci
on del caso y la palabra DELETE.
Listado de casos. El usuario puede escoger un caso en particular para imprimirlo con la especificaci
on de
la identificaci
on del caso y la palabra LIST.
15.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Se puede escoger un subconjunto de casos para procesar y llevar a la
salida mediante la inclusi
on de un filtro est
andar. La selecci
on de variables es inapropiada.
Transformaci
on de datos. Las proposiciones de Recode no se pueden usar.
130
Correcci
on de datos (CORRECT)
Tratamiento de datos faltantes. CORRECT no hace distincion entre datos verdaderos y valores de datos
faltantes; el concepto no aplica a la operaci
on del programa.
15.3.
Resultados
15.4.
Dataset de salida
Siempre sale una copia del diccionario. Si no se necesita, la definicion de archivo DICTOUT puede omitirse.
Los datos se copian siempre al archivo de salida, a
un si no hay correcciones o eliminaciones.
15.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario de IDAMS. Normalmente, CORRECT espera que
los casos vengan clasificados en orden ascendente por las variables de identificacion de caso. Sin embargo,
el usuario puede indicar (con el par
ametro CKSORT) que los casos no se encuentran en orden ascendente.
Esta opcion debe usarse con precauci
on: el orden de las instrucciones de correccion debe ser exactamente el
mismo orden de los datos en el archivo.
15.6.
$RUN CORRECT
$FILES
Especificaci
on de archivos
$SETUP
1.
2.
3.
4.
Filtro (opcional)
T
tulo
Par
ametros
Instrucciones de correcci
on (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
15.7.
131
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
PRINT=CORRECTIONS, IDVARS=V4
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada. Si MAXC=0, en todas
las instrucciones de correccion se verifican los errores de sint
axis pero no se procesan los datos.
Por defecto: se usan todos los casos.
IDVARS=(lista de variables)
Hasta 5 n
umeros de variable para los campos de identificaci
on de caso. Si se especifica mas de un
identificador de campo, los n
umeros de variables deben suministrarse en orden de clasificacion de
mayor a menor.
Sin valor por defecto.
CKSORT=YES/NO
Indica si se debe verificar la clasificacion del orden ascendente secuencial de los campos de identificaci
on. La ejecuci
on termina si se detecta un caso fuera de orden.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
PRINT=(DELETIONS, CORRECTIONS, CDICT/DICT)
DELE
Listar los casos para los cuales se especifico una instruccion de eliminacion en las
instrucciones de correci
on.
CORR
Listar los casos corregidos.
CDIC
Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Instrucciones de correcci
on. Estas proposiciones indican cual de las opciones de listar, eliminar o
corregir se van a aplicar y para cuales casos.
Ejemplos:
ID=1026,V5=9,V6=22
ID=PEDRO PEREZ,DELETE
ID=091,3,LIST
ID=023,16,V8=DON_T,V9=TEACH|RES
132
Correcci
on de datos (CORRECT)
Reglas de codificaci
on
Cada instrucci
on de correccion debe comenzar en una lnea nueva. Para seguir a otra lnea, interrumpa
despues de la coma al final de una correccion completa de variable y coloque un gui
on. Se pueden usar
tantas lneas de continuacion como sean necesarias. Pueden aparecer blancos en cualquier lugar de las
instrucciones.
Los casos y las instrucciones de correccion deben estar clasificados exactamente en el mismo orden
relativo seg
un los identificadores.
Valores de identificaci
on de caso
El caso a corregir se identifica con la palabra clave ID= seguida del valor o valores de la variable
o variables de identificaci
on.
La lista de valores en la instrucci
on no va entre parentesis.
Cada valor, incluido el u
ltimo, debe estar seguido de una coma y el orden de los valores debe
corresponder al orden de las variables en la lista de variables de identificacion especificadas con
el par
ametro IDVARS.
El n
umero de dgitos o de caracteres en un valor debe ser igual al ancho de la variable como se
haya establecido en el diccionario, es decir, puede ser necesario incluir los ceros a la izquierda.
Valores que contengan caracteres no numericos deben encerrarse entre comillas sencillas, por ej.
ID=9, PAM.
Tipo de instrucci
on
La identificaci
on de caso est
a seguida de la palabra LIST, de la palabra DELETE o de una cadena
de correccion de variables.
Correcciones de variables
Una correccion de variable consiste en un n
umero de variable precedido de una V y seguido de
un = y del valor correcto, por ej. V3=4.
Correcciones de variable para diferentes variables en el mismo caso se separan con comas.
Valores de correccion para variables numericas pueden especificarse sin ceros a la izquierda.
Si la variable incluye cifras decimales, se puede colocar el punto decimal pero este no se escribe en
el archivo de salida. Los dgitos se alinean de acuerdo con el n
umero de cifras decimales indicado
en el diccionario y se redondean los dgitos decimales en exceso.
Si el valor contiene caracteres no numericos, este debe encerrarse entre comillas sencillas. Una
coma intercalada debe representarse como una barra vertical y una comilla sencilla intercalada
debe representarse como un gui
on de subrayado; el programa convertira la barra vertical y el
subrayado a la coma y a la comilla sencilla respectivamente, por ej. v8=Don t).
Los valores de correccion para valores alfabeticos deben encajar con el ancho de la variable. Si
el valor de correccion contiene blancos o caracteres en min
usculas, este debe encerrarse entre
comillas sencilas.
15.8.
Restricci
on
El n
umero maximo de variables identificadoras de caso es 5.
15.9.
Ejemplo
Correcci
on de un archivo Datos; se van a corregir variables numericas y alfabeticas y se van a eliminar dos
casos; los casos se identifican con las variables V1, V2 y V5; no se cambia el diccionario y por lo tanto, no
se requiere diccionario de salida.
15.9 Ejemplo
$RUN CORRECT
$FILES
PRINT
= CORRECT1.LST
DICTIN = DATA1.DIC
archivo Diccionario de entrada
DATAIN = DATA1.DAT
archivo Datos de entrada
DICTOUT = DATA2.DIC
archivo Diccionario de salida (igual a entrada)
DATAOUT = DATA2.DAT
archivo Datos de salida (corregido)
$SETUP
CORRECCION DE UN ARCHIVO DE DATOS
IDVARS=(V1,V2,V5)
ID=311,01,21,V12=JUAN MOLINA
ID=311,05,41,DELETE
ID=557,11,32,V58=199,V76=2,V90=155
ID=559,11,35,V12=AGATA CHRISTI,V13=F
ID=657,31,11,V58=100,V77=4,V90=105,V36=999999,V37=999999,V38=999999, V41=98,V44=99
ID=711,15,11,DELETE
133
Captulo 16
Importaci
on/exportaci
on de datos
(IMPEX)
16.1.
Descripci
on general
El programa IMPEX hace importacion y exportacion de datos en formato libre o formato DIF, e importacion
y exportacion de matrices en formato libre. En un archivo de formato libre los campos pueden separarse con
un car
acter de tabulaci
on, un blanco, la coma, punto y coma o con otro car
acter dado por el usuario. El
car
acter usado en notaci
on decimal puede ser el punto o la coma. Un archivo Datos importado/exportado
puede contener n
umeros y nombres de variable como nombrestas de columnas. Un archivo Matriz importado/exportado puede contener n
umeros de variable/valores de c
odigo y nombres de variable/nombres de
c
odigo como nombres de columnas/filas.
Importaci
on de datos. El programa crea un nuevo dataset de IDAMS a partir de un archivo de datos
ASCII existente en formato libre o formato DIF (un formato para intercambio de datos desarrollado por
Software Art ProductsCorp.) y a partir de un diccionario IDAMS. El diccionario de entrada es para definir
c
omo se van a transferir los campos del archivo Datos de entrada al dataset IDAMS de salida.
Exportaci
on de datos. El programa crea un nuevo archivo de datos ASCII que contiene variables de un
dataset existente de IDAMS y variables nuevas definidas con proposiciones Recode de IDAMS. El archivo
exportado puede ser de formato libre o formato DIF.
Importaci
on de matrices. El programa crea un archivo Matriz de IDAMS a partir de un archivo ASCII
en formato libre que contenga un triangulo inferior de una matriz cuadrada o una matriz rectangular.
Exportaci
on de matrices. El programa crea un archivo ASCII que contiene todas las matrices almacenadas en un archivo Matriz de IDAMS. Para exportar matrices solo se dispone del formato libre.
16.2.
Caratersticas est
andar de IDAMS
Selecci
on de casos y variables. El filtro est
andar est
a disponible para seleccionar un subconjunto de casos
de los datos de entrada cuando se solicita exportar datos. Tambien en exportacion de datos, la selecci
on de
variables se hace con el parametro OUTVARS.
Transformaci
on de datos. Si se exportan datos, se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. No se verifican datos faltantes a excepcion de la verificaci
on que se hace
con Recode en la exportacion datos. En la importacion de datos, los campos vacos (campos vacios entre
delimitadores consecutivos) se reemplazan con el primer codigo de datos faltantes o con un campo de nueves
si no se ha definido el primer c
odigo de datos faltantes.
136
16.3.
Importaci
on/exportaci
on de datos (IMPEX)
Resultados
Importaci
on de datos
Diccionario de entrada. (Opcional: ver el par
ametro PRINT). Los registros descriptores de variable y
registros C, si los hay, para todas las variables incluidas en el diccionario de entrada.
Nombres y c
odigos de columnas de entrada. (Opcional: ver los par
ametros PRINT y EXPORT/IMPORT).
Se imprimen los nombres y los c
odigos de columnas (sin formato) tal como se leen del archivo de entrada.
Datos de entrada. (Opcional: ver el par
ametro PRINT). Se imprimen sin formato para todos los casos las
lneas de datos de entrada, tal como se leen del archivo de entrada.
Diccionario de salida. (Opcional: ver el par
ametro PRINT).
Datos de salida. (Opcional: ver el par
ametro PRINT). Se dan los valores para todos los casos y todas las
variables, 10 valores por lnea, en el mismo orden de las lneas de datos de entrada.
Exportaci
on de datos
Diccionario de entrada. (Opcional: ver el par
ametro PRINT). Los registros descriptores de variable y
registros C, si los hay, solo para variables usadas en la ejecuci
on.
Datos de salida. (Opcional: ver el par
ametro PRINT). Se dan los valores de las variables V o R para todos
los casos, 10 valores por lnea. Para variables alfabeticas solo se imprimen los primeros 10 caracteres.
Importaci
on de matrices
Matriz de entrada. (Opcional: ver el par
ametro PRINT). Se imprime la matriz que se encuentra en el
archivo ASCII de entrada, con o sin nombres y c
odigos de columnas.
Exportaci
on de matrices
Matrices de entrada. (Opcional: ver el par
ametro PRINT). Se imprimen las matrices que se encuentran
en el archivo Matriz de IDAMS de entrada, con o sin registros descriptores de variable o de nombres de
c
odigo.
16.4.
Archivos de salida
Importaci
on
La salida es un dataset IDAMS o una matriz IDAMS segun se haya solicitado una importacion de datos o
de matriz.
En el caso de un dataset IDAMS, los valores de las variables numericas se editan de acuerdo con las reglas
de IDAMS (ver el captulo Los datos en IDAMS).
Campos numericos vacos (es decir, cadenas vacas entre caracteres delimitadores) en un formato libre se
reemplazan con el primer c
odigo de datos faltantes o con nueves si el primer c
odigo de datos faltantes no
est
a definido.
Exportaci
on
La salida es un archivo ASCII cuyo contenido vara de acuerdo con los requerimientos de exportacion.
Datos en formato DIF. Este es un archivo con secciones Header (encabezamiento) y Data (datos). Los
VECTORS corresponden a variables IDAMS y los TUPLES a los casos. Adicionalmente a los tems requeridos
de encabezamiento, se usa LABEL (un tem est
andar opcional) para exportar nombres de variables. En la
secci
on DATA, el indicador de valor V se usa siempre para valores numericos. Se usa punto decimal o
coma en la notaci
on decimal cuando el n
umero de decimales definido en el diccionario es mayor que cero.
Datos en formato libre. Este es un archivo en el cual los valores de variables se separan con un delimitador
(ver los par
ametros WITH y DELCHAR) y los casos se separan, adicionalmente, con retornos de carro mas
caracteres de alimentacion de lnea. Para valores numericos, se incluye un punto decimal o una coma (ver el
par
ametro DECIMALS) si el n
umero de decimales definido en el diccionario es mayor que cero. Los valores
137
de variables alfabeticas pueden estar entre comillas sencillas o comillas dobles, o sin encerrar entre caracteres
especiales (ver el par
ametro STRINGS).
Matriz en formato libre. El formato de las matrices producidas por IMPEX es el mismo que el formato
requerido para matrices importadas (ver Importacion de matrices en la secci
on Archivos de entrada mas
atr
as). La u
nica diferencia es que se insertan caracteres adicionales de separacion para asegurar la posicion
correcta de los nombre de filas y columnas en un paquete de hoja electronica.
16.5.
Archivos de entrada
Importaci
on de datos
Para importar datos, la entrada es:
un archivo ASCII con un arreglo de datos en formato libre en el cual los campos est
an separados con un
delimitador y un diccionario IDAMS el cual define como transferir datos a un dataset IDAMS (deben
describirse todos los campos en el diccionario de entrada);
un archivo de datos en formato DIF, y tambien un diccionario IDAMS.
Los archivos de entrada tambien pueden tener informacion de diccionario. Para archivos de formato libre esto
significa que los nombres y c
odigos de columna (los cuales corresponden a nombres de variable y n
umeros
de variable) se suministran con el arreglo de datos como primeras filas del arreglo. Los nombres y c
odigos
son ambos opcionales. Si se suministran, los nombres de columna reemplazan a los nombres de variable del
diccionario de entrada y se insertan en el diccionario de salida. Pueden encerrarse entre caracteres especiales
(ver el par
ametro STRINGS). Los c
odigos de columna solo se usan para verificar contra los n
umeros de
variable del diccionario de entrada. Para archivos de formato DIF, los nombres de columna aparecen como
tems LABEL en la secci
on de Header (encabezamiento). Los c
odigos de columna pueden estar presentes
como primera fila en el arreglo de datos.
Importaci
on de matrices
Para importacion de matrices, la entrada es siempre un archivo ASCII en formato libre en el cual los valores
numericos/cadenas de caracteres se separan con un delimitador. Campos vacos (es decir, cadenas vacas
entre caracteres delimitadores) se saltan. Cada archivo puede tener una sola matriz para importar.
El archivo Matriz de entrada puede opcionalmente suministrar informacion del diccionario consistente en
una serie de cadenas para nombrar columnas/filas de la matriz y los valores correspondientes de c
odigo. Si
se suministran, deben seguir la sint
axis dada mas adelante (la cual es diferente para matrices rectangulares
y cuadradas).
Matriz rectangular
Esta es un archivo ASCII que contiene un arreglo rectangular de valores en formato libre; puede incluir
informacion del diccionario.
Ejemplo.
Salario promedio; Grupo de edad; Sexo;
Hombre; Mujer;
1;2;
20 - 30;1;600;530;
31 - 40;2;650;564;
41 - 60;3;723;618;
Formato.
1. Las primeras tres cadenas contienen: (1) una descripcion del contenido de la matriz, (2) el ttulo de
fila (nombre de variable de fila) y (3) el ttulo de columna (nombre de variable de columna).
(Opcional).
2. Nombres de columna. (Opcional: un nombre para una columna de valores en el arreglo).
138
Importaci
on/exportaci
on de datos (IMPEX)
Exportaci
on de datos y matrices
Seg
un se vaya a exportar datos o una matriz, la entrada es un archivo Datos descrito por un diccionario
IDAMS (se pueden usar variables numericas y alfabeticas) o un archivo Matriz IDAMS cuadrada o rectangular.
16.6.
139
$RUN IMPEX
$FILES
Especificaci
on de archivos
$RECODE (opcional con exportaci
on de datos; no disponible otramente)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
16.7.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on si se ha especificado
exportacion de datos.
Ejemplo:
EXCLUDE V19=2-3
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
140
Importaci
on/exportaci
on de datos (IMPEX)
EXPORT=(DATA/MATRIX, NAMES, CODES)
DATA
Se solicita exportar datos.
MATR
Se solicita exportar matriz.
NAME
Se exportan nombres de variable en el archivo Datos de salida. Se exportan nombres
de variable/de c
odigo en el archivo Matriz de salida.
CODE
Se exportan n
umeros de variable en el archivo Datos de salida. Se exportan n
umeros
de variable/valores de c
odigo en el archivo Matriz de salida.
Nota. Sin valor por defecto. Se debe especificar IMPORT o EXPORT (no ambos).
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para el(los) archivo(s) de entrada:
archivo Datos o Matriz para importar (ddname por defecto: DATAIN),
archivos Diccionario y Datos para exportar (ddnames por defecto: DICTIN, DATAIN),
archivo Matriz IDAMS para exportar (ddname por defecto: DATAIN).
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos a exportar o importar y los valores con amplitud insuficiente de campo en salida. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
S
olo se aplica si se ha especificado importacion/exportacion de datos.
N
umero maximo de casos (despues de filtrar) a usar del archivo Datos de entrada.
Por defecto: se usan todos los casos.
MAXERR=0/n
N
umero maximo de errores amplitud insuficiente de campo permitido antes de detener la ejecucion. Estos errores se presentan cuando el valor de una variable es muy grande para caber en
el campo asignado, por ej. un valor de 250 cuando se ha especificado un ancho de campo de 2.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para el(los) archivo(s) de salida:
archivos Diccionario y Datos obtenidos por importacion (ddnames por defecto: DICTOUT, DATAOUT),
archivo Matriz IDAMS obtenido por importacion (ddname por defecto: DATAOUT),
archivo Datos o archivo Matriz exportado (ddname por defecto: DATAOUT).
OUTVARS=(lista de variables)
Se aplica solo si se ha especificado exportacion de datos.
Las variables V y R que se van a exportar. El orden de las variables en la lista no es significativo
ya que salen en orden numerico ascendente. Todos los n
umeros de las variables V y R deben ser
u
nicos.
Sin valor por defecto.
MATSIZE=(n,m)
Se aplica solo si se ha especificado importacion de matriz.
N
umero de filas y columnas de la matriz a importar. El programa supone una matriz rectangular
si han especificado ambos y una matriz cuadrada simetrica si uno de ellos se ha omitido.
n
N
umero de filas.
m
N
umero de columnas.
Sin valor por defecto.
141
FORMAT=DELIMITED/DIF
Especifica el formato de los datos/la matriz de entrada para importacion o el formato de los
datos/la(s) matriz(ces) de salida para exportacion.
DELI
Los datos/la(s) matriz(ces) se esperan en formato libre, en el cual los campos est
an
separados por un delimitador (ver adelante).
DIF
Los datos se esperan en formato DIF.
Nota: el formato DIF est
a disponible solo para exportar o importar datos.
WITH=SPACE/TABULATOR/COMMA/SEMICOLON/USER
(Condicional: ver FORMAT=DELIMITED).
Especifica el car
acter delimitador para separar campos de archivos en formato libre.
SPAC
Un car
acter en blanco (codigo ASCII: 32).
TABU
Un car
acter de tabulaci
on (codigo ASCII: 9).
COMM La coma , (codigo ASCII: 44).
SEMI
El punto y coma ; (codigo ASCII: 59).
USER
Un car
acter especificado por el usuario (ver el par
ametro DELCHAR mas adelante).
Nota: cuando se importan/exportan archivos DIF, siempre se usa COMMA como car
acter delimitador, independientemente del que se haya seleccionado.
DELCHAR=x
(Condicional: ver el par
ametro WITH=USER atr
as).
Define el car
acter usado para separar campos de archivos en formato libre.
Valor por defecto: blancos.
DECIMALS=POINT/COMMA
Define el car
acter usado en notaci
on decimal.
POIN
El punto . (codigo ASCII: 46).
COMM La coma , (codigo ASCII: 44).
STRINGS=PRIME/QUOTE/NONE
Define el car
acter para encerrar cadenas de caracteres.
PRIM
Comillas sencillas.
QUOT
Comillas dobles.
NONE
No se usa un car
acter especial.
Nota: en importacion/exportacion de archivos DIF, siempre se usa QUOTE, independientemente
de lo que se haya seleccionado.
NDEC=2/n
N
umero de cifras decimales a retener en exportacion.
PRINT=(DICT/CDICT/NODICT, DATA)
DICT
Imprimir diccionario sin registros C.
CDIC
Imprimir diccionario con registros C, si los hay.
DATA
Imprimir los datos/la(s) matriz(ces).
Nota:
a) Las opciones de impresion del diccionario controlan la impresion del diccionario de salida y de
entrada.
b) La opci
on de impresion de datos controla la impresion de datos de salida si se est
a exportando
un archivo Datos; controla la impresion de datos la salida y la entrada si se est
a importando un
archivo Datos (nunca se imprime la entrada si se importa un archivo de formato DIF).
c) Para matrices, la matriz de entrada se imprime si se ha especificado imprimir datos.
142
Importaci
on/exportaci
on de datos (IMPEX)
16.8.
Restricciones
1. El n
umero maximo de variables R que se pueden exportar es 250.
2. El n
umero maximo de variables que se pueden usar en una ejecuci
on (incluidas las variables usadas
solamente en proposiciones de Recode) es 500.
3. El n
umero maximo de filas de matriz es 100.
4. El n
umero maximo de columnas de matriz es 100.
5. El n
umero maximo de casillas de matriz es 1000.
16.9.
Ejemplos
Ejemplo 1. Variables escogidas del dataset de entrada se transfieren al archivo de salida junto con las dos
nuevas variables; los datos salen en formato libre y sus valores se separan con punto y coma; se usa coma
en la notaci
on decimal y los valores alfabeticos se encierran entre comillas dobles; los nombres y n
umeros de
variable se incluyen en el archivo de salida.
$RUN IMPEX
$FILES
PRINT
= EXPDAT.LST
DICTIN = OLD.DIC
archivo Diccionario de entrada
DATAIN = OLD.DAT
archivo Datos de entrada
DATAOUT = EXPORTED.DAT
archivo Datos exportado
$SETUP
EXPORTACION DE DATOS IDAMS DE FORMATO FIJO A DATOS DE FORMATO LIBRE
EXPORT=(DATA,NAMES,CODES) BADD=MD1 MAXERR=20 OUTVARS=(V1-V20,V33,V45-V50,R105,R122) FORMAT=DELIM WITH=SEMI DECIM=COMMA STRINGS=QUOTE
$RECODE
R105=BRAC(V5,15-25=1,<36=2,<46=3,<56=4,<66=5,<90=6,ELSE=9)
MDCODES R105(9)
NAME R105GRUPOS DE EDAD
IF MDATA(V22) THEN R122=99.9 ELSE R122=V22/3
MDCODES R122(99.9)
NAME R122ARTICULOS POR A~
NO
Ejemplo 2. Se importan datos en formato DIF a IDAMS; nombres y c
odigos de columna se incluyen en el
archivo de entrada y se usa la coma para notaci
on decimal.
$RUN IMPEX
$FILES
PRINT
= IMPDAT.LST
DICTIN = IDA.DIC
DATAIN = IMPORTED.DAT
DICTOUT = IDAFORM.DIC
DATAOUT = IDAFORM.DAT
$SETUP
IMPORTACION DE DATOS EN FORMATO DIF A DATASET IDAMS DE FORMATO FIJO
IMPORT=(DATA,NAMES,CODES) BADD=MD1 MAXERR=20 FORMAT=DIF DECIM=COMMA
16.9 Ejemplos
143
Ejemplo 3. Se exporta un conjunto de matrices rectangulares creadas con el programa TABLES; los campos
se separan con punto y coma y la coma se usa para notaci
on decimal; los nombres y c
odigos de fila y columna
se incluyen en el archivo de la matriz de salida; se imprimen las matrices de entrada.
$RUN IMPEX
$FILES
PRINT
= EXPMAT.LST
DATAIN = TABLES.MAT
archivo con las matrices rectangulares
DATAOUT = EXPORTED.MAT
archivo con las matrices exportadas
$SETUP
EXPORTACION DE MAT RECTANG DE IDAMS EN FORMATO FIJO A MAT DE FORMATO LIBRE
EXPORT=(MATRIX,NAMES,CODES) PRINT=DATA
FORMAT=DELIM WITH=SEMI DECIM=COMMA
STRINGS=QUOTE
Ejemplo 4. Importacion de una matriz cuadrada que contiene medidas de distancia para 10 objetos numerados de 1 a 10; solo se incluyen valores enteros y se separan con el signo % ; los codigos de fila/columna
as como los vectores de medias y desviaciones est
andar se incluyen en el archivo de la matriz.
$RUN IMPEX
$FILES
PRINT
= IMPMAT.LST
DATAOUT = IMPORTED.MAT
archivo con la matriz importada
$SETUP
IMPORTACION DE UNA MAT EN FORMATO LIBRE A MAT CUADRADA IDAMS DE FORMATO FIJO
IMPORT=(MATRIX,CODES) MATSIZE=10
FORMAT=DELIM WITH=USER DELCH=%
$DATA
$PRINT
%
1%
2%
3%
4%
5%
6%
7%
8%
9% 10%
1%
2%38%
3%72%25%
4%24%53%17%
5%64%26%76%18%
6%48%25%63%15%61%
7%12%50%7%42%8%8%
8%19%7%13%4%14%1%15%
9%29%37%34%21%24%35%3%5%
10%32%57%29%45%26%28%74%24%61%
%46%15%7%7119%74%38%9%19%34%256%
%9%11%84%8971%23%28%12%20%35%843%
Captulo 17
Descripci
on general
LIST se usa para imprimir los datos de un archivo, las variables recodificadas e informacion del diccionario
IDAMS asociado. Se pueden seleccionar variables especficas para ser impresas o se pueden listar todos los
datos y/o el diccionario.
Cada registro de un archivo Datos es una flujo continuo de valores. Cuando se imprime tal como es, resulta
difcil distinguir los valores de variables adyacentes. LIST elimina esta inconveniencia porque ofrece un
formato de impresion de datos que separa los valores de las variables.
Se puede imprimir un diccionario IDAMS sin su correspondiente archivo Datos mediante el suministro de
un archivo ficticio (es decir, un archivo vaco o nulo), al definir el archivo Datos.
17.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Los casos se pueden seleccionar con un filtro o con la opcion de saltar
casos (SKIP). La opci
on de saltar, si se usa, especifica que se imprime el primer caso y despues cada n-esimo
caso. Si se especifica un filtro, la opci
on de saltar se aplica a los casos que han pasado por el filtro. De los
casos seleccionados, se imprimen los valores de los datos para todas las variables descritas en el diccionario
o para un subconjunto si se ha especificado el par
ametro VARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. Los valores de datos faltantes se imprimen tal como se presentan, sin
causar accion especial.
17.3.
Resultados
146
xxx
xxx
xxx
xxx
.
.
xxxx
xxxx
xxxx
xxxx
.
.
x
x
x
x
.
.
xxxxxxxx
xxxxxxxx
xxxxxxxx
xxxxxxxx
.
.
17.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Si solo se necesita un listado del
diccionario, el archivo Datos se especifica como NUL.
17.5.
$RUN LIST
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
17.6.
147
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
INCLUDE V5=100-199
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
VARS=(V3,V10-V25) IDVARS=V1
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos a imprimir.
Por defecto: se imprimen todos los casos.
SKIP=n
Se imprime cada caso n-esimo (o cada caso n-esimo que pase por el filtro), comenzando por el
primer caso. El u
ltimo caso siempre se imprime a no ser que la opcion MAXCASES lo prohiba.
Por defecto: se imprimen todos los casos (o todos los casos que pasen por el filtro).
VARS=(lista de variables)
Imprimir los datos de las variables especificadas. Los valores de variables se imprimen en el orden
en que aparecen en esta lista.
Por defecto: se imprimen todas las variables del diccionario.
IDVARS=(lista de variables)
Se imprimen los valores de la(s) variable(s) especificada(s) para identificar cada caso.
SPACE=3/n
N
umero de espacios entre columnas. El valor maximo es SPACE=8.
PRINT=(CDICT/DICT, SEQNUM, LONG/SHORT, SINGLE/DOUBLE)
CDIC
Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin registros C.
SEQN
Imprimir un n
umero secuencial para cada caso que se imprima. N
otese que los casos
se numeran despues de pasar por el filtro.
LONG
Asume 127 caracteres por lnea de impresion.
SHOR
Asume 70 caracteres por lnea de impresion.
SING
Espacio sencillo entre lneas.
DOUB
Doble espacio entre lneas.
17.7.
Restricci
on
La suma de los anchos de campo de las variables que se van a imprimir, incluidos las variables identificadoras
de caso, debe ser menor o igual a 10,000 caracteres.
148
17.8.
Ejemplos
Captulo 18
Intercalaci
on de datasets (MERGE)
18.1.
Descripci
on general
MERGE intercala variables que vienen de casos en un dataset IDAMS, con variables que vienen de un
segundo dataset, emparejando los casos con una(s) variable(s) comun(es) de emparejamiento. Los casos en
los dos datasets no tienen que ser identicos; esto es, todos los casos presentes en un dataset, no tienen que
estar en el otro. El archivo Datos de salida est
a compuesto de registros que tienen variables especificadas
por el usuario de cada uno de los dos datasets de entrada, junto con su correspondiente diccionario IDAMS.
Con el objeto de distinguir los dos datasets de entrada, uno se llama dataset A y el otro dataset B en
la documentacion del programa.
Combinaci
on de datasets con colecciones id
enticas de casos. Un ejemplo de uso del programa es
la combinaci
on de los datos de la primera y subsiguiente series de entrevistas con la misma colecci
on de
encuestados.
Combinaci
on de datasets con recolecciones diferentes de casos. Cuando hay mas de una serie de
entrevistas en una encuesta, algunos encuestados pueden retirarse y otros incluirse. El programa permite
estas discrepancias entre datasets y se le puede solicitar, por ejemplo, que produzca registros de salida para
todos los encuestados, incluidos aquellos entrevistados en una sola serie. En este ejemplo, los valores de las
variables para una serie en la cual un encuestado no fue entrevistado, saldr
an como datos faltantes.
Combinaci
on de datasets con diferentes niveles de datos. Tambien se usa MERGE para combinar
dos datasets diferentes, uno de los cuales contiene datos mas agregados que el otro. Por ejemplo, los datos
de hogares se pueden a
nadir a registros individuales de miembros de familia.
18.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Se puede especificar un filtro para uno o para los dos datasets de entrada.
La u
nica diferencia en el formato del filtro es que debe estar precedido de una A: o de una B: en las
columnas 1-2, para indicar el dataset al cual se aplica el filtro.
Las variables de salida seleccionadas o todas las variables de salida de cada dataset de entrada se pueden
incluir en el dataset de salida. Estas variables de salida se especifican en una lista de variables que tiene el
formato usual, excepto que las variables se denotan con una A o una B (en vez de V) para indicar
el dataset de entrada en el cual se encuentran. Por ejemplo, A1, B5, A3-A45 selecciona las variables V1,
V3-V45 del dataset A y la variable V5 del dataset B. Ver la descripcion de variables de salida en la secci
on
Proposiciones de control del programa.
Transformaci
on de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. Para las opciones de salida MATCH=UNION, MATCH=A y MATCH=B,
se usan los c
odigos de datos faltantes como valores para las variables de salida que no est
an disponibles para
un caso particular. Ver el par
agrafo Manejo de casos que aparecen en un dataset de entrada solamente en
la secci
on que describe el dataset de salida mas adelante. Los c
odigos de datos faltantes se obtienen de los
150
Intercalaci
on de datasets (MERGE)
diccionarios de los datasets A y B. El usuario indica para cada dataset si se usa el primero o segundo c
odigo
de datos faltantes, y esto para todas las variables de este dataset (ver los par
ametros APAD y BPAD). Si
una variable no tiene un c
odigo de datos faltantes apropiado en el diccionario, se usan espacios en blanco en
el dataset de salida.
Los datos faltantes nunca salen como el valor de una variable de salida que sea tambien una variable de
emparejamiento, por que una variable de emparejamiento siempre est
a disponible en el dataset que contiene
el caso. Por ejemplo, si se selecciona MATCH=UNION, supongamos que las variables A1 y B3 se han
seleccionado como las variables de emparejamiento y que solo A1 se imprimi
o como variable de salida (A1 y
B3 no se imprimen ambas ya que presumiblemente, tienen el mismo valor): entonces, si falt
o un caso en el
dataset A, el valor de la variable de salida A1 sera el valor de la variable B3.
18.3.
Resultados
N
umeros de variable anteriores (de entrada) versus n
umeros de variable nuevos (de salida).
(Opcional: ver el par
ametro PRINT). Una carta que contiene los n
umeros de las variables de entrada y los
n
umeros de referencia y los n
umeros correspondientes de las variables de salida y n
umeros de referencia.
Diccionario de salida. (Opcional: ver el par
ametro PRINT).
Documentaci
on de casos sin emparejar en cualquiera de los datasets A o B. Hay varias maneras
de documentar los casos sin emparejar, es decir, casos que aparecen solo en un dataset (ver el par
ametro
PRINT).
Se pueden imprimir los valores de las variables de emparejamiento:
- cuando las variables de salida de cualquiera de los datasets se rellenan con datos faltantes,
- cuando se eliminan casos del dataset A,
- cuando se eliminan casos del dataset B.
Se pueden imprimir los valores de las variables del dataset A cuando un caso del dataset A no encaja
con ning
un caso del dataset B. Las variables se imprimen en el orden especificado para el dataset en
la lista de variables de salida, seguida de la lista de variables de emparejamiento que tampoco son
variables de salida.
Se pueden imprimir los valores de las variables del dataset B cuando un caso del dataset B no encaja
con ning
un caso del dataset A. Las variables se imprimen en el orden especificado para el dataset en
la lista de variables de salida, seguida de la lista de variables de emparejamiento que tampoco son
variables de salida.
Conteo de casos. El programa imprime el n
umero de casos existentes en los datasets A y B, el n
umero de
casos en el dataset A y que no est
an en el dataset B, el n
umero de casos en el dataset B y que no est
an en
el dataset A y el n
umero total de casos escritos en la salida.
18.4.
Dataset de salida
151
2. MATCH=UNION. Cualquier caso que aparezca en cualquiera de los datasets de entrada se incluye en
el dataset de salida. A las variables del dataset de entrada que no contengan el caso se les asignan
valores de datos faltantes en el dataset de salida. (La salida es la union de los conjuntos A y B).
3. MATCH=A. Cualquier caso que aparezca en el dataset A, se incluye en el dataset de salida, mientras
que un caso que solo aparece en el dataset B, no se incluye. Si un caso solo se encuentra en el dataset
A, a las variables del dataset B se les asignan valores de datos faltantes en el dataset de salida para
ese caso. (La salida es el conjunto A).
4. MATCH=B. Tiene la misma accion que la opcion 3, pero el dataset B define cuales casos se incluyen
en el dataset de salida. (La salida es el conjunto B).
Manejo de casos duplicados. Cuando uno de los dos datasets de entrada contiene mas de un caso con el
mismo valor en la variable o variables de emparejamiento, se dice que el dataset contiene casos duplicados.
Normalmente (es decir, cuando no se especifica el par
ametro DUPBFILE) el programa imprime un mensaje
que se
nala la presencia de duplicados y luego los trata cada uno como un caso diferente. Los casos escritos
en el dataset de salida dependeran de la opcion escogida en MATCH. El cuadro siguiente muestra c
omo
funciona esto.
Intercalaci
on de archivos con duplicados (sin especificar DUPBFILE)
Entrada
A
ID
01
01
02
|
|
N1 |
|
EVA |
ANA |
CORA |
|
Salida
|
|
ID N2
|
|
01 ADAN |
02 PEDRO |
03 JORGE |
|
MATCH = UNION |
|
ID
N1
N2 |
|
01 EVA ADAN |
01 ANA ____ |
02 CORA PEDRO |
03 ____ JORGE |
MATCH = A
ID
01
01
02
|
|
N1
N2
|
|
EVA ADAN |
ANA ____ |
CORA PEDRO |
|
MATCH = B
ID
01
02
03
|
|
N1
N2
|
|
EVA ADAN |
CORA PEDRO |
____ JORGE |
|
MATCH =INTER
ID
N1
N2
01 EVA ADAN
02 CORA PEDRO
Sin embargo, los duplicados se pueden interpretar y manejar de una manera diferente cuando uno de los dos
datasets contiene casos en un nivel de analisis mas bajo que el otro. Por ejemplo, un dataset contiene datos de
hogares y el segundo contiene datos de miembros de hogares. En este caso, las variables de emparejamiento
especificadas para cada dataset seran la identificacion de los hogares. As, naturalmente se presentar
an
duplicados en el dataset de miembros de hogares, ya que la mayora de hogares tienen mas de un miembro.
Al especificar el par
ametro DUPBFILE, no se imprime mensaje de presencia de duplicados y se construyen
casos para cada caso duplicado en el dataset B con las variables del caso de emparejamiento del dataset
A, copiadas en cada caso construido. El siguiente cuadro muestra un ejemplo de este procedimiento.
Intercalaci
on de archivos a diferentes niveles (se especifico DUPBFILE)
Entrada
A
|
|
ID N1 |
|
01 ALVA |
03 MORA |
04 RIZO |
|
|
|
|
|
|
ID N2
|
|
01 ANA
|
01 EVA
|
01 PEDRO |
02 CORA |
02 ADAN |
03 JORGE |
|
Salida
MATCH = UNION |
|
ID
N1 N2
|
|
01 ALVA ANA
|
01 ALVA EVA
|
01 ALVA PEDRO |
02 ____ CORA |
02 ____ ADAN |
03 MORA JORGE |
04 RIZO _____ |
MATCH = A
|
|
ID N1
N2
|
|
01 ALVA ANA
|
01 ALVA EVA
|
01 ALVA PEDRO |
03 MORA JORGE |
04 RIZO ____ |
|
|
MATCH = B
|
|
ID N1
N2
|
|
01 ALVA ANA
|
01 ALVA EVA
|
01 ALVA PEDRO |
02 ____ CORA |
02 ____ ADAN |
03 MORA JORGE |
|
MATCH = INTER
ID N1
N2
01
01
01
03
ANA
EVA
PEDRO
JORGE
ALVA
ALVA
ALVA
MORA
Orden y numeraci
on de variables. La salida de variables se lleva acabo en el orden en el que aparecen
en la lista de variables de salida y siempre se renumeran a partir del valor dado en el par
ametro VSTART.
152
Intercalaci
on de datasets (MERGE)
As, una lista de variables de salida tal como A1-A5, B6, A7-A25,B100 crea un dataset con variables de
V1 a V26 si VSTART=1. Los n
umeros de referencia de variables, si los hay, se transfieren sin modificar al
diccionario de salida.
Localizaci
on de variables. MERGE asigna la localizacion de variables a partir de la primera variable de
salida y luego contin
ua en orden a traves de la lista de variables de salida.
18.5.
Dataset de entrada
MERGE necesita dos archivos de datos de entrada, cada uno de ellos descrito por un diccionario IDAMS.
Las variables de emparejamiento pueden ser alfabeticas o numericas. Las variables de emparejamiento correspondientes que vienen de los datasets A y B, deben tener el mismo ancho de campo.
Las variables de salida pueden ser alfabeticas o numericas.
Cada archivo de datos de entrada debe estar clasificado en orden ascendente por las variables de emparejamiento, antes de usar MERGE.
18.6.
$RUN MERGE
$FILES
Especificaci
on de archivos
$SETUP
1.
2.
3.
4.
5.
Filtro(s) (opcional)
T
tulo
Par
ametros
Especificaci
on de variables de emparejamiento
Variables de salida
$DICT (condicional)
Diccionario (ver Nota m
as adelante)
$DATA (condicional)
Datos (ver Nota m
as adelante)
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
DICTzzzz
DATAzzzz
PRINT
si se usa $DICT)
usa $DATA)
si se usa $DICT)
usa $DATA)
Nota. En el setup, se puede introducir uno de los datasets de entrada A o B, pero no ambos. Sin embargo,
los registros que siguen a continuacion de $DICT y $DATA se copian en los archivos definidos por DICTIN
y DATAIN respectivamente. Entonces, si el dataset A se coloca en el setup, el dataset A estar
a definido por
DICTIN y DATAIN y se debe especificar el par
ametro INAFILE=IN. De la misma manera, si el dataset B
va en el setup, se debe especificar el par
ametro INBFILE=IN.
18.7.
153
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro(s) (opcional). Selecciona un subconjunto de casos de los datasets A y/o B para usar en la
ejecuci
on. N
otese que cada proposicion de filtro debe estar precedida por A: o B: en las columnas
1 y 2 para indicar a cual dataset se va a aplicar el filtro.
Ejemplo:
A: INCLUDE V1=10,20,30
B: INCLUDE V1=10,20,30
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MATCH=INTE PRINT=(A,B)
INAFILE=INA/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos A de entrada.
Por defecto: DICTINA, DATAINA.
INBFILE=INB/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos B de entrada.
Por defecto: DICTINB, DATAINB.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo A de entrada.
Por defecto: se usan todos los casos.
MATCH=INTERSECTION/UNION/A/B
INTE
Llevar a la salida solo los casos que aparezcan en ambos datasets A y B.
UNIO
Llevar a la salida los casos que aparezcan en uno de los dos o en ambos datasets A y
B, rellenando las variables con datos faltantes cuando sea necesario.
A
Llevar a la salida solo los casos que aparezcan en el dataset A, rellenando las variables
que vienen del dataset B con datos faltantes cuando sea necesario.
B
Llevar a la salida solo los casos que aparezcan en el dataset B, rellenando las variables
que vienen del dataset A con datos faltantes cuando sea necesario.
Sin valor por defecto.
DUPBFILE
Un caso en el dataset A puede emparejarse con uno o mas casos (es decir, duplicados) del dataset
B. Para cada emparejamiento, se crea un registro de salida, dependiendo del par
ametro MATCH.
Nota: el dataset con los duplicados esperados debe definirse como el dataset B.
Por defecto: los casos duplicados en cualquiera de los datasets seran anotados en los resultados y
entonces seran tratados como casos diferentes seg
un la especificaci
on en el par
ametro MATCH.
OUTFILE=OUT/zzzz
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
VSTART=1/n
N
umero de variable para la primera variable en el dataset de salida.
154
Intercalaci
on de datasets (MERGE)
APAD=MD1/MD2
Cuando se rellenan las variables de A con datos faltantes:
MD1
Llevar a la salida el primer c
odigo de datos faltantes.
MD2
Llevar a la salida el segundo c
odigo de datos faltantes.
BPAD=MD1/MD2
Cuando se rellenan las variables de B con datos faltantes:
MD1
Llevar a la salida el primer c
odigo de datos faltantes.
MD2
Llevar a la salida el segundo c
odigo de datos faltantes.
PRINT=(PAD/NOPAD, ADELETE/NOADELETE, BDELETE/NOBDELETE, VARNOS,
A, B, OUTDICT/OUTCDICT/NOOUTDICT)
PAD
Imprimir los valores de las variables de emparejamiento cuando se rellenen cualesquiera
variables de los datasets A o B con c
odigos de datos faltantes.
ADEL
Imprimir los valores de la variable de emparejamiento para el dataset A cada vez que
no se incluya un caso del dataset A en el archivo de datos de salida.
BDEL
Imprimir los valores de la variable de emparejamiento para el dataset B cada vez que
no se incluya un caso del dataset B en el archivo de datos de salida.
VARN
Imprimir un listado con los n
umeros de las variables de los datasets de entrada y sus
correspondientes n
umeros de variable en el dataset de salida.
A
Imprimir todos los valores de las variables de emparejamiento y de salida para los casos
que aparezcan solamente en el dataset A, esten o no esten incluidas en el dataset de
salida.
B
Imprimir todos los valores de las variables de emparejamiento y de salida para los casos
que aparezcan solamente en el dataset B, esten o no esten incluidas en el dataset de
salida.
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
NOOU
No imprimir el diccionario de salida.
4. Especificaci
on de variables de emparejamiento (mandatorio). Esta proposicion define las variables de los datasets A y B que se van a comparar para emparejar los casos. N
otese que cada archivo
Datos de entrada debe estar clasificado, con la(s) variable(s) de emparejamiento como llaves de clasificacion antes de usar MERGE.
Ejemplo:
A1=B3, A5=B1
Lo cual significa que para emparejar un caso del dataset A con un caso del dataset B, el valor de la
variable V1 del dataset A, debe ser igual al valor de la variable V3 del dataset B y similarmente para
las variables V5 y V1.
Formato general
An=Bm, Aq=Br, ...
Reglas de codificaci
on
El ancho de campo de las dos variables que se van a comparar debe ser identico. La comparaci
on
se hace car
acter por car
acter, no numericamente. As, 0.9 no es equivalente a 009, ni 9
es igual a 09. Si el ancho de campo no es el mismo, use el programa TRANS para cambiar el
ancho de una de las variables antes de usar MERGE.
Cada par de variables de emparejamiento est
a separado con una coma.
Puede haber blancos en cualquier parte de la proposicion.
Para continuar en otra lnea, termine la informacion en una coma y coloque un gui
on para indicar
continuacion.
5. Variables de salida (mandatorio). Definen cuales variables de cada uno de los datasets de entrada
se van a transferir a la salida y cual es su orden de salida.
18.8 Restricciones
Ejemplo:
155
A1, B2, A5-A10, B5, B7-B10
Lo que significa que el dataset de salida contendra la variable V1 del dataset A, seguida por la variable
V2 del dataset B, seguida por las variables V5 hasta V10 del dataset A, etc. en ese orden.
Reglas de codificaci
on
Las reglas de codificacion son las mismas que las de la especificaci
on de variables con el par
ametro
VARS, excepto que se usan las letras A y B en vez de la letra V. Cada n
umero de variable del
dataset A est
a precedido de una A y cada n
umero de variable del dataset B est
a precedido de
una B.
Las variables duplicadas en la lista, se cuentan como variables separadas.
18.8.
Restricciones
1. El n
umero maximo de variables de emparejamiento de cada dataset es 20.
2. Las variables de emparejamiento deben ser del mismo tipo y ancho de campo en cada dataset.
3. La longitud total maxima del conjunto de variables de emparejamiento de cada dataset es 200 caracteres.
18.9.
Ejemplos
Ejemplo 1. Combinaci
on de registros de dos datasets con el mismo n
umero de casos; en ambos datasets,
los casos se identifican con las variables 1 y 3; todas las variables se seleccionan de cada uno de los datasets
de entrada.
$RUN MERGE
$FILES
DICTOUT = AB.DIC
archivo Diccionario de salida
DATAOUT = AB.DAT
archivo Datos de salida
DICTINA = A.DIC
archivo Diccionario de entrada del dataset A
DATAINA = A.DAT
archivo Datos de entrada del dataset A
DICTINB = B.DIC
archivo Diccionario de entrada del dataset B
DATAINB = B.DAT
archivo Datos de entrada del dataset B
$SETUP
COMBINACION DE REGISTROS DE 2 DATASETS CON EL MISMO NUMERO DE CASOS
MATCH=UNION
A1=B1,A3=B3
A1-A112,B201-B401
Ejemplo 2. Combinaci
on de datasets con n
umero de casos diferentes; solo los casos con registros en ambos
datasets se llevan a la salida; los casos se identifican con las variables 2 y 4 en el primer dataset y con
las variables 105 y 107 respectivamente en el segundo dataset; las variables en el dataset de salida seran
renumeradas a partir del n
umero 201 y se pide un listado de referencias; solo se tomaran las variables
seleccionadas de cada dataset de entrada.
$RUN MERGE
$FILES
los mismos del ejemplo 1
$SETUP
COMBINACION DE REGISTROS DE 2 DATASETS CON DIFERENTE NUMERO DE CASOS
MATCH=INTE VSTA=201 PRIN=VARNOS
A2=B105,A4=B107
B105,B107,A36-A42,B120,B131
156
Intercalaci
on de datasets (MERGE)
Ejemplo 3. Combinaci
on de datasets con datos de niveles diferentes; los casos del dataset A se combinan
con un subconjunto de casos del dataset B; un caso del dataset A puede aparearse con uno o mas casos
del dataset B; los casos del dataset A que no se emparejen con un caso del subconjunto del dataset B se
descartan y no se imprimen.
$RUN MERGE
$FILES
los mismos del ejemplo 1
$SETUP
B: INCLUDE V18=2 AND V21=3
COMBINACION DE 2 DATASETS CON DIFERENTES NIVELES DE DATOS
MATCH=B DUPB
A1=B15
B15,A2,A6-A12,B20-B31,B40
Ejemplo 4. Se va a calcular el ingreso por hogar a partir de un dataset de miembros de hogares y luego
intercalarlo con los registros individuales de los miembros; se usa primero AGGREG para sumar los ingresos
(V6) de los individuos en los hogares; V3 es la variable que identifica cada hogar; el dataset de salida de
AGGREG (definido por DICTAGG y DATAAGG) contendra 2 variables, el identificador de hogar (V1) y
el ingreso por hogar (V2); este dataset se usa en seguida como el dataset A de MERGE para sumar el
ingreso por hogar apropiado (variable A2) al registro original de cada individuo (variables B1-B46).
$RUN AGGREG
$FILES
PRINT
= MERGE4.LST
DICTIN = INDIV.DIC
archivo Diccionario de entrada
DATAIN = INDIV.DAT
archivo Datos de entrada
DICTAGG = AGGDIC.TMP
archivo temporal Diccionario de salida de AGGREG
DATAAGG = AGGDAT.TMP
archivo temporal Datos de salida de AGGREG
DICTOUT = INDIV2.DIC
archivo Diccionario de salida de MERGE
DATAOUT = INDIV2.DAT
archivo Datos de salida de MERGE
$SETUP
SUMA DE LOS INGRESOS
IDVARS=V3 AGGV=V6 STATS=SUM OUTF=AGG
$RUN MERGE
$SETUP
FUSION DEL INGRESO POR HOGAR CON LOS REGISTROS INDIVIDUALES
INAFILE=AGG INBFILE=IN DUPB MATCH=B
A1=B3
B1-B46,A2
N
otese que una vez que se han hecho las asignaciones de datasets bajo $FILES, no es necesario repetirlas si
se vuelven a usar en pasos siguientes.
Captulo 19
Clasificaci
on e intercalaci
on de
archivos (SORMER)
19.1.
Descripci
on general
SORMER le permite al usuario ejecutar Clasificar/Intercalar de una manera mas conveniente ya que permite,
mediante el uso de los formatos de los par
ametros de IDAMS, especificar la informacion de los campos de
control para clasificacion o intercalaci
on. Si el archivo Datos est
a descrito por un diccionario IDAMS, entonces
se puede enviar a la salida una copia del diccionario correspondiente a los datos clasificados y los campos
de clasificacion se especifican con las variables apropiadas; en caso contrario, se especifican a traves de su
localizacion.
Orden de clasificaci
on. El usuario debe especificar si los datos se van a clasificar/intercalar en orden
ascendente o descendente.
19.2.
Caractersticas est
andar de IDAMS
19.3.
Resultados
19.4.
Diccionario de salida
Una copia del diccionario de entrada que corresponde al archivo Datos de salida.
19.5.
Datos de salida
La salida es un archivo con los mismos atributos del archivo o archivos de entrada cuyos registros est
an
clasificados seg
un el orden solicitado.
158
Clasificaci
on e intercalaci
on de archivos (SORMER)
19.6.
Diccionario de entrada
19.7.
Datos de entrada
Para clasificar, se lee un solo archivo Datos el cual contiene uno o mas campos (o variables) cuyos valores
definen el orden de clasificacion deseado.
Para intercalar, la entrada consiste de 2-16 archivos Datos, cada uno con el mismo formato de registro,
es decir, la misma longitud de registro y los campos que definen el orden de clasificacion en las mismas
posiciones. Cada archivo debe haberse clasificado previamente con los campos de control de intercalaci
on,
antes de pasar a intercalar los archivos.
19.8.
$RUN SORMER
$FILES
Especificaci
on de archivos
$SETUP
1. T
tulo
2. Par
ametros
$DICT (condicional)
Diccionario para las variables de los campos de clasificaci
on/intercalaci
on
19.9.
159
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-2, a continuacion.
1. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
2. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
KEYVARS=(V2,V3)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para el archivo Diccionario de entrada.
Por defecto: DICTIN.
OUTFILE=yyyy
Un sufijo de ddname de 1-4 caracteres para el archivo Diccionario de salida.
Debe especificarse para obtener en la salida una copia del diccionario de entrada.
SORT/MERGE
SORT
Se clasifican los datos de entrada.
MERG
Se intercalan dos o mas archivos de datos.
ORDER=A/D
A
Clasificaci
on ascendente sobre los campos de clasificacion.
D
Clasificaci
on descendente.
KEYVARS=(lista de variables)
Lista de las variables que se van a usar como campos de clasificacion (se debe suministrar el
diccionario IDAMS).
Nota: el archivo Datos debe tener solo un registro por caso para seleccionar esta opcion. Si hay
mas de un registro por caso, usar KEYLOC.
KEYLOC=(I1,F1, I2,F2, ...)
In
Localizacion del comienzo del n-esimo campo de clasificacion.
Fn
Localizacion del final del n-esimo campo de clasificaci
on. Debe especificarse a
un si tiene
el mismo valor de la posicion de comienzo de campo.
Nota. Sin valor por defecto. Se debe especificar uno de los dos par
ametros KEYVARS o bien KEYLOC,
pero no ambos.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables de clasificacion con registros C,
si los hay.
DICT
Imprimir el diccionario de entrada sin los registros C.
19.10.
Restricciones
160
Clasificaci
on e intercalaci
on de archivos (SORMER)
19.11.
Ejemplos
Ejemplo 1. Intercalar tres archivos con igual formato, clasificados previamente; cada archivo est
a descrito
por el mismo diccionario IDAMS; los casos se clasifican en orden ascendente sobre tres variables: V1, V2 y
V4.
$RUN SORMER
$FILES
PRINT
= SORT1.LST
DICTIN
= \SURV\DICT.DIC
archivo
SORTIN01 = DATA1.DAT
archivo
SORTIN02 = DATA2.DAT
archivo
SORTIN03 = DATA3.DAT
archivo
DICTOUT = \SURV\DATA123.DIC
archivo
SORTOUT = \SURV\DATA123.DAT
archivo
$SETUP
INTERCALAR DE TRES ARCHIVOS DE DATOS: DATA1
MERG KEYVARS=(V1,V2,V4) OUTF=OUT
Diccionario de entrada
Datos 1 de entrada
Datos 2 de entrada
Datos 3 de entrada
Diccionario de salida
Datos de salida
DATA2 Y DATA3
Ejemplo 2. Clasificar un archivo de datos en orden descendente sobre dos campos: el primer campo tiene
4 caracteres de longitud y comienza en la columna 12; el segundo campo tiene una longitud de 2 caracteres
y comienza en la columna 3; no se usa diccionario.
$RUN SORMER
$FILES
SORTIN = RAW.DAT
archivo Datos de entrada
SORTOUT = SORT.DAT
archivo Datos de salida
$SETUP
CLASIFICACION DE UN ARCHIVO DE DATOS SIN USAR DICCIONARIO
KEYLOC=(12,15,3,4) ORDER=D
Captulo 20
Subdivisi
on de datasets (SUBSET)
20.1.
Descripci
on general
SUBSET divide en subconjuntos un archivo Datos y su diccionario IDAMS correspondiente por caso y/o
variable, o copia los archivos completos.
Verificaci
on del orden de clasificaci
on. El programa tiene una opcion para verificar que los casos se
encuentren clasificados en orden ascendente, basado en una lista de variables de clasificacion (ver el par
ametro
SORTVARS). Los casos adyacentes con identificacion duplicada no se consideran fuera de orden. Sin embargo
hay una opci
on para eliminar las duplicaciones de cualquier caso.
20.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. La subdivisi
on de un caso en subconjuntos se lleva a cabo con un filtro
que selecciona un conjunto particular de casos del dataset de entrada. La selecci
on de variables se hace al
definir un conjunto de variables de entrada que se van a transferir al dataset de salida. Las variables pueden
salir en cualquier orden y pueden ser transferidas mas de una vez, si los n
umeros de variable de salida son
renumerados.
Transformaci
on de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. SUBSET no hace distincion entre datos sustantivos y valores de datos
faltantes; todos los datos reciben el mismo tratamiento.
20.3.
Resultados
162
Subdivisi
on de datasets (SUBSET)
20.4.
Dataset de salida
El archivo Datos de salida y su diccionario IDAMS correspondiente se construyen a partir del subconjunto
de casos y/o variables, especificado por el usuario a partir del archivo de entrada. Cuando se copian todas
las variables, es decir, cuando no se ha especificado OUTVARS, la estructura de los registros de salida es
identica a la de los registros de entrada y el diccionario de salida sera una copia exacta del diccionario de
entrada. De lo contrario, la informaci
on del diccionario para las variables en el archivo de salida se asigna
de la manera siguiente:
Orden y numeraci
on de variables. Si se ha especificado VSTART, la salida de variables se lleva acabo
en el orden en el que aparecen en la lista OUTVARS y siempre se renumeran a partir del valor dado en el
par
ametro VSTART. Si no se ha especificado VSTART, el programa no cambia los n
umeros de variable y
las variables salen en orden ascendente de los n
umeros.
Localizaci
on de variables. La localizacion de variables se asigna de forma contigua de acuerdo con el
orden de las variables en la lista OUTVARS (si se ha especificado VSTART) o en el orden de los n
umeros
de variable despues de clasificar (si no se ha especificado VSTART).
Tipo de variable, ancho y n
umero de decimales son los mismos que sus valores de entrada.
N
umero de referencia. Los mismos que sus valores de entrada o modificados de acuerdo con el par
ametro
REFNO.
Registros C. Los registros C del diccionario de entrada se transfieren al diccionario de salida.
20.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden usar variables numericas o
alfabeticas.
20.6.
$RUN SUBSET
$FILES
Especificaci
on de archivos
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
20.7.
163
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
SORT=(V1,V2), DUPLICATE=DELETE
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
SORTVARS=(lista de variables)
Si se va a verificar el orden de clasificacion del archivo, se especifican hasta 20 variables que definen
la secuencia de clasificacion en orden de mayor a menor. Los duplicados se consideran en orden
ascendente.
DUPLICATE=KEEP/DELETE
Eliminacion de casos duplicados (solo se aplica cuando se especifica SORT).
KEEP
Lleva a la salida todos casos duplicados que se presenten.
DELE
Lleva a la salida solo el primer caso de los casos duplicados y escribe mensaje para los
duplicados.
OUTVARS=(lista de variables)
Suministre esta lista solo si va a salir un subconjunto de variables del dataset de entrada. Si no
se ha seleccionado VSTART, la lista de variables no puede contener duplicados. De lo contrario,
las variables pueden estar en cualquier orden y repetirse seg
un se necesite.
Por defecto: se llevan a la salida todas las variables.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
VSTART=n
Las variables se numerar
an secuencialmente a partir de n en el dataset de salida.
Por defecto: se retienen los n
umeros de variable de entrada.
REFNO=OLDREF/VARNO
OLDR
Retiene los n
umeros de referencia en los registros T y C tal como est
an en el dataset
de entrada.
VARN
Actualiza el campo del n
umero de referencia en los registros C y T para que encaje
con el n
umero de variable de salida.
164
Subdivisi
on de datasets (SUBSET)
PRINT=(OUTDICT/OUTCDICT/NOOUTDICT, VARNOS)
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
VARN
Imprimir una lista con los n
umeros de variables anteriores y nuevos y con los n
umeros
de referencia.
20.8.
Restricciones
1. El maximo n
umero de variables de clasificacion es 20.
2. El ancho de los campos combinados de las variables usadas para la clasificacion, no puede exceder de
200 caracteres.
20.9.
Ejemplos
Ejemplo 1. Construccion de un subconjunto de casos para variables seleccionadas; las variables se renumerar
an a partir de 1 y se imprimira una tabla que muestre la numeraci
on anterior de las variables y la nueva
numeraci
on asignada.
$RUN SUBSET
$FILES
PRINT
= SUBS1.LST
DICTIN = ABC.DIC
archivo
DATAIN = ABC.DAT
archivo
DICTOUT = SUBS.DIC
archivo
DATAOUT = SUBS.DAT
archivo
$SETUP
INCLUDE V5=2,4,5 AND V6=2301
SUBDIVISION DE CASOS Y VARIABLES
PRINT=VARNOS VSTART=1 OUTVARS=(V1-V5,V18,V43-V57,V114,V116)
Diccionario de entrada
Datos de entrada
Diccionario de salida
Datos de salida
Ejemplo 2. Uso del programa SUBSET para verificar casos duplicados; los casos se identifican con las
variables de las columnas 1-3 y 7-8; hay un registro por caso; no se necesita dataset de salida y no se guarda.
$RUN SUBSET
$FILES
DATAIN = DEMOG.DAT
$SETUP
CHEQUEO DE CASOS DUPLICADOS
SORT=(V2,V4) PRIN=NOOUTDICT
$DICT
$PRINT
3
2
4
1
1
T
2 PRIMERA VAR ID DE CASO
T
4 SEGUNDA VAR ID DE CASO
1
7
3
2
Captulo 21
Transformaci
on de datos (TRANS)
21.1.
Descripci
on general
El programa TRANS crea un nuevo dataset IDAMS que contiene variables de un dataset existente y nuevas
variables definidas por las proposiciones de Recode. Es la manera de salvar variables recodificadas.
TRANS tiene una opci
on de impresion y as puede usarse para probar proposiciones de Recode sobre un
n
umero peque
no de casos antes de ejecutar un programa de analisis o antes de guardar el archivo completo.
21.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. El filtro est
andar est
a disponible para seleccionar un subconjunto de los
casos del archivo Datos de entrada. La selecci
on de variables se lleva a cabo con el par
ametro OUTVARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. Los c
odigos de datos faltantes apropiados se escriben en el diccionario
de salida; estos se copian normalmente del diccionario de entrada pero pueden tambien ser obviados o
suministrados para variables de salida a traves de la proposicion Recode MDCODES. No se hace verificacion
de datos faltantes sobre valores de datos, excepto a traves del uso de proposiciones de Recode.
21.3.
Resultados
21.4.
Dataset de salida
La salida es un dataset IDAMS que contiene solo aquellas variables (V y R) especificadas en el par
ametro
OUTVARS. La informaci
on del diccionario para las variables en el archivo de salida se asigna de la manera
siguiente:
Orden y numeraci
on de variables. Si se ha especificado VSTART, la salida de variables se lleva acabo
en el orden en el que aparecen en la lista OUTVARS y siempre se renumeran a partir del valor dado en el
par
ametro VSTART. Si no se ha especificado VSTART, el programa no cambia los n
umeros de variable y
las variables salen en orden ascendente de los n
umeros.
166
Transformaci
on de datos (TRANS)
Nombre de variable y c
odigos de datos faltantes. Se toman del diccionario de entrada (solo variables
V) o de las proposiciones de Recode NAME y MDCODES, si las hay.
Localizaci
on de variable. La localizacion de variables se asigna de forma contigua de acuerdo con el orden
de las variables en la lista OUTVARS (si se ha especificado VSTART) o en el orden de los n
umeros de
variable despues de clasificar (si no se ha especificado VSTART).
Tipo de variable, ancho y n
umero de decimales.
Variables V: tipo, ancho de campo y n
umero de decimales son los mismos que sus valores de entrada.
Variables R: el tipo para variables R es siempre numerico; el ancho y n
umero de decimales se asignan de
acuerdo con los valores especificados para los par
ametros WIDTH (por defecto 9) y DEC (por defecto
0), o de acuerdo con los valores especificados para variables individuales con las especificaciones de
diccionario.
N
umero de referencia e identificador de estudio. El n
umero de referencia y el identificador de estudio
para una variable V son sus mismos valores de entrada. Para las variables R el identificador de estudio es
siempre REC.
Registros C. No se pueden crear registros C para variables R. Los registros C (si los hay) para todas las
variables V se copian al diccionario de salida. N
otese que si una variable V es codificada nuevamente durante
una ejecuci
on de TRANS, los registros C que salen no se pueden aplicar mas a la nueva versi
on de la variable.
21.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden usar variables numericas o
alfabeticas.
21.6.
$RUN TRANS
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de diccionario (opcional)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
21.7.
167
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
EXCLUDE V19=2-3
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos en entrada y los valores con amplitud insuficiente de
campo en salida. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MAXERR=0/n
M
aximo n
umero de errores insufficient-field width (amplitud insuficiente de campo) permitido antes de detener la ejecuci
on. Estos errores se presentan cuando el valor de una variable es
demasiado grande para caber dentro del campo asignado, por ej. un valor de 250 cuando se ha
especificado WIDTH=2. Ver el captulo Los datos en IDAMS.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
OUTVARS=(lista de variables)
Las variables V o R que ir
an a la salida. El orden de las variables en la lista es siginificativo solo
si se ha especificado el par
ametro VSTART. Si no se especifica VSTART todos los n
umeros de
variables V o R deben ser u
nicos.
Sin valor por defecto.
VSTART=n
Las variables se numerar
an secuencialmente a partir de n en el dataset de salida.
Por defecto: se retienen los n
umeros de variable de entrada.
WIDTH=9/n
Valor por defecto del ancho de campo de la variable de salida a usar para las variables R. Este
valor por defecto se puede reemplazar para variables especficas con la especificaci
on de diccionario
WIDTH. Para cambiar el ancho de campo de una variable numerica V, se crea una variable R
equivalente (ver Ejemplo 1).
DEC=0/n
N
umero de cifras decimales a retener para variables R.
168
Transformaci
on de datos (TRANS)
PRINT=(OUTDICT/OUTCDICT/NOOUTDICT, DATA)
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
DATA
Imprimir los valores de las variables de salida.
4. Especificaciones de diccionario (opcional). Para cualquier conjunto particular de variables, se puede
especificar el ancho de campo y el n
umero de cifras decimales. Estas especificaciones obviar
an los valores
colocados por los par
ametros principales WIDTH y DEC. N
otese que los c
odigos de datos faltantes y los
nombres de variables se asignan con las proposiciones de Recode MDCODES y NAME respectivamente.
Advertencia: la proposicion MDCODES retiene solo 2 cifras decimales para variables R y redondea los
valores apropiadamente.
Las reglas de codificacion son las mismas de los par
ametros. Cada especificaci
on de diccionario debe
comenzar en una lnea nueva.
Ejemplos:
VARS=(lista de variables)
La lista de variables a la cual aplican los par
ametros WIDTH y DEC.
WIDTH=n
Ancho de campo para las variables de salida.
Por defecto: valor dado para el par
ametro WIDTH.
DEC=n
N
umero de cifras decimales.
Por defecto: valor dado para el par
ametro DEC.
21.8.
Restricciones
1. El maximo n
umero de variables R que puede salir es 250.
2. El maximo n
umero de variables que pueden ser usadas en la ejecuci
on (incluidas las variables usadas
solo en las proposiciones Recode) es 500.
3. El maximo n
umero de especificaciones de diccionario es 200.
21.9.
Ejemplos
Ejemplo 1. Las variables seleccionadas del dataset de entrada se transfieren al archivo de salida junto con
las dos nuevas variables; no se cambian los n
umeros de variable; el ancho de campo de la variable de entrada
V20 se cambia a 4.
$RUN TRANS
$FILES
PRINT
= TRANS1.LST
DICTIN = OLD.DIC
archivo Diccionario de entrada
DATAIN = OLD.DAT
archivo Datos de entrada
DICTOUT = NEW.DIC
archivo Diccionario de salida
DATAOUT = NEW.DAT
archivo Datos de salida
$SETUP
CONSTRUCCION DE DOS NUEVAS VARIABLES
PRINT=NOOUTDICT OUTVARS=(V1-V19,R20,V33,V45-V50,R105,R122)
VARS=R105,WIDTH=1
VARS=R122,WIDTH=3,DEC=1
21.9 Ejemplos
169
VARS=R20,WIDTH=4
$RECODE
R20=V20
NAME R20VARIABLE 20
R105=BRAC(V5,15-25=1,<36=2,<46=3,<56=4,<66=5,<90=6,ELSE=9)
MDCODES R105(9)
NAME R105GRUPOS DE EDAD
IF MDATA(V22) THEN R122=99.9 ELSE R122=V22/3
MDCODES R122(99.9)
NAME R122NR. ARTICULOS POR ANO
Ejemplo 2. Este ejemplo ilustra el uso de TRANS para verificar proposiciones de Recode; se listan los
valores de los datos para las variables identificadoras (V1, V2), las variables usadas en Recode y las variables
de resultado para los primeros 30 casos; no se requiere el dataset de salida y no se define.
$RUN TRANS
$FILES
PRINT = TRANS2.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
VERIFICACION DE RECODE
WIDTH=2 PRINT=(DATA,NOOUTDICT) MAXCASES=30 OUTVARS=(V1-V2,V71-V74,V118,V12,V13,R901-R903)
$RECODE
R901=BRAC(V118,1-16=2,17=1,18-23=3,24=1,25-35=3,36=1,37=2,ELSE=9)
IF NOT MDATA(V12,V13) THEN R902=TRUNC(V12/V13) ELSE R902=99
R903=COUNT(1,V71-V74)
Ejemplo 3. Creaci
on de un archivo de prueba con una muestra aleatoria de 1/20 del archivo Datos; no se
necesita salvar el diccionario de salida ya que sera identico al de entrada.
$RUN TRANS
$FILES
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
DATAOUT = TESTDATA
archivo Datos de salida
$SETUP
CREA ARCHIVO PRUEBA CON TODAS VARIABLES MUESTRA DE CASOS 1/20
PRINT=NOOUTDICT OUTVARS=(V1-V505)
$RECODE
IF RAND(0,20) NE 1 THEN REJECT
Parte IV
Facilidades para an
alisis de datos
Captulo 22
An
alisis de conglomerados
(CLUSFIND)
22.1.
Descripci
on general
22.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Si entran datos primarios, se puede utilizar el filtro est
andar para escoger
un subconjunto de casos de los datos de entrada. Las variables para analisis se espcifican en el par
ametro
VARS.
Transformaci
on de datos. Si entran datos primarios, se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. No se aplica el uso de variables de ponderaci
on.
Tratamiento de datos faltantes. Si entran datos primarios, el par
ametro MDVALUES est
a disponible
para indicar cuales valores de datos faltantes, si los hay, se usaran para verificar datos faltantes. Los casos en
los cuales hay datos faltantes para todas las variables se eliminan autom
aticamente. Si no, datos faltantes se
eliminan por pares. Si los datos est
an estandarizados, el promedio y la desviacion media absoluta se calculan
usando solo valores validos. Cuando se calculan las distancias, solo se consideran en la suma aquellas variables
para las cuales hay valores validos presentes para ambos objetos.
Si entra una matriz, el par
ametro MDMATRIX est
a disponible para indicar que valor se va a usar para
verificar elementos invalidos en la matriz.
22.3.
Resultados
174
An
alisis de conglomerados (CLUSFIND)
Resultados del an
alisis PAM. Para cada n
umero de conglomerados en turno (desde CMIN a CMAX)
se imprime lo siguiente:
n
umero de objetos representativos (conglomerados) y la distancia final promedio,
para cada conglomerado: identificador del objeto representativo, n
umero de objetos y la lista de objetos
que pertenecen a ese conglomerado,
coordenandas de los medoides (valores de la variables de an
alisis para cada objeto repersentativo; solo
para el dataset de entrada),
vector de conglomeracion (un vector de n
umeros que corresponde a los objetos e indica a que conglomerado pertenece cada objeto) y caracteristicas de conglomeracion,
representacion gr
afica de los resultados, es decir, un gr
afico de silueta para cada conglomerado (opcional
- ver el par
ametro PRINT).
Resultados del an
alisis FANNY. Para cada n
umero de conglomerados en turno (desde CMIN a CMAX)
se imprime lo siguiente:
n
umero de conglomerados,
valor de la funci
on objetivo en cada iteraci
on,
para cada objeto, su identificador y el coeficiente de pertenencia para cada conglomerado,
coeficiente de partici
on de Dunn y su versi
on normalizada,
conglomeracion dura mas cercana, es decir, n
umero de objetos y la lista de objetos que pertenecen a
cada conglomerado,
vector de conglomeracion,
representacion gr
afica de los resultados, es decir, un gr
afico de silueta para cada conglomerado (opcional
- ver el par
ametro PRINT).
Resultados del an
alisis CLARA. Para el n
umero de conglomerados ensayados se imprime lo siguiente:
lista de objetos seleccionados en la muestra retenida,
vector de conglomeracion,
para cada conglomerado: identificador del objeto representativo, n
umero de objetos y la lista de objetos
que pertenecen a ese conglomerado,
distancia promedio y distancia maxima a cada medoide,
representacion gr
afica de los resultados, es decir, un gr
afico de silueta para cada conglomerado (opcional
- ver el par
ametro PRINT).
Resultados del an
alisis AGNES contiene lo siguiente:
ordenamiento final de los objetos (identificados por su identificador) y disimilitudes entre ellos,
representacion gr
afica de los resultados, es decir, un gr
afico de bandera de disimilitudes (opcional ver el par
ametro PRINT).
Resultados del an
alisis DIANA contiene lo siguiente:
ordenamiento final de los objetos (identificados por su identificador) y diametros de los conglomerados,
representacion gr
afica de los resultados, es decir, un gr
afico de bandera de disimilitudes (opcional ver el par
ametro PRINT).
Resultados del an
alisis MONA contiene lo siguiente:
huella de las separaciones (opcional - ver el par
ametro PRINT) para cada paso, con el conglomerado
a separar, la lista de objetos (identificados por su valor de la variable identificadora) en cada uno de
los dos subconjuntos y la variable usada para la separacion,
el ordenamiento final de objetos,
representacion gr
afica de los resultados, es decir, un gr
afico de separacion con la lista de objetos en
cada conglomerado y la variable usada para la separacion (opcional - ver el par
ametro PRINT).
22.4.
Dataset de entrada
El dataset de entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas
para analisis deben ser numericas; pueden ser enteras o con cifras decimales. La variable identificadora de
caso puede ser alfabetica. Las variables usadas en los analisis PAM, CLARA, FANNY, AGNES o DIANA
deben tener escala de intervalo. Las variables usadas en el analisis MONA deben ser binarias (con valores 0
o 1). N
otese que CLUSFIND usa como maximo 8 caracteres del nombre de la variable como se suministra
en el diccionario.
22.5.
175
Matriz de entrada
Esta es una matriz cuadrada de IDAMS. Ver el captulo Los datos en IDAMS. Puede contener medidas
de similitudes, disimilitudes o coeficientes de correlacion. N
otese que CLUSFIND usa maximo 8 caracteres
del nombre del objeto como se suministra en los registros de identificacion de variables.
22.6.
$RUN CLUSFIND
$FILES
Especificaci
on de archivos
$RECODE (opcional con entrada de datos primarios;
no disponible con entrada matricial)
Proposiciones de Recode
$SETUP
1. Filtro (opcional, s
olo para entrada de datos primarios)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario para la entrada de datos primarios
$DATA (condicional)
Datos para la entrada de datos primarios
$MATRIX (condicional)
Matriz para la entrada de la matriz
Archivos:
FT09
DICTxxxx
DATAxxxx
PRINT
22.7.
matriz de entrada
(si no se usa $MATRIX y se usa entrada matricial)
diccionario de entrada (si $DICT no se usa y INPUT=RAWDATA)
datos de entrada (si $DATA no se usa y INPUT=RAWDATA)
resultados (por defecto IDAMS.LST)
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on. Disponible solamente
con datos primarios de entrada.
Ejemplo:
INCLUDE V8=5-10
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
176
An
alisis de conglomerados (CLUSFIND)
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
ANALYSIS=PAM VARS=(V7-V12)
INPUT=RAWDATA/SIMILARITIES/DISSIMILARITIES/CORRELATIONS
RAWD
En entrada: un archivo Datos descrito por un diccionario IDAMS.
SIMI
En entrada: medidas de similitudes en la forma de una matriz cuadrada IDAMS.
DISS
En entrada: medidas de disimilitudes en la forma de una matriz cuadrada IDAMS.
CORR
En entrada: coeficientes de correlaci
on en la forma de una matriz cuadrada IDAMS.
Par
ametros s
olo para entrada de datos primarios
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=100/n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Su valor depende de la memoria disponible.
n=0
No ejecuta, solo verifica los par
ametros.
0<n<=100 Ejecuci
on normal.
n>100
S
olo permite ANALYSIS=CLARA.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
STANDARDIZE
Estandarizar las variables antes de calcular las disimilitudes.
DTYPE=EUCLIDEAN/CITY
Tipo de distancia utilizado para calcular las disimilitudes.
EUCL
Distancia euclideana.
CITY
Distancia en cuadra urbana (city block).
IDVAR=n
umero de variable
Variable que se imprime como identificadora de caso. S
olo se usan tres caracteres en el listado.
As, las variables enteras deben tener valores menores que 1000. S
olo se imprimen los tres primeros
caracteres de una variable alfabetica.
Sin valor por defecto.
PRINT=(CDICT/DICT, STAND)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
STAN
Imprimir los datos de entrada despues de la estandarizacion.
Par
ametros s
olo para entrada matricial
DISSIMILARITIES=ABSOLUTE/SIGN
Para INPUT=CORR, especifica c
omo se debe calcular la matriz de disimilitudes.
ABSO
Considerar valores absolutos de coeficientes de correlaci
on como medida de similitud.
SIGN
Usar coeficientes de correlaci
on con sus signos.
22.8 Restricciones
177
MDMATRIX=n
Tratar los elementos de la matriz iguales a n como datos faltantes.
Por defecto: todos los valores son validos.
PRINT=MATRIX
Imprimir la martiz de entrada.
Par
ametros para ambos tipos de entrada
VARS=(lista de variables)
Variables a usar en este analisis.
Sin valor por defecto.
ANALYSIS=PAM/FANNY/CLARA/AGNES/DIANA/MONA
Especifica el tipo de analisis a hacer.
PAM
Reparticion alrededor de medoides.
FANN
Conglomeraci
on difusa.
CLAR
Reparticion alrededor de medoides (igual a PAM), pero para datasets de al menos
100 casos. CLUSFIND har
a un muestreo de los casos y escogera la mejor muestra
representativa. Se extraen cinco muestras de 40+2*CMAX casos (ver el par
ametro
CMAX mas adelante).
S
olo para entrada de datos primarios.
AGNE
Conglomerati
on jerarquica acumulativa.
DIAN
Conglomerati
on jerarquica divisiva.
MONA
Conglomeraci
on monotetica de datos con variables binarias. Requiere al menos tres
variables.
S
olo para entrada de datos primarios.
Sin valor por defecto.
CMIN=2/n
Para PAM y FANNY. N
umero mnimo de conglomerados a ensayar.
CMAX=n
Para PAM y FANNY, n
umero maximo de conglomerados a ensayar.
Para CLARA, n
umero exacto de conglomerados ensayar.
Por defecto: el mayor de 20 y el valor especificado en CMIN.
PRINT=(DISSIMILARITIES, GRAPH, TRACE, VNAMES)
DISS
Imprimir la matriz de disimilitudes.
GRAP
Imprimir la representacion grafica de los resultados.
TRAC
Imprimir cada paso de la separacion binaria cuando se especifica MONA.
VNAM
Para entrada matricial, imprimir los primeros 3 o 8 caracteres de nombres en vez de
los n
umeros de las variables como identificador del objecto.
22.8.
Restricciones
1. El n
umero maximo de casos que se pueden usar en un analisis (excepto CLARA) es 100.
2. El n
umero mnimo de casos requerido para analisis CLARA) es 100.
3. El n
umero maximo de objetos en una matriz de entrada es 100.
4. S
olo los tres caracteres de una variable alfabetica se usan en el listado.
178
An
alisis de conglomerados (CLUSFIND)
22.9.
Ejemplos
Ejemplo 1. Conglomerar los primeros 100 casos en 5 grupos usando 6 variables cuantitativas V11-V16; se
estandarizan los valores de las variables y se usa la distancia euclideana en los c
alculos; la conglomeracion se
hace con la repartici
on alrededor de los medoides; se solicita imprimir graficos; los casos se identifican con
la variable V2.
$RUN CLUSFIND
$FILES
PRINT
= CLUS1.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
ANALISIS PAM CON DATOS PRIMARIOS COMO ENTRADA
BADD=MD1 VARS=(V11-V16) STAND IDVAR=V2 CMIN=5 CMAX=5 PRINT=GRAP
Ejemplo 2. Conglomerado jer
arquico aglomerativo de 30 pueblos; la matriz de entrada contiene distancias
entre los pueblos y los pueblos se numeran de 1 a 30; se solicita imprimir graficos; los nombres de pueblo se
usan en el listado.
$RUN CLUSFIND
$FILES
PRINT
= CLUS2.LST
FT09
= TOWNS.MAT
archivo Matriz de entrada
$SETUP
ANALISIS AGNES CON LA MATRIZ DE DISTANCIAS COMO ENTRADA
$COMMENT
LAS DISTANCIAS ACTUALES SE DIVIDIERON POR 10.000 PARA
$COMMENT
ESTAR EN EL INTERVALO 0-1
INPUT=DISS VARS=(V1-V30) ANAL=AGNES PRINT=(GRAP,VNAMES)
Captulo 23
An
alisis de configuraci
on (CONFIG)
23.1.
Descripci
on general
CONFIG hace analisis de configuracion espacial sencilla, sobre datos de entrada en la forma de una matriz
rectangular de IDAMS (tal como se produce, por ejemplo en MDSCAL). Tiene la capacidad de centrar,
normalizar, rotar, trasladar dimensiones, calcular distancias entre puntos y calcular productos escalares.
Cada fila de una matriz de configuracion suministra las coordenadas de un punto de la configuracion. As,
el n
umero de filas es igual al n
umero de puntos (variables), mientras que el n
umero de columnas es igual al
n
umero de dimensiones.
CONFIG puede proveer resultados que le permiten al usuario comparar de manera mas facil, configuraciones
las cuales originalmente tenan orientaciones dismiles. Puede tambien usarse para hacer analisis adicionales
sobre una configuracion. La rotacion, por ejemplo, puede hacer una configuracion mas facilmente interpretada.
23.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. No se aplica la selecci
on de un subconjunto de casos y no hay filtro
disponible. Tampoco hay una opci
on de CONFIG que permita subdividir la configuracion de entrada. Existe
en CONFIG una opci
on para seleccionar una matriz de un archivo que tenga m
ultiples matrices (ver el
par
ametro DSEQ).
Transformaci
on de datos. No se aplica el uso de las proposiciones de Recode con CONFIG.
Ponderaci
on de datos. No se aplica el uso de variables de ponderaci
on.
Tratamiento de datos faltantes. CONFIG no reconoce datos faltantes en la configuracion de entrada. Normalmente, esto no presenta ning
un problema, ya que las configuraciones se presentan usualmente
completas.
23.3.
Resultados
Diccionario de la matriz de entrada. (Condicional: solo si la matriz de entrada tena diccionario. Ver
par
ametro MATRIX). Los registros de variables del diccionario de entrada con los n
umeros correspondientes
usados en los gr
aficos (etiquetas de gr
aficos).
Configuraci
on de entrada. Una copia impresa de la configuracion de entrada.
Configuraci
on centrada. (Opcional: ver el par
ametro PRINT). Si se especifica PRINT=ALL o PRINT=CENT
y la configuracion de entrada ya est
a centrada, se imprime el mensaje Configuracion de entrada est
a centrada.
180
An
alisis de configuraci
on (CONFIG)
Configuraci
on normalizada. (Opcional: ver el par
ametro PRINT). Si se especifica PRINT=ALL o
PRINT=NORM y la configuracion de entrada ya est
a normalizada, se imprime el mensaje Configuracion
de entrada est
a normalizada.
Soluci
on en ejes principales. (Opcional: ver el par
ametro PRINT). Las filas de la matriz son los puntos
y las columnas son los ejes principales. Los elementos de la matriz son las proyecciones de los puntos sobre
los ejes.
Productos escalares. (Opcional: ver el par
ametro PRINT). Se imprime la mitad inferior izquierda de la
matriz simetrica. Cada elemento de la matriz es el producto escalar de un par de puntos (variables).
Distancias entre puntos. (Opcional: ver el par
ametro PRINT). Se imprime la mitad inferior izquierda
de la matriz simetrica. Cada elemento de la matriz es la distancia entre un par de puntos (variables). La
diagonal, siempre en ceros, se imprime.
Configuraci
on(es) transformada(s). (Opcional: ver el par
ametro de especificaci
on de transformaci
on
PRINT). La configuracion transformada se imprime despues de la rotacion/traslacion.
Gr
afico de la(s) configuraci
on(es) transformada(s). (Opcional: ver el par
ametro de especificaci
on
de transformaci
on PRINT). Se dibuja la configuracion transformada en dos ejes a la vez despues de la
rotacion/traslacion. Se numeran los puntos.
Historia de la rotaci
on varimax. (Opcional: ver el par
ametro PRINT). Se imprime un vector que
contiene la variancia de la matriz de configuracion antes de cada ciclo de iteraci
on. En seguida se imprime
la matriz de configuracion despues de la rotacion para maximizar el criterio normal de varimax. Tendr
a el
mismo n
umero de filas y columnas de la matriz de configuracion de entrada.
Configuraci
on clasificada. (Opcional: ver el par
ametro PRINT). Se imprime horizontalmente a traves de
la p
agina cada columna de la matriz de configuracion, despues de haber sido clasificada.
Gr
aficos de vectores. (Opcional: ver el par
ametro PRINT). Se dibuja la configuracion final en dos ejes a
la vez. Los puntos se numeran con las etiquetas de los graficos de las variables tal como se imprimi
o con el
diccionario de la configuracion de entrada.
23.4.
Matriz de configuraci
on de salida
23.5.
23.6.
Matriz de configuraci
on de entrada
La matriz de entrada debe estar en la forma de una matriz rectangular de IDAMS, con o sin registros de
identificacion de variables (ver el par
ametro MATRIX). Ver el captulo Los datos en IDAMS para una
descripcion del formato.
181
Las matrices de configuracion obtenidas con el programa MDSCAL, pueden entrar directamente a CONFIG.
La matriz de entrada de n(filas) por m(columnas), debe tener las coordenadas de n puntos para m dimensiones. No puede haber datos faltantes en la matriz de entrada.
En un archivo leido por CONFIG, puede haber mas de una configuracion. La configuracion a analizar se
escoge con el par
ametro DSEQ.
23.7.
$RUN CONFIG
$FILES
Especificaci
on de archivos
$SETUP
1. T
tulo
2. Par
ametros
3. Especificaciones de transformaci
on (opcionales)
$MATRIX (condicional)
Matriz
Archivos:
FT02
FT09
PRINT
23.8.
configuraci
on de salida y/o matriz de distancias
configuraci
on de entrada (omitir si se usa $MATRIX)
resultados (por defecto IDAMS.LST)
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
2. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
PRINT=(CENT,SORT,DIST) TRANS
MATRIX=STANDARD/NONSTANDARD
STAN
Se incluyen los registros de identificacion de variables en la matriz de entrada.
NONS
No se incluyen los registros de identificacion de variables en la matriz de entrada.
DSEQ=1/n
El n
umero secuencial en el archivo de entrada de la configuracion que se analiza.
WRITE=(CONFIG,DISTANCES)
CONF
Llevar la configuracion final a un archivo.
DIST
Llevar a un archivo la matriz de distancias entre puntos.
182
An
alisis de configuraci
on (CONFIG)
TRANSFORM
Se suministraran especificaciones de transformaci
on.
PRINT=(CENTER, NORMALIZE, PRINAXIS, SCALARS, DISTANCES, VARIMAX, SORTED,
PLOT, ALL)
CENT
Mover el origen al centroide del espacio.
NORM
Alterar el tama
no del espacio de manera que al sumar las cargas al cuadrado, esta
suma sea igual al n
umero de variables.
PRIN
B
usqueda de solucion en ejes principales.
SCAL
Matriz de productos escalares.
DIST
Matriz de distancias entre puntos.
VARI
Rotaci
on (despues de transformaci
on, si la hay) ortogonal (varimax).
SORT
Configuraci
on clasificada (despues de transformaci
on, si la hay).
PLOT
Graficar la configuracion final.
ALL
Imprimir CENT, NORM, PRIN, SCAL, DIST, VARI, SORT, PLOT.
Por defecto: la configuracion de entrada se imprime.
Nota. Las opciones de analisis se llevan a cabo sobre los datos de la configuracion de entrada en la
secuencia especificada arriba, sin importar el orden en el cual se hayan especificado con el par
ametro
PRINT. Transformaciones, si las hay, se llevan a cabo antes de la rotacion ortogonal de la configuracion.
Despues de cada operaci
on, se imprimen los resultados. Los efectos de las opciones de analisis son
acumulativos. Si la configuracion final se grafica y/o se almacena, esto se hace despues de haber hecho
todos los analisis.
3. Especificaciones de transformaci
on. (Condicional: si se ha especificado TRANSFORM, usar los
par
ametros como se explica a continuacion). Se pueden especificar tantas transformaciones como se
desee; cada una debe comenzar en una nueva lnea.
Si el usuario especifica el
angulo de rotacion (DEGREES) y dos dimensiones (DIMENSION), entonces
se hace una rotacion. Si se especifica una constante (ADD) y una dimensi
on (DIMENSION), se hace
una traslaci
on.
Ejemplo:
PRINT=(CONFIG, PLOT)
CONF
Imprimir la configuracion rotada o trasladada (autom
atico para configuraciones con 2
dimensiones y para la configuracion final).
PLOT
Graficar la configuracion rotada o trasladada.
Nota: no habr
an resultados para la transformaci
on si no se especifica PRINT. Debe especificarse
para cada transformaci
on.
Par
ametros de rotaci
on
DIMENSION=(n, m)
Las dos dimensiones a rotar (s
olo rotacion pareada).
DEGREES=n
Angulo de rotacion en grados (s
olo rotacion ortogonal).
Par
ametros de traslaci
on
DIMENSION=n
La dimensi
on a trasladar.
ADD=n
Valor a sumar a cada coordenada en la dimensi
on especificada (puede ser negativo y tener cifras
decimales).
23.9 Restricci
on
23.9.
183
Restricci
on
El tama
no maximo de la matriz de configuracion de entrada es de 60 filas por 10 columnas.
23.10.
Ejemplos
Ejemplo 1. Rotaci
on y transformaci
on de una matriz de configuracion creada previamente por el programa
MDSCAL; la configuracion final se escribe en un archivo y se grafica; se rotan las dimensiones 1 y 2 por un
angulo de 60 grados; la dimensi
on 1 se transformara sumando 6.
$RUN CONFIG
$FILES
PRINT = CONF1.LST
FT02
= CONFIG.MAT
archivo para la matriz de configuraci
on de salida
FT09
= MDS.MAT
matriz de configuraci
on de entrada
$SETUP
ANALISIS DE CONFIGURACION
PRINT=(PLOT,VARI) TRAN WRITE=CONF
DEGR=60 DIME=(1,2) PRINT=PLOT
ADD=6 DIME=1 PRINT=PLOT
Ejemplo 2. C
alculo de la matriz de productos escalares y la matriz de distancias entre puntos para la cuarta
configuracion en el archivo de entrada; no se requieren graficos.
$RUN CONFIG
$FILES
PRINT = CONF2.LST
FT02
= SCAL.MAT
FT09
= MDS.MAT
$SETUP
ANALISIS DE CONFIGURACION
PRINT=(SCAL,DIST) DSEQ=4
Captulo 24
An
alisis discriminatorio (DISCRAN)
24.1.
Descripci
on general
La tarea del analisis discriminatorio es hallar la mejor o las mejores funciones de discriminacion lineal de un
conjunto de variables que reproduzca o reproduzcan, hasta donde sea posible, un agrupamiento a priori
de los casos considerados.
En este programa se usa un procedimiento por pasos, es decir, en cada paso la variable mas poderosa entra a
la funci
on discriminatoria. La funci
on criterio para la selecci
on de la variable siguiente, depende del n
umero
de grupos especificados (el n
umero de grupos vara entre 2 y 20). En el caso de dos grupos se usa la distancia
de Mahalanobis. Cuando el n
umero de grupos es mayor que dos, entonces el criterio para la selecci
on de
variables es la huella de un producto entre la matriz de covariancia de las variables involucradas y la matriz
de covariancia interclase en una paso en particular. Esto es una generalizaci
on de la distancia de Mahalanobis
definida para dos grupos.
Ademas de ejecutar los pasos principales de analisis discriminatorio sobre una muestra b
asica, hay dos
posibilidades opcionales: verificacion del poder de la funci
on o funciones discriminatorias con la ayuda de
una muestra de prueba, para la cual se conoce la asignacion de casos a grupos (como en la muestra
b
asica) pero los cuales no se usaron en el analisis, y clasificacion de los casos con la ayuda de funcion(es)
discriminatoria(s) suministrada(s) por el analisis en una muestra an
onima en la cual se desconoce, o por
lo menos no se usa la asignacion de casos a grupos.
24.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. El filtro est
andar est
a disponible para escoger un subconjunto de casos
de los datos de entrada. Es posible hacer una subdivisi
on adicional con el uso de las variables de muestra y
de grupo. Las variables de analisis se escogen con el par
ametro VARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para un
caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Los casos con datos faltantes en
la variable de muestra, la variable de grupo y/o las variables de analisis, se pueden excluir del analisis de
manera opcional.
186
An
alisis discriminatorio (DISCRAN)
24.3.
Resultados
24.4.
Dataset de salida
187
24.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden especificar tres tipos de
muestra en el archivo de entrada:
- muestra b
asica,
- muestra de prueba,
- muestra anonima.
El analisis se basa en la muestra b
asica. La muestra de prueba se usa para probar la(s) funci
on(es) discriminatoria(s), los casos en la muestra anonima simplemente se clasifican con las funciones discriminatorias.
Las muestras se definen con una variable de muestra. La muestra b
asica no debe estar vaca. Los grupos
que se van a separar con la funci
on discriminatoria deben definirse con una variable de grupo. Esta variable
define una clasificacion a priori de la muestra b
asica y de la muestra de prueba de los casos.
Todas las variables usadas para analisis deben ser numericas; pueden tener cifras enteras o decimales. La
variable identificadora del caso y las variables para ser transferidas pueden ser alfabeticas.
24.6.
$RUN DISCRAN
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
188
An
alisis discriminatorio (DISCRAN)
24.7.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MDHA=SAMPVAR IDVAR=V4
VARS=(V12-V15)
SAVAR=R5
BASA=(1,5)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
VARS=(lista de variables)
Lista de las variables V o R a usar en el analisis.
Sin valor por defecto.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
MDHANDLING=(SAMPVAR, GROUPVAR, ANALVARS)
Seleccion del tratamiento de datos faltantes.
SAMP
Se excluyen del analisis los casos que tengan datos faltantes en la variable de muestra.
GROU
Se excluyen del analisis los casos que tengan datos faltantes en la variable de grupo de
las muestras b
asica y de prueba.
ANAL
Se excluyen del analisis los casos con datos faltantes en las variables de analisis.
Por defecto: se incluyen los casos con datos faltantes.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on si se van a ponderar los datos.
IDVAR=n
umero de variable
Variable de identificaci
on de caso para el listado de datos y/o de asigancion de casos.
Por defecto: se utiliza DISC como un identificador para todos los casos.
STEPMAX=n
M
aximo n
umero de pasos a ejecutar. Debe ser menor o igual al n
umero de variables de analisis.
Por defecto: n
umero de variables de analisis.
189
MEMORY=20000/n
Memoria necesaria para ejecuci
on del programa.
WRITE=DATA
Crear un dataset IDAMS que contenga las variables transferidas, las variables de asignacion de
grupo, el tipo de muestra y los valores de factores discriminatorios, si los hay.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
TRANSVARS=(variable list)
Variables (hasta 99) para ser transferidas al dataset de salida.
PRINT=(CDICT/DICT, OUTCDICT/OUTDICT, DATA, GROUP)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTC
Imprimir el diccionario de salida con registros C si los hay.
OUTD
Imprimir el diccionario de salida sin registros C.
DATA
Imprimir los datos con asignacion original de casos por grupos.
GROU
Imprimir para cada caso, la asignacion de grupo basada en la funci
on discriminatoria.
Especificaci
on de muestra
Estos par
ametros son opcionales. Si no se especifican, se toman todos los casos del archivo de entrada
como muestra b
asica. Las muestras de prueba y anonima, si existen, se deben definir siempre en forma
explcita. La interseccion pareada de las muestras debe estar vaca. Sin embargo, las muestras no
necesitan cubrir todo el archivo de entrada. Se puede usar un solo valor o un rango de valores para
escoger los casos que pertenecen a la muestra correspondiente:
m1 = valor de la variable de muestra
o
m1 <= valor de la variable de muestra < m2
donde m1 y m2 pueden ser valores enteros o decimales.
SAVAR=n
umero de variable
La variable usada para la definicion de la muestra. Se pueden usar variables V o variables R.
BASA=(m1, m2)
Condicional: define la muestra b
asica. Se debe suministrar si se especifica SAVAR.
TESA=(m1, m2)
Condicional y opcional: si se especifica SAVAR. Define la muestra de prueba.
ANSA=(m1, m2)
Condicional y opcional: si se especifica SAVAR. Define la muestra anonima.
Clasificaci
on de la muestra b
asica
Estos par
ametros definen los grupos a priori usados en el procedimiento de analisis discriminatorio. Todos los grupos se deben definir explcitamente y su interseccion pareada debe estar vaca. Sin embargo,
no necesitan cubrir toda la muestra b
asica.
GRVAR=n
umero de variable
La variable usada para la definicion de grupos. Se pueden usar variables V o R.
Sin valor por defecto.
190
An
alisis discriminatorio (DISCRAN)
GR01=(m1, m2)
Define el primer grupo en la muestra b
asica.
GR02=(m1, m2)
Define el segundo grupo en la muestra b
asica.
GRnn=(m1, m2)
Define el n-esimo grupo en la muestra b
asica (nn <= 20).
Nota. Por lo menos, se deben especificar dos grupos.
24.8.
Restricciones
1. N
umero maximo de grupos a priori es 20.
2. La misma variable no se puede usar dos veces.
3. El tama
no maximo de campo para la variable identificadora de caso es 4.
4. N
umero maximo de variables a ser transferidas as 99.
5. No se pueden transferir variables R.
6. Si una variable a ser transferida es alfabetica con ancho > 4, solo se usan los primeros cuatro caracteres.
24.9.
Ejemplos
Ejemplo 1. Analisis discriminatorio de todos los casos juntos; los casos se identifican con la variable V1;
se solicitan 5 pasos de analisis; los grupos a priori se definen con la variable V111 que incluye las categoras
1-6.
$RUN DISCRAN
$FILES
PRINT = DISC1.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
ANALISIS CANONICO DE DISCRIMINACION LINEAL
PRINT=(DATA,GROUP) IDVAR=V1 STEP=5 VARS=(V101-V105) GVAR=V111 GR01=(1,3) GR02=(3,5) GR03=(5,7)
Ejemplo 2. Repetir el analisis descrito en el Ejemplo 1, con el subconjunto de encuestados que tienen el
valor 1 en la variable V5 y probar los resultados con los encuestados que tienen valor 2 en la variable V5.
$RUN DISCRAN
$FILES
los mismos del ejemplo 1
$SETUP
ANALISIS DE DISCRIMINACION LINEAL USANDO MUESTRAS BASICA Y DE PRUEBA
PRINT=(DATA,GROUP) IDVAR=V1 STEP=5 VARS=(V101-V105) SAVAR=V5 BASA=1 TESA=2 GVAR=V111 GR01=(1,3) GR02=(3,5) GR03=(5,7)
Captulo 25
Funciones de distribuci
on y de Lorenz
(QUANTILE)
25.1.
Descripci
on general
25.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Se puede usar el filtro est
andar para escoger un subconjunto de casos de
los datos de entrada. Ademas, se puede hacer cada analisis sobre un conjunto adicional mediante el uso de
un par
ametro de filtro. Las variables a analizar se especifican con el par
ametro VAR.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable de ponderaci
on para ponderar los datos; esta variable
de ponderaci
on puede tener valores enteros hasta el valor maximo asignable de 32,767. N
otese que los valores
decimales se redondean al entero mas proximo. Cuando el valor de una variable de ponderaci
on para un caso
es cero, negativo, faltante, no numerico o excede el maximo, entonces el caso se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Los casos con un dato faltante en
una variable de analisis se eliminan de ese analisis.
25.3.
Resultados
192
Funciones de distribuci
on y de Lorenz (QUANTILE)
25.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables referidas (excepto
del filtro principal) deben ser numericas; pueden tener valores enteros o decimales.
25.5.
$RUN QUANTILE
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
6.
Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de subconjuntos (opcional)
QUANTILE
Especificaciones de an
alisis (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
25.6.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3 y 6 a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
INCLUDE
V5=1
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
CONSTRUCCION DE DECILES
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MDVAL=MD1, PRINT=DICT
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
193
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS. Los casos con datos faltantes se eliminan del analisis.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de subconjuntos (opcional). Estas proposiciones permiten escoger un subconjunto
de casos para un analisis en particular.
Ejemplo:
MUJERES
INCLUDE V6=2
Reglas de codificaci
on
Prototipo: nombre
proposicion
nombre
Nombre del subconjunto. 1-8 caracteres alfanumericos comenzando con una letra. Este nombre
debe coincidir exactamente con el nombre usado en las especificaciones de analisis subsecuentes.
Blancos intercalados no se permiten. Se recomienda que todos los nombres se justifiquen a la
izquierda.
proposicion
Definici
on del subconjunto que siga la sint
axis del filtro est
andar de IDAMS.
5. QUANTILE. La palabra QUANTILE en esta lnea, se
nala que siguen especificaciones de analisis.
Debe incluirse (con el objeto de separar las especificaciones de subconjunto de las especificaciones de
analisis) y solo debe aparecer una vez.
6. Especificaciones de an
alisis. Las reglas de codificacion son las mismas de los par
ametros. Cada
especificaci
on de analisis debe comenzar en una nueva lnea.
Ejemplos: VAR=R10
VAR=V25
VAR=V25
N=5
N=10
N=10
PRINT=CLORENZ
FILTER=MALE
FILTER=FEMALE
ANALID=M
KS=M
VAR=n
umero de variable
Variable a ser analizada.
Sin valor por defecto.
WEIGHT=n
umero de variable
El n
umero de la variable de ponderaci
on, si se van a ponderar los datos. En la prueba de
Kolmogorov-Smirnov no se pueden ponderar los datos.
N=20/n
N
umero de subintervalos. Si n<2 o n>100, se imprime un mensaje de advertencia y se usa 20
como valor por defecto.
194
Funciones de distribuci
on y de Lorenz (QUANTILE)
FILTER=xxxxxxxx
S
olo se usan en este analisis los casos que satisfagan la condicion definida en la especificaci
on de
subconjunto denominada xxxxxxxx. Si el nombre contiene caracteres no alfanumericos, debe estar
encerrado entre comillas sencillas. Se deben usar letras may
usculas para hacer encajar el nombre
del subconjunto el cual se convierte autom
aticamente a may
usculas.
ANALID=nombre
Un nombre para este analisis de manera que pueda ser referencia para una prueba de KolmogorovSmirnov. Si el nombre contiene caracteres no alfanumericos, debe estar encerrado entre comillas
sencillas.
KS=nombre
Es el nombre asignado a un analisis anterior, con el par
ametro ANALID y define la variable y/o
la muestra con la cual se va a comparar este analisis usando la prueba de Kolmogorov-Smirnov.
Si el nombre contiene caracteres no alfanumericos, debe estar encerrado entre comillas sencillas.
PRINT=(FLORENZ, CLORENZ)
FLOR
Imprimir la funci
on de Lorenz y los coeficientes de Gini.
CLOR
Imprimir la curva de Lorenz, dibujada en deciles. (Se imprime la funci
on de Lorenz
tambien).
Nota: si se ha especificado KS, se ignora el par
ametro PRINT.
25.7.
Restricciones
1. El n
umero maximo de variables usadas (variables de analisis + la variable de ponderaci
on + variables
en filtros locales) es 50.
2. El n
umero maximo de casos que se pueden analizar es 5000.
3. N
umero mnimo de subintervalos es 2; maximo es 100.
4. El n
umero maximo de especificaciones de subconjuntos es 25.
5. Si se usa la prueba de Kolmogorov-Smirnov, el n
umero maximo de casos que se pueden analizar es
2500.
6. La funci
on de Lorenz y la prueba de Kolmogorov-Smirnov no se pueden solicitar para el mismo analisis.
7. Los valores de los puntos de separacion siempre se imprimen con tres cifras decimales. Las variables
con mas de tres decimales se truncan a tres cuando se imprimen.
25.8.
Ejemplo
Generacion de funci
on de distribuci
on, funci
on de Lorenz y coeficientes de Gini para la variable V67; se hacen
analisis separados en todos los datos y despues en dos subconjuntos; se hace la prueba de Kolmogorov-Smirnov
para probar la diferencia de distribuciones de la variable V67 en los dos subconjuntos de datos.
$RUN QUANTILE
$FILES
PRINT = QUANT.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
COMPARACION DE DISTRIBUCION DE EDADES PARA HOMBRES Y MUJERES
*
(valores por defecto para todos los par
ametros)
FEMALE
INCLUDE V12=1
MALE
INCLUDE V12=2
QUANTILE
25.8 Ejemplo
VAR=V67
VAR=V67
VAR=V67
VAR=V67
195
N=15
N=15
N=15
N=15
PRINT=(FLOR,CLOR)
PRINT=(FLOR,CLOR) FILT=FEMALE
PRINT=(FLOR,CLOR) FILT=MALE
FILT=MALE
ANALID=F
KS=F
Captulo 26
An
alisis factorial (FACTOR)
26.1.
Descripci
on general
FACTOR cubre una serie de analisis factoriales de componentes principales y analisis de correspondencias
que tengan especificaciones comunes. Da la posibilidad de ejecutar, con una sola lectura de datos, los analisis
factoriales de correspondencias, de productos escalares, de productos escalares normados, de covariancias y
de correlaciones.
Para cada analisis, el programa construye una matriz que representa las relaciones entre las variables y calcula
sus valores propios y sus vectores propios. Despues calcula los factores de caso y variable que dan, para
cada caso y variable, su ordenada, su calidad de representacion y su contribucion a los factores. Tambien
se puede imprimir una representacion gr
afica de los factores con opciones ordinarias o simplicio-factoriales.
Los casos/variables activos (principales) son los casos/variables sobre cuya base se ejecuta el procedimiento de descomposicion factorial, es decir, se usan en la computacion de la matriz de relaciones. Tambien
se puede buscar una representacion de otros casos/variables en el espacio factorial, que corresponde a las
variables activas. Tales casos/variables (al no tener influencia en los factores) se llaman casos/variables
pasivos (suplementarions).
Se habla acerca de la representaci
on ordinaria (de casos/variables) si los valores (puntajes de factores)
que vienen directamente del analisis, se usan en la representacion grafica. Sin embargo, para una comprension mejor de la relaci
on entre casos y variables, es posible otra representacion simult
aneamente, la
representaci
on simplicio-factorial.
26.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Se puede usar el filtro est
andar para la selecci
on de un subconjunto de
casos de los datos de entrada. Las variables se escogen con los par
ametros PVARS y SVARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para un
caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Hay dos maneras de manipular los
datos faltantes:
se excluyen los casos con datos faltantes en las variables activas, en cambio, los datos faltantes en las
variables pasivas se tratan como datos validos,
se excluyen del analisis, los casos con datos faltantes en variables activas y/o pasivas.
198
26.3.
An
alisis factorial (FACTOR)
Resultados
26.4.
Dataset(s) de salida
Se pueden construir, opcionalmente, dos archivos Datos cada uno con su diccionario IDAMS asociado. En
el dataset de factores de caso, los registros corresponden a los casos (activos y pasivos), las columnas
corresponden a las variables (incluidos el identificador de casos y las variables transferidas) y a los factores.
199
En el dataset de factores de variable, los registros corresponden a las variables de analisis y las columnas
contienen las identificaciones de variables (n
umeros originales de variables) y factores.
Las variables de salida se numeran secuencialmente a partir de 1 y tienen las caractersticas siguientes:
Variable identificadora de casos y variables transferidas: las variables V tienen las mismas caractersticas que su equivalente de entrada, las variables de Recode salen con WIDTH=9 y DEC=2.
Variables calculadas de factores:
Nombre
Ancho de campo
Nr. de decimales
MD1 et MD2
26.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para analisis
deben ser numericas; pueden tener valores enteros o decimales. Deben ser dicotomizadas o medidas en
una escala de intervalo. La variable de identificacion de caso y las variables a ser transferidas pueden ser
alfabeticas. Hay dos clases de variables de analisis, activas y pasivas. Adicionalmente, debe existir una variable
que identifique el caso. Se pueden escoger otras variables para ser transferidas al archivo de salida de factores
de caso. Se pueden especificar uno o mas casos al final del archivo de entrada como casos pasivos.
Para analisis de correspondencias, son adecuados dos tipos de datos: a) variables dicotomicas de un archivo
Datos primarios o b) una tabla de contingencia descrita por un diccionario y entrada como un dataset.
26.6.
$RUN FACTOR
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de gr
aficos definidos por el usuario (condicional)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
DICTzzzz
DATAzzzz
PRINT
200
An
alisis factorial (FACTOR)
26.7.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los listados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
MDHANDLING=PRINCIPAL/ALL
PRIN
Se excluyen del analisis, los casos con datos faltantes en las variables activas y se
incluyen los casos pasivos que tengan datos faltantes. Los factores de variables pasivas
se basan solo en datos validos.
ALL
Se excluyen todos los casos con datos faltantes.
ANALYSIS=(CRSP/NOCRSP, SSPRO, NSSPRO, COVA, CORR)
Seleccion del analisis.
CRSP
Analisis factorial de correspondencias.
SSPR
Analisis factorial de productos escalares.
NSSP
Analisis factorial de productos escalares normados.
COVA
Analisis factorial de covariancias.
CORR
Analisis factorial de correlaciones.
PVARS=(lista de variables)
Lista de variables V o R a usar como variables activas (principales).
Sin valor por defecto.
SVARS=(lista de variables)
Lista de variables V o R a usar como variables pasivas (suplementarias).
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on si se van a ponderar los datos.
201
NSCASES=0/n
N
umero de casos pasivos. Nota: estos casos no se incluyen en el c
alculo de las estadsticas, matriz
y factores; son los u
ltimos n del archivo Datos.
IDVAR=n
umero de variable
Variable de identificaci
on de caso usada para identificar puntos en los graficos y para identificar
casos en el archivo de salida.
Sin valor por defecto.
KAISER/NFACT=n/VMIN=n
Criterio para determinar el n
umero de factores.
KAIS
Criterio de Kaiser - n
umero de races mayor de 1.
NFAC
N
umero de factores deseado.
VMIN
El porcentaje mnimo de variancia a ser explicado por los factores tomados todos
juntos. No debe teclearse el decimal, por ej. VMIN=95.
ROTATION=KAISER/UDEF/NOROTATION
Especifica rotacion VARIMAX de factores de variable. S
olo analisis de correlaciones.
KAIS
El n
umero de factores a rotar se define de acuerdo con el criterio de KAISER.
UDEF
El numero de factores a rotar lo especifica el usuario (ver el par
ametro NROT).
NROT=1/n
N
umero de factores a rotar (si se especifica ROTATION=UDEF).
WRITE=(OBSERV, VARS)
Controla la salida de archivos de factores de caso y variable. Si se solicita mas de un analisis
con el par
ametro ANALYSIS, estos archivos seran para el primer analisis especificado.
OBSE
Crear un archivo que contenga factores de caso.
VARS
Crear un archivo que contenga factores de variable.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos para los factores de
caso.
Por defecto: DICTOUT, DATAOUT.
OUTVFILE=OUTV/zzzz
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos para los factores de
variable.
Por defecto: DICTOUTV, DATAOUTV.
TRANSVARS=(lista de variables)
Variables a transferir (hasta 99) al archivo de salida de factores de caso.
FNAME=uuuu
Una cadena de 1-4 caracteres usada como prefijo para nombres de variables de factores en los diccionarios de salida. Debe encerrarse entre comillas sencillas si contiene caracteres no-alfanumericos.
Los factores tienen los nombres uuuuFACT0001, uuuuFACT0002, etc.
Por defecto: espacio en blanco.
PLOTS=STANDARD/USER/NOPLOTS
Controla la representacion gr
afica de los resultados.
STAN
Se imprimen gr
aficos est
andar para pares de factores 1-2, 1-3, 2-3 con las opciones
PAGES=1, OVLP=LIST, NCHA=4, REPR=COOR, VARPL=(PRIN,SUPP).
USER
Se desean gr
aficos definidos por el usuario (ver par
ametros de control para graficos
definidos por el usuario, mas adelante).
202
An
alisis factorial (FACTOR)
PRINT=(CDICT/DICT, OUTCDICTS/OUTDICTS, STATS, DATA, MATRIX,
VFPRINC/NOVFPRINC, VFSUPPL, OFPRINC, OFSUPPL)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTC
Imprimir diccionarios de salida con registros C, si los hay.
OUTD
Imprimir diccionarios de salida sin registros C.
STAT
Imprimir las estadsticas de variables activas y pasivas.
DATA
Imprimir los datos de entrada.
MATR
Imprimir matriz de relaciones (n
ucleo) y vectores propios.
VFPR
Imprimir factores de variable para las variables activas.
VFSU
Imprimir factores de variable para variables pasivas.
OFPR
Imprimir factores de caso para los casos activos.
OFSU
Imprimir factores de caso para los casos pasivos.
4. Especificaciones de gr
aficos definidos por el usuario. (Condicional: si PLOT=USER se especifica
como par
ametro). Repetir para cada gr
afico bi-dimensional a imprimir. Las reglas de codificacion son
las mismas de los par
ametros. Cada especificaci
on de grafico debe comenzar en una lnea nueva.
Ejemplo:
X=3
Y=10
X=n
umero de factor
N
umero del factor a representar en el eje horizontal.
Y=n
umero de factor
N
umero del factor a representar en el eje vertical (ver tambien el par
ametro FORMAT=STANDARD).
ANSP=ALL/CRSP/SSPRO/NSSPRO/COVA/CORR
Especifica los analisis para los cuales se van a imprimir los graficos.
ALL
Graficos para todos los analisis especificados en el par
ametro ANALYSIS.
Para el resto, se imprime un gr
afico para un solo analisis (las palabras clave tienen el mismo
significado que para el par
ametro ANALYSIS). Estas opciones implican un solo grafico.
OBSPLOT=(PRINCIPAL, SUPPL)
Seleccion de casos a representar en el grafico o graficos.
PRIN
Representar casos activos.
SUPP
Representar casos pasivos.
VARPLOT=(PRINCIPAL/NOPRINCIPAL, SUPPL)
Seleccion de variables a representar en el grafico o graficos.
PRIN
Representar variables activas.
SUPP
Representar variables pasivas.
REPRESENT=COORD/BASVEC/NORMBV
Seleccion de representacion simult
anea de puntos (casos/variables).
COOR
Coordenadas como se indican en la tabla de factores.
BASV
Representar vectores b
asicos.
NORM
Representar vectores b
asicos con norma especial para la representacion simpliciofactorial.
OVLP=FIRST/LIST/DEN
Opcion concerniente a la representacion de puntos traslapados.
FIRS
Imprimir el n
umero de la variable/identificacion de casos solo del primer punto.
LIST
Dar una lista vertical de los puntos que tengan la misma abscisa en el grafico, hasta
hallar otro punto (entonces se pierden los n
umeros de variable y/o los identificadores
de caso).
26.8 Restricciones
DEN
203
Imprimir la densidad (n
umero de puntos traslapados). Imprimir para un punto .,
para dos puntos (traslapados) :, para tres puntos 3, etc, para 9 puntos 9, para
mas de 9 puntos *. Se debe especificar NCHAR=2 si se selecciona esta opcion.
NCHAR=4/n
N
umero de dgitos/caracteres usados para la identificacion de variables/casos en el grafico o
gr
aficos (1 a 4 caracteres).
PAGES=1/n
N
umero de p
aginas por gr
afico.
FORMAT=STANDARD/NONSTANDARD
Define el tama
no del marco del grafico.
STAN
Usar un marco de 21 x 30 centmetros para el grafico que muestra el factor con rango
mas amplio en el eje horizontal y usa diferentes escalas para los dos ejes.
NONS
El marco no se estandariza en el sentido indicado en la opcion anterior. El tama
no del
gr
afico se define con PAGES=n y los ejes son X e Y.
26.8.
Restricciones
1. N
umero maximo de variables de analisis es 80.
2. Se debe especificar una y solo una variable de identificacion.
3. N
umero maximo de variables a ser transferidas es 99.
4. N
umero maximo de variables de entrada incluidas aquellas usadas en proposiciones de filtro y de Recode
es 100.
5. N
umero maximo de gr
aficos definidos por el usuario es 24.
6. Si la variable de identificaci
on o una variable a ser transferida es alfabetica con ancho > 4, solo se usan
los primeros cuatro caracteres.
7. Los par
ametros deben cumplir las siguientes especificaciones:
max(D1,D2,D3) < 5000
donde
D1 = NPV * NPV + 10 * NV
D2 = NV * (NF + 6) + NPV * NIF
D3 = NV + NF + NIF + 3 * NP
y NV, NPV, NF, NIF, NP denominan el n
umero total de variables de analisis, n
umero de variables
activas, n
umero de factores a calcular, n
umero de factores a ignorar y n
umero maximo de puntos a
representar en gr
aficos, respectivamente.
26.9.
Ejemplos
204
An
alisis factorial (FACTOR)
$RUN FACTOR
$FILES
PRINT = FACT1.LST
DICTIN = A.DIC
archivo Diccionario de entrada
DATAIN = A.DAT
archivo Datos de entrada
$SETUP
ANALISIS FACTORIAL DE CORRELACIONES
ANAL=(NOCR,CORR) ROTA=KAISER NFACT=7 IDVAR=V1 PRINT=(STATS,MATRIX) PVARS=(V12-V16,V101-V115)
Ejemplo 3. Analisis de correspondencias sobre una tabla de contingencia descrita por un diccionario y
entrada como un dataset en un archivo Setup a ejecutar; el n
umero de factores se define de acuerdo con
el criterio de Kaiser; se imprimiran la matriz de relaciones seguida de factores de variables y de casos; los
gr
aficos seran definidos por el usuario ya que se pide una projeccion de casos.
$RUN FACTOR
$FILES
PRINT = FACT3.LST
$SETUP
ANALISIS DE CORRESPONDENCIAS SOBRE UNA TABLA DE CONTINGENCIA
BADD=MD1 IDVAR=V8 PLOTS=USER PRINT=(MATRIX,OFPRINC) PVARS=(V31-V33)
$DICT
3
8 33
1
1
T
8 Grado cient
fico
1
20
C
8
81
Professor
C
8
82
Ass.Prof.
C
8
83
Doctor
C
8
84
Ma^
trise
C
8
85
Licencia
C
8
86
Otro
T 31 Jefe
4
20
T 32 Cient
fico
7
20
T 33 T
ecnico
10
20
$DATA
81 5 0 0
82 1 3 0
83 0 17 01
84 0 28 04
85 0 0 01
86 0 0 17
Captulo 27
Regresi
on lineal (REGRESSN)
27.1.
Descripci
on general
206
Regresi
on lineal (REGRESSN)
En cada paso el algoritmo selecciona a partir de las variables predictoras que quedan, la variable o el
conjunto de variables ficticias que produzcan la reduccion mas baja en la variancia explicada de la variable
dependiente, a menos que esta exceda un umbral especificado. Igualmente, el algoritmo eval
ua en cada paso
si la contribucion de alguna variable o conjunto de variables ficticias previamente suprimidas de la regresion,
se ha elevado por encima de un umbral especificado, caso en el cual, se vuelve a incluir en la regresion.
Generaci
on de un dataset de residuos. Con datos primarios como entrada, se pueden calcular residuos
y llevarlos como un archivo Datos de salida descrito por un diccionario IDAMS. Ver la secci
on Datasets
de residuos de salida para detalles del contenido. N
otese que para cada ecuaci
on, se genera un dataset
de residuos separado. Tambien, como REGRESSN no tiene la capacidad de transferir variables de interes
especfico en un analisis de residuos a partir de los datos primarios de entrada al dataset de residuos, puede
ser necesario usar el programa MERGE para crear el dataset que contenga todas las variables deseadas.
Una variable de identificaci
on de caso (ID) del dataset de entrada se lleva al dataset de residuos para hacer
posible el encaje.
Generaci
on de una matriz de correlaci
on. Si entran datos primarios, el programa calcula coeficientes
de correlaci
on que pueden salir en el formato de una matriz cuadrada de IDAMS y ser usados para analisis
posteriores. Las correlaciones de REGRESSN incluyen todas las variables de todas las ecuaciones de regresion
y se basan en casos con datos validos en todas las variables de la matriz. De esta manera, las correlaciones
seran generalmente diferentes de las correlaciones obtenidas con el programa PEARSON cuando se ejecuta
con la opocion MDHANDLING=PAIR. Cuando la eliminacion de datos faltantes en REGRESSN deja un
tama
no de muestra aceptablemente grande, REGRESSN es una alternativa de PEARSON para generar
matrices de correlaci
on (ver par
agrafo Tratamiento de datos faltantes).
27.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Si entran datos primarios, se puede usar el filtro est
andar para escoger un
subconjunto de casos a partir de los datos de entrada. Si se utiliza una matriz de correlaci
on como entrada
al programa, no se puede usar la selecci
on de casos. Las variables para la ecuaci
on de regresion se especifican
en los par
ametros DEPVAR y VARS.
Transformaci
on de datos. Si entran datos primarios, se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Si entran datos primarios, se puede usar una variable para ponderar los datos de
entrada; esta variable de ponderaci
on puede tener cifras enteras o decimales. El programa forzar
a la suma
de las ponderaciones para que sea igual al n
umero de casos de entrada. Cuando el valor de la variable de
ponderaci
on para un caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite;
se imprime el n
umero de casos as tratados.
Tratamiento de datos faltantes.
1. Entrada. Si entran datos primarios, el par
ametro MDVALUES est
a disponible para indicar cuales
valores de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Los casos en los cuales
haya datos faltantes para cualquier variable de regresion en cualquier analisis se eliminan (eliminacion
de datos faltantes por casos). Una opci
on (ver par
ametro MDHANDLING) permite al usuario especificar el maximo n
umero de casos con datos faltantes que puede tolerarse antes de terminar la ejecuci
on.
Advertencia: si se llevan a cabo analisis m
ultiples en una ejecuci
on de REGRESSN, se calcula una sola
matriz de correlaci
on para todas las variables utilizadas en los diferentes analisis. Por causa del metodo
de eliminacion de casos con datos faltantes por casos, el n
umero de casos usado y por lo tanto las
estadsticas de regresion producidas pueden ser diferentes si los analisis se llevan a cabo separadamente.
Si entra una matriz, los casos con datos faltantes se han debido acomodar al crear la matriz. Si una
celda de la matriz de entrada tiene un c
odigo de dato faltante (es decir, 99.999) cualquier analisis que
involucre dicha celda, se omite.
2. Residuos de salida. Si se piden residuos, se calculan para todos los casos que pasen el filtro (opcional)
valores predichos y residuos. Si un caso tiene datos faltantes en cualquiera de las variables requeridas
para estos c
alculos, se generan c
odigos de datos faltantes en la salida.
3. Matriz de correlaci
on de salida. El algoritmo de REGRESSN para el manejo de datos faltantes en
la entrada de datos primarios no puede resultar en valores de datos faltantes en la matriz de correlaci
on.
27.3 Resultados
27.3.
207
Resultados
27.4.
Matriz de correlaci
on de salida
208
Regresi
on lineal (REGRESSN)
N=nnnnn
REG xxx
MEAN xxx
SDEV xxx
(nnnnn es el tama
no de la muestra de REGRESSN. Las xxx corresponden a un n
umero secuencial que
comienza con 1 para el primer registro de correlaci
on y se incrementa de uno en uno para cada registro
sucesivo hasta el u
ltimo registro de desviaci
on est
andar).
Los elementos de la matriz son r de Pearson. Estas r, as como las medias y las desviaciones est
andar se
basan en casos que tienen datos validos en todas las variables especificadas en cualquiera de las listas de
variables de regresion. Las correlaciones son para todos los pares de variables de toda la lista de variables de
analisis, tomadas a la vez.
27.5.
1
2
3
4
5
Nombre
igual a entrada
igual a entrada
Predicted value
Residual
igual a entrada
Ancho de
campo
N
umero de
decimales
Codigo
MD1
*
*
7
7
*
0
**
***
***
**
igual a entrada
igual a entrada
9999999
9999999
igual a entrada
27.6.
Dataset de entrada
El dataset de entrada de datos primarios es un archivo Datos descrito por un diccionario IDAMS. Todas
las variables usadas para analisis deben ser numericas; pueden ser enteras o con decimales. La variable
identificadora de casos puede ser alfabetica.
27.7.
Matriz de correlaci
on de entrada
27.8.
209
$RUN REGRESSN
$FILES
Especificaci
on de archivos
$RECODE (opcional con datos primarios como entrada;
no se usa con entrada matricial)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
Filtro (opcional)
T
tulo
Par
ametros
Definici
on de variables ficticias (condicional)
Especificaciones de regresi
on (tantas como sean necesarios)
$DICT (condicional)
Diccionario para entrada de datos primarios
$DATA (condicional)
Datos primarios de entrada
$MATRIX (condicional)
Matriz de correlaci
on de entrada
Archivos:
FT02
FT09
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
27.9.
matriz de correlaci
on de salida
matriz de correlaci
on de entrada
(si no se usa $MATRIX e INPUT=MATRIX)
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de residuos de salida ) un conjunto por cada
datos de residuos de salida
) archivo de residuos
resultados (por defecto IDAMS.LST)
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3 y 5, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on. Disponible solo con
datos primarios de entrada.
Ejemplo:
INCLUDE
V3=5
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
ANALISIS DE REGRESION
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
IDVAR=V1
MDHANDLING=100
210
Regresi
on lineal (REGRESSN)
INPUT=RAWDATA/MATRIX
RAWD
Los datos de entrada vienen en la forma de un archivo Datos descrito por un diccionario
IDAMS.
MATR
Los datos de entrada son coeficientes de correlaci
on en la forma de una matriz cuadrada
de IDAMS.
Par
ametros s
olo para datos primarios de entrada
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
MDHANDLING=0/n
N
umero de casos con datos faltantes admitido antes de terminar. Un caso se considera faltante si
este contene datos faltantes en cualquiera de las variables de las ecuaciones de regresion.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
CATE
Se especifica CATE si se suministra una definicion de variables ficticias.
IDVAR=n
umero de variable
Variable que se lleva a la salida o se imprime como identificadora de casos si se han solicitado
dataset de residuos. La variable de identificacion no se debe incluir en ninguna lista de variables.
WRITE=MATRIX
Escribir la matriz de correlaci
on calculada a partir de los datos primarios de entrada en un archivo
de salida.
PRINT=(CDICT/DICT, XMOM, XPRODUCTS, MATRIX)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
XMOM Imprimir la matriz de sumas residuales de cuadrados y productos cruzados.
XPRO
Imprimir la matriz de sumas totales de cuadrados y de productos cruzados.
MATR
Imprimir la matriz de correlaci
on.
Par
ametros para entrada de la matriz de correlaci
on
CASES=n
Haga CASES igual al n
umero de casos usados para la creacion de la matriz de entrada. Este
n
umero se utiliza en el c
alculo del nivel F.
No admite valor por defecto; debe suministrarse cuando entra la matriz de correlaci
on.
PRINT=MATRIX
Imprimir la matriz de correlaci
on.
211
4. Definici
on de variables ficticias (condicional: si se ha especificado CATE como un par
ametro). El
programa REGRESSN puede transformar una variable categorica en un conjunto de variables ficticias.
Para tener un tratamiento de variables como categoricas, el usuario debe: a) incluir el par
ametro
CATE en la lista de par
ametros y b) especificar cuales variables se van a considerar como categoricas
y los c
odigos a usar. Cada variable categorica a transformar est
a seguida de los c
odigos a usar entre
parentesis cuadrados. Para cada variable, los c
odigos no listados se excluyen de la construcci
on. Nota:
la lista de c
odigos no debe ser exahustiva, es decir, no se deben imprimir todos los c
odigos existentes
o de lo contrario, resultara una matriz singular.
Ejemplo:
V100(5,6,1), V101(1-6)
Los c
odigos 5, 6 y 1 de la variable 100 se representar
an en la regresion como variables ficticias,
as como tambien los c
odigos 1 a 6 de la variable 101.
Una variable especificada en la definicion de variables ficticias, cuando se use en listas de variables
predictoras (VARS), variables parciales (PARTIALS) o variables forzadas (FORCE) para regresion
por pasos, se referir
an al conjunto de variables ficticias creado a partir de esa variable. En regresiones
por pasos, los c
odigos de esa variable entraran o se excluiran ambos a la vez, las R cuadradas marginales
y los cocientes-F se calculan para todos los c
odigos de las variables conjuntamente as como para los
c
odigos individualmente. Una variable usada en la definicion de variables ficticias no se puede usar
como variable dependiente.
5. Especificaciones de regresi
on. Las reglas de codificacion son las mismas de los par
ametros. Cada
conjunto de par
ametros de regresion debe comenzar en una nueva lnea.
Ejemplo:
DEPV=V5
METH=STEP
FORCE=(V7) VARS=(V7,V16,V22,V37-V47,R14)
METHOD=STANDARD/STEPWISE/DESCENDING
STAN
Se hace regresion est
andar.
STEP
Se hace regresion por pasos.
DESC
Se hace una regresion descendente por pasos.
DEPVAR=n
umero de variable
N
umero de la variable dependiente.
Sin valor por defecto.
VARS=(lista de variables)
Las variables independientes que se van a usar en el analisis.
Sin valor por defecto.
PARTIALS=(lista de variables)
Calcular e imprimir una matriz de correlaci
on parcial con las variables eliminadas de la lista de
variables independientes.
Por defecto: no hay parciales.
FORCE=(lista de variables)
Forzar las variables listadas a entrar en la regresion por pasos (METHOD=STEP) o a permanecer
en la regresion descendente por pasos (METHOD=DESC).
Por defecto: no hay forzamiento.
FINRATIO=.001/n
El valor del cociente F por debajo del cual una variable no entra al procedimiento por pasos; este
es el cociente F para entrar. Debe darse el punto decimal.
FOUTRATIO=0.0/n
El valor del cociente F por encima del cual una variable se debe mantener para permanecer en el
procedimiento por pasos; este es el cociente F para retirar. Debe darse el punto decimal.
212
Regresi
on lineal (REGRESSN)
CONSTANT=0
S
olo para la entrada de datos primarios.
El termino constante debe ser igual a cero y no se estimara termino constante.
Por defecto: se calcula un termino constante.
WRITE=RESIDUALS
Los residuos se escriben en un dataset IDAMS.
OUTFILE=OUT/yyyy
Se aplica solamente cuando se ha especificado WRITE=RESI.
Un sufijo de ddname de 1-4 caracteres para los archivos del diccionario y de los datos de residuos
de salida. Si se llevan los residuos al archivo de salida para mas de un analisis, el nombre por
defecto OUT, solo puede utilizarse una sola vez.
PRINT=(STEP, RESIDUALS, ERESIDUALS, INVERSE)
STEP
Se aplica solamente a una regresion por pasos: imprimir R cuadradas marginales para
todos los predictores en cada paso.
RESI
Imprimir los residuos en el orden de los casos de entrada y la estadstica de DurbinWatson.
ERES
Imprimir los residuos, excepto para datos faltantes, en orden de magnitud del error,
siempre que haya menos de 1000 casos.
INVE
Imprimir la matriz de correlaci
on inversa.
27.10.
Restricciones
1. Con datos primarios como entrada, puede haber hasta 99 o 100 variables distintas, (dependiendo de si
hay o no hay una variable de ponderaci
on) para utilizar en una sola ecuaci
on de regresion; el n
umero
total de variables en todo el analisis, incluidas las variables de Recode, la variable de ponderaci
on y la
variable de identificaci
on, no puede ser mayor de 200.
2. Cuando la entrada es una matriz, esta puede ser de 200 x 200 y se pueden usar hasta 100 variables en
una sola ecuaci
on de regresion.
3. FINRATIO debe ser mayor o igual a FOUTRATIO.
4. Los residuos se pueden listar en orden ascendente por valor de residuo si hay menos de 1000 casos.
5. Una variable especificada en la definicion de variables ficticias, no puede usarse como variable dependiente.
6. M
aximo se pueden definir 12 variables ficticias a partir de una variable categorica.
7. Si la variable de identificaci
on es alfabetica con ancho > 4, solo se usan los primeros cuatro caracteres.
27.11.
Ejemplos
Ejemplo 1. Regresi
on est
andar con cinco variables independientes con una matriz de correlaci
on IDAMS
como entrada.
$RUN REGRESSN
$FILES
FT09 = A.MAT
archivo Matriz de entrada
SETUP
REGRESION ESTANDAR - USA MATRIZ DE ENTRADA
INPUT=MATR CASES=1460
DEPV=V116 VARS=(V18,V36,V55-V57)
27.11 Ejemplos
213
Ejemplo 2. Regresi
on est
andar con seis variables independientes y dos variables cada una con 3 categoras
transformadas a 6 variables ficticias; se usan datos primarios de entrada; se van a calcular residuos y se
escriben en un dataset de salida (los casos se identifican con la variable V2).
$RUN REGRESSN
$FILES
PRINT
= REGR2.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
DICTOUT = RESID.DIC
archivo Diccionario de los residuos
DATAOUT = RESID.DAT
archivo Datos para residuos
$SETUP
REGRESION ESTANDAR - USA DATOS PRIMARIOS DE ENTRADA Y ESCRIBE RESIDUOS
MDHANDLING=50 IDVAR=V2 CATE
V5(1,5,6),V6(1-3)
DEPV=V116 WRITE=RESI VARS=(V5,V6,V8,V13,V75-V78)
Ejemplo 3. Dos regresiones: una est
andar y una por pasos con datos primarios como entrada.
$RUN REGRESSN
$FILES
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
DOS REGRESIONES
PRINT=(XMOM,XPROD)
DEPV=V10 VARS=(V101-V104,V35) PRINT=INVERSE
DEPV=V11 METHOD=STEP PRINT=STEP VARS=(V1,V3,V15-V18,V23-V29)
Ejemplo 4. Regresi
on en dos etapas; la primera usa las variables V2 - V6 para estimar los valores de la
variable dependiente V122; en la segunda etapa, dos variables adicionales V12, V23 se usan para estimar los
valores predichos de V122, es decir V122 sin los efectos de V2 - V6.
En la primera regresion, los valores predichos para la variable dependiente (V122) se calculan y se escriben
en el archivo de residuos (OUTB) como la variable V3. Despues se usa el programa MERGE para intercalar
esta variable con las variables del archivo original que se necesitan en la segunda etapa. El dataset de salida
de MERGE (un archivo temporal y por lo tanto no es necesario definirlo) tendra cinco variables de la lista
de construcci
on, numeradas V1 a V5, donde A12 y A23 (para usar como predictores de la segunda etapa) se
convierten en V2 y V3, A122, la variable dependiente original, se convierte en V4 y B3, la variable que da
los valores predichos de V122, se convierte en V5. Este archivo de salida se utiliza entonces como entrada de
la segunda etapa.
$RUN REGRESSN
$FILES
PRINT
= REGR4.LST
DICTIN
= STUDY.DIC
archivo Diccionario de entrada
DATAIN
= STUDY.DAT
archivo Datos de entrada
DICTOUTB = RESID.DIC
archivo Diccionario de los residuos
DATAOUTB = RESID.DAT
archivo Datos para residuos
$SETUP
REGRESION EN DOS ETAPAS - PRIMERA ETAPA
MDHANDLING=100 IDVAR=V1
DEPV=V122 WRITE=RESI OUTF=OUTB VARS=(V2-V6)
$RUN MERGE
$SETUP
INTERCALACION DE LOS VALORES PREDICHOS (V3 EN ARCH.DE RES.) EN ARCH DE DATOS
MATCH=INTE INAF=IN INBF=OUTB
A1=B1
A1,A12,A23,A122,B3
214
Regresi
on lineal (REGRESSN)
$RUN REGRESSN
$SETUP
REGRESION EN ETAPAS - SEGUNDA ETAPA
MDHANDLING=100 INFI=OUT
DEPV=V5 VARS=(V2,V3)
Captulo 28
Escalamiento multidimensional
(MDSCAL)
28.1.
Descripci
on general
216
Esfuerzo. El esfuerzo es una medida de la bondad del ajuste de la configuracion a los datos. El usuario
puede escoger entre dos f
ormulas para calcular el coeficiente de esfuerzo: el esfuerzo se estandariza por la
suma de las distancias cuadradas desde la media (SQDIST) o bien, el esfuerzo se estandariza por la suma de
las desviaciones cuadradas desde la media (SQDEV). En muchas situaciones, las configuraciones obtenidas
por las dos formulas no son sustancialmente diferentes. En la formula 2, se obtienen valores mas altos del
esfuerzo para el mismo grado de ajuste.
Ataduras en los coeficientes de entrada. Hay dos metodos alternos para el manejo de ataduras entre los
datos de entrada; las distancias correspondientes puede requerirse que sean iguales (TIES=EQUAL) o puede
permitirse diferir (TIES=DIFFER). Cuando hay pocas ataduras, es muy poca la diferencia entre las dos
alternativas. Cuando hay gran n
umero de ataduras, hay diferencia y se hace necesario considerar el contexto
para hacer la selecci
on.
28.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. El filtrado de casos debe hacerse en el momento de creacion de la matriz,
no en MDSCAL. El par
ametro VARS permite que los c
alculos se hagan sobre subconjuntos de la matriz y
no sobre toda la matriz.
Transformaci
on de datos. No se aplica el uso de las proposiciones de Recode con MDSCAL. La transformaci
on de los datos debe hacerse al crear la matriz.
Ponderaci
on de datos. La ponderaci
on en el sentido usual (ponderar casos para corregir diferentes tasas
de muestreo o diferentes niveles de agregacion) debe hacerse antes de usar MDSCAL; tales ponderaciones
deben ser incorporadas como datos en la matriz de entrada. Hay una opcion de ponderaci
on de naturaleza
muy diferente en MDSCAL (ver el par
ametro INPUT=WEIGHTS). Se puede usar para asignar ponderaci
on
a las celdas de las matriz de entrada; el usuario suministra una matriz de valores que se van a usar como
coeficientes de ponderaci
on para los elementos correspondientes en la matriz de entrada.
Tratamiento de datos faltantes. Los datos faltantes de casos individuales se deben tener en cuenta en el
momento de formaci
on de la matriz, no en MDSCAL. Si despues de haber creado la matriz, falta una entrada
de la misma, es decir, contiene un c
odigo de dato faltante, existe la posibilidad de procesarlo en MDSCAL.
La opcion de recorte de MDSCAL (ver el par
ametro CUTOFF) se puede usar para excluir del analisis los
valores de datos faltantes si estos son menores que valores de datos validos. MDSCAL no tiene la opcion de
reconocer c
odigos de datos faltantes que sean n
umeros grandes (tales como 99.999, que es el c
odigo de datos
faltantes emitido por PEARSON). Si existen c
odigos de datos faltantes grandes, estos deberan editarse a
n
umeros peque
nos. Si una variable en particular, tiene muchos valores faltantes de entrada, posiblemente
debera ser excluida del analisis.
28.3.
Resultados
el n
umero de la iteraci
on
el valor actual del esfuerzo
el valor actual del cociente de esfuerzo
el promedio actual del cociente de esfuerzo (es un promedio ponderado exponencial)
el coseno del
angulo entre el gradiente actual y el gradiente previo
el promedio del coseno del
angulo entre gradientes sucesivos (un promedio ponderado)
el promedio del valor absoluto del coseno del angulo entre gradientes sucesivos
(un promedio ponderado)
la longitud (m
as apropiadamente, el factor de escala) del gradiente
el tama
no del paso.
217
28.4.
Matriz de configuraci
on de salida
28.5.
La entrada usual a MDSCAL es una matriz cuadrada IDAMS (ver el captulo Los datos en IDAMS).
Esta matriz es la mitad superior derecha sin diagonal y se define con el par
ametro INPUT=STANDARD.
TABLES y PEARSON generan matrices que son aptas para entrar a MDSCAL. La media y la desviacion
est
andar no se usan, pero se deben suministrar registros ficticios apropiados. MDSCAL acepta matrices
en otros formatos adicionalmente al triangulo superior derecho sin diagonal. Sin embargo, tales matrices
deben tener la porci
on del diccionario de una matriz cuadrada IDAMS y deben tener registros al final, que
contengan la pseudo-media y la pseudo-desviacion est
andar.
Los siguientes par
ametros de entrada, indican el formato exacto de la matriz de entrada:
STAN
STAN, DIAG
LOWER, DIAG
LOWER
SQUARE
Las medidas contenidas en la matriz de datos pueden ser de similitud (tales como correlaciones) o de disimilitud. Aunque la entrada a MDSCAL, es normalmente, una matriz de coeficientes de correlaci
on (por ej.
una matriz de gamas o una matriz de r de Pearson), la matriz de entrada puede contener cualquier medida
que tenga sentido como medida de proximidad. Como el escalamiento no metrico hace uso solamente de la
ordinalidad de los datos, no se requiere suponer nada acerca de las propiedades cuantitativas o numericas
de los mismos. Al final debe haber el doble de variables que dimensiones.
28.6.
Si se suministra una matriz de ponderaciones, debe tener exactamente el mismo formato de la matriz de datos.
El par
ametro INPUT=(STAN/LOWE/SQUA,DIAG) se aplica a la matriz de ponderaciones, tanto como a
la matriz de datos. El diccionario para la matriz de ponderaciones debe ser el mismo de la matriz de datos.
No se utilizan medias ni desviaciones est
andar, pero se deben suministrar las lneas ficticias correspondientes.
Esta matriz contiene valores en correspondencia uno a uno con la matriz de datos, los cuales se usaran como
ponderaciones para los datos. Estos valores se usan conjuntamente con el valor del par
ametro CUTOFF al
aplicarlos a los datos. Si un dato es mayor que el valor correspondiente del par
ametro CUTOFF, pero su
ponderaci
on correspondiente es menor o igual a cero, entonces se se
nala una condicion de error. Similarmente,
si el dato es menor o igual al valor del par
ametro CUTOFF y su ponderaci
on correspondiente es mayor de
218
cero, se genera una condicion de error. Si se presenta una de estas inconsistencias, la ejecuci
on termina.
28.7.
Matriz de configuraci
on de entrada
La configuracion de entrada debe estar en el formato de una matriz rectangular de IDAMS. Ver el captulo
Los datos en IDAMS.
Suministra una configuracion inicial, a partir de la cual se llevan a cabo los c
alculos. Las filas deben representar las variables y las columnas las dimensiones. Usualmente es producida por una ejecuci
on previa de
MDSCAL y se pueda continuar una ejecuci
on anterior, en el punto en el cual esta quedo.
La matriz debe tener tantas dimensiones como hayan sido dadas para el par
ametro DMAX.
Nota: si se especifica una lista de variables (VARS), MDSCAL usa las primeras n filas de la configuracion
de entrada, donde n es el n
umero de variables del subconjunto, sin verificar los numeros de variable.
28.8.
$RUN MDSCAL
$FILES
Especificaci
on de archivos
$SETUP
1. T
tulo
2. Par
ametros
$MATRIX (condicional)
Matriz de datos
Matriz de ponderaciones
Matriz de configuraci
on inicial
(Nota: no es necesario incluir todas las matrices aqu
; sin embargo, si
se incluyen m
as matrices,
estas deben estar en el orden arriba indicado).
Archivos:
FT02
FT03
FT05
FT08
PRINT
28.9.
matriz de configuraci
on de salida
matriz de ponderaciones de entrada, si se ha especificado INPUT=WEIGHTS
(omitir si se usa $MATRIX)
configuraci
on inicial de entrada, si se ha especificado INPUT=CONFIG
(omitir se usa $MATRIX)
matriz de datos de entrada (omitir si se usa $MATRIX)
resultados (por defecto IDAMS.LST)
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-2, a continuacion.
1. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
2. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
DMAX=5
ITER=75
WRITE=CONFIG
219
220
SFGRMN=0.0/n
El valor mnimo de factor de escala de gradiente. El proceso de escalamiento se detiene cuando se
alcanza el valor mnimo de la magnitud del gradiente.
SRATIO=.999/n
El cociente de esfuerzo. El proceso de escalamiento se detiene si el cociente de esfuerzo entre dos
pasos consecutivos alcanza n.
ACSAVW=.66/n
El factor de ponderaci
on para el promedio del valor absoluto del coseno del angulo entre dos
gradientes sucesivos.
COSAVW=.66/n
El factor de ponderaci
on del promedio del coseno del angulo entre dos gradientes sucesivos.
STRESS=SQDIST/SQDEV
SQDI
Calcular el esfuerzo utilizando la estandarizacion por la suma de las distancias cuadradas.
SQDE
Calcular el esfuerzo utilizando la estandarizacion por la suma de las desviaciones
cuadradas desde la media.
WRITE=CONFIG
Guardar en un archivo la configuracion final de cada solucion.
PRINT=(MATRIX, SORTCONF, LONG/SHORT)
MATR
Imprimir la matriz de entrada y la matriz de ponderaciones, si la hay.
SORT
Clasificar cada dimensi
on de la configuracion final e imprimirla.
LONG
Imprimir las matrices en lneas largas.
SHOR
Imprimir las matrices en lneas cortas.
28.10.
Restricciones
1. La capacidad del programa es de 1800 puntos (por ej. 1800 elementos de la matriz de similitud o
disimilitud). Esto es equivalente a una matriz triangular de 60x60 o a una matriz cuadrada de 42x42.
2. Las variables se pueden escalar hasta 10 dimensiones.
3. La matriz de configuracion inicial puede tener un maximo de 60 filas y 10 columnas.
28.11.
Ejemplo
Generacion de una matriz de configuracion de salida; la matriz de entrada de datos es una matriz est
andar
de IDAMS en un archivo; no hay matriz de entrada de ponderaciones ni matriz de configuracion de entrada;
se solicitan 20 iteraciones; se hace el analisis sobre un subconjunto de variables.
$RUN MDSCAL
$FILES
FT02 = MDS.MAT
archivo Matriz de configuraci
on de salida
FT08 = ABC.COR
archivo Matriz de datos de entrada
$SETUP
ESCALAMIENTO MULTIDIMENSIONAL
ITER=20 WRITE=CONFIG FILE=DATA VARS=(V18-V36)
Captulo 29
An
alisis de clasificaci
on m
ultiple
(MCA)
29.1.
Descripci
on general
222
An
alisis de clasificaci
on m
ultiple (MCA)
29.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Los casos se pueden excluir del analisis en la ejecuci
on de MCA con una
proposicion de filtro est
andar. En el analisis de clasificacion m
ultiple, se excluyen casos por haber excedido el
c
odigo maximo de predictor. (Nota: si en una ejecuci
on, una variable de predicci
on tiene un c
odigo fuera del
rango 0-31, el caso con este valor se elimina de todos los analisis). Para un analisis en particular, se pueden
excluir casos adicionales, debido a las condiciones siguientes:
Un caso (referido como excentrico) tiene un valor de la variable dependiente que es mayor que un
n
umero especificado de desviaciones est
andar de la media de la variable dependiente. Ver los par
ametros
de analisis OUTDISTANCE y OUTLIERS.
Un caso tiene una variable dependiente que es mayor que un valor maximo especificado. Ver par
ametro
de analisis DEPVAR.
Un caso tiene datos faltantes para la variable dependiente o la variable de ponderaci
on. Ver Tratamiento de datos faltantes y Ponderaci
on de datos mas adelante.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para
un caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el
n
umero de casos as tratados. Cuando se usan datos ponderados, las pruebas de significaci
on estadstica
deben interpretarse con precauci
on.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Los casos con datos faltantes en
la variable dependiente siempre se excluyen. Los casos con datos faltantes en las variables de predicci
on se
pueden excluir de todos los analisis con un filtro. (El uso de filtro para excluir casos con datos faltantes de
las variables predictoras en la clasificacion m
ultiple, solamente se necesita si los c
odigos de datos faltantes
se encuentran dentro del rango 0-31; si el valor de alg
un predictor est
a por fuera de este rango, un caso se
excluye autom
aticamente de todos los analisis en la ejecuci
on).
29.3.
Resultados
29.3 Resultados
223
224
29.4.
An
alisis de clasificaci
on m
ultiple (MCA)
Para cada analisis se puede, opcionalmente, llevar los residuos a un archivo de salida, descrito por un
diccionario IDAMS. (Ver el par
ametro de analisis WRITE=RESIDUALS). Se graba un registro por cada caso
que haya pasado por el filtro contenido una variable de identificacion, un valor observado, un valor calculado,
un residuo para la variable dependiente y la variable de ponderaci
on si se ha usado. Las caractersticas del
dataset son las siguientes:
N
umero de
variable
(identificador)
(variable dependiente)
(variable predicha)
(residuo)
(ponderaci
on - si hay)
*
**
***
1
2
3
4
5
Nombre
igual a entrada
igual a entrada
Predicted value
Residual
igual a entrada
Ancho de
campo
N
umero de
decimales
Codigos
MD
*
*
7
7
*
0
**
***
***
**
igual a entrada
igual a entrada
9999999
9999999
igual a entrada
29.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para analisis
deben ser numericas; pueden tener valores enteros o decimales, excepto los predictores que deben tener valor
entero, entre 0 y 31 para clasificacion m
ultiple y hasta 2999 para el analisis de variancia de una entrada. La
variable identificadora de caso puede ser alfabetica.
Para un analisis con MCA se requiere un gran n
umero de casos; una regla practica es que el n
umero total de
categoras (es decir la suma de categoras sobre todos los predictores) no debe exceder el 10 % del tama
no
de la muestra).
La variable dependiente debe medirse en una escala de intervalo o ser una dicotoma, y no debe presentar
mala asimetra. Las variables predictoras en MCA deben estar categorizadas, preferiblemente no mas de
6 categoras. Aunque MCA est
a dise
nado para manejar predictores correlacionados, no debe haber dos
predictores tan fuertemente correlacionados que presenten una superposicion perfecta entre cualesquiera
de sus categoras. (Si hay una superposicion perfecta, se hace necesaria una recodificacion para combinar
categoras o un filtrado para retirar casos viciados).
29.6.
225
$RUN MCA
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de an
alisis (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
29.7.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
INCLUDE V6=2-6
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
226
An
alisis de clasificaci
on m
ultiple (MCA)
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de an
alisis. Las reglas de codificacion son las mismas que las de los par
ametros.
Cada especificaci
on de analisis debe comenzar en una lnea nueva.
Ejemplo:
DEPVAR=(n
umero de variable, codmax)
N
umero de variable y c
odigo maximo para la variable dependiente.
Sin valor por defecto; siempre se debe especificar el n
umero de variable.
El valor por defecto para el maximo c
odigo es 9999999.
CONVARS=(lista de variables)
Variables que se van a usar como predictores. Si solo se especifica una variable, entonces se ejecuta
un analisis de variancia de una entrada.
Sin valor por defecto.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes de la variable dependiente se van a verificar. Ver el captulo El
archivo Setup de IDAMS.
Nota: nunca se verifican datos faltantes para las variables de predicci
on.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
ITERATIONS=25/n
N
umero maximo de iteraciones. Rango 1-99999.
TEST=PCTMEAN/CUTOFF/PCTRATIO/NONE
Prueba de convergencia deseada.
PCTM
Prueba si el cambio en los coeficientes de una iteraci
on a otra, se encuentra por debajo
de la fracci
on especificada de la gran media.
CUTO
Prueba si el cambio en los coeficientes de una iteraci
on a otra, es menor que un valor
especificado.
PCTR
Prueba si el cambio en los coeficientes de una iteraci
on a otra, es menor que una fracci
on
especificada de la relaci
on de la desviacion est
andar de la variable dependiente a su
media.
NONE
El programa itera hasta exceder el maximo n
umero de iteraciones especificado.
CRITERION=.005/n
Dar un valor numerico que es la tolerancia de la convergencia de la prueba escogida. Rango 0.0 a
1.0 (se debe dar el punto decimal).
OUTLIERS=INCLUDE/EXCLUDE
INCL
Se incluyen en el analisis y se contar
an, los casos con valores excentricos de la variable
dependiente.
EXCL
Los casos con valores excentricos de la variable dependiente, se excluyen del analisis.
29.8 Restricciones
227
OUTDISTANCE=5/n
N
umero de desviaciones est
andar, tomadas desde la gran media, para definir cuando un valor de
la variable dependiente se considera excentrico.
WRITE=RESIDUALS
Escribir los residuos en un dataset IDAMS; aplicar el modelo MCA, solo al subconjunto de los
casos que pasan los criterios de datos faltantes, c
odigo maximo y valores excentricos. Los casos a
los cuales el modelo MCA no se aplica, se incluyen en el dataset de residuos con todos sus valores
(excepto el valor de la variable de identificacion) marcados MD1.
No se pueden obtener residuos si solo se ha especificado una variable de predicci
on.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
Nota: si mas de un analisis solicita llevar residuos al archivo, los ddnames por defecto DICTOUT
y DATAOUT solo se pueden usar para uno.
IDVAR=n
umero de variable
N
umero de una variable de identificacion para ser incluida en el dataset de residuos.
Por defecto: se crea una variable cuyos valores son n
umeros que indican la posicion secuencial del
caso en el archivo de residuos.
PRINT=(TABLES, HISTORY, RESIDUALS)
TABL
Imprimir la tabulaci
on cruzada por pares de predictores.
HIST
Imprimir los coeficientes de todas las iteraciones. Si no se ha seleccionado la opcion
HIST y la iteraci
on converge, solo se imprimen los coeficientes finales; si la iteraci
on
no converge, se imprimen los coeficientes de las dos u
ltimas iteraciones.
RESI
Imprimir los residuos en el mismo orden secuencial de los casos de entrada.
29.8.
Restricciones
1. N
umero maximo de variables de entrada, incluidas las variables de proposiciones Recode es 200.
2. El n
umero maximo de variables predictoras (de control) por analisis es 50.
3. No es posible usar el n
umero maximo de predictores, cada uno de ellos con el n
umero maximo de
categoras en un analisis. Si un problema excede la capacidad de memoria, se imprime un mensaje de
error y el programa pasa al siguiente analisis.
4. M
aximo n
umero de analisis por ejecuci
on es 50.
5. Las variables predictoras para el analisis de clasificacion m
ultiple deben estar categorizadas, preferiblemente con 6 o menos categoras. Las categoras deben tener c
odigos enteros en el rango 0-31. Los
casos con cualquier otro valor seran excluidos del analisis.
6. La variable predictora en el analisis de variancia de una entrada debe estar codificada dentro del rango
0-2999. Los casos con otros valores, se excluyen del analisis.
7. Si una variable predictora tiene cifras decimales, solo se usa la parte entera.
8. Si la variable de identificaci
on es alfabetica con ancho > 4, solo se usan los primeros cuatro caracteres.
29.9.
Ejemplos
228
An
alisis de clasificaci
on m
ultiple (MCA)
$RUN MCA
$FILES
PRINT = MCA1.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
TODOS LOS ENCUESTADOS JUNTOS
*
(valores por defecto para todos los par
ametros)
DEPV=V100 CONV=(V7,V9,V12-V13)
$RUN MCA
$SETUP
INCLUDE V4=21,31-39
SOLO CIENTIFICOS
*
(valores por defecto para todos los par
ametros)
DEPV=V100 CONV=(V7,V9,V12-V13)
$RUN MCA
$SETUP
INCLUDE V4=41-49
SOLO TECNICOS
*
(valores por defecto para todos los par
ametros)
DEPV=V100 CONV=(V7,V9,V12-V13)
29.9 Ejemplos
$RUN MCA
$FILES
DICTIN = CON.DIC
archivo Diccionario de entrada
DATAIN = CON.DAT
archivo Datos de entrada
$SETUP
EXCLUDE V7=9 OR V9=9 OR V12=9
VERIFICACION DE INTERACCIONES
BADD=SKIP
DEPV=(V52,90000) CONVARS=(V7,V9,V12)
DEPV=(V52,90000) CONVARS=R1
$RECODE
R7=V7-1
R9=BRAC(V9,1=0,3=1,5=2)
R1=COMBINE R7(2),R9(3),V12(2)
229
Captulo 30
An
alisis multivariado de variancia
(MANOVA)
30.1.
Descripci
on general
MANOVA hace analisis de variancia y covariancia univariado y multivariado, usando un modelo lineal
general. Se pueden usar hasta ocho factores (variables independientes). Si se especifica mas de una variable
dependiente, se hacen analisis univariados y multivariados. El programa acepta n
umeros iguales y desiguales
de casos en las celdas.
MANOVA es el u
nico programa de IDAMS para analisis multivariado de variancia. Se recomienda ONEWAY
para el analisis univariado de variancia. MCA maneja problemas univariados de m
ultiples factores. No tiene
limitaciones con relaci
on a celdas vacas, acepta mas de ocho predictores y permite mas de 80 celdas. Sin
embargo, el modelo b
asico de analisis de MCA es diferente del de MANOVA. Una diferencia importante es
que MCA no es sensible a los efectos de interacci
on.
Modelo jer
arquico de regresi
on. MANOVA usa aproximacion de la regresion al analisis de variancia.
De manera mas particular, el programa emplea un modelo jer
arquico. Hay una consecuencia importante
para el usuario: si una ejecuci
on de MANOVA involucra mas de una variable de factor y hay un n
umero
desproporcionado de casos en las celdas construidas por la clasificacion cruzada de los factores, entonces
se debe considerar el orden en el cual est
an especificadas las variables de factores. La desproporcion de los
n
umeros de casos en las subclases confunde los efectos principales y el investigador debe escoger el orden en
el cual se deben eliminar los efectos de confusi
on. Al usar MANOVA, esto se logra con el orden en el que se
especifican las variables de factor: cuando se usa orden est
andar, las primeras variables especificadas tienen
los efectos de las variables retiradas mas tarde, es decir, el primer efecto listado se probar
a con todos los
otros efectos principales eliminados. La regla general es que cada prueba elimina los efectos listados antes
en las especificaciones de nombre de prueba e ignora los efectos listados despues. Para un analisis est
andar
de dos entradas, el termino de interacci
on no se afecta con el orden de las variables de factor; de forma
general, para un analisis est
andar de n entradas, el termino de la n-esima interacci
on y solo ese termino, no
es afectado. El problema existe para ambos analisis, unvariado y multivariado.
Opci
on de contraste. Hay dos opciones disponibles para definir los contrastes (ver el par
ametro de factor
CONTRAST). Los contrastes nominales se generan por defecto; son las desviaciones acostumbradas de las
medias de fila y columna de la gran media y la generalizaci
on de las mismas para los contrastes de interacci
on.
El programa tambien puede generar contrastes de Helmert.
Aumento de la suma de cuadrados dentro de las celdas. Es posible aumentar la suma de cuadrados
dentro de las celdas (termino de error) usando los estimativos ortogonales (ver el par
ametro AUGMENT).
Esto permite usar el programa para cuadrados Latinos y para reunir los terminos de interacci
on con errores.
Reordenamiento y/o reuni
on de estimativos ortogonales. El programa tiene un ordenamiento convencional de estimativos de efectos ortogonales para uso est
andar (media, C, B, A, BxC, AxC, AxB, AxBxC
en dise
no con tres factores). Sin embargo los estimativos ortogonales se pueden disponer en otro orden (ver
el par
ametro REORDER). M
as a
un, es posible reunir varios estimativos ortogonales tales como terminos de
interacci
on para pruebas simult
aneas o fragmentar el c
umulo de estimativos ortogonales para un efecto dado
232
An
alisis multivariado de variancia (MANOVA)
en varios c
umulos mas peque
nos para hacer pruebas por separado (ver el par
ametro de nombre de prueba
DEGFR).
30.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. El filtro est
andar est
a disponible para escoger casos para ejecuci
on. Las
variables dependientes se escogen con el par
ametro DEPVARS y las covariadas con el par
ametro COVARS.
Las variables de factor se especifican con proposiciones especiales de factor.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode. N
otese que solamente se aceptan
valores enteros (positivos y negativos) para las variables usadas como factor.
Ponderaci
on de datos. No se aplica el uso de variables de ponderaci
on.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar datos faltantes. Se excluyen los casos con c
odigos de
datos faltantes en cualquiera de las variables de entrada (dependientes, covariadas, o de factor). Esto puede
resultar en muchos casos excluidos y constituye un problema potencial que debe considerarse cuando se
planee el analisis.
30.3.
Resultados
233
30.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables deben ser numericas.
Las variables dependientes y covariadas deben medirse en escala de intervalo o deben ser una dicotoma. Las
variables de factor pueden ser nominales, ordinales o intervalos pero deben tener valores enteros; se usan
para designar la celda apropiada del caso.
234
An
alisis multivariado de variancia (MANOVA)
30.5.
$RUN MANOVA
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de factores
(tantas como sean necesarias; al menos se debe suministrar un factor)
5. Especificaciones de nombre de prueba
(tantas como sean necesarias;
al menos se debe suministrar un nombre de prueba)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
30.6.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-5, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
DEPVARS=(V5,V8) COVA=(V101,V102)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
235
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
DEPVARS=(lista de variables)
Una lista de variables a usar como variables dependientes
Sin valor por defecto.
COVARS=(lista de variables)
Una lista de variables para usar como covariadas.
AUGMENT=(m,n)
Para construir el termino de error, la suma interna de cuadrados se aumentar
a por las columnas
m, m+1, m+2,...,n de la matriz ortogonal de estimativos.
Por defecto: la suma interna de cuadrados se usara como termino de error.
REORDER=(lista de valores)
Reordena los estimativos ortogonales de acuerdo con la lista (ver par
agrafo Reordenamiento
y/o reuni
on de estimativos ortogonales atr
as). N
otese que si se solicita el reordenamiento de
estimativos, el orden de las especificaciones de nombre de prueba debe corresponder al nuevo
orden.
Ejemplo: el orden convencional de un dise
no de tres factores se puede cambiar por el orden: media,
A, B, C, AxB, AxC, BxC, AxBxC usando REORDER=(1,4,3,2,7,6,5,8).
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de factores (al menos se debe suministrar un factor). Se pueden especificar hasta
8 factores. Las reglas de codificacion son las mismas de los par
ametros. Cada especificaci
on de factor
debe comenzar en una nueva lnea.
Ejemplo:
FACTOR=(V3,1,2)
FACTOR=(n
umero de variable, lista de valores de c
odigo)
Variable a usar como factor, seguida por los valores de c
odigo que se deben usar para designar la
celda apropiada para el caso.
CONTRAST=NOMINAL/HELMERT
Especifica el tipo de contraste a usar en los c
alculos.
NOMI
Contrastes nominales. Medias de efectos desviadas de la gran media, i.e. M(1)-GM,
M(2)-GM, etc.
HELM
Contrastes de Helmer. Media de efecto desviada de la suma de medias desde 1 hasta
r, donde est
an involucrados r niveles.
5. Especificaciones de nombre de prueba (al menos se debe suministrar un nombre de prueba).
Estas especificaciones identifican las pruebas que se deben realizar. Deben estar en el orden correcto.
Ordinariamente, habr
a una especificaci
on para la gran media seguida de una especificaci
on de nombre
para cada efecto principal y una especificaci
on de nombre para cada interacci
on posible. Si se reordenan
los par
ametros de dise
no o se reagrupan los grados de libertad (ver los par
ametros REORDER y
DEGFR), las proposiciones de nombre de prueba deben hacerse de acuerdo con las modificaciones. Las
236
An
alisis multivariado de variancia (MANOVA)
reglas de codificacion son las mismas de los par
ametros. Cada especificaci
on de nombre de prueba debe
comenzar en una nueva lnea.
Ejemplo:
TESTNAME=gran media
TESTNAME=nombre de la prueba
Un nombre que tenga hasta 12 caracteres para la prueba que se va a realizar. Las comillas son
mandatorias si el nombre tiene caracteres no alfanumericos.
DEGFR=n
La agrupaci
on natural de grados de libertad (o de ecuaciones de par
ametros de hipotesis) se
presenta cuando se usa el orden convencional de pruebas estadsticas. DEGFR se usa solamente
para cambiar la agrupaci
on; por ejemplo, cuando se quieren reunir varios terminos de interacci
on
y probarlos simult
aneamente o para separar los grados de libertad de alg
un efecto en dos a mas
partes. Cuando se usa el par
ametro DEGFR, aseg
urese de usarlo en todos las proposiciones de
nombre de prueba, incluido un grado de libertad para la gran media.
Por defecto: se usa el agrupamiento natural de grados de libertad.
30.7.
Restricciones
1. El maximo n
umero de variables dependientes es 19.
2. El maximo n
umero de covariadas es 20.
3. El maximo n
umero de especificaciones de factor es 8.
4. El maximo n
umero de valores de c
odigo en una especificaci
on de factor es 10.
5. El maximo n
umero de celdas es 80.
6. Celdas con cero frecuencias, o solamente con un caso o con m
ultiples casos identicos a veces causan
problemas; la ejecuci
on puede terminar prematuramente o puede llegar hasta el final pero produce
cocientes F y otras estadsticas invalidas.
30.8.
Ejemplos
Ejemplo 1. Analisis univariado de variancia (V10 es la variables dependiente) con dos factores representados
con A con c
odigos 1,2,3 y B con c
odigos 21 y 31; se usaran contrastes normales en los c
alculos y se har
an
pruebas en el orden convencional.
$RUN MANOVA
$FILES
PRINT
= MANOVA1.LST
DICTIN = CM-NEW.DIC
DATAIN = CM-NEW.DAT
$SETUP
ANALISIS UNIVARIADO DE VARIANCIA
DEPVARS=v10
FACTOR=(V3,1,2,3)
FACTOR=(V8,21,31)
TESTNAME=gran media
TESTNAME=B
TESTNAME=A
TESTNAME=AB
Ejemplo 2. Analisis multivariado de variancia (V11-V14 son variables dependientes) con dos factores (sexo
codificado 1,2 y edad codificada 1,2,3); se usaran contrastes nominales en los c
alculos y se har
an pruebas
en un orden convencional.
30.8 Ejemplos
237
$RUN MANOVA
$FILES
los mismos del ejemplo 1
$SETUP
ANALISIS MULTIVARIADO DE VARIANCIA
DEPVARS=(v11-v14)
FACTOR=(V2,1,2)
FACTOR=(V5,1,2,3)
TESTNAME=gran media
TESTNAME=edad
TESTNAME=sexo
TESTNAME=sexo & edad
Ejemplo 3. Analisis multivariado de variancia (V11-V14 son variables dependientes) con tres factores (A
codificado 1,2, B codificado 1,2,3, C codificado 1,2,3,4); se usaran contrastes nominales en los c
alculos y se
har
an pruebas en orden modificado (media, A, B, AxB, C, AxC, BxC, AxBxC).
$RUN MANOVA
$FILES
los mismos del ejemplo 1
$SETUP
ANALISIS MULTIVARIADO DE VARIANCIA - PRUEBAS EN ORDEN MODIFICADO
DEPVARS=(v11-v14) REORDER=(1,4,3,7,2,6,5,8)
FACTOR=(V2,1,2)
FACTOR=(V5,1,2,3)
FACTOR=(V8,1,2,3,4)
TESTNAME=media
TESTNAME=A
TESTNAME=B
TESTNAME=AxB
TESTNAME=C
TESTNAME=AxC
TESTNAME=BxC
TESTNAME=AxBxC
Captulo 31
An
alisis de variancia de una entrada
(ONEWAY)
31.1.
Descripci
on general
ONEWAY es un programa para hacer analisis de variancia de una entrada. Se puede producir en una sola
ejecuci
on, un n
umero ilimitado de tablas, con parejas de variables dependientes e independientes. Cada
analisis puede hacerse con todos los casos o con un subconjunto de los mismos, tomado del archivo Datos; la
selecci
on de casos para un analisis, es independiente de la selecci
on para otros analisis. El termino variable
de control usado en ONEWAY es equivalente al termino variable independiente, predictor, o en la
terminologa del analisis de variancia, variable de tratamiento.
Una alternativa del programa ONEWAYE es el programa MCA cuando se ha especificado solo un predictor.
Este programa permite un c
odigo maximo de 2999 para la variable de control, mientras que ONEWAY
est
a limitado a un maximo de 99.
31.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Se puede utilizar el filtro est
andar para escoger un subconjunto de casos
del archivo de entrada. Este filtro afecta todos los analisis de una ejecuci
on. Adicionalmente, hay dos filtros
locales para una selecci
on independiente de subconjuntos de casos de datos para cada analisis. Si se usan
dos filtros locales, un caso debe satisfacerlos a los dos para ser incluido en el analisis. Las variables para
cada analisis se seleccionan con los par
ametros de tablas DEPVARS y CONVARS. Se produce una tabla
por separado para cada variable de la lista DEPVARS con cada variable de la lista CONVARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para un
caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Los casos con datos faltantes en la
variable dependiente, siempre se excluyen del analisis. Los casos con datos faltantes en la variable de control,
se pueden excluir opcionalmente (ver el par
ametro de tabla MDHANDLING).
31.3.
Resultados
Especificaciones de tabla. Se imprime una lista de especificaciones de tabla con una tabla de contenido
de los resultados.
240
An
alisis de variancia de una entrada (ONEWAY)
31.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables analizadas deben
ser numericas; pueden tener valores decimales o enteros.
Una variable dependiente debe medirse en una escala de intervalos o debe ser una dicotoma. Una variable de
control puede ser nominal, ordinal o de intervalo pero debe tener valores en el rango 0-99. Si, para cualquier
caso, la variable de control para un analisis, tiene un valor que excede este rango, el caso se elimina del
analisis; no se imprime ning
un mensaje al respecto. Si el valor de la variable de control tiene decimales, solo
se usa la parte entera (por ej. 1.1 y 1.6 se colocan ambas en el grupo 1); no se imprime ning
un mensaje al
respecto.
31.5.
241
$RUN ONEWAY
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de tablas (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
31.6.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
EXCLUDE V3=9
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
242
An
alisis de variancia de una entrada (ONEWAY)
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de tablas. Las reglas de codificacion son las mismas de los par
ametros. Cada
especificaci
on de tabla debe comenzar en una nueva lnea.
Ejemplos:
DEPVARS=(lista de variables)
Una lista de variables a usar como variables dependientes
CONVARS=(lista de variables)
Una lista de variables a usar como variables de control.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en este conjunto de
tablas. Ver el captulo El archivo Setup de IDAMS.
MDHANDLING=DELETE/KEEP
DELE
Eliminar casos con datos faltantes en la variable de control.
KEEP
Incluir casos con datos faltantes en la variable de control.
Nota: los casos con datos faltantes en la variable dependiente, siempre se excluyen.
F1=(n
umero de variable, c
odigo mnimo valido, c
odigo maximo valido)
F1 se refiere a la primera variable de filtro que se usa para crear un subconjunto de los datos. El
n
umero de variable debe ser el n
umero de la variable de filtro; los casos para los cuales, el valor
de esta variable se encuentre en el rango mnimo-maximo, entran en la tabla. El valor mnimo
puede ser un entero negativo. El maximo debe ser menor que 99,999. Las cifras decimales deben
entrar en donde sea necesario.
F2=(n
umero de variable, c
odigo mnimo valido, c
odigo maximo valido)
F2 se refiere a la segunda variable de filtro. Si se especifica un segundo filtro, un caso debe satisfacer
los requisitos de ambos filtros para entrar en la tabla.
31.7.
Restricciones
1. El n
umero maximo de variables de control es 99. El n
umero maximo de variables dependientes es 99.
El n
umero total de variables a las cuales se puede acceder es 204, incluidas las variables usadas en
Recode.
2. ONEWAY usa variables de control dentro del rango 0-99. Si para cualquier caso, la variable de control
de un cierto analisis, se encuentra fuera de este rango, el caso se elimina de la tabla.
3. La maxima suma de ponderaciones es alrededor de 2,000,000,000.
4. El cociente F se imprime solo para datos sin ponderaci
on.
31.8 Ejemplos
31.8.
243
Ejemplos
Ejemplo 1. Tres analisis de variancia de una entrada, con V201 como variable de control y V204 como
variable dependiente; primero para todo el archivo, segundo para un subconjunto de casos con valores 1-3
para la variable V5 y tercero para un subconjunto de casos con valores 4-7 para la variable V5.
$RUN ONEWAY
$FILES
PRINT = ONEW1.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
ANALISIS DE VARIANCIA DE UNA ENTRADA DESCRITO SEPARADAMENTE
*
(valores por defecto para todos los par
ametros)
CONV=V201 DEPV=V204
CONV=V201 DEPV=V204 F1=(V5,1,3)
CONV=V201 DEPV=V204 F1=(V5,4,7)
Ejemplo 2. Generaci
on de un analisis de variancia de una entrada, para todas las combinaciones de las
variables de control V101, V102, V105 y V110, y las variables dependientes V17 a V21; los datos son
ponderados con la variable V3.
$RUN ONEWAY
$FILES
los mismos del ejemplo 1
$SETUP
GENERACION MASIVA DE ANALISIS DE VARIANCIA DE UNA ENTRADA
*
(valores por defecto para todos los par
ametros)
CONV=(V101,V102,V105,V110) DEPV=(V17-V21) WEIGHT=V3
Captulo 32
Descripci
on general
POSCOR calcula puntajes (escala ordinal), con un procedimiento basado en la posicion jerarquica de los
elementos de un conjunto parcialmente ordenado de acuerdo con un n
umero de propiedades (o caractersticas). Los puntajes, calculados separadamente para cada elemento del conjunto, se llevan a un archivo de
salida descrito por un diccionario IDAMS. Este dataset se puede utilizar despues, como entrada para otros
programas.
Al utilizar el par
ametro ORDER, se pueden calcular : (1) cuatro tipos de puntajes donde los c
alculos se
basan en la proporci
on de casos dominados por el caso examinado, (2) los otros cuatro donde los c
alculos se
basan en la proporci
on de casos que dominan al caso examinado. El rango de los puntajes se determina con
el par
ametro SCALE. S
olo se pueden esperar puntajes con sentido, cuando el n
umero de casos involucrados
es mucho mas grande que el n
umero de variables especificadas.
En aplicaciones con variables de importancia no uniforme, se puede definir una lista de prioridades con el
par
ametro de analisis LEVEL en el ordenamiento parcial. Si las variables con prioridad mas alta determinan
sin ambig
uedad la relaci
on entre dos casos, entonces no se consideran las variables con prioridades mas bajas.
En el caso especial en el cual solo se utiliza una variable de analisis, los valores transformados corresponden
a sus probabilidades (ver las opciones ORDER=ASEA/DEEA/ASCA/DESA).
En un analisis, se puede examinar una serie de conjuntos mutuamente excluyentes con la facilidad de subconjunto. En esta oportunidad, se calculan las variables de puntaje dentro de cada subconjunto de casos.
32.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Se puede utilizar el filtro est
andar para la selecci
on de casos en una
ejecuci
on. Tambien existe la opci
on de obtener subconjuntos de casos en cada analisis. Las variables que
se van a transferir al archivo de salida se escogen con el par
ametro TRANSVARS. Las variables para cada
analisis, se eligen con las especificaciones de analisis.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode. N
otese que el programa solo utiliza
la parte entera de las variables recodificadas, es decir, las variables recodificadas se redondean al entero mas
proximo.
Ponderaci
on de datos. No se aplica el uso de variables de ponderaci
on.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores de
datos faltantes, si los hay, se usaran para verificar los datos faltantes. El par
ametro MDHANDLING indica
si variables o casos con datos faltantes se deben excluir de un analisis.
246
32.3.
Resultados
32.4.
Dataset de salida
El archivo de salida contiene los puntajes calculados junto con las variables transferidas, y opcionalmente,
las variables de analisis para cada caso usado en el analisis (es decir, todos los casos que pasan el filtro y no
excluidos con el uso de la opci
on de datos faltantes. Tambien se produce un diccionario asociado IDAMS de
salida.
Las variables de salida tienen las caractersticas descritas abajo, se numeran secuencialmente a partir de 1 y
en el orden siguiente:
Variables de an
alisis y de subconjunto (condicional: solo si AUTR=YES). Las variables V tienen las
mismas caractersticas que sus equivalentes de entrada. Las variables de Recode salen con WIDTH=7
y DEC=0.
Variable identificadora de casos y variables transferidas. Las variables V tienen las mismas caractersticas que su equivalente de entrada. Las variables de Recode salen con WIDTH=7 y DEC=0.
Variables calculadas de puntajes.
Para ORDER=ASEA/DEEA/ASCA/DESA, una variable para cada analisis con:
nombre
ancho de campo
n
umero de decimales
MD1
MD2
especificado
especificado
0
especificado
especificado
por ANAME
por FSIZE
por OMD1
por OMD2
Para ORDER=ASER/DESR/ASCR/DEER, dos variables para cada analisis con nombres especificados por los par
ametros ANAME y DNAME respectivamente y otras caractersticas tales como las
mencionadas anteriormente.
Nota. Si un analisis se repite para varios subconjuntos de casos mutuamente excluyentes, la variable de
puntaje se calcula para los casos en cada subconjunto a su vez. Si un caso no se encuentra en uno de los
subconjuntos definidos para el analisis, entonces sus valores de la(s) variable(s) de puntaje se colocan en el
valor del c
odigo MD1.
32.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Por las variables del analisis solo se
usan n
umeros enteros. Notar que los valores decimales se redondean al entero mas proximo. La variable de
identificacion de casos y las variables a ser transferidas pueden ser alfabeticas.
32.6.
247
$RUN POSCOR
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
6.
Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de subconjuntos (opcional)
POSCOR
Especificaciones de an
alisis (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
32.7.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3 y 6 a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
INCLUDE V2=1-4
AND V15=2
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
MDHAND=CASES TRAN=V5
IDVAR=R6
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
248
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
MDHANDLING=VARS/CASES
Tratamiento de datos faltantes.
VARS
Se excluyen de la comparaci
on las variables con valores de datos faltantes.
CASE
Se excluyen del analisis los casos con valores de datos faltantes.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
IDVAR=n
umero de variable
Variable a ser transferida al dataset de salida para la identificacion de casos.
Sin valor por defecto.
TRANSVARS=(lista de variables)
Se pueden transferir variables adicionales (hasta 99) al dataset de salida. Esta lista no puede
incluir variables de analisis o variables utilizadas en las especificaciones de subconjuntos. Estas se
transfieren autom
aticamente con el par
ametro AUTR.
AUTR=YES/NO
YES
Se transfieren al dataset de salida en forma autom
atica, las variables de analisis y las
variables utilizadas en la especificaci
on de subconjuntos.
NO
No se transfieren las variables de analisis ni las de subconjuntos.
FSIZE=5/n
Ancho de campo de las variables (puntajes) calculadas.
SCALE=100/n
Valor (factor de escala) que especifica el rango (0 - n) de los puntajes calculados.
OMD1=99999/n
Valor del primer c
odigo de datos faltantes para las variables (puntajes) calculadas.
OMD2=99999/n
Valor del segundo c
odigo de datos faltantes para las variables (puntajes) calculadas.
PRINT=(CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
NOOU
No imprimir el diccionario de salida.
4. Especificaciones de subconjuntos (opcional). Aqu se especifican subconjuntos de casos mutuamente excluyentes para un analisis en particular.
Ejemplo:
EDAD
INCLUDE V5=15-20,21-45,46-64
249
Reglas de codificaci
on
Prototipo: nombre
proposicion
nombre
Nombre del subconjunto. 1-8 caracteres alfanumericos comenzando con una letra. Este nombre
debe coincidir exactamente con el nombre usado en las especificaciones de analisis subsecuentes.
Blancos intercalados no se permiten. Se recomienda que todos los nombres se justifiquen a la
izquierda.
proposicion
Definici
on del subconjunto.
Comenzar con la palabra INCLUDE.
Especificar el n
umero de variable (variable V o R) sobre la cual se basan los subconjuntos
(no se permiten variables alfabeticas).
Especificar valores y/o rangos de valores separados por comas. Cada valor o rango define
un subconjunto. Las comas separan los subconjuntos. Los rangos negativos deben estar en
secuencia numerica, por ej. -4 - -2 (para -4 a -2); -2 - 5 (para -2 a +5). Los subconjuntos
deben ser mutuamente excluyentes (es decir, los mismos valores no pueden aparecer en dos
rangos). En el ejemplo anterior, se definen 3 subconjuntos basados en el valor de V5 para la
especificaci
on del subconjunto EDAD.
Colocar un gui
on al final de una lnea para continuar en la lnea siguiente.
5. POSCOR. La palabra POSCOR en esta lnea, indica que a continuacion vienen especificaciones de
analisis. Debe incluirse (para separar las especificaciones de subconjuntos de las de analisis) y solo debe
aparecer una vez.
6. Especificaciones de an
alisis. Las reglas de codificacion son las mismas de los par
ametros. Cada
especificaci
on de analisis debe comenzar en una nueva lnea.
Ejemplo:
VARS=(lista de variables)
Las variable V y/o R a usar en el analisis.
Sin valor por defecto.
ORDER=ASEA/DEEA/ASCA/DESA/ASER/DESR/ASCR/DEER
Especifica el tipo de puntaje a calcular.
El puntaje se basa en:
ASEA
DEEA
ASCA
DESA
ASER/DESR
ASER
DESR
ASCR/DEER
ASCR
casos definitivamente mejores/dominantes definitivamente
DEER
casos peores o iguales/dominados
con relaci
on al n
umero de casos comparables
Nota. En los dos u
ltimos casos, los puntajes se calculan con cualquier selecci
on. La suma de ellos es
igual al valor especificado en el par
ametro SCALE.
250
32.8.
Restricciones
32.9.
Ejemplos
Ejemplo 1. Calculo de dos puntajes con las mismas variables V10, V12, V35 a V40; el primer puntaje
se calculara para todo el archivo, el segundo puntaje sera calculado separadamente para tres subconjuntos
(para valores 1, 2 y 3 de la variable V7); los casos con datos faltantes se excluyen del analisis; ambos puntajes
se basan en los casos dominados estrictamente con relacion al n
umero de casos comparables; los casos se
identifican con las variables V2 y V4, las cuales se transferir
an al archivo de salida. N
otese que Recode se
utiliza para hacer una copia de las variables ya que una restriccion del programa significa que una variable
puede usarse una vez solamente.
32.9 Ejemplos
251
$RUN POSCOR
$FILES
PRINT
= POSCOR1.LST
DICTIN = PREF.DIC
archivo Diccionario de entrada
DATAIN = PREF.DAT
archivo Datos de entrada
DICTOUT = SCORES.DIC
archivo Diccionario de salida
DATAOUT = SCORES.DAT
archivo Datos de salida
$SETUP
CALCULO DE DOS PUNTAJES
MDHAND=CASES IDVAR=V2 TRANSVARS=V4
TYPE
INCLUDE V7=1,2,3
POSCOR
ORDER=DESR ANAME=PUNTAJE CREC. GLOBAL DNAME=PUNTAJE DECR. GLOBAL VARS=(V10,V12,V35-V40)
ORDER=DESR ANAME=PUNTAJE AJUSTADO CREC. DNAME=PUNTAJE AJUSTADO DECR.
SUBS=TYPE VARS=(R10,R12,R35-R40)
$RECODE
R10=V10
R12=V12
R35=V35
R36=V36
R37=V37
R38=V38
R39=V39
R40=V40
Ejemplo 2. C
alculo de tres puntajes basados en casos dominantes con relacion al n
umero total de casos;
las variables de analisis no se transferir
an al dataset de salida; las variables con datos faltantes se excluyen
de la comparaci
on; las variables para identificacion de casos V1 y V5, se transfieren al dataset de salida.
$RUN POSCOR
$FILES
los mismos del ejemplo 1
$SETUP
CALCULO DE TRES PUNTAJES
AUTR=NO IDVAR=V1 TRANSVARS=V5
POSCOR
ORDER=ASEA ANAME=PUNT.1
CREC
ORDER=ASEA ANAME=PUNT.2
CREC
ORDER=ASEA ANAME=PUNT.3
CREC
VARS=(V11,V17,V55-V60)
VARS=(V108-V110,V114,V116,V118,V120)
VARS=(V22,V33,V101-V105)
Captulo 33
Correlaci
on de Pearson (PEARSON)
33.1.
Descripci
on general
33.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Se puede utilizar el filtro est
andar para la selecci
on de un subconjunto
de casos de los datos de entrada. Las variables para las cuales se desea la correlaci
on se especifican con los
par
ametros ROWVARS y COLVARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para un
caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores de
datos faltantes, si los hay, se usaran para verificar los datos faltantes. Se calculan las estadsticas univariadas
para cada variable a partir de los casos que tengan datos validos (no faltantes) para la variable.
Datos faltantes: eliminaci
on por pares. Las estadsticas por pares y el coeficiente de correlaci
on, se
pueden calcular de los casos que tengan datos validos para ambas variables (MDHANDLING=PAIR). As,
un caso se puede utilizar en los c
alculos para algunos pares de variables y no usarse para otros. Este metodo
de manejo de datos faltantes se llama algoritmo de eliminacion por pares. Nota: si hay datos faltantes, se
pueden calcular coeficientes de correlaci
on individuales para diferentes subconjuntos de datos. Si hay muchos
datos faltantes, se pueden presentar inconsistencias internas en la matriz de correlaci
on, las cuales pueden
causar dificultades en analisis multivariados posteriores.
254
Correlaci
on de Pearson (PEARSON)
33.3.
Resultados
33.4.
255
Matrices de salida
Matriz de correlaci
on
Cuando se especifica el par
ametro WRITE=CORR, se produce la matriz de correlaci
on, en la forma est
andar
de una matriz cuadrada IDAMS. El formato de las correlaciones es 8F9.6; el formato para la media y la
desviacion est
andar es 5E14.7. Las columnas 73-80, se utilizan para identificar los registros.
La matriz contiene correlaciones, medias y desviaciones est
andar. Las medias y las desviaciones est
andar
est
an sin parear. Los registros de diccionario que produce PEARSON, tienen n
umeros y nombres de variable
del diccionario de entrada y/o de proposiciones de Recode. El orden de las variables lo determina el orden
de las mismas en la lista.
PEARSON puede generar correlaciones iguales a 99.999901, y medias y desviaciones est
andar iguales a 0.0
cuando los valores calculados carezcan de sentido. Razones tpicas de esto pueden ser por ejemplo, que se
hayan eliminado todos los casos debido a datos faltantes o una de las variables tuvo un valor constante.
N
otese que MDSCAL no acepta estos valores faltantes y REGRESSN s.
Matriz de covariancia
Cuando se especifica el par
ametro WRITE=COVA, se produce la matriz de covariancia, sin la diagonal, en
la forma de una matriz cuadrada est
andar de IDAMS.
33.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del analisis deben
ser numericas; pueden tener valores enteros o decimales.
33.6.
$RUN PEARSON
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
FT02
DICTxxxx
DATAxxxx
PRINT
256
Correlaci
on de Pearson (PEARSON)
33.7.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
INCLUDE V2=11-15,60 OR
V3=9
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
WRITE=CORR,
PRINT=(CORR,COVA) ROWV=(V1,V3-V6,R47,V25)
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MATRIX=SQUARE/RECTANGULAR
SQUA
Calcular coeficientes de correlaci
on de Pearson para todos los pares de variables de la
lista en ROWV.
RECT
Calcular los coeficientes de correlaci
on de Pearson para cada par de variables formado
al tomar una variable de cada una de las dos listas en ROWV y COLV.
ROWVARS=(lista de variables)
Una lista de variables V o R a correlacionar (MATRIX=SQUARE) o la lista de variables de fila
(MATRIX=RECTANGULAR).
Sin valor por defecto.
COLVARS=(lista de variables)
(Solo MATRIX=RECTANGULAR).
Una lista de variables V o R a usar como variables de columna. Se escriben 8 columnas por
p
agina; si las listas de variables de columna o de fila tienen menos de 8 variables, es preferible
(para facilidad de lectura del listado) tener la lista corta como la lista de variables de columna.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
MDHANDLING=PAIR/CASE
Metodo para el manejo de datos faltantes.
PAIR
Eliminacion por pares.
CASE
Eliminacion por casos (no disponible con MATRIX=RECTANG).
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
33.8 Restricciones
257
WRITE=(CORR, COVA)
S
olo MATRIX=SQUARE.
CORR
Escribir en un archivo de salida, la matriz de correlaci
on con medias y desviaciones
est
andar.
COVA
Escribir en un archivo de salida, la matriz de covariancia con medias y desviaciones
est
andar.
PRINT=(CDICT/DICT, CORR/NOCORR, COVA, PAIR, REGR, XPRODUCTS)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
CORR
Imprimir la matriz de correlaci
on.
COVA
Imprimir la matriz de covariancia.
PAIR
Imprimir estadsticas pareadas (solo MATRIX=SQUARE).
REGR
Imprimir los coeficientes de regresion (solo MATRIX=SQUARE).
XPRO
Imprimir la matriz de productos cruzados (solo MATRIX=SQUARE).
33.8.
Restricciones
33.9.
Ejemplos
Ejemplo 1. C
alculo de una matriz cuadrada de coeficientes de correlaci
on de Pearson, con eliminacion de
casos con datos faltantes por pares; la matriz se escribira en un archivo de salida y se imprimira.
$RUN PEARSON
$FILES
PRINT = PEARS1.LST
FT02
= BIRDCOR.MAT
archivo Matriz de salida
DICTIN = BIRD.DIC
archivo Diccionario de entrada
DATAIN = BIRD.DAT
archivo Datos de entrada
$SETUP
MATRIZ DE COEFICIENTES DE CORRELACION
PRINT=(PAIR,REGR,CORR) WRITE=CORR ROWV=(V18-V21,V36,V55-V61)
258
Correlaci
on de Pearson (PEARSON)
Captulo 34
Ordenamiento de alternativas
(RANK)
34.1.
Descripci
on general
RANK ofrece un ordenamiento razonable de alternativas, utilizando datos preferenciales como entrada y
tres procedimientos de categorizaci
on, uno basado en la l
ogica clasica (el metodo ELECTRE) y otros dos
basados en logica difusa. Los dos metodos se diferencian esencialmente en la manera de construir las matrices
relacionales. Con rangos difusos, los datos determinan completamente el resultado mientras que con el
ordenamiento por el metodo cl
asico, el usuario, basado en los conceptos de la logica clasica, tiene la posibilidad
de controlar el c
alculo de las relaciones que est
an por encima de las alternativas.
El m
etodo ELECTRE (l
ogica cl
asica) implementado en RANK, en un primer paso, utiliza los datos
preferenciales de entrada para calcular una matriz final que expresa la opinion total colectiva acerca de
la dominancia entre las alternativas, la estructura de relacion no corresponde necesariamente a un ordenamiento lineal o parcial. La relaci
on de dominancia para cada par de alternativas se controla por las
condiciones de concordancia y discordancia establecidas por el usuario. Se pueden obtener diferentes
relaciones estructurales a partir de los mismos datos al cambiar los par
ametros de analisis. En el segundo
paso, el procedimiento busca una secuencia de capas (o n
ucleos) de alternativas no dominadas. El primer
n
ucleo consiste en las alternativas de mas alto rango en todo el conjunto considerado. Debe notarse que en
ciertos casos puede que no existan mas n
ucleos, debido a bucles dentro de la relacion. Esto puede ser verdad
a
un en el nivel mas alto.
El primer m
etodo difuso (capas no dominadas) se desarroll
o originalmente para resolver problemas
de toma de decisiones con informaci
on difusa. Este metodo permite encontrar una secuencia de n
ucleos de
alternativas no dominados dentro de una estructura de preferencia difusa, la cual no representa necesariamente un orden (total) lineal. Los n
ucleos subsiguientes son aquellos grupos de alternativas que tengan el
rango mas alto dentro las alternativas que no pertenezcan a los n
ucleos previos de nivel mas alto. El primer
n
ucleo comprende las alternativas de rango mas alto dentro todo el conjunto considerado.
El segundo m
etodo difuso (rangos) trata de encontar la credibilidad de frases como la j-esima alternativa est
a exactamente en la posicion p-esima dentro el orden por rangos. Los resultados son claros en el caso
de una relaci
on lineal (total) en los datos; de lo contrario, se debe tener cuidado al interpretar los resultados. El proceso de optimizacion, desarrollado para manejar el caso general (normalizado o no-normalizado),
permite al usuario decidir si debe normalizar o no la matriz relacional difusa antes del proceso de rangos
(ver opcion NORM). Despues de la normalizaci
on se necesita un proceso cuidadoso de interpretaci
on de los
resultados. Usualmente datos incompletos resultan en una matriz relacional no-normalizada, especialmente
cuando se usa DATA=RAWC y el n
umero seleccionado de alternativas en respuestas individuales es mas
peque
no que el n
umero de alternativas posibles. Aunque una matriz no-normalizada produce resultados en
los cuales el nivel de incertidumbre es mas alto, puede suministrar un cuadro mas realista acerca de la
relacion latente que determina los datos; en verdad la normalizaci
on se puede interpretar como una clase de
extrapolaci
on.
260
34.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Se puede usar el filtro est
andar para escoger un subconjunto de casos de
los datos de entrada y se usa el par
ametro VARS para seleccionar las variables.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode. N
otese que el programa solo utiliza
la parte entera de las variables recodificadas, es decir que estas variables se redondean al entero mas proximo.
Ponderaci
on de datos. Los datos se pueden ponderar con valores enteros. N
otese que los valores ponderados
se redondean al entero mas proximo. Cuando el valor de la variable de ponderaci
on para un caso es cero,
negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero de casos
as tratados.
Tratamiento de datos faltantes. Se puede usar el par
ametro MDVALUES para indicar cuales valores de
datos faltantes se van a usar para la verificacion de los datos faltantes. Para DATA=RAWC, las variables
con datos faltantes se saltan; para DATA=RANKS, los valores faltantes se sustituyen con el rango mas bajo.
34.3.
Resultados
261
34.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del analisis deben
tener valores enteros positivos. N
otese que las variables con valores decimales, se redondean al entero mas
proximo.
Las preferencias se pueden presentar de dos maneras en los datos. En la siguiente ilustraci
on se muestra
como hacerlo.
Supongamos que se han recolectado datos acerca de las preferencias de los empleados sobre varios factores
relacionados con su trabajo:
Oficina individual
Salario alto
Vacaciones largas
Supervision mnima
Compatibilidad entre colegas
Las dos maneras de representar esto en un cuestionario son:
1. DATA=RAWC
En este caso, los factores se codifican (1 a 5) y se solicita al encuestado se
nalarlos en el orden de su
preferencia. Las variables en los datos representaran los rangos:
V6 Factor m
as importante
V7 Segundo factor m
as importante
.
.
V10 Factor menos importante
262
2. DATA=RANKS
Aqu, cada factor aparece en el cuestionario como una variable:
V13 Oficina individual
V14 Salario alto
.
.
V17 Compatibilidad entre colegas
y al encuestado se le invita a asignar un rango a cada uno, en el cual 1 se da al factor mas importante,
2 al siguiente, etc. Aqu las variables representan los factores y sus valores representan los rangos. A
cada variable se le debe asignar un rango y todos los factores entran siempre al analisis. Los rangos
deben codificarse de 1 a n donde n es el n
umero de variables que se consideran.
Notas
1. Si DATA=RANKS, el c
odigo 0 y todos los c
odigos mayores que n, en donde n es el n
umero de variables
(n
umero de alternativas), se tratan como datos faltantes y se les asigna el rango mas bajo.
2. Si DATA=RAWC, los primeros NALT codigos diferentes encontrados durante la lectura de los datos
(excluido 0), se usan como c
odigos validos. Otros c
odigos hallados posteriormente en los datos, se toman
como c
odigos ilegales. El cero siempre se trata como un c
odigo ilegal. Si el n
umero de alternativas
escogidas por los encuestados es menor que NALT, entonces aparecen las alternativas no seleccionadas
en el listado con valores de c
odigo cero y nombre de c
odigo vaco.
34.5.
$RUN RANK
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de an
alisis (tantas como sean necesarias)
(s
olo para l
ogica cl
asica)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
34.6.
263
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
INCLUDE
V2=11
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
DATA=RANKS
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
Para DATA=RAWC, las variables con datos faltantes no se incluyen en el ordenamiento.
Para DATA=RANKS, los datos faltantes se recodifican al rango mas bajo.
VARS=(lista de variables)
Una lista de variables V y/o R a usar en el procedimento de rangos.
Sin valor por defecto.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
METHOD=(CLASSICAL/NOCLASSICAL, NONDOMINATED, RANKS)
Especifica el metodo a usar en el analisis.
CLAS
Metodo de logica clasica (ELECTRE).
NOND
Metodo difuso 1, llamado capas no dominadas.
RANK
Metodo difuso 2, llamado rangos.
DATA=RAWC/RANKS
Tipo de datos.
RAWC
Las variables corresponden a los rangos (la primera variable de la lista tiene el primero
rango, la segunda el segundo, etc.), y su valor es el n
umero del c
odigo de la alternativa
seleccionada.
RANK
Las variables representan las alternativas, sus valores son los rangos de las alternativas
correspondientes.
264
4. Especificaciones de an
alisis (condicional: solo en el caso de la logica clasica). Las reglas de codificacion son las mismas de los par
ametros. Cada especificaci
on de analisis debe comenzar en una nueva
lnea.
Ejemplo:
PCON=66
DDIS=4
PDIS=20
DCON=1/n
Diferencia de rangos que controla la concordancia en opiniones individuales (casos). Debe ser un
entero dentro del rango 0 a NALT-1.
PCON=51/n
Mnima proporci
on de concordancia individual expresada como un porcentaje y requerida en la
opinion colectiva. Debe ser un entero dentro del rango 0 a 99. El valor por defecto significa que
por lo menos, se necesita un acuerdo del 51 % para tener una concordancia colectiva.
DDIS=2/n
Diferencia de rangos que controla la discordancia en las opiniones individuales (casos). Debe ser
un entero dentro del rango 0 a NALT-1.
PDIS=10/n
M
axima proporci
on de discordancia individual, expresada como un porcentaje, tolerada en la
opinion colectiva. Debe ser un entero en el rango 0 a 100. El valor por defecto significa que no se
tolera una discordancia individual mayor del 10 %.
34.7.
Restricciones
1. El n
umero maximo de variables permitidas en una ejecuci
on es 200, incluidas las variables de Recode
y las variables de ponderaci
on.
2. El n
umero maximo de variables de analisis es 60.
34.8 Ejemplos
34.8.
265
Ejemplos
Ejemplo 1. Determinaci
on de un ordenamiento de alternativas, usando datos recolectados en forma de
rangos de alternativas; hay diez alternativas, se asume una relacion de preferencia debil y se har
a una
analisis con el metodo de rangos.
$RUN RANK
$FILES
PRINT = RANK1.LST
DICTIN = PREF.DIC
archivo Diccionario de entrada
DATAIN = PREF.DAT
archivo Datos de entrada
$SETUP
ORDENAMIENTO DE ALTERNATIVAS : METODO DE RANGOS
DATA=RANKS PREF=WEAK METH=(NOCL,RANKS) VARS=(V21-V30)
Ejemplo 2. Determinaci
on de un ordenamiento de alternativas, con datos recolectados en forma de una
selecci
on por prioridades; se escogen tres alternativas entre 20 y el orden de las variables determina la
prioridad de la selecci
on; se supone preferencia estricta; se solicitan los dos metodos de analisis difuso.
$RUN RANK
$FILES
los mismos del ejemplo 1
$SETUP
ORDENAMIENTO DE ALTERNATIVAS POR RANGOS : DOS METODOS DIFUSOS
NALT=20 METH=(NOCL,NOND,RANKS) VARS=(V101-V103)
Ejemplo 3. Determinaci
on de un ordenamiento de alternativas, usando datos recolectados en forma de una
selecci
on por prioridades; se escogen 4 alternativas entre 15 y el orden de las variables no determina la prioridad de la selecci
on (preferencia debil); se har
an cuatro analisis de logica clasica manteniendo siempre igual
a 1 las diferencias de rangos, pero aumentando la proporcion de discordancia y disminuyendo la proporcion
de concordancia.
$RUN RANK
$FILES
los mismos del ejemplo 1
$SETUP
ORDENAMIENTO DE ALTERNATIVAS : LOGICA CLASICA
PREF=WEAK NALT=15 METH=CLAS VARS=(V21,V23,V25,V27)
PCON=75 DDIS=1 PDIS=5
PCON=66 DDIS=1 PDIS=10
PCON=51 DDIS=1 PDIS=15
PCON=40 DDIS=1 PDIS=20
Captulo 35
Diagramas de dispersi
on (SCAT)
35.1.
Descripci
on general
35.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Se puede usar el filtro est
andar para escoger un subconjunto de casos de
los datos de entrada. Ademas, se puede especificar un rango de variables y una variable de filtro en el grafico
para restringir los casos incluidos en un grafico en particular. Las variables para dibujar, se especifican por
parejas con los par
ametros de gr
afico.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode. N
otese que para las variables R
el programa utiliza el n
umero de cifras decimales dado en el par
ametro NDEC.
Ponderaci
on de datos. Se puede especificar una variable de ponderaci
on para cada grafico. Las variables
V y R con decimales se multiplican por un factor de escala para obtener valores enteros. Ver la secci
on
Dataset de entrada abajo.
Cuando el valor de la variable de ponderaci
on para un caso es cero, negativo, dato faltante o no numerico,
entonces el caso siempre se omite; se imprime el n
umero de casos as tratados.
268
Diagramas de dispersi
on (SCAT)
35.3.
Resultados
35.4.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del analisis y del
filtro de grafico deben ser numericas; enteras o decimales. Las variables con decimales se multiplican por
un factor de escala para obtener valores enteros. Este factor se calcula como 10n donde n es el n
umero de
decimales del diccionario para las variables V y del par
ametro NDEC para las variables R, y aparece en los
resultados para cada variable.
35.5.
269
$RUN SCAT
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de gr
aficos (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT
35.6.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
INCLUDE
V21=6
AND
V37=5
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
ESTUDIO 600, JULIO 16, 1999, EDAD POR PESO POR SUBMUESTRA
3. Par
ametros (mandatorio). Para seleccionar opciones del programa. Los nuevos par
ametros son precedidos por un asterisco.
Ejemplo:
BADD=MD2
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
270
Diagramas de dispersi
on (SCAT)
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
* NDEC=0/n
N
umero de decimales (m
aximo 4) a conservar para las variables R.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de gr
aficos. Un conjunto para cada grafico. Las reglas de codificacion son las
mismas de los par
ametros. Cada especificaci
on de grafico debe empezar en una lnea nueva.
Ejemplo:
X=V3
Y=R17
FILTER=(V3,1,1)
X=n
umero de variable
N
umero de la variable X.
Y=n
umero de variable
N
umero de la variable Y.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on si se van a ponderar los datos.
FILTER=(n
umero de variable, c
odigo mnimo valido, c
odigo maximo valido)
Filtro de gr
afico. S
olo aquellos casos en los cuales el valor de la variable de filtro es mayor o
igual al codigo mnimo y menor o igual al c
odigo maximo, se incluyen en el grafico. Por ejemplo,
para especificar que solo los casos con c
odigos 0-40 en la variable 6 se van a incluir, se especifica:
FILTER=(V6,0,40).
HORIZAXIS=MAXRANGE/X
MAXR
Dibujar la variable con el rango mas alto en el eje horizontal.
X
Dibujar siempre la variable X en el eje horizontal.
35.7.
Restricciones
1. El n
umero maximo de variables por ejecuci
on es 50. Este maximo incluye todo: variables X y Y,
variables de filtro de gr
afico, variables de ponderaci
on y variables usadas en proposiciones de Recode.
2. No hay lmite al n
umero de gr
aficos pero SCAT produce solo 5 graficos por cada pasada de los datos
de entrada.
35.8 Ejemplo
35.8.
271
Ejemplo
Generacion de dos gr
aficos (ponderados con la variable V100 y sin ponderar) repetidos para tres diferentes
grupos de datos.
$RUN SCAT
$FILES
PRINT = SCAT1.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
GENERACION DE DOS DIAGRAMAS
*
(valores por defecto para todos los par
ametros)
X=V21 Y=V3 FILTER=(V5,1,2)
X=V21 Y=V3 FILTER=(V5,1,2) WEIGHT=V100
X=V21 Y=V3 FILTER=(V5,3,3)
X=V21 Y=V3 FILTER=(V5,3,3) WEIGHT=V100
X=V21 Y=V3 FILTER=(V5,4,7)
X=V21 Y=V3 FILTER=(V5,4,7) WEIGHT=V100
Captulo 36
B
usqueda de estructura (SEARCH)
36.1.
Descripci
on general
SEARCH es un procedimiento de segmentacion binaria usado para desarrollar un modelo predictivo para
la(s) variable(s) dependiente(s). Busca en un conjunto de variables predictoras aquellas que mas aumenten
la habilidad del investigador para explicar la variancia o la distribuci
on de una variable dependiente. La
pregunta: cual separacion dicot
omica sobre la cual una variable individual de predicci
on nos dar
a una
maxima mejora en nuestra habilidad para predecir valores de la variable dependiente?, inmersa en un
esquema iteractivo, es la base para el algoritmo de este programa.
SEARCH divide la muestra, a traves de una serie de separaciones binarias, en series de subgrupos mutuamente
excluyentes. Los subgrupos escogen de manera que, en cada paso en el procedimiento, la separacion en los
dos nuevos subgrupos explica mas de la variancia o de la distribuci
on (reduce mas el error predictivo) que
la separacion en otro par de subgrupos.
SEARCH puede hacer las siguientes funciones:
*
*
*
*
Generaci
on de un dataset de residuos. Se pueden calcular residuos y llevarlos a la salida como un
archivo Datos descrito por un diccionario IDAMS. Ver Dataset de residuos de salida para los detalles.
36.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Se puede utilizar el filtro est
andar para escoger un subconjunto de casos
de los datos de entrada. La(s) variable(s) dependiente(s) se especifica(n) en el par
ametro DEPVAR y las
predictoras se especifican en el par
ametro VARS en las proposiciones de predictor.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para un
caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. Casos con datos faltantes en una variable dependiente continua o en una
covariada se eliminan autom
aticamente. Casos con datos faltantes en una variable dependiente categorica
se pueden excluir con una proposicion de filtro o al especificar c
odigos validos con el par
ametro DEPVAR.
Casos con datos faltantes en las variables predictoras no se excluyen autom
aticamente. Sin embargo, la
proposicion de filtro y/o el par
ametro CODES se pueden usar para este prop
osito.
274
36.3.
B
usqueda de estructura (SEARCH)
Resultados
36.4.
Los residuos se pueden llevar opcionalmente a la salida en la forma de un archivo Datos descrito por un
diccionario IDAMS. (Ver el par
ametro WRITE). Para analisis de medias y de regresion y para analisis
de Ji-cuadrada con variables dependientes m
ultiples, cada registro contiene: una variable de identificacion,
la variable de grupo, variable(s) dependiente(s), una(s) variable(s) dependiente(s) predicha(s) (calculada),
residuo(s) y una ponderaci
on, si la hay.
Para analisis de Ji-cuadrada con una variable dependiente categorica, contiene: una variable de identificacion,
la variable de grupo, la primera categora de la variable dependiente, la primera categora predicha (calculada)
de la variable dependiente, el residuo para la primera categora de la variable dependiente, la segunda
categora de la variable dependiente, la segunda categora predicha (calculada) de la variable dependiente,
el residuo para la segunda categora de la variable dependiente, etc. y una ponderaci
on, si la hay.
Las caractersticas de las variables de salida son las siguientes:
N
umero de
variable
(identificador)
(variable de grupo)
(var dependiente 1)
(var predicha 1)
(residuo para var 1)
(var dependiente 2)
(var predicha 2)
(residuo para var 2)
...
(ponderaci
on - si hay)
*
**
***
1
2
3
4
5
6
7
8
.
n
Nombre
igual a entrada
Group variable
igual a entrada
igual a entrada
igual a entrada
igual a entrada
igual a entrada
igual a entrada
...
igual a entrada
cal
res
cal
res
Ancho de
campo
N
umero de
decimales
Codigo
MD1
*
3
*
7
7
*
7
7
.
*
0
0
**
***
***
**
***
***
...
**
igual a entrada
999
igual a entrada
9999999
9999999
igual a entrada
9999999
9999999
...
igual a entrada
275
Si el valor calculado o el del residuo execeden el ancho de campo asignado, se reemplaza por el c
odigo MD1.
36.5.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para analisis
deben ser numericas; pueden tener valores decimales o enteros. La variable dependiente puede ser continua
o categorica. Las variables predictoras pueden ser ordinales o categoricas. La variable de identificacion de
caso puede ser alfabetica.
36.6.
$RUN SEARCH
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de predictores
Especificaciones de separaciones predefinidas (opcional)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
36.7.
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-5, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
INCLUDE V3=5
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
BUSCANDO ESTRUCTURA
276
B
usqueda de estructura (SEARCH)
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
DEPV=V5
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
ANALYSIS=MEAN/REGRESSION/CHI
MEAN
Analisis de medias.
REGR
Analisis de regresion.
CHI
Analisis de Ji-cuadrada. Con una sola variable dependiente, se usara la lista de c
odigos
por defecto 0-9 y no se har
a verificacion de datos faltantes.
DEPVAR=n
umero de variable/(lista de variables)
La variable o variables dependientes. N
otese que se puede suministrar una lista de variables
solamente cuando se especifica ANALYSIS=CHI.
Sin valor por defecto.
CODES=(lista de c
odigos)
Solamente se puede suministrar una lista de c
odigos para ANALYSIS=CHI y una variable dependiente. N
otese que en este caso no se hace verificacion de datos faltantes para la variable
dependiente y solo se usan en el anaisis los casos con c
odigos listados.
COVAR=n
umero de variable
El n
umero de la variable covariada. Debe suministrase para ANALYSIS=REGR.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
MINCASES=25/n
N
umero mnimo de casos en un grupo.
MAXPARTITIONS=25/n
N
umero maximo de particiones.
SYMMETRY=0/n
La cantidad de poder explicativo que se quiere perder para obtener simetra, expresado como un
porcentaje.
EXPL=0.8/n
Incremento mnimo en el poder explicativo que se requiere para una separacion, expresado como
un porcentaje.
277
OUTDISTANCE=5/n
N
umero de desviaciones est
andar de la media del grupo al que pertenecen, que definen un caso
excentrico. N
otese que se reportan los casos excentricos si se especifica PRINT=OUTL, pero no
se excluyen del analisis.
IDVAR=n
umero de variable
Variable que sale con los residuos y/o que se imprime con cada caso clasificado como caso excentrico.
WRITE=RESIDUALS/CALCULATED/BOTH
Residuos y/o valores calculados que se escribiran como un dataset IDAMS.
RESI
Salen solo valores de residuos.
CALC
Salen solo valores calculados.
BOTH
Salen valores de residuos y valores calculados.
OUTFILE=OUT/yyyy
S
olo se aplica si se especifica WRITE.
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de residuos de salida
Por defecto: DICTOUT, DATAOUT.
PRINT=(CDICT/DICT, TRACE, FULLTRACE, TABLE, FIRST, FINAL, TREE, OUTLIERS)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
TRAC
Imprimir la huella de separaciones para cada predictor para cada separacion.
FULL
Imprimir la huella completa de separaciones para cada predictor, incluidas las separaciones elegibles pero sub-optimas.
TABL
Imprimir las tablas de resumen de predictores para todos los grupos.
FIRS
Imprimir las tablas de resumen de predictores para el primer grupo.
FINA
Imprimir las tablas de resumen de predictores para los grupos finales.
TREE
Imprimir el diagrama del arbol jerarquico.
OUTL
Imprimir los casos excentricos con valores de variable identificadora y de variable dependiente.
4. Especificaciones de predictores (mandatorio). Suministrar un conjunto de par
ametros para cada
grupo de predictores que se pueda describir con los mismos valores de los par
ametros. Las reglas de
codificacion son las mismas de los par
ametros. Cada especificaci
on de predictor debe comenzar en una
nueva lnea.
Ejemplo:
VARS=(V8,V9) TYPE=F
VARS=(lista de variables)
Variables predictoras a las cuales se aplican los otros par
ametros.
Sin valor por defecto.
TYPE=M/F/S
La restriccion del predictor.
M
Los predictores se consideran monotonicos, es decir, los c
odigos de predictores se van
a mantener adyacentes durante el barrido de la partici
on.
F
Los c
odigos de predictores se consideran libres.
S
Los c
odigos de predictores se selecionaran y separaran de los c
odigos restantes al
formar particiones de ensayo.
CODES=(0-9)/m
aximo c
odigo/(lista de c
odigos)
El valor de c
odigo mas grande aceptable o una lista de c
odigos aceptables. Los c
odigos pueden
estar en el rango de 0 a 31. Los casos con c
odigo fuera del rango 0 a 31 siempre se descartan.
278
B
usqueda de estructura (SEARCH)
RANK=n
Rango asignado. Si desean rangos, se asigan un rango predictor de 0 a 9. Un rango de cero indica
que se van a calcular estadsticas para los predictores, pero no se van a usar al hacer las particiones.
GNUM=1
VAR=V18
CODES=(1-3)
GNUM=n
El n
umero del grupo a separar. Los grupos se especifican en orden ascendente, en donde la muestra
entera original es el grupo 1. Cada conjunto de par
ametros forma dos nuevos grupos.
Sin valor por defecto.
VAR=n
umero de variable
Variable predictora que se usa para hacer la separacion.
Sin valor por defecto.
CODES=(lista de c
odigos)
Lista de los c
odigos del predictor que definen el primer subgrupo. Todos los dem
as c
odigos
perteneceran al segundo subgrupo.
Sin valor por defecto.
36.8.
Restricciones
1. N
umero mnimo de casos requerido es 2 * MINCASES.
2. N
umero maximo de predictores es 100.
3. Valor maximo de predictor es 31.
4. N
umero maximo de c
odigos de variables categoricas es 400.
5. N
umero maximo de separaciones perdefinidas es 49.
6. Si la variable de identificaci
on es alfabetica con ancho > 4, solo se usan los primeros cuatro caracteres.
36.9.
Ejemplos
Ejemplo 1. Analisis de medias con cinco variables predictoras; se solicita un mnimo de 10 casos por grupo;
se reportan los casos excentricos con mas de 3 desviaciones est
andar de la media del grupo; los casos se
identifican con la variable V1.
$RUN SEARCH
$FILES
PRINT
= SEARCH1.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
ANALISIS DE MEDIAS - CINCO VARIABLES PREDICTORAS
DEPV=V4 MINC=10 OUTD=3 IDVAR=V1 PRINT=(TRACE,TREE,OUTL)
VARS=(V3-V5,V12)
VARS=V21 TYPE=F CODES=(1-4)
Ejemplo 2. Analisis de regresion con seis variables predictoras; se van a computar residuos y valores calculados y se van a escribir en un dataset (los casos se identifican con la variable V2).
36.9 Ejemplos
279
$RUN SEARCH
$FILES
PRINT
= SEARCH2.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
DICTOUT = RESID.DIC
archivo Diccionario para residuos
DATAOUT = RESID.DAT
archivo Datos para residuos
$SETUP
ANALISIS DE REGRESION - SEIS VARIABLES PREDICTORAS
ANAL=REGR DEPV=V12 COVAR=V7 MINC=10 IDVAR=V2 WRITE=BOTH PRINT=(TRACE,TABLE,TREE)
VARS=(V3-V5,V18)
VARS=V22 TYPE=F
Ejemplo 3. Analisis de Ji-cuadrada con una variable dependiente categorica y c
odigos seleccionados; se
predefinen las dos primeras separaciones.
$RUN SEARCH
$FILES
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
ANALISIS DE JI: VARIABLE DEPENDIENTE CATEGORICA, SEPARACIONES PREDEFINIDAS
ANAL=CHI DEPV=V101 CODES=(1-5) MINC=5 PRINT=(FINAL,TREE)
VARS=(V3,V8) TYPE=S
GNUM=1 VAR=V8 CODES=3
GNUM=2 VAR=V3 CODES=(1,2)
Captulo 37
Descripci
on general
El uso principal de TABLES es obtener listados de tablas de frecuencias univariadas y bivariadas con la
opcion de mostrar porcentajes de fila, columna y esquina, y de manera opcional, estadsticas univariadas y
bivariadas. Tambien se pueden obtener tablas de valores medios de una variable.
Ambos las tablas univariadas/bivariadas y estadsticas bivariadas se pueden bajar a un archivo de manera
que se utilicen desde un programa generador de informes con un formato escogido por el mismo usuario, o
puede entrar a GraphID u otros paquetes, tales como EXCEL, por despliegue grafico.
Tablas univariadas. Se pueden generar frecuencias univariadas y frecuencias univariadas acumulativas
para cualquier n
umero de variables de entrada y se pueden tambien expresar como porcentajes de la frecuencia
total ponderada o sin ponderar. Adicionalmente se puede obtener la media de una variable de celda.
Tablas bivariadas. Se puede generar cualquier n
umero de tablas bivariadas. Adicionalmente a las frecuencias ponderadas y/o sin ponderar, una tabla puede tener frecuencias expresadas como porcentajes basados
en los marginales por fila y columna o en el total de la tabla y la media de una variable de una celda. Todos
estos tems se pueden incluir en una sola tabla hasta con seis tems por celda, o bien, se puede imprimir cada
una individualmente como una tabla separada.
Estadsticas univariadas. Para analisis univariado, se dispone de las siguientes estadsticas: media, moda,
mediana, variancia (sin asimetra), desviacion est
andar, coeficiente de variacion, asimetra y kurtosis. Existe
tambien una opci
on de cuantiles (NTILE). Se puede solicitar una divisi
on desde tres partes hasta diez partes.
Estadsticas bivariadas. Para el analisis bivariado, se pueden solicitar las siguientes estadsticas:
-
282
Tablas de sumas. Se pueden producir tablas en las cuales las celdas contengan la suma de una variable dependiente si se especifica la variable dependiente como el factor de ponderaci
on. Por ejemplo, WEIGHT=V208,
donde V208 representa el ingreso de un encuestado, y se quiere obtener el ingreso total de todos los encuestados en una sola celda.
Nota. Se tienen las siguientes opciones para controlar la presentacion de los resultados:
Se puede asignar un ttulo para cada conjunto de tablas.
Se pueden imprimir porcentajes y las medias en tablas separadas si se desea.
Se puede suprimir la malla de celdas.
Se pueden imprimir las filas que no tengan entradas en una secci
on particular de una tabla de
frecuencias grande; las tablas que tengan mas de diez columnas se imprimen por secciones y el
uso de la opci
on zero rows (cero filas) asegura que las diferentes secciones tengan el mismo
n
umero de filas (lo cual es importante si estas se van a recortar y pegar posteriormente).
37.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. Se puede usar el filtro est
andar para escoger un subconjunto de casos de
los datos de entrada. Ademas, se pueden usar filtros locales y factores de repetici
on (llamados especificaciones
de subconjunto) para escoger un subconjunto de casos para una tabla en particular. En tablas especificadas
individualmente, la variable o variables a utilizar con la tabla se escogen con los par
ametros de especificaci
on
de tabla R y C. Para conjuntos de tablas, las variables se seleccionan con los par
ametros de especificaci
on
de tabla ROWVARS y COLVARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode. N
otese que para las variables R
el programa utiliza el n
umero de cifras decimales dado en el par
ametro NDEC.
Ponderaci
on de datos. Se puede especificar, de manera opcional, una variable de ponderaci
on para cada
conjunto de tablas. Las variables V y R con decimales se multiplican por un factor de escala para obtener
valores enteros. Ver la secci
on Dataset de entrada abajo.
Cuando el valor de la variable de ponderaci
on para un caso es cero, negativo, dato faltante o no numerico,
entonces el caso siempre se omite; se imprime el n
umero de casos as tratados.
Tratamiento de datos faltantes.
1. El par
ametro MDVALUES est
a disponible para indicar cuales valores de datos faltantes, si los hay, se
usaran para verificar los datos faltantes.
2. Las frecuencias univariadas y bivariadas se imprimen siempre para todos los c
odigos en los datos sin
importar si se trata de datos faltantes o no. Para retirar completamente de las tablas los datos faltantes,
se puede especificar un filtro o un subconjunto de casos. Alternativamente, se pueden definir valores
maximos y/o mnimos de las variables de fila y de columna.
3. Los casos con datos faltantes, se pueden opcionalmente incluir en los c
alculos de porcentajes y de las
estadsticas bivariadas. Esto se puede hacer con el par
ametro de tabla MDHANDLING.
4. Los casos con datos faltantes en la variable de celda se excluyen siempre de las tablas univariadas y
bivariadas.
5. Los casos con datos faltantes, se excluyen siempre de los c
alculos de las estadsticas univariadas.
37.3.
Resultados
37.3 Resultados
-
283
n
umeros de variables de fila y columna (0 si no hay)
numero de variable para el valor de la media - variable de celda (0 si no hay)
n
umero de la variable de ponderaci
on (0 si no hay)
valores mnimo y maximo de fila (0 si no hay)
valores mnimo y maximo de columna (0 si no hay)
nombre de filtro y nombre del factor de repetici
on
porcentajes: fila, columna y total (T=solicitado, F=no solicitado)
RMD: datos faltantes para la variable de fila (T=eliminar, F=no eliminar)
CMD: datos faltantes para la variable de columna (T=eliminar, F=no eliminar)
CHI: Ji-cuadrada (T=solicitada, F=no solicitada)
TAU: tau a, b o c (T=solicitada, F=no solicitada)
GAM: gama (T=solicitada, F=no solicitada)
TEE: pruebas t (T=solicitadas, F=no solicitadas)
EXA: prueba no parametrica de Fisher (T=solicitada, F=no solicitada)
WIL: prueba no parametrica de Wicoxon (T=solicitada, F=no solicitada)
MW: prueba no parametrica de Mann-Whitney (T=solicitada, F=no solicitada)
SPM: ro de Spearman (T=solicitada, F=no solicitada)
EBM: estadsticas para medicina basada en evidencia (T=solicitadas, F=no solicitadas).
segundos
10
terceros
10
cuartos
10
primeros 16 c
odigos
10
segundos 16 codigos
11
ultimos 8 c
odigos
12
c
odigos
284
Numeraci
on de p
aginas. Es de la forma ttt.rr.ppp donde:
ttt
rr
ppp
37.4.
=
=
=
n
umero de la tabla
n
umero de repetici
on (00 si no se usa)
n
umero de p
agina dentro de cada tabla.
Se pueden obtener en un archivo, tablas univariadas y bivariadas con las estadsticas solicitadas en el
par
ametro CELLS, si se especifica WRITE=TABLES. Las tablas est
an en el formato de matriz rectangular de IDAMS (ver el captulo Los datos en IDAMS). Se produce una matriz para cada estadstica
solicitada. Si se usa un factor de repetici
on, se produce una matriz para cada repetici
on.
Las columnas 21-80 del registro descriptor de la matriz, contienen la siguiente description adicional de la
matriz:
21-40
41-60
61-80
Identificaci
on de la estadstica: FREQ, UNFR, ROWP, COLP, TOTP o MEAN.
N
umero de tabla.
N
otese que los c
odigos de datos faltantes no se incluyen en la matriz.
37.5.
Se pueden seleccionar estadsticas para bajarlas a un archivo. Por ejemplo, si se han seleccionado gamas y
taus, entonces se generar
a una matriz de gamas y una matriz de taus separadamente. Las matrices de salida
de estadsticas bivariadas se solicitan con las especificaciones WRITE=MATRIX o bien con los par
ametros
de tabla ROWVARS o ROWVARS y COLVARS. Si se usa un factor de repetici
on, se baja al archivo una
matriz por cada repetici
on. Las matrices son de la forma matriz de IDAMS cuadrada o rectangular (ver el
captulo Los datos en IDAMS). Los valores en la matriz se escriben con el formato Fortran 6F11.5. Las
columnas 73-80 contienen la siguiente identificacion:
73-76
77-80
Identificaci
on de la estadstica: TAUA, TAUB, TAUC, GAMM, LSYM, LRD, LCD, CHI, CRMV
o RHO.
N
umero de tabla.
37.6.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Excepto variables del filtro principal,
todas otras variables referidas deben ser numericas.
En distribuciones y ponderaciones, las variables V y R con cifras decimales se multiplican por un factor de
escala para obtener valores enteros. Este factor se calcula como 10n donde n es el n
umero de decimales del
285
37.7.
$RUN TABLES
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
6.
Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de subconjuntos (opcional)
TABLES
Especificaciones de tablas (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
FT02
DICTxxxx
DATAxxxx
PRINT
37.8.
tablas/matrices de salida
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)
Referirse al el captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, 1-3 y 6 a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
INCLUDE
V3=6
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
TABLAS DE FRECUENCIAS
3. Par
ametros (mandatorio). Para seleccionar opciones del programa. Los nuevos par
ametros son precedidos por un asterisco.
Ejemplo:
BADDATA=SKIP
286
CLASS
INCLUDE V8=1,2,3,-7,9
EDUCATN
(nombre subconjunto)
En el ejemplo anterior, si EDUCATN se define como filtro local en las especificaciones de la tabla, la
tabla se producira con la inclusi
on de solo aquellos casos con c
odigos 0,1,2,3,4 o 9 para V4 y 1 para
V5.
287
Factores de repetici
on. Una especificaci
on de subconjunto se identifica como un factor de repetici
on
para una tabla o un conjunto de tablas, al especificar el nombre del subconjunto con el par
ametro
REPE. S
olo se debe dar una variable en una especificaci
on de subconjunto para usarla como factor
de repetici
on. Los factores de repetici
on permiten la generaci
on de tablas de 3 entradas, en donde la
variable utilizada en el factor de repetici
on, se puede considerar como una variable de control o de
panel. Si se utiliza un factor de repetici
on y un filtro, se puede obtener una tabla de 4 entradas.
Las expresiones INCLUDE, hacen que las tablas producidas incluyan los casos para cada valor o rango
de valores de la variable de control utilizada en la expresi
on. Los valores o rangos se separan con comas.
As si hay n comas en la expresion, se produciran n+1 tablas.
Ejemplo:
EDUCATN
(nombre subconjunto)
INCLUDE V4=0-4,9
(expresi
on)
EDUCATN
(nombre subconjunto)
EXCLUDE V1=1,4
(expresi
on)
ROWVARS=(lista de variables)
Lista de variables para la cual se requieren tablas univariadas o lista de variables que se va a usar
como filas en tablas bivariadas.
COLVARS=(lista de variables)
Lista de variables a usar como columnas para tablas bivariadas.
R=(var, rmin, rmax)
var
N
umero de variable de fila o de variable univariada de una tabla individual. Para
suministrar los valores maximos y mnimos de un conjunto de tablas, coloque el n
umero
de variable en ceros, por ej. R=(0,1,5); en este caso los c
odigos maximos y mnimos se
aplican a todas las variables en el par
ametro ROWVARS.
rmin
C
odigo mnimo de la(s) variable(s) de fila para los c
alculos estadsticos y de porcentajes.
rmax
C
odigo maximo de la(s) variable(s) de fila para los c
alculos estadsticos y de porcentajes.
Si se especifica rmin o rmax, entonces se deben especificar ambos. Si solo se especifica el n
umero
de variable, los valores maximos y mnimos no se aplican.
288
289
USTATS=(MEANSD, MEDMOD)
(Solo tablas univariadas).
MEAN
Imprimir media, mnimo, maximo, variancia (sin asimetra), desviacion est
andar, coeficiente de variaci
on, asimetra, kurtosis, total de casos ponderados y sin ponderar.
MEDM
Imprimir mediana y moda (si hay ataduras, se escoge el valor numerico mas peque
no).
NTILE=n
(Solo tablas univariadas).
La n es el n
umero de cuartiles que se van a calcular; debe estar en el rango 3-10.
STATS=(CHI, CV, CC, LRD, LCD, LSYM, SPMR, GAMMA, TAUA, TAUB, TAUC, EBMSTAT,
WILC, MW, FISHER, T)
Si se va imprimir o producir como salida alguna de las estadsticas bivariadas, suministrar el
par
ametro STAT con cada una de las estadsticas deseadas.
Tablas bivariadas y matrices de salida
CHI
Ji-cuadrada. (Si no se ha pedido MATRIX, la selecci
on de CHI, CV o CC har
a que se
calculen las tres).
CV
V de Cramer.
CC
Coeficiente de contingencia.
LRD
Lambda, variable de fila es la variable dependiente. (Si no se ha pedido MATRIX, la
selecci
on de cualquiera de las lambdas har
a que se calculen las tres).
LCD
Lambda, variable de columna es la variable dependiente.
LSYM
Lambda, simetrica.
SPMR
Estadstica Ro de Spearman.
GAMM
Estadstica Gama.
TAUA
Estadstica tau a. (Si no se ha pedido MATRIX, la selecci
on de cualquiera de las taus
har
a que se calculen las tres).
TAUB
Estadstica tau b.
TAUC
Estadstica tau c.
Tablas bivariadas solamente
EBMS
Estadsticas para medicina basada en evidencia.
WILC
Prueba de rangos con signo de Wilcoxon.
MW
Prueba de Mann-Whitney.
FISH
Prueba exacta de Fisher.
T
Pruebas-t entre todas las combinaciones de filas, hasta un lmite de 50 filas.
DECPCT=2/n
N
umero de decimales impresos para porcentajes, maximo cuatro.
DECSTATS=2/n
N
umero de decimales impresos para las estadsticas media, mediana, taus, gama, lambdas y Jicuadrada. Todas las dem
as estadsticas se imprimiran con 2+n decimales (es decir, por defecto
4).
WRITE=MATRIX/TABLES
Si se va a generar un archivo de salida, se debe suministrar el par
ametro WRITE y el tipo de
salida.
MATR
Bajar al archivo las matrices de estadsticas seleccionadas.
Si el par
ametro ROWVARS se especifica, se produce una matriz cuadrada para cada
estadstica solicitada en el par
ametro STATS con todos los apareamientos de las variables que aparecen en la lista.
Si se especifican los par
ametros ROWVARS y COLVARS, se produce una matriz rectangular para cada estadstica solicitada en el par
ametro STATS con cada variable que
aparezca en la lista de ROWVARS, apareada con cada variable que aparezca en la lista
de COLVARS.
290
37.9.
Restricciones
1. El n
umero maximo de variables para frecuencias univariadas es 400.
2. La combinaci
on de variables y especificaciones de subconjuntos est
a sujeta a la siguiente restriccion:
5NV + 107NF < 8499
donde NF es el n
umero de especificaciones de subconjuntos y NV es el n
umero de variables.
3. Los valores de los c
odigos en tablas univariadas deben estar dentro del rango -2,147,483,648 a 2,147,483,647.
4. Los valores de los c
odigos para tablas bivariadas deben estar en el rango -32,768 a 32,768. Cualesquiera
valores de c
odigo fuera de este rango, se recodifican inmediatamente a los valores de los puntos extremos
del rango, por ej. -40,000 se recodificar
a a -32,768 y 40,000 se convertira en 32,768. De esta manera, en
las especificaciones de tablas bivariadas, 32,768 corresponde al maximo valor maximo. (Notese que
una variable de 5 dgitos con un c
odigo de datos faltantes de 99999 tendra en el listado la fila de dato
faltante con ttulo 32,768).
5. La frecuencia maxima acumulada, ponderada o sin ponderar para una tabla (y para cualquier celda,
fila o columna) es 2,147,483,647.
6. Dimensiones maximas de la tabla.
Bivariada: 500 c
odigos de fila, 500 c
odigos de columna, 3000 celdas con entidades diferentes
de cero.
Univariada: 3000 categoras cuando se hayan solicitado frecuencias, mediana/moda; de lo
contrario, son ilimitadas.
Nota: para una variable como ingreso, si hay mas de 3000 valores u
nicos de ingreso, no se
puede obtener una mediana o una moda sin antes haber agrupado la variable.
7. Los valores no enteros de las variables tipo V en distribuciones y ponderaciones se tratan como si no
existiera el punto decimal; se imprime un factor de escala para cada variable.
8. Las pruebas-t de medias entre filas se llevan a cabo solamente en las primeras 50 filas de una tabla.
9. Para la salida de la matriz de estadsticas bivariadas, el maximo n
umero de variables por fila o columna
es de 95.
10. Si se van a producir archivos de salida para frecuencias bivariadas y matrices de estadsticas, todos
van al mismo archivo fsico de salida.
11. Cuando se utilizan variables recodificadas, no se pueden titular las filas y las columnas de las tablas.
37.10 Ejemplo
37.10.
291
Ejemplo
1.
2.
3.
4.
5.
6.
7.
8.
$RUN TABLES
$FILES
PRINT = TABLES.LST
FT02
= TREE.MAT
matrices de estad
sticas
DICTIN = TREE.DIC
archivo Diccionario de entrada
DATAIN = TREE.DAT
archivo Datos de entrada
$RECODE
R7=BRAC(V7,0-15=1,16-25=2,26-35=3,36-45=4,46-98=5,99=9)
NAME R7V7 AGRUPADA
$SETUP
EJEMPLO DE TABLAS
BADDATA=MD1
MALE
INCLUDE V10=1
SEX
INCLUDE V10=1,2
REGION
INCLUDE V3=1-2,3-4,5
MD
EXCLUDE V19=9 OR V52=9
TABLES
ROWV=(V201-V220) TITLE=Conteo de frecuencias
ROWV=(V54-V62,V64) USTATS=MEANSD PRINT=NOTABLES DECSTAT=1
ROWV=(V25-V30,R7)
USTATS=MEDMOD CELLS=(FREQS,UNWFREQS,ROWP) WEIGHT=V9 PRINT=CUM MDHAND=NONE
R=(V201,1,3) CELLS=(FREQS,MEAN) VARCELL=V54
ROWV=(V25-V28) COLV=(V29-V30) CELLS=(FREQS,ROWP,COLP,TOTP) STATS=(CHI,TAUA) REPE=SEX
ROWV=(V201-V203) COLV=V206 CELLS=(FREQS,MEAN) VARCELL=V54 REPE=REGION FILT=MALE
R=V19 C=V52 WEIGHT=V9 FILT=MD
ROWV=(V54-V62) STATS=(TAUA,GAMMA) PRINT=(MATRIX,N) WRITE=MATRIX
Captulo 38
Tipologa y clasificaci
on ascendente
(TYPOL)
38.1.
Descripci
on general
38.2.
Caractersticas est
andar de IDAMS
Selecci
on de casos y variables. El filtro est
andar est
a disponible para escoger un subconjunto de casos a
partir de los datos de entrada. Las variables se especifican con par
ametros.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para un
294
Tipologa y clasificaci
on ascendente (TYPOL)
caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Los casos con datos faltantes en las
variables cuantitativas pueden ser excluidos del analisis (ver el par
ametro MDHANDLING).
38.3.
Resultados
295
Nota: cuando aparecen variables cualitativas en las tablas, se imprimen los primeros 12 carateres del nombre
de la variable junto con el c
odigo que identifica la categora. Cuando aparecen variables cuantitativas en las
tablas, se imprimen todos los 24 caracteres del nombre de la variable.
Clasificaci
on jer
arquica ascendente
Tabla de raices cuadradas de desplazamientos y distancias, calculadas para cada par de grupos. (Opcional:
ver el par
ametro PRINT).
Tabla de reagrupamiento Nr.1. Estadsticas de resumen para las variables cuantitativas activas y las
categoras de variables cualitativas activas de los grupos implicados en el reagrupamiento.
Descripci
on de la nueva tipologa resultante. (Opcional: ver el par
ametro LEVELS). La misma informaci
on anterior.
Resumen de la cantidad de variancia explicada por la nueva tipologa. La misma informacion
anterior. N
otese aqu la media de la cantidad de variancia explicada por las variables mas discriminatorias
antes del reagrupamiento.
El resumen de la clasificacion jer
arquica ascendente se imprime despues de cada reagrupamiento hasta el
n
umero de grupos especificado por el usuario.
Tres diagramas que muestran el porcentaje de variancia explicada como una funci
on del n
umero de grupos
de las tipologas sucesivas, a su turno, para:
todas las variables,
las variables activas,
las variables que explican el 80 % de la variancia antes de llevar a cabo el reagrupamiento.
Perfiles para cada grupo de la tipologa. (Opcional: ver el par
ametro PRINT). Estos perfiles se imprimen
y se grafican para todos los grupos de la primera tipologa resultante y despues para los grupos obtenidos
en cada reagrupamiento.
Arbol jer
arquico se produce al final.
38.4.
Dataset de salida
Se puede pedir un dataset de variable de clasificacion para la primera tipologa resultante y sale en la
forma de un archivo Datos descrito por un diccionario IDAMS (ver el par
ametro WRITE y el captulo
Los datos en IDAMS). Contiene la variable de identificaci
on de caso, las variables transferidas, la variable
de clasificacion (GROUP NUMBER) y para cada caso, su distancia multiplicada por 1000 desde cada
categora de la variable de clasificacion, llamadas variables de distancia (n GROUP DISTANCE). Las
variables se numeran desde uno e incrementan de uno en uno en el orden siguiente: variable de identificacion
de caso, variables transferidas, variable de clasificacion y variables de distancia.
38.5.
Matriz de configuraci
on de salida
Se puede escribir opcionalmente una matriz de configuracion de salida en la forma de una matriz rectangular
de IDAMS (ver el par
ametro WRITE). Ver el captulo Los datos en IDAMS para una descripcion del
formato. Esta matriz suministra, lnea por lnea, para cada variable cuantitativa y para cada categora de
variables cualitativas activas, su valor medio a traves de los grupos y su desviacion est
andar total para la
tipologa inicial, es decir, antes de que los reagrupamientos tengan lugar. Los elementos de la matriz se
escriben en formato 8F9.3. Se escriben registros de diccionario.
38.6.
Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para analisis
deben ser numericas; pueden ser enteras o decimales. La variable identificadora de casos y las variables a ser
transferidas pueden ser alfabeticas.
296
Tipologa y clasificaci
on ascendente (TYPOL)
38.7.
Matriz de configuraci
on de entrada
La matriz de configuracion de entrada debe estar en la forma de una matriz rectangular IDAMS. Ver el
captulo Los datos en IDAMS para una descripcion del formato. La matriz es opcional y suministra una
configuracion inicial para usar en los c
alculos. Las estadsticas incluidas deberan ser valores medios para
las variables cuantitativas y proporciones (no porcentajes) para las categoras de variables cualitativas (por
ej. .180 en vez de 18.0 %). Una matriz de configuracion producida por el programa en una ejecuci
on previa
puede servir como configuracion de entrada.
38.8.
$RUN TYPOL
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
$MATRIX (condicional)
Matriz de configuraci
on de entrada
Archivos:
FT02
FT09
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT
38.9.
matriz de configuraci
on de salida si se ha especificado WRITE=CONF
matriz de configuraci
on de entrada si se ha especificado INIT=CONF
(omitir si se usa $MATRIX)
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de salida si se especifica WRITE=DATA
datos de salida si se especifica WRITE=DATA
resultados (por defecto IDAMS.LST)
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:
INCLUDE
V1=10-40,50
297
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:
3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
AQNTVARS=(lista de variables)
Una lista de variables que especifica las variables cuantitativas activas.
PQNTVARS=(lista de variables)
Una lista de variables que especifica las variables cuantitativas pasivas.
AQLTVARS=(lista de variables)
Una lista de variables que especifica las variables cualitativas activas.
PQLTVARS=(lista de variables)
Una lista de variables que especifica las variables cualitativas pasivas.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
MDHANDLING=ALL/QUALITATIVE/QUANTITATIVE
ALL
Se saltan los casos con datos faltantes en variables cuantitativas y se excluyen del
analisis los c
odigos de datos faltantes en variables cualitativas.
QUAL
Se excluyen del analisis los valores de datos faltantes en las variables cualitativas.
QUAN
Se saltan los casos con datos faltantes en las variables cuantitativas.
REDUCE
Estandarizacion de variables activas, cuantitativas y cualitativas.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
DTYPE=CITY/EUCLIDEAN/CHI
CITY
Distancia en cuadra urbana (city block).
EUCL
Distancia euclideana.
CHI
Distancia de Ji-cuadrada.
Nota: con referencia a la selecci
on del tipo de distancia, se recomienda usar:
la distancia en cuadra urbana cuando algunas variables activas son cualitativas y otras son
cuantitativas,
298
Tipologa y clasificaci
on ascendente (TYPOL)
la distancia euclideana cuando las variables activas son todas cuantitativas (con estandarizacion
cuando no se hayan medido todas con la misma escala),
la distancia de Ji-cuadrada cuando las variables activas son todas cualitativas.
INIGROUP=n
N
umero de grupos iniciales. Si una variable clave va a servir como base para la tipologa y si el
n
umero de grupos iniciales especificado aqu es mayor que el valor maximo de la variable clave,
el programa corrige esto autom
aticamente. Tambien, si hay ciertas categoras con cero casos, el
n
umero de grupos iniciales sera el n
umero de categorias no vacas que tengan casos.
Sin valor por defecto.
FINGROUP=1/n
N
umero de grupos finales.
INITIAL=STEPWISE/RANDOM/KEY/INCONF
La manera como la configuracion inicial es establecida.
STEP
Muestra por pasos.
RAND
Muestra aleatoria.
KEY
El perfil de los grupos iniciales es creado de acuerdo con una variable clave.
INCO
Se da un perfil a priori de grupos iniciales en un archivo de configuracion de entrada.
Nota: las variables incluidas en la configuracion de entrada deben corresponder exactamente a las variables suministradas con los par
ametros AQNTV y/o AQLTV.
STEP=5/n
Si se ha solicitado muestra de casos por pasos (INIT=STEP), n es la longitud del paso.
NCASES=n
Si se ha solicitado la muestra aleatoria de casos (INIT=RAND), n es el n
umero de casos (sin
ponderar) en el archivo de entrada, o una buena estimaci
on siempre que no exceda el n
umero de
casos.
Sin valor por defecto; debe especificarse si INIT=RAND.
KEY=n
umero de variable
Si se ha usado una variable clave para construir grupos iniciales (INIT=KEY), este es el n
umero
de la variable clave.
Sin valor por defecto; debe especificarse si INIT=KEY.
ITERATIONS=5/n
N
umero maximo de iteraciones para convergencia del perfil de grupo.
REGROUP=DISPLACEMENT/DISTANCE
DISP
El reagrupamiento se basa en el desplazamiento mnimo.
DIST
El reagrupamiento se basa en la distancia mnima.
WRITE=(DATA, CONFIG)
DATA
Crear un dataset IDAMS que contenga la variable identificadora de casos, las variables
transferidas, la variable de clasificacion y las variables de distancia.
CONF
Bajar la matriz de configuracion a un archivo.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
IDVAR=n
umero de variable
La variable a ser transferida al dataset de salida para identificar los casos.
Obligatorio si WRITE=DATA se ha especificado.
38.10 Restricciones
299
TRANSVARS=(lista de variables)
Variables adicionales (hasta 99) para ser transferidas al dataset de salida.
LEVELS=(n1, n2, ...)
Imprimir la descripci
on de la tipologa resultante para el n
umero de grupos especificado.
Por defecto: se imprime la descripcion despues de cada reagrupamiento.
PRINT=(CDICT/DICT, OUTCDICT/OUTDICT, INITIAL, TABLES, GRAPHIC, ROWPCT,
DISTANCES)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTC
Imprimir el diccionario de salida con registros C si los hay.
OUTD
Imprimir el diccionario de salida sin registros C.
INIT
Imprimir la historia de la construcci
on de la tipologa inicial.
TABL
Imprimir dos tablas con clasificacion de distancias.
GRAP
Imprimir el gr
afico de los perfiles.
ROWP
Imprimir porcentajes de fila para categoras de variables cualitativas.
DIST
Imprimir tabla de distancias y desplazamientos para cada reagrupamiento.
38.10.
Restricciones
1. El n
umero maximo de grupos iniciales es 30.
2. El n
umero maximo total de variables es 500, incluidas variable de ponderaci
on, variable clave, variables
a ser transferidas, variables de analisis (variables cuantitativas + n
umero de categoras para variables
cualitativas) y variables usadas temporalmente en proposiciones de Recode.
3. Si la variable de identificaci
on o una variable a ser transferida es alfabetica con ancho > 4, solo se usan
los primeros cuatro caracteres.
4. No se pueden usar variables R como variable identificadora o como variables a ser transferidas.
38.11.
Ejemplos
Ejemplo 1. Creaci
on de una variable de clasificacion al reunir 5 variables cuantitativas y 4 variables cualitativas con uso de distancia en cuadra urbana; se establecer
a una configuracion inicial mediante selecci
on
aleatoria de casos; la clasificacion comienza con 6 grupos y termina con 3; el reagrupamiento se basa en la
distancia mnima; los datos faltantes se excluyen del analisis.
$RUN TYPOL
$FILES
PRINT = TYPOL1.LST
DICTIN = A.DIC
archivo Diccionario de entrada
DATAIN = A.DAT
archivo Datos de entrada
$SETUP
BUSCA NUMERO DE CATEGORIAS EN UNA VARIABLE DE CLASIFICACION
AQNTV=(V114,V116,V118,V120,V122) AQLTV=(V5-V7,V36) REDU INIG=6 FING=3 INIT=RAND NCAS=1200 REGR=DIST PRINT=(GRAP,ROWP,DIST)
Ejemplo 2. Generaci
on de una variable de clasificacion a partir del Ejemplo 1 con 4 categoras; la variable
se va escribir en un archivo; las variables V18 y V34 se usan como cuantitativas pasivas y las variables V12
y V14 como cualitativas pasivas.
300
Tipologa y clasificaci
on ascendente (TYPOL)
$RUN TYPOL
$FILES
PRINT
= TYPOL2.LST
DICTIN = A.DIC
archivo Diccionario de entrada
DATAIN = A.DAT
archivo Datos de entrada
DICTOUT = CLAS.DIC
archivo Diccionario de salida
DATAOUT = CLAS.DAT
archivo Datos de salida
$SETUP
GENERACION DE UNA VARIABLE DE CLASIFICACION
AQNTV=(V114,V116,V118,V120,V122) AQLTV=(V5-V7,V36) REDU PQNTV=(V18,V34) PQLTV=(V12,V14) INIG=6 FING=4 INIT=RAND NCAS=1200 REGR=DIST PRINT=(GRAP,ROWP) WRITE=DATA IDVAR=V1
Parte V
An
alisis interactivo de datos
Captulo 39
Tablas multidimensionales y su
presentaci
on gr
afica
39.1.
Visi
on general
39.2.
Preparaci
on del an
alisis
Selecci
on de los datos. Hay un dataset disponible para construir tablas multidimensionales hasta que se
cambie al activar nuevamente el componente Tablas multidimensionales. El dialogo le permite escoger un
archivo de datos, bien sea de una lista de archivos usados recientemente (Recientes) o de cualquier carpeta
(Existentes). Por defecto se usa la carpeta Datos de la aplicacion actual. Si se asigna Archivos Datos (*.dat)
a Archivos de tipo: solo se muestran archivos Datos de IDAMS.
Selecci
on de variables. Al seleccionar un dataset para analisis, se llama al cuadro de dialogo para definicion
de la tabla. Se presenta una lista de las variables disponibles y se presentan cuatro ventanas para especificar
variables con diferentes prop
ositos. Use las tecnicas arrastrar y colocar para mover las variables entre y/o
dentro de las ventanas requeridas.
Variables de p
agina se usan para construir p
aginas separadas de la tabla para cada valor distinto de la
variable a la vez y para todos los casos juntos (pagina Total). Los casos incluidos en una p
agina en
particular tienen todos el mismo valor en la variable de p
agina. Las variables de p
agina nunca se anidan.
El orden en el cual se especifican las variables determina el orden en el cual se colocan las p
aginas.
Variables de fila son aquellas cuyos valores se usan para definir filas de la tabla. Su orden determina la
secuencia de uso de anidamiento.
Variables de columna son aquellas cuyos valores se usan para definir columnas de la tabla. Su orden
determina la secuencia de uso de anidamiento.
304
Variables de celda son aquellas cuyos valores se usan para calcular las estadsticas univariades (por ej. la
media) en las celdas de la tabla. El orden en el cual se especifican determina su orden de aparici
on en
la tabla. Puede haber hasta 10 variables de celda.
Anidamiento. Si se especifica mas de una variable de fila y/o columna, se anidan por defecto. Para usarlas
en forma secuencial, en el mismo nivel, haga doble clic en la variable de la fila o columna de la lista de
variables y marque la opci
on de tratamiento en el mismo nivel. Nota: esta opcion no est
a disponible para la
primera variable de una lista.
Porcentajes. Se pueden obtener porcentajes en cada celda (de fila, de columna y totales) haciendo doble
clic sobre la u
ltima variable de fila anidada en la ventana de definicion de tabla escogiendo los tipos de
porcentajes requeridos.
Estadsticas univariadas. Se pueden obtener diferentes estadsticas (suma, conteo, media, maximo, mnimo, variancia, desviaci
on est
andar) para cada variable de celda haciendo doble clic sobre la variable en la
ventana de definicion de tabla y marcando la estadstica o estadsticas requeridas. Las formulas para calcular media, variancia y desviaci
on est
andar se pueden encontrar en la secci
on Estadsticas univariadas del
captulo Tablas univariadas y bivariadas. Sin embargo, deben ajustarse ya que los casos no se ponderan.
Tratamiento de datos faltantes. El tratamiento de datos faltantes por defecto se aplica a la primera
construcci
on de tabla. Despues, se puede cambiar con el men
u Cambiar.
La opcion Valores de datos faltantes se usa para indicar cuales valores de datos faltantes, si los hay, se
usaran para verificar datos faltantes en los valores de las variables de fila y columna.
Ambos
Los valores de las variables se verificar
an contra los c
odigos MD1 y los rangos de los c
odigos
definidos por MD2.
MD1
Los valores de las variables se verificar
an contra los c
odigos MD1 solamente.
MD2
Los valores de las variables se verificar
an contra los rangos de los c
odigos definidos por MD2
solamente.
Ninguno
No se usaran c
odigos MD. Se consideran validos todos los valores de los datos.
Por defecto, se usan ambos c
odigos MD.
La opcion Manejo de datos faltantes se usa para indicar cuales valores de datos faltantes deben excluirse
de los c
alculos de porcentajes y estadsticas bivariadas.
Todos
Elimine todos los valores de datos faltantes.
Fila
Elimine los valores de datos faltantes para las variables de fila.
305
39.3.
Despues de seleccionar las variables y hacer clic en OK, aparece la ventana de Tablas multidimensionales
en la ventana de documento de WinIDAMS. Por defecto, se muestran las frecuencias y las medias de todas
las variables de celda. Si se especifican las variables de p
agina, se muestran los nombres de c
odigos de estas
variables en el tabulador en la parte inferior de la tabla. Se puede acceder a una p
agina en particular con un
clic en su nombre (o su c
odigo).
Cambiar la presentaci
on de la p
agina. Se puede cambiar separadamente la presentacion de cada p
agina,
los cambios se aplican exclusivamente a la p
agina activa.
Son posibles las siguientes modificaciones:
Aumentar el tama
no de la fuente - use el comando Aumentar de men
u Ver o el boton Aumentar de la
barra de herramientas.
Disminuir el tama
no de la fuente - use el comando Reducir de men
u Ver o el boton Reducir de la barra
de herramientas.
Restaurar el tama
no de la fuente por defecto - use el comando 100 % de men
u Ver o el boton 100 % de
la barra de herramientas.
306
39.4.
Presentaci
on gr
afica de tablas univariadas y bivariadas
39.5 C
omo hacer una tabla multidimensional
39.5.
307
C
omo hacer una tabla multidimensional
Usaremos el dataset rucm (rucm.dic es el archivo Diccionario y rucm.dat es el archivo Datos) que es
en la carpeta Datos por defecto y el cual est
a instalado con WinIDAMS.
Construiremos una tabla de tres entradas con dos variables de fila anidadas (SCIENTIFIC DEGREE y
SEX), una variable de columna (CM POSITION IN UNIT) y una variable de celda (AGE) para la
cual pediremos la media, el maximo y el mnimo.
Haga clic en Interactivo/Tablas multidimensionales. Este comando abre un dialogo para escoger un
archivo Datos de IDAMS.
Haga clic en rucm.dic y Abrir. Se ve ahora un dialogo para especificar las variables que desea usar en
la tabla multidimensional.
308
Despues de escoger las variables, puede cambiar las opciones por defecto, haciendo doble clic sobre la
variable. Un doble clic sobre la variable AGE en la lista VARIABLES DE CELDA abre el dialogo
siguiente:
39.6 C
omo cambiar una tabla multidimensional
39.6.
309
C
omo cambiar una tabla multidimensional
Solicitar tablas separadas. Suponga que desea ver una tabla separada para hombres y mujeres.
Haga clic sobre Cambiar/Especificaci
on y obtiene nuevamente el dialogo con la selecci
on previa de
variables.
Coja y mueva con el rat
on la variable SEX de la lista VARIABLES DE FILA a la lista VARIABLES
DE PAGINA y haga clic sobre OK.
Se observa a primera vista que es total para todos los valores juntos (hombres y mujeres). En la parte
inferior de la vista se ven tres etiquetas Total, MALE,FEMALE. Total es la etiqueta de la
vista actual.
310
Para ver la p
agina de los hombres, haga clic en la etiqueta MALE
Para ver la p
agina de las mujeres, haga clic en la etiqueta FEMALE
39.6 C
omo cambiar una tabla multidimensional
311
Solicitar porcentajes. As como las frecuencias se muestran por defecto, los porcentajes deben pedirse
explcitamente.
Haga clic sobre Cambiar/Especificaci
on y obtiene nuevamente el dialogo de la selecci
on previa de
variables.
Haga doble clic en la variable de fila SCIENTIFIC DEGREE y ve un dialogo con casillas para
marcar frecuencia (marcada por defecto), % Fila, % Columna, y % Total. Marque todas las casillas de
porcentajes as:
Haga clic sobre OK para aceptar el cambio y haga clic sobre OK en el dialogo de definicion de tablas
multidimensonales. Ve la tabla multidimensional previa con todos los porcentajes.
312
Captulo 40
Exploraci
on gr
afica de datos
40.1.
Visi
on general
40.2.
Preparaci
on del an
alisis
Selecci
on de datos. Para seleccionar datos, use el comando Abrir de men
u Archivo o haga clic en el boton
Abrir de la barra de herramientas. A continuacion, en el cuadro de dialogo de Abrir, escoja su archivo. La
asignacion de Archivos Datos (*.dat) o Archivos Matriz (*.mat) a Archivos de tipo: permite filtrar
los archivos mostrados.
Selecci
on de identificaci
on de caso. Si ha escogido un dataset, se le pide especificar una identificacion de
caso la cual puede ser una variable o el n
umero secuencial del caso. Se puede escoger una variable numerica
o alfabetica de una lista desplegable.
Selecci
on de variables. Si ha escogido un dataset, se le pide especificar las variables que quiera analizar.
Las variables numericas se pueden escoger de la Lista de origen de posibles variables y moverlas al area de
Vars seleccionadas. Mover las variables entre las listas se puede hacer con clic en los botones >, < (mover
solo las variables resaltadas), >>, << (mover todas las variables). N
otese que las variables alfabeticas no
est
an disponibles aqu y la variable identificadora del caso no debe escogerse para analisis.
Tratamiento de datos faltantes. Se proponen dos posibilidades: (1) en la eliminacion por casos, se usa
un caso en analisis solamente si tiene datos validos en todas las variables escogidas; (2) en la eliminacion
por pares, se usa un caso si tiene datos validos en ambas variables de cada par de variables separadamente.
40.3.
314
40.3.1.
Exploraci
on gr
afica de datos
Barra de men
u y barra de herramientas
Archivo
Abrir
Cerrar
Guardar como
El men
u tambien puede contener la lista de los archivos abiertos recientemente, es decir, archivos usados en
sesiones previas de GraphID.
Edici
on
El men
u solo tiene un comando, Copiar, para copiar la imagen grafica de la ventana activa al portapapeles.
Ver
Configuraci
on
Escalas
Barra de herramientas
Barra de estado
315
Guardar colores
Guardar fuentes
Herramientas
En este men
u puede hallar herramientas para manipular la matriz de graficos de dispersi
on y para llamar
otros graficos suministrados por GraphID.
Pincel
Aumento
Agrupaci
on
Cancelar agrupaci
on
Histogramas
Cancela el agrupaci
on.
Llama al cuadro de dialogo para especificar graficos para mostrar en la celdas
de la diagonal y sus propiedades.
Llama al cuadro de dialogo para especificar tipos de lneas de regresion
(lneas suavizadas) y sus propiedades.
Lneas suavizadas
Gr
aficos de 3D
Llama al cuadro de dialogo para seleccionar variables para usar como ejes
para la dispersi
on 3D y rotacion.
Modo dirigido
Activa/cancela modo dirigido.
Diagramas de caja y bigotes Llama al cuadro de dialogo para seleccionar variables y colores para
mostrar diagramas de caja y bigotes.
Titilado
Hace titilar los casos proyectados.
Enmascaramiento
Desenmascaramiento
Restaure paso por paso los casos enmascarados.
Hacer enmascaramiento guardado
Enmascara los casos enmascarados y guardados en la sesi
on previa.
Gr
afico agrupado
Llama al cuadro de dialogo para seleccionar variables de fila y de columna
de una tabla de dos dimensiones, y las variables X e Y para proyeccion de
sus gr
aficos en las celdas de la tabla.
Ventana
El men
u contiene la lista de ventanas abiertas y de comandos de Windows para organizarlos.
Ayuda
Manual de WinIDAMS
Acerca de GraphID
316
Exploraci
on gr
afica de datos
40.3.2.
Lneas suavizadas
Diagramas de 3D
Modo dirigido
Diagramas de caja y bigotes
Cancelar titilado
Disminuir el nivel de titilado
Aumentar el nivel de titilado
Enmascarar los casos dentro del rectangulo del pincel
Restaure paso por paso los casos enmascarados
Informaci
on acerca de la versi
on de GraphID
Manipulaci
on de la matriz de gr
aficos de dispersi
on
Configuraci
on de la matriz de gr
aficos de dispersi
on. La matriz actual de graficos de dispersi
on se
puede cambiar con el comando Configuraci
on de men
u Ver.
Visible: Aqu se puede definir el n
umero de columnas y filas para mostrar en la pantalla (no necesitan ser
iguales). Se pueden ver otras celdas desplazando la pantalla.
Variables: El cuadro de dialogo tiene dos listas de variables: Lista de origen y Vars seleccionadas. Se
pueden mover las variables de una lista a otra haciendo clic en los botones >, < (mover solo variables
resaltadas), >>, << (mover todas las variables).
Smbolos: En este cuadro de dialogo, puede seleccionar la forma y el color de los smbolos que se van a
usar para representar cada grupo de casos en los graficos. Si no se especifican grupos, entonces todos
los casos caen por defecto en un solo grupo y todos se representan con el mismo signo (por defecto
es un rectangulo negro peque
no). Uno puede asignar un smbolo a un grupo o bien colapsar grupos
asignando el mismo smbolo a dos o mas grupos.
La lista de grupos se suministra en el cuadro de la izquierda. Los otros dos cuadros, son cuadros de
selecci
on de smbolos y colores. Para seleccionar un color o un smbolo, simplemente haga clic sobre el.
Aparece inmediatamente la imagen del smbolo en el boton al lado del nombre del grupo resaltado.
Modo dirigido. Esta opci
on es u
til cuando el orden de los casos en algunas variables de columna tiene
sentido, por ej. cuando los valores de una variable de columna indican intervalos de tiempo. Enlazando las
im
agenes de manera secuencial con lneas rectas, puede ayudar, por ejemplo, a buscar patrones cclicos.
Para cambiar a gr
aficos dirigidos o regresar a graficos de dispersi
on, pulse el boton Modo dirigido de la barra
de herramientas o use el comando Modo dirigido de men
u Herramientas.
Enmascaramiento y desenmascaramiento de casos. Puede enmascarar casos proyectados en los graficos
de dispersi
on. Este aspecto puede ser u
til, por ejemplo, para retirar del grafico los casos extraviados.
Enmascarar est
a disponible cuando el pincel est
a activo.
Para enmascarar casos incluidos en el rectangulo del pincel, haga clic en el boton Enmascarar de la barra de
herramientas. Los casos enmascarados se ocultan en todos los graficos de dispersi
on. El enmascaramiento de
casos se puede repetir varias veces.
Todos o una parte de los casos enmascarados se puede desenmascarar haciendo clic en el boton Restaurar
de la barra de herramientas.
Guardar y utilizar de nuevo casos enmascarados. Se puede guardar el n
umero secuencial de casos
enmascarados en la sesi
on actual en el archivo correspondiente al dataset analizado con el comando Archivo/Guardar casos enmascarados. Estos casos se pueden enmascarar de nuevo en la(s) sesi
on(es) siguiente(s)
con el comando Herramientas/Hacer enmascaramiento guardado.
317
Agrupaci
on de casos. Esta opci
on permite ver c
omo una variable re
une los casos en grupos en todos
los graficos. La variable puede ser cualitativa o cuantitativa. Ademas de seleccionar la variable para crear
grupos, el usuario controla la forma de hacerlo (por valores o por intervalos y el n
umero de grupos).
El cuadro de dialogo para crear grupos se activa haciendo clic en el boton Agrupaci
on de la barra de
herramientas o con el comando Agrupaci
on de men
u Herramientas.
Exploraci
on con el pincel. El pincel es un rectangulo que se puede mover, aumentar y cuyo tama
no se
puede redefinir. Mientras se mueve sobre el grafico de dispersi
on, los casos dentro del pincel se resaltan en
el color y forma del pincel en todos los otros graficos de dispersi
on.
Una de las aplicaciones es determinar si una aglomeracion de casos representa verdaderamente un c
umulo en
un grafico de dispersi
on en el espacio multidimensional o si es simplemente una propiedad de la proyeccion.
Para este prop
osito, coloque el pincel sobre una aglomeracion en un grafico de dispersi
on y observe c
omo
estos casos se ubican en los otros gr
aficos. Si la misma aglomeracion aparece en los otros graficos entonces
puede tratarse de un c
umulo real. Desde luego, los graficos de dispersi
on deben escogerse de forma que las
distancias entre casos sean del mismo orden en los diferentes graficos.
Otra aplicacion del pincel es estudiar las distribuciones condicionales. Si las 4 esquinas del pincel se dan
como xmin , xmax , ymin , ymax , entonces los casos dentro del pincel son los que satisfacen las condiciones:
y los casos que satisfacen estas condiciones se pueden estudiar en los otros graficos.
Tambien puede usar Pincel para enmascarar y buscar casos.
Para entrar o cancelar el modo Pincel, haga clic en el boton Pincel de la barra de herramientas o use el
comando Pincel de men
u Herramientas.
Para colocar el pincel en el
area deseada, ubique el cursor en el borde, pulse el boton izquierdo del rat
on,
arrastre y suelte en el otro borde.
Para mover o cambiar el tama
no del pincel, coloque el cursor dentro del rectangulo del pincel o en el lado
del mismo, pulse el boton izquierdo y arrastre. Nota: para mover rapidamente el pincel a otra celda, coloque
el cursor en la celda deseada y pulse el boton izquierdo del rat
on.
Aumento. Crea una nueva ventana para agrandar la celda deseada o, en modo Pincel, agrandar el pincel.
Esta nueva ventana aumentada tiene la mayora de las propiedades de una matriz de graficos de dispersi
on
con una celda, por ejemplo, puede usar el pincel para identificar un nuevo conjunto de casos y luego agrandar
nuevamente.
Si la matriz madre de los gr
aficos de dispersi
on est
a en modo Pincel, la modificacion del pincel se refleja
inmediatamente en la ventana agrandada; de lo contrario, la ventana agrandada refleja las modificaciones
introducidas en la celda escogida en la matriz madre.
El comando Escalas de men
u Ver le permite mostrar las escalas de valores de variable para la ventana activa
agrandada.
Titilado. Esta funci
on es u
til cuando hay variables discretas o cualitativas en los datos analizados. En este
caso, es posible que las matrices usuales de los graficos de dispersi
on no suministren suficiente informacion ya
que una parte o todas las proyecciones 2D y 3D presenta cuadrculas en 2D o 3D y por lo tanto es imposible
determinar visualmente cuantos casos coinciden en la misma posicion de la cuadrcula y a cuales grupos
pertenecen.
El titileo es una transformaci
on aleatoria de los datos. Los valores de los datos (x ) se modifican adicionando
un ruido (a*U ) donde U es un valor aleatorio uniformemente distribuido del intervalo (-0.5, 0.5) y a es
una factor para controlar el nivel del titilado.
Para establecer el nivel deseado de titilado, use los botones Disminuir el nivel de titilado, Aumentar el nivel
de titilado y Cancelar titilado de la barra de herramientas.
N
otese que el titileo solo se puede obtener en la ventana de la matriz de graficos de dispersi
on.
318
Exploraci
on gr
afica de datos
40.3.3.
Histogramas y densidades
Se pueden mostrar histogramas, densidades normales, graficos de puntos y tres estadsticas univariadas en
las celdas diagonales de la matriz de gr
aficos de dispersi
on.
Para obtenerlos, haga clic en el boton Histogramas de la barra de herramientas o use el comando Histogramas
de men
u Herramientas. En el cuadro de dialogo presentado puede seleccionar los graficos deseados, el color
y el n
umero de barras de histogramas. Con la opcion Estadsticas, se suministran las siguientes estadsticas:
Asimetra (Skew), Kurtosis (Kurt) y Desviaci
on est
andar (Std).
40.3.4.
Lneas de regresi
on (Lneas suavizadas)
319
N
otese que estas son lneas de regresion de Y contra X, donde las variables X y Y se proyectan respectivamente
en los ejes horizontal y vertical.
Para obtener las lneas, haga clic en el boton Lneas suavizadas o use el comando Lneas suavizadas de
men
u Herramientas. Luego, en el cuadro de dialogo escoja las lneas deseadas, el color y el valor del par
ametro
de suavizaci
on.
El par
ametro de suavizaci
on es el n
umero de vecinos (casos vecinos) y esta igual 7 por defecto. No puede
exceder n/2 donde n es el n
umero de casos.
40.3.5.
Puede cambiar los colores y las fuentes de los graficos con los botones apropiados de la barra de herramientas.
Se puede registrar estos cambios como nuevos valores por defecto para las siguientes sesiones y ventanas.
El boton Colores permite cambiar los colores de:
Cajas
Fondo
Extensiones
Lnea de mediana
Lnea de media
M
argenes
Los botones Fuentes permiten cambiar las fuentes a escalas y nombres de variables.
320
Exploraci
on gr
afica de datos
Se puede agrandar cualquier celda de un diagrama de caja y bigotes. Escoja la celda deseada y haga clic en
el boton Aumento de la barra de herramientas.
40.3.6.
Gr
afico agrupado
Permite la proyeccion de un gr
afico de dispersi
on de dos dimensiones dentro de las celdas de una tabla de
dos dimensiones, y as un analisis en cuatro dimensiones.
Use el comando Herramientas/Gr
afico agrupado para obtener una ventana de dialogo en la cual se especifican
variables de fila y de columna para la construcci
on de la tabla, y las variables X y Y para los graficos de
dispersi
on.
Tambien se pide escoger la forma de calcular el n
umero de filas y de columnas. Hay dos posibilidades: pueden
ser iguales al n
umero de valores diferentes de variable o al n
umero de intervalos especificados por el usuario.
Los intervalos calculados son del mismo tama
no.
40.3.7.
Diagramas de dispersi
on tridimensionales y su rotaci
on
Puede usar los elementos de control del cuadro de dialogo en el panel izquierdo de la ventana para cambiar
la imagen grafica y rotarla.
El boton en la esquina superior izquierda se puede usar para regresar el grafico a la posicion inicial.
El boton en la esquina superior derecha se puede usar para colocar el centro de la nube de puntos: en el
centro de gravedad o en cero.
Los botones en el grupo Rotar se usan para mover el diagrama de dispersi
on alrededor de los ejes correspondientes y los del grupo Esparcir se usan para mover puntos desde y hacia el centro.
El grupo Nombres permite mostrar u ocultar nombres de variables en los ejes correspondientes.
321
40.4.
Una vez escogido el archivo de matrices, puede hacer clic en Abrir o hacer doble clic sobre el nombre del
archivo para mostrar un histograma 3D con una barra para cada celda de la primera matriz. La altura
de la barra representa el valor de la estadstica, con la escala construida usando su rango, es decir, h =
(sval smin )/(smax smin ). Por defecto, los valores negativos se muestran en azul y los positivos en rojo.
Puede escoger colores para nombres y escalas, valores negativos y positivos, paredes, piso y fondo. Use la
misma tecnica de los diagramas de caja y bigotes.
En la parte derecha de la ventana se le presenta una lista de matrices incluida en el archivo. N
otese que solo
se muestran los primeros 16 caracteres de la descripcion del contenido de la matriz. Si no hay descripcion,
GraphID muestra Untitled n. Puede traer la matriz a la pantalla haciendo clic sobre la descripcion del
contenido.
La matriz en pantalla se puede manipular con las opciones y comandos en los elementos de la barra de
men
u y con los conos equivalentes de la barra de herramientas.
40.4.1.
Barra de men
u y barra de herramientas
Archivo y Edici
on
Se suministran los mismos comandos de los correspondientes men
us en el analisis de datasets, excepto Cerrar.
322
Exploraci
on gr
afica de datos
Ver
Barra de herramientas
Barra de estado
Colores
Ventana y Ayuda
Est
an disponibles los mismos comandos de los correspondientes men
us en el analisis de datasets.
40.4.2.
Manipulaci
on de la matriz en pantalla
Similar a la manipulaci
on de los gr
aficos de dispersi
on 3D, puede usar los elementos de control del cuadro de
dialogo en el panel izquierdo de la ventana para cambiar la imagen grafica y para rotar la matriz en pantalla.
El boton superior se puede usar para devolver el grafico a la posicion inicial.
El boton Colores le permite cambiar los colores de:
Barra (valores positivos)
Pared
Barra (valores negativos)
Piso
Fondo
Nombres y escala.
Las casillas del grupo Ocultar/Mostrar le permite mostrar u ocultar paredes, escala, nombres en los ejes
correspondientes y la diagonal, si aplica.
Los botones en el grupo Rotar se pueden usar para mover la matriz alrededor del eje vertical.
Los botones en los grupos Columnas y Filas se pueden usar para cambiar el tama
no de columnas y filas
respectivamente.
Los botones en el grupo Centrar le permiten mover el grafico a la izquierda, derecha, arriba y abajo.
Captulo 41
An
alisis de series de tiempo
41.1.
Visi
on general
TimeSID es un componente de WinIDAMS para analisis de series de tiempo. Usa datasets de IDAMS
como entrada cuyos archivos Diccionario y Datos deben tener el mismo nombre con extensiones .dic y .dat
respectivamente.
S
olo se puede usar un dataset a la vez, es decir que al abrir un otro dataset autom
aticamente se cierra el
que se est
a usando.
41.2.
Preparaci
on del an
alisis
Selecci
on de datos. Para seleccionar un dataset, use el comando Abrir de men
u Archivo o haga clic en el
boton Abrir de la barra de herramientas. A continuacion, en el cuadro de dialogo de Abrir, escoja su archivo.
Al asignar Archivos Datos (*.dat) a Archivos de tipo: se muestran solo archivos Datos de IDAMS.
Selecci
on de series. Tambien se pide especificar las series (variables) que quiere analizar. Las variables
numericas se pueden escoger de la lista Series accesibles de posibles variables y mover al area Seleccionadas. Mover las variables entre las listas se puede hacer con clic en los botones >, < (mover solo las
variables resaltadas), >>, << (mover todas las variables). N
otese que aqu no hay variables alfabeticas.
Tratamiento de datos faltantes. Los valores datos faltantes se excluyen de las transformaciones de
series; se excluyen tambien del c
alculo de estadsticas y auto-correlaciones. En todos los otros analisis, los
valores de datos faltantes se reemplazan por el promedio general.
41.3.
Despues de seleccionar las series y de un clic en OK, la ventana principal de TimeSID muestra el grafico
de la primer serie de la lista de series seleccionadas. Las series se pueden manipular y analizar con varias
opciones y comandos en men
us y/o con los conos equivalentes de la barra de herramientas.
324
41.3.1.
An
alisis de series de tiempo
Barra de men
u y barra de herramientas
Archivo
Abrir
Cerrar
Guardar como
Imprimir
Vista preliminar
Muestra una vision previa de la impresion del contenido del panel activo o
de la ventana activa.
Configurar impresora
Salir
El men
u tambien puede contener la lista de los archivos abiertos recientemente, es decir, archivos usados en
sesiones previas de TimeSID.
Edici
on
El men
u solo tiene un comando, Copiar, para copiar el contenido del panel activo o de la ventana activa al
portapapeles.
325
Ver
Barra de herramientas
Barra de estado
Escala OX
Fuente para escalas
Colores b
asicos
Ventana
Tabla de datos
Llama la ventana con la tabla de datos. Las columnas de la tabla de datos son
las series de tiempo analizadas (incluidos los resultados de transformaci
on).
Ayuda
Manual de WinIDAMS
Acerca de TimeSID
326
An
alisis de series de tiempo
41.3.2.
La ventana de series de tiempo se divide en tres paneles: el de la izquierda es para cambiar las propiedades
de la ventana y para seleccionar series (variables), el de la derecha arriba es para mostrar varias series de
tiempo y el de la derecha abajo es para mostrar la serie actual.
Cambiar la apariencia de la ventana. Los dos paneles para mostrar series de tiempo est
an sincronizados
y se pueden cambiar con los controles suministrados en el panel de la izquierda. Por defecto, el panel superior
derecho est
a vaco y su tama
no est
a reducido. El panel derecho inferior muestra la serie actual dejando visibles
la barra de desplazamiento y las escalas. El tama
no de cualquiero de los paneles se puede cambiar con el
rat
on y la escala OX se puede ocultar/mostrar con el comando Escala OX de men
u Ver. M
as aun, la
presentacion de gr
aficos se puede modificar de la manera siguiente:
Regulaci
on del grado de compresi
on de gr
aficos - use los botones bajo Compresion de OX.
Colores para fondo y m
argenes - use el boton Colores.
Fuente para escalas - use el boton Fuente para escalas.
Cambiar el nombre de la serie de tiempo. Escoja la serie de tiempo requerida, haga clic en el nombre
con el boton derecho del rat
on y escoja la opcion Cambiar nombre. La ventana activa presenta el nombre
para ser modificado. N
otese que estas modificaciones son temporales y se guardan solamente durante la
sesi
on.
Escoger la serie de tiempo para mostrarla en pantalla. En el panel izquierdo de la ventana se
suministra una lista de series de tiempo. Al hacer doble clic sobre una variable de la lista, puede escoger la
forma y el color de la lnea de proyeccion. Despues de OK, se muestra el grafico correspondiente en el panel
superior de la ventana. Esta operaci
on se puede repetir para diferentes variables y de esta forma, puede
obtener varios gr
aficos mostrados simult
aneamente en el panel superior de la pantalla. El panel inferior
derecho siempre muestra la serie actual.
Suprimir una serie del an
alisis. Escoja la serie de tiempo requerida, haga clic en el nombre con el boton
derecho del rat
on y escoja la opci
on Suprimir serie.
41.4 Transformaci
on de series de tiempo
41.4.
327
Transformaci
on de series de tiempo
Promedio crea una nueva serie de tiempo como promedio de las series especificadas. Las series tomadas
para los c
alculos se seleccionan en el cuadro de dialogo Selecci
on de series (ver secci
on Preparaci
on
del analisis).
Aritm
etica en parejas crea un conjunto de series de tiempo haciendo operaciones aritmeticas en parejas
de series de tiempo especificadas en el cuadro de dialogo (cada serie especificada en la primera lista de
argumentos con el segundo argumento).
Diferencias, MA, ROC crea un conjunto se series de tiempo basado en transformaciones (diferencias
secuenciales, promedios movibles (MA) no centradas, raz
on de cambio (ROC)) de las series especificadas en el cuadro de dialogo. En el mismo cuadro se asignan los par
ametros especificados para cada
transformaci
on as como el tipo de transformaci
on ROC.
328
41.5.
An
alisis de series de tiempo
An
alisis de series de tiempo
41.5 An
alisis de series de tiempo
329
definidas por el intervalo (Frecuencia - ancho de la ventana, Frecuencia + ancho de la ventana). Con
una opci
on Eliminar tendencia se puede suprimir la tendencia de la serie antes filtraci
on (despues, el
componente de tendencia se a
nade a los resultados de la filtraci
on).
Referencias
Farnum, N.R., Stanton, L.W., Quantitative Forecasting Methods, PWS-KENT Publishing Company, Boston,
1989.
Kendall, M.G., Stuart, A., The Advanced Theory of Statistics, Volume 3 - Design and Analysis, and time
series, Second edition, Griffin, London, 1968.
Marple Jr, S.L., Digital Spectral Analysis with Applications, Prentice-Hall, Inc., 1987.
Parte VI
F
ormulas estadsticas y referencias
bibliogr
aficas
Captulo 42
An
alisis de conglomerados
Notaci
on
x
h, i, j, l
f, g
p
c
k
Nj
N
42.1.
= valores de variables
= subndices para objetos
= subndices para variables
= n
umero de variables
= subndice para conglomerado
= n
umero de conglomerados
= n
umero de objetos en conglomerado j
= n
umero total de casos.
Estadsticas univariadas
Si la entrada es un dataset IDAMS, se calculan las siguientes estadsticas para todas las variables usadas en
el analisis:
a) Promedio.
xf =
xif
b) Desviaci
on absoluta media.
sf =
42.2.
X
i
|xif xf |
N
Medidas estandarizadas
En la misma situaci
on, el programa puede calcular medidas estandarizadas, tambien llamadas puntajes z,
dados por:
zif =
xif xf
sf
para cada caso i y cada variable f utilizando el valor promedio y la desviacion absoluta media de la variable
f (ver secci
on 1 mas atr
as).
334
An
alisis de conglomerados
42.3.
Los elementos dij de una matriz de disimilitudes miden el grado de disimilitud entre los casos i y j. Los
dij se calculan directamente a partir de los datos primarios o a partir de los puntajes z si se solicita la
estandarizacion de las variables. Se pueden escoger dos tipos de distancias: euclideana o en cuadra urbana
(city block).
a) Distancia euclideana.
v
uX
u p
dij = t (xif xjf )2
f =1
p
X
f =1
42.4.
|xif xjf |
Si la entrada es una matriz de similitudes con elementos sij , los elementos dij de la matriz de disimilitudes
se calculan as:
dij = 1 sij
42.5.
42.6.
Repartici
on alrededor de medoides (PAM)
El algoritmo busca k objetos representativos (medoides) que se encuentran centrados en los conglomerados
que ellos definen. El medoide, objeto representativo del conglomerado, es aquel objeto para el cual la disimilitud promedio con todos los objetos en el conglomerado es mnima. En realidad, el algoritmo PAM minimiza
la suma de disimilitudes en vez de la disimilitud promedio.
La selecci
on de k medoides se lleva a cabo en dos fases. En la primera, se obtiene un conglomerado inicial
con la selecci
on sucesiva de objetos representativos hasta hallar k objetos. El primer objeto es aquel para
el cual la suma de las disimilitudes con todos los otros objetos es tan peque
na como sea posible. (Es una
especie de Mediana multivariada de los N objetos, de all el termino medoide.) En cada paso, PAM
42.6 Repartici
on alrededor de medoides (PAM)
335
N
X
di,m(i)
i=1
h6C
El conglomerado C es un conglomerado L si
max dij < mn dlh
i,jC
lC,h6C
c) Di
ametro de un conglomerado. Se define el diametro del conglomerado C como la mayor disimilitud
entre objetos que pertenecen a C:
Di
ametroC = max dij
i,jC
d) Separaci
on de un conglomerado. Se define la separacion del conglomerado C como la menor disimilitud entre dos objetos, uno de los cuales pertenece a C y el otro no.
Separaci
onC = mn dlh
lC,h6C
Distancia promedioj =
dij
iC
Nj
f ) Distancia m
axima a un medoide. Si el objeto j es el medoide del conglomerado C, la distancia
maxima de todos los objetos de C a j se calcula as:
Distancia maximaj = max dij
iC
g) Siluetas de los conglomerados. Cada conglomerado se representa con una silueta (Rousseeuw
1987), que muestra cuales objetos caen bien dentro del conglomerado y cuales simplemente tienen una
posicion intermedia. Para cada objeto se suministra la siguiente informacion:
-
n
umero del conglomerado al cual pertenece (CLU),
n
umero del conglomerado vecino (NEIG),
el valor si (denotado como S(I) en el listado),
el identificador de tres caracteres del objeto i,
una lnea cuya longitud es proporcional a si .
336
An
alisis de conglomerados
Para cada objeto i, el valor si se calcula as:
si =
b i ai
max(ai , bi )
42.7.
Repartici
on para grandes datasets (CLARA)
42.8.
Conglomeraci
on difusa (FANNY)
42.9 Conglomeraci
on jer
arquica acumulativa (AGNES)
337
a) Funci
on objetivo. La tecnica de conglomeracion difusa usada en FANNY busca minimizar la funci
on
objetivo
XX
u2ic u2jc dij
k
X i j
X
Funci
on objetivo =
u2jc
2
c=1
j
para i = 1, 2, . . . , N ; c = 1, 2, . . . , k
para i = 1, 2, . . . , N
uic = 1
k
N X
X
u2ic / N
i=1 c=1
Fk (1/k)
kFk 1
=
1 (1/k)
k 1
e) Conglomeraci
on dura m
as cercana. Esta partici
on (= conglomeracion dura) se obtiene asignando cada objeto al conglomerado en el cual tenga el mas alto coeficiente de pertenencia. Se calculan
siluetas y estadsticas relacionadas de la misma manera que en PAM.
42.9.
Conglomeraci
on jer
arquica acumulativa (AGNES)
Este metodo se puede aplicar al mismo tipo de datos que los metodos PAM y FANNY. Sin embargo, no es
necesario especificar el n
umero de conglomerados requeridos. El algoritmo construye una jerarqua en forma
de arbol que contiene implcitamente todos los valores de k, comenzando por N conglomerados y siguiendo
con fusiones sucesivas hasta obtener un solo conglomerado con todos los objetos.
En el primer paso, se unen los dos objetos mas cercanos (es decir, con disimilitud entre objetos mas peque
na)
para formar un conglomerado de dos objetos, mientras que los dem
as conglomerados tienen un solo miembro.
En cada paso siguiente se fusionan los dos conglomerados mas cercanos (con disimilitud entre objetos mas
peque
na).
a) Disimilitud entre dos conglomerados. En el algoritmo AGNES, se usa el metodo del promedio del
grupo de Sokal y Michener (llamado algunas veces metodo del promedio no ponderado de los grupos
pareados) para medir las disimilitudes entre conglomerados.
Sean R y Q dos conglomerados y |R| y |Q| el n
umero de objetos en cada uno de ellos. La disimilitud
d(R, Q) entre los conglomerados R y Q se define como el promedio de todas las disimilitudes dij donde
i es cualquier objeto de R y j es cualquier objeto de Q.
d(R, Q) =
1 XX
dij
|R| |Q|
iR jQ
338
An
alisis de conglomerados
b) Ordenamiento final de objetos y disimilitudes entre ellos. En la primera lnea, los objetos se
imprimen en el orden en que aparecer
an en la representacion grafica de los resultados. En la segunda
lnea se imprimen las disimilitudes entre conglomerados de union. N
otese que el n
umero de disimilitudes
impreso es uno menos que el n
umero de objetos N porque hay N 1 fusiones.
c) Bandera de disimilitudes. Es una representacion grafica de los resultados. Una bandera consiste
en tiras y estrellas. Las estrellas indican enlaces y las tiras son repeticioners de identificadores de
objetos. Una bandera se lee siempre de izquierda a derecha. Cada lnea con estrellas comienza en la
disimilitud de los conglomerados fusionados. Hay escalas fijas encima y debajo de la bandera que van de
0.00 (disimilitud 0) hasta 1.00 (la disimilitud mas grande encontrada). La disimilitud mas alta actual
(correspondiente a 1.00 en la bandera) se encuentra justamente debajo de la bandera.
d) Coeficiente aglomerativo. El ancho promedio de la bandera se llama coeficiente aglomerativo (AC).
Describe la fuerza de la estructura de aglomeracion encontrada.
AC =
1X
li
N i
42.10.
Conglomeraci
on jer
arquica divisiva (DIANA)
El metodo DIANA se puede usar para el mismo tipo de datos que el metodo AGNES. Aunque AGNES y
DIANA producen salidas similares, DIANA construye su jerarqua en la direcci
on opuesta, comenzando con
un gran conglomerado que contiene todos los objetos. En cada paso, divide un conglomerado en dos mas
peque
nos, hasta que todos los conglomerados tengan un solo elemento. Esto significa que para N objetos, la
jerarqua se construye en N 1 pasos.
En el primer paso, los datos se dividen en dos conglomerados haciendo uso de las disimilitudes. En cada
uno de los pasos siguientes, se divide el conglomerado con diametro mas grande (ver 6.c atr
as) de la misma
manera. Despues de N 1 pasos divisorios, todos los objetos est
an aparte.
a) Disimilitud promedio con todos los objetos. Sea A un conglomerado y |A| el n
umero de objetos
en el. La disimilitud promedio entre el objeto i y todos los dem
as objetos en el conglomerado A se
define como en 6.g atr
as.
di =
X
1
dij
|A| 1
jA,j6=i
1X
li
N i
42.11 Conglomeraci
on monot
etica (MONA)
42.11.
339
Conglomeraci
on monot
etica (MONA)
Af g
g6=f
b) Orden final de objetos. Los objetos se imprimen en el orden en que aparecen en el grafico de
separacion. Los pasos de separacion y las variables usadas para la separacion se imprimen debajo de
los identificadores de objetos.
c) Gr
afico de separci
on (bandera). Esta representacion grafica es muy similar a la bandera que
produce DIANA. La longitud de una fila de estrellas ahora es proporcional al n
umero del paso en
el cual se hizo la separacion. Las filas de identificadores de objetos corresponden a objetos. Una fila
de identificadores que contin
ua a la derecha de la bandera, se
nala un objeto que se convirtio en un
conglomerado con un solo elemento en el paso correspondiente. Las filas de identificadores graficadas
entre dos filas de estrellas indican objetos que pertenecen a un conglomerado que no se pudo separar.
42.12.
Referencias
Kaufman, L., and Rousseeuw, P.J., Finding Groups in Data: An Introduction to Cluster Analysis, John
Wiley & Sons, Inc., New York, 1990.
Rousseeuw, P.J., Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis,
Journal of Computational and Applied Mathematics, 20, 1987.
Captulo 43
An
alisis de configuraci
on
Notaci
on
Sea A(n,t) una matriz rectangular de n variables (filas) y t dimensiones (columnas). Una variable o punto a
tiene t coordenadas, cada una correspondiente a una dimensi
on.
ais
i, j
n = n
umero de variables
s, l, m = subndices para dimensiones (columnas)
t
43.1.
= n
umero de dimensiones.
Configurati
on centrada
n
Despues de haber efectuado los c
alculos con esta formula, la media de las coordenadas de las n variables es
cero para cada dimensi
on.
43.2.
Configurati
on normalizada
342
An
alisis de configuraci
on
43.3.
Soluci
on en ejes principales
Se rota la configuracion de forma que dimensiones sucesivas suministran la maxima variancia posible. Sea A
la configuracion a rotar y B la configuracion en la forma de ejes principales.
C
alculo de la matriz B:
La matriz simetrica A0 A de dimensi
on (t, t) es calculada en primer lugar. Despues los vectores propios, T ,
de A0 A se determinan con el metodo de diagonalizacion de Jacobi.
La matriz A est
a transformada en la matriz B con elementos bis , tal que B = A T , B tiene n lneas y t
columnas de la misma forma que la matriz A.
43.4.
SPij =
ais ajs
43.5.
DISTij =
s
X
s
(ais ajs )2
43.6.
Configuraci
on rotada
La rotacion puede ser llevada a cabo de dos en dos dimensiones cada vez. Corresponde al usuario seleccionar
las dimensiones, por eg. 2 y 5 (columna 2 y columna 5) y el angulo de la rotacion en grados.
Las nuevas coordenadas se calculan como sigue:
a0il
a0im
El c
alculo se lleva a cabo para cada valor de i, y tantas veces como haya variables.
En la matriz A, las columnas l y m, se transforman en los vectores de las nuevas coordenadas que han sido
calculadas como se indic
o arriba.
43.7.
Configuraci
on transladada
43.8 Rotaci
on varimax
43.8.
343
Rotaci
on varimax
43.9.
Configuraci
on clasificada
43.10.
Referencias
Greenstadt, J., The determination of the characteristic roots of a matrix by the Jacobi method, Mathematical
Methods for Digital Computers, eds. A. Ralston and H.S. Wilf, Wiley, New York, 1960.
Herman, H.H., Modern Factor Analysis, University of Chicago Press, Chicago, 1967.
Kaiser, H.F., Computer program for varimax rotation in factor analysis, Educational and Psychological
Measurement, 3, 1959.
Captulo 44
An
alisis discriminatorio
Notaci
on
x =
k =
i, j
g
=
=
valores de variables
subndice para el caso
subndices para variables
superndice para el grupo
q =
p =
xgk
yqg
=
=
Wg
Iq
=
=
44.1.
Estadsticas univariadas
Estas estadsticas, ponderadas si as se han especificado, se calculan para cada grupo y para cada variable
de analisis, usando la muestra b
asica. Se calcula la tambien la media para toda la muestra b
asica (media
total).
a) Media.
g
xgi =
N
X
wkg xgki
k=1
Wg
sgi =
v
u Ng
uX
2
u
wg (xg )
u
t k=1 k ki
Wg
(xgi )
346
An
alisis discriminatorio
44.2.
Discriminaci
on lineal entre 2 grupos
bqi xi + aq
iIq
tij =
X
k
wk (xki xi )(xkj xj )
W1 + W2
b) Tabla de clasificaci
on para la muestra b
asica.
Se asigna un caso:
al grupo 1 si fq (x) > 0 ,
al grupo 2 si fq (x) < 0 .
No se asigna un caso si fq (x) = 0 .
Porcentaje de casos correctamente clasificados se calcula como el cociente entre el n
umero
de casos en la diagonal y el n
umero total de casos en la tabla de clasificacion.
c) Tabla de clasificaci
on para la muestra de prueba.
Se construye de la misma manera que la tabla para la muestra b
asica (ver 2.b mas atr
as).
d) Criterio de selecci
on de la siguiente variable. Para este prop
osito se usa la distancia de Mahalanobis entre los dos grupos. La variable escogida en el paso q es la que maximiza el valor de Dq2 .
Dq2 = (yq1 yq2 )0 Tq1 (yq1 yq2 )
e) Asignaci
on y valor de la funci
on discriminatoria lineal para los casos. Se calculan y se
imprimen para el u
ltimo paso o cuando este precede a un decrecimiento del porcentaje de casos clasificados correctamente. El valor de la funci
on se calcula de acuerdo con la formula descrita anteriormente
en el punto 2.a; en el c
alculo se usan las variables retenidas en el paso. La asignacion de casos a los
grupos se hace seg
un lo descrito el punto 2.b anteriormente.
Se usan las mismas reglas de asignacion y la misma formula para la muestra b
asica, las medias de
grupos, la muestra de prueba y la muestra anonima.
44.3 Discriminaci
on lineal entre m
as de 2 grupos
44.3.
347
Discriminaci
on lineal entre m
as de 2 grupos
El procedimiento de discriminaci
on de 3 o mas grupos no solamente utiliza la matriz de covariancia total
sino tambien la matriz de covariancia entre grupos. El criterio para escoger la siguiente variable a usar
aqu es la huella del producto de estas dos matrices (generalizacion de la distancia de Mahalanobis para dos
grupos). Despues de escoger la nueva variable a entrar, se ejecuta el analisis factorial discriminatorio lineal y
el programa produce el poder discriminatorio total y el poder discriminatorio para los tres primeros factores.
Los casos se clasifican de acuerdo con las distancias a los centros de los grupos. En cada paso, el programa
calcula e imprime la tabla de clasificacion y el porcentaje de casos clasificados correctamente para la muestra
b
asica y para la muestra de prueba.
a) Tabla de clasificaci
on para la muestra b
asica. La distancia de un caso x al centro del grupo g
en el paso q se define como la funci
on lineal
vyqg (x) = (yqg )0 Tq1 (yqg 2x)
donde Tq , como se describio en 2.a anteriormente, es la matriz de covariancia total (calculada para los
casos extraidos de todos los grupos) para las variables incluidas en el paso q, con los elementos
tij =
X
k
wk (xki xi )(xkj xj )
W
bij =
X
g
W g (yig xi )(yjg xj )
W
La siguiente parte del analisis (puntos 3.d - 3.h a continuacion) se lleva a cabo en una de las siguientes
tres circunstancias:
cuando el paso precede a un decrecimiento del porcentaje de casos clasificados correctamente,
cuando el porcentaje de casos clasificados correctamente es igual a 100,
cuando es el ultimo paso.
d) Asignaci
on y distancias de los casos en la muestra b
asica. Las distancias a cada grupo se
calculan como se describio en el punto 3.a anteriormente; las variables usadas en los c
alculos son
aquellas retenidas en el paso. La asignacion de casos a los grupos se lleva a cabo como se describio en
el punto 3.a anteriormente.
e) An
alisis factorial discriminatorio. Se analiza la matriz Tq1 Bq descrita en 3.c mas atr
as. Los
dos primeros vectores propios correspondientes a los dos valores propios mas grandes de esta matriz
son los dos ejes factoriales discriminatorios. El poder discriminatorio de los factores se mide con los
correspondientes valores propios. Como el programa suministra el poder discriminatorio para los tres
primeros factores, la suma de los valores propios permite estimar el nivel de los valores propios restantes,
es decir, de aquellos que no se imprimen.
f ) Valores de factores discriminatorios para todos los casos y medias de grupos.
Para un caso, el valor del factor discriminatorio se calcula como el producto escalar del vector del
caso que contenga las variables retenidas en dicho paso con el vector propio correspondiente al factor.
348
An
alisis discriminatorio
Notese que estos valores no se imprimen sino que se utilizan en una representacion grafica de los casos
en el espacio de los dos primeros factores.
Para una media de grupo, se calcula el valor del factor discriminatorio de la misma manera, reemplazando el vector del caso por el vector de media de grupo.
g) Asignaci
on y distancias de los casos en la muestra de prueba. Las distancias a cada grupo se
calculan de la misma manera y la asignacion de casos a los grupos se hace siguiendo las mismas reglas
que para la muestra b
asica (ver 3.d mas atr
as).
h) Asignaci
on y distancias de los casos en la muestra an
onima. Las distancias a cada grupo se
calculan de la misma manera y la asignacion de casos a los grupos se hace siguiendo las mismas reglas
que para la muestra b
asica (ver 3.d mas atr
as).
44.4.
Referencias
Captulo 45
Funciones de distribuci
on y de Lorenz
Notaci
on
pi
i
s
N
= n
umero de subintervalos
= n
umero total de casos.
45.1.
El n
umero de puntos de separacion es inferior en una unidad al n
umero solicitado de subintervalos, por ej.
la mediana implica dos subintervalos y un punto de separaci
on.
pi = V () + [V ( + 1) V ()]
donde V es un vector ordenado de datos, por ej. V (3) es el tercer componente en el vector,
i(N + 1)
= entero
s
=
i(N + 1)
45.2.
Puntos de separaci
on de la funci
on de distribuci
on
350
Funciones de distribuci
on y de Lorenz
la que el ocurre y d la distancia mnima entre los items en el vector V. El intervalo k mn(d, 1)/2
se divide en m partes y los puntos medios son calculados para estos nuevos intervalos. Entonces la
interpolaci
on lineal se lleva a cabo entre dos nuevos puntos medios adecuados.
45.3.
Puntos de separaci
on de la funci
on de Lorenz
45.4.
Curva de Lorenz
La funci
on de Lorenz trazada contra la proporcion de la poblacion ordenada, da la curva de Lorenz que
siempre est
a contenida en el triangulo inferior del cuadrado unitario. El programa QUANTILE utiliza diez
subintervalos para generar la curva de Lorenz.
Note que los valores de la funci
on de Lorenz son llamados Fracci
on de riqueza en la impresion efectuada
por la computadora.
45.5.
El coeficiente de Gini
Coeficiente de Gini = 1
1 2X
li
s s i=1
45.6.
Estadstica D de Kolmogorov-Smirnov
La prueba de Kolmogorov-Smirnov trata la similitud entre dos funciones acumulativas. Si dos distribuciones
acumulativas para dos muestras est
an muy separadas en cualquier punto, esto sugiere que las muestras
provienen de poblaciones diferentes. La prueba se enfoca sobre la mayor diferencia entre las dos distribuciones.
Sean V1 y V2 los vectores ordenados para la primera y la segunda variable respectivamente, y X el vector de
c
odigos que aparecen en cualquiera de las dos distribuciones. El programa crea las dos funciones acumulativas
F1 (x) y F2 (x) respectivamente. Entonces busca la diferencia absoluta mayor entre las distribuciones,
D = max(|F1 (x) F2 (x)|)
e imprime:
x : el primer valor para la mayor diferencia en valor absoluto
f1
f2
Si las N para V1 y V2 son iguales e inferiores a 40, el programa imprime la estadstica K igual a la diferencia
en frecuencias asociada a la mayor diferencia. Una tabla de valores crticos de la estadstica K, denotada
351
N1 N2
N1 + N2
Nota: la significaci
on de la desviaci
on direccional maxima puede ser encontrada cuando se compara este valor
de Ji-cuadrada a una distribuci
on Ji-cuadrada con dos grados de libertad.
45.7.
Captulo 46
An
alisis factorial
Notaci
on
x =
i =
valores de variables
subndice para el caso
j, j 0 =
=
m =
I1 =
n
umero de factores determinados/deseados
n
umero de casos activos
J1 =
n
umero de variables activas
w
W
46.1.
=
=
Estadsticas univariadas
Estas estadsticas se calculan para todas las variables usadas en el analisis, es decir, variables activas y
variables pasivas, si las hay. N
otese que las variables se numeran nuevamente a partir de 1 (columna RNK).
S
olo los casos activos entran a los calculos.
a) Media.
xj =
I1
X
wi xij
i=1
b) Variancia (estimada).
N
N 1
sbj =
!" W
I1
X
i=1
wi x2ij
I1
X
W2
c) Desviaci
on est
andar (estimada).
q
sbj = sbj 2
d) Coeficiente de variaci
on (C. Var.).
Cj =
sbj
xj
i=1
wi xij
2
354
An
alisis factorial
e) Total (suma de xj ).
I1
X
T otalj =
wi xij
i=1
f ) Asimetra.
g1j =
g) Kurtosis.
g2j =
m3j
q
sb2j
sb2j
m4j
3
(b
s2j )2
donde
m3j =
donde
I1
X
i=1
m4j =
wi (xij xj )3
I1
X
i=1
wi (xij xj )4
W
h) N ponderada. N
umero de casos activos si no se especifica ponderaci
on, o n
umero ponderado de casos
activos (suma de ponderaciones).
46.2.
Datos de entrada
Se imprimen los datos tanto para casos activos como para casos pasivos.
La primera columna de la tabla contiene los valores de la variable identificadora del caso (hasta 4 digitos). La
segunda columna (Coef) contiene el valor de la ponderaci
on asignada a cada caso (wi ). La tercera columna
(PI) es igual a la suma ponderada de los valores de las variables activas para cada caso (totales ponderados
de fila).
Pi =
J1
X
wi xij
j=1
La primera lnea contiene los primeros 4 caracteres del nombre de cada variable. La segunda lnea (PJ) es
igual a la suma ponderada de los valores de los casos activos para cada variable (totales ponderados de
columna).
Pj =
I1
X
wi xij
i=1
N
otese que el valor de Coef al comienzo de esta lnea es igual al n
umero ponderado de casos activos y el
valor de PI es igual al total general (P ) de las variables activas para los casos activos.
P =
I1
X
i=1
Pi =
J1
X
j=1
Pj =
I1 X
J1
X
wi xij
i=1 j=1
El resto de la tabla de entrada de datos contiene los valores (con una cifra decimal) de las variables activas
y pasivas.
46.3.
Matrices n
ucleo (matrices de relaciones)
46.4 Huella
355
jj 0
I1
X
1
(wi xij ) (wi xij 0 )
= p p
Pi
Pj Pj 0 i=1
I1
X
wi xij xij 0
i=1
ucleo se
Para el analisis de productos escalares normados, los elementos N SPjj 0 de la matriz n
calculan as:
I1
X
wi xij xij 0
i=1
N SPjj 0 = v
u I1
I1
X
u X
t
2
wi x2ij 0
wi xij
i=1
i=1
COVjj 0 =
I1
X
i=1
wi (xij xj ) (xij 0 xj 0 )
W
ucleo se calculan as:
Para el analisis de correlaciones, los elementos CORjj 0 de la matriz n
I1
X
i=1
wi (xij xj ) (xij 0 xj 0 )
CORjj 0 = v
u I1
I1
uX
X
t
wi (xij xj )2
wi (xij 0 xj 0 )2
i=1
46.4.
i=1
Huella
La huella de la matriz n
ucleo se calcula como la suma de sus elementos en la diagonal. La huella tambien
es igual al total de los valores propios (inercia total). N
otese que para el analisis de correlaciones y para el
analisis de productos escalares normados la inercia total es igual al n
umero de variables activas.
Huella =
J1
X
=1
46.5.
Se imprimen los valores propios y los vectores propios para los factores retenidos. Tiene el mismo significado
para cada tipo de analisis pero son de poco interes para el usuario.
Para el analisis de correspondencias, el programa imprime un valor propio y un vector propio mas que el
n
umero de factores determinado/deseado. Primero se imprime el factor para el valor propio trivial (siempre
igual a 1) y luego se ignora. Los factores restantes se numeran nuevamente (a partir de 1) en las tables de
casos/variables activos/pasivos.
356
An
alisis factorial
46.6.
La tabla contiene todos los valores propios, simbolizados aqu por , calculados por el programa. N
otese
que en el analisis de correspondencias, el primer valor propio trivial (siempre 1) se imprime solamente en la
tabla y su valor se resta de la huella cuando se calcula el porcentaje en el punto 6.d mas adelante.
a) NO. N
umero secuencial de valor propio, , en orden ascendente.
b) ITER. N
umero de iteraciones usadas para calcular los vectores propios correspondientes. El valor cero
significa que el vector propio se obtuvo a la vez que el anterior (desde abajo).
c) Valor propio. Esta columna muestra una secuencia de valores propios, lambdas, cada uno correspondiente al factor .
d) Porcentaje. Contribuci
on del factor a la inercia total (en terminos porcentuales).
=
100
Huella
e) Cumul (porcentaje acumulativo). Contribucion de los factores 1 a a la inercia total (en terminos
porcentuales).
Cumul = 1 + 2 + +
f ) Histograma de valores propios. Cada valor propio se representa mediante una lnea de asteriscos en
la cual la cantidad de asteriscos es proporcional al valor propio. El primer valor propio del histograma
siempre se representa con 60 asteriscos. El histograma permite un analisis visual de la disminicion
relativa de valores propios para factores subsiguientes.
46.7.
La tabla contiene las ordenadas de las variables activas en el espacio factorial, sus cosenos al cuadrado con
cada factor y sus contribuciones a cada factor. Adicionalmente, contiene la calidad de estas variables, sus
ponderaciones y sus inercias.
a) JPR. N
umero de variable para las variables activas (principales).
b) QLT. Se mide la calidad de representacion de la variable en el espacio de m factores, para todo tipo
de analisis, con la suma de cosenos cuadrados (ver 7.f mas adelante). Los valores mas cercanos a 1
indican un nivel mas alto de representacion de la variable por los factores.
QLTj =
m
X
COS2 j
=1
Pj
1000
P
N
otese que la ponderaci
on (PESO) impresa en la u
ltima lnea de la tabla es igual a:
- el total general para el analisis de correspondencias,
- el n
umero ponderado de casos para otros tipos de analisis.
d) INR. Inercia correspondiente a la variable. Indica la parte de la inercia total relacionada con la variable
en el espacio de factores.
357
fj
F2 j
=1
IN Rj =
Huella
1000
donde F j es la ordenada de la variable j que corresponde al factor (ver 7.e mas adelante).
Para el analisis de productos escalares y el analisis de covariancias, la inercia de la variable
no depende de la ponderaci
on de esta.
IN Rj =
J1
X
F2 j
=1
1000
Huella
1
1000
J1
N
otese que la inercia (INR) impresa en la u
ltima lnea de la tabla es igual a 1000.
Las siguientes tres columnas se repiten para cada factor.
e) #F . La ordenada de la variable en el espacio factorial, denominado aqu con F j .
f ) COS2. Coseno cuadrado del
angulo entre la variable y el factor. Es una medida de la distancia entre
la variable y el factor. Valores cercanos a 1 indican distancias mas cortas al factor.
Para el analisis de correspondencias, se calcula as:
COS2 j =
F2 j
J11
X
F2 j
1000
=1
F2 j
J1
X
F2 j
1000
=1
fj F2 j
1000
F2 j
1000
N
otese que la contribuci
on (CPF) impresa en la u
ltima lnea de la tabla es igual a 1000.
358
An
alisis factorial
46.8.
46.9.
La tabla contiene las ordenadas de los casos activos en el espacio factorial, sus cosenos cuadrados con cada
factor y sus contribuciones a cada factor. Ademas, contiene la calidad de la representacion de estos casos,
sus ponderaciones y sus inercias.
a) IPR. Valor de identificador de caso para los casos activos (principales).
b) QLT. Se mide la calidad de representacion del caso en el espacio de m factores, para todos los tipos
de analisis, con la suma de cosenos cuadrados (ver 9.f mas adelante). Valores cercanos a 1 indican
un nivel mas alto de representacion del caso por los factores.
QLTi =
m
X
COS2 i
=1
Pi
1000
P
N
otese que la ponderaci
on (PESO) que se imprime en la u
ltima lnea de la tabla es igual al total
general.
Para todos los otros tipos de analisis,
fi =
wi
1000
P
N
otese que la ponderaci
on (PESO) que se imprime en la u
ltima lnea de la tabla es igual al n
umero
ponderado de casos.
359
d) INR. Inercia correspondiente al caso. Indica la parte de le inercia total relacionada con el caso en el
espacio de factores.
Para el analisis de correspondencias, se calcula como el cociente entre la inercia del caso y la
inercia total, multiplicado por 1000. N
otese que la inercia del caso depende de la ponderaci
on del caso
y que el valor de huella usado aqu no incluye el valor trivial del valor propio.
fi
J11
X
F2 i
=1
IN Ri =
Huella
1000
J1
X
wi
z2
W Huella j=1 ij
1000
donde
zij =
xij
xij
q PI1
i=1
2
wi xij / W
xij xj
xij xj
sj
y sj es la desviaci
on est
andar de la muestra para la variable j.
N
otese que la inercia (INR) que se imprime en la u
ltima lnea de la tabla es igual a 1000.
Las siguientes tres columnas se repiten para cada factor.
e) #F . La ordenada del caso en el espacio factorial, denominada aqu por F i .
f ) COS2. Coseno cuadrado del
angulo entre el caso y el factor. Es una medida de distancia entre caso
y factor. Los valores mas cercanos a 1 indican distancias mas cortas al factor.
Para el analisis de correspondencias, se calcula as:
COS2 i =
F2 i
1000
J11
X
F2 i
=1
F2 i
1000
J1
X
2
F i
=1
g) CPF. Contribuci
on del caso al factor.
Para el analisis de correspondencias,
CP F i =
fi F2 i
1000
wi F2 i
1000
W
N
otese que la contribuci
on (CPF) que se imprime en la u
ltima lnea de la tabla es igual a 1000.
360
An
alisis factorial
46.10.
46.11.
Factores rotados
S
olo en analisis de correlaciones. Los factores de variables se pueden rotar cuando se haya terminado el
analisis factorial. El procedimiento Varimax que se utiliza aqu es el mismo usado en el programa CONFIG.
N
otese que los factores de variables para las variables activas se pueden tratar como una configuracion de
J1 objetos en un espacio dimensional .
46.12.
Referencias
Benzecri, J.-P. and F., Pratique de lanalyse de donnees, tome 1: Analyse des correspondances, expose elementaire, Dunod, Paris, 1984.
Iagolnitzer, E.R., Presentation des programmes MLIFxx danalyses factorielles en composantes principales,
Informatique et sciences humaines, 26, 1975.
Captulo 47
Regresi
on lineal
Notaci
on
y
x
47.1.
N
w
= n
umero total de casos
= valor del peso multiplicado por
N
W
Estadsticas univariadas
Estas estadsticas ponderadas son calculadas para todas las variables utilizadas en el analisis, es desir,
variables ficticias, variables independientes y la variable dependiente.
a) Promedio.
xi =
wk xik
b) Desviaci
on est
andar (estimada).
sbi =
v
X
2
u X
2
uN
w
x
(w
x
)
k ik
k ik
u
t
k
k
N (N 1)
c) Coeficiente de variaci
on (C.var.).
Ci =
47.2.
100 sbi
xi
362
Regresi
on lineal
47.3.
Esta matriz, llamada matriz de cuadrados y productos cruzados de puntajes de desviacion, es calculada para
todas las variables utilizadas en el analisis como sigue:
X
X
wk xik
wk xjk
X
k
k
r.s.s.c.p. ij =
wk xik xjk
N
k
47.4.
Matriz de correlaci
on total
Los elementos de esta matriz son calculados directamente a partir de la matriz de la suma de cuadrados
residuales y productos cruzados. Note que si esta formula se escribe en todo detalle y si se multiplican por
N numerador y denominador, se trata de la f
ormula convencional de la r de Pearson.
r.s.s.c.p. ij
rij =
r.s.s.c.p. ii r.s.s.c.p. jj
47.5.
Matriz de correlaci
on parcial
47.6.
Matriz inversa
47.7.
363
a) Error est
andar de la estimaci
on. Es la desviacion est
andar de los residuos.
vX
u
u
(yk ybk )2
u
t k
Error est
andar de estimaci
on =
gl
donde
ybk =
gl =
R2 gl
p (1 R2 )
R = R2
R no es impresa si el termino constante ha sido forzado a tomar el valor cero.
d) Fracci
on de la variancia explicada. R2 puede ser interpretada como la proporcion de la variacion
en la variable dependiente, explicada por las variables explicativas. Llamado algunas veces el coeficiente
de determinaci
on, es una medida de eficacia de la regresion lineal. Entre mas grande sea, la ecuaci
on
ajustada explicar
a mejor la variaci
on en los datos.
X
(yk ybk )2
k
R2 = 1 X
k
(yk y)
donde
ybk
y
=
=
364
Regresi
on lineal
g) T
ermino constante.
X
A=y
Bi xi
donde
47.8.
y
xi
=
=
Bi
Estadsticas de an
alisis para los predictores
a) B. Son los coeficientes de regresion parcial no estandarizada que son los indicados (en vez de las betas)
para utilizarse en una ecuaci
on de proyeccion de valores primarios. Son sensibles a la escala de medida
de la variable predictora as como a la variancia de la variable predictora.
Bi = i
donde
sby
sbi
= ponderaci
on beta para el predictor i (ver 8.c abajo)
sby
sbi
= desviaci
on est
andar de la variable dependiente (ver 1.b arriba)
= desviaci
on est
andar de la variable predictora i (ver 1.b arriba).
cii
r.s.s.c.p. ii
donde
R11
Ryi
=
=
matriz de correlaci
on de los predictores en la ecuaci
on
vector columna de correlaciones de la variable dependiente y los
predictores indicada por el predictor i.
sbi
sby
e) r cuadrada parcial. Son las correlaciones parciales, al cuadrado, entre el predictor i y la variable
dependiente, y, eliminada la influencia de otras variables en la ecuaci
on de regresion. El coeficiente
de correlaci
on parcial al cuadrado, es una medida de que tanto la parte de variacion en la variable
dependiente que no est
a explicada por otros predictores, est
a explicada por el predictor i.
2
ryi
jl... =
2
2
Ry
ijl... Ry jl...
2
1 Ry
jl...
47.9 Residuos
365
donde
2
Ry
ijl...
R cuadrada m
ultiple con el predictor i
2
Ry
jl...
R cuadrada m
ultiple sin el predictor i.
g) Cociente t. Puede ser utilizado para probar si la hipotesis que , o B, es igual a cero; es decir si el
predictor i no tiene una influencia lineal en la variable dependiente. Su significancia se puede determinar
de la tabla de t con N p 1 grados de libertad.
i Bi
=
t =
sigma i
sigma Bi
1
cii
47.9.
Residuos
Los residuos son la diferencia entre los valores observados de la variable dependiente y los valores calculados
por la ecuaci
on de regresion.
ek = yk ybk
d=
N
X
(ek ek1 )2
k=2
N
X
e2k
k=1
47.10.
La regresion por pasos incluye los predictores en el modelo paso a paso, comenzando con la variable independiente que est
a mas correlacionada con y. Despues del primer paso, el algoritmo selecciona a partir de
las variables independientes restantes, aquella que disminuye al maximo la variancia restante (no explicada)
de la variable dependiente, es decir, la variable cuya correlaci
on parcial con y es mas elevada. Entonces, el
programa hace una prueba parcial de F de inclusi
on para ver si la variable absorbe una cantidad significativa
de variacion relativa, a aquella que ya ha sido absorbida por las variables que ya forman parte de la regresion.
El usuario puede especificar un valor F mnimo, para incluir cualquier variable; el programa eval
ua si el valor
de F calculado en un paso dado, satisface el mnimo especificado y si lo satisface, incluye la variable en la
regresion. En forma similar, el programa decide a cada paso si cada variable incluida previamente, continua
a satisfacer el mnimo (tambien proporcionado por el usuario), y si no, la excluye.
Valor parcial de F para la variable i =
2
2
(Ry
P i Ry P )(gl)
2
1 Ry
Pi
366
Regresi
on lineal
donde
2
Ry
Pi
2
Ry
P
R cuadrada m
ultiple para el conjunto (P ) de predictores
gl =
ya incluidos en la regresion
grados de libertad de los residuos.
En cualquier paso del procedimiento, los resultados son los mismos que habra en una regresion est
andar
utilizando el conjunto particular de variables; as, el u
ltimo paso de una regresion por pasos muestra los
mismos coeficientes de una pasada normal utilizando las variables que sobrevivieron el procedimiento de
selecci
on hecho paso a paso.
47.11.
La regresion descendente es similar a la regresion paso a paso, a excepcion que el algoritmo comienza con
la inclusi
on de todas las variables independientes y despues quita o a
nade nuevamente las variables, en la
forma de paso a paso.
47.12.
Cuando se utiliza el programa REGRESSN, es posible solicitar una intercepto cero, es decir, que la variable
dependiente sea cero cuando todas las variables independientes son cero.
Si una regresion a traves del origen es especificada, todas las estadsticas a la excepcion de aquellas citadas
de 1 a 4 arriba, est
an basadas sobre una media cero. El coeficiente de correlaci
on m
ultiple y la fracci
on de
variancia explicada (artculos 7.c y 7.d) no son impresas. Las estadsticas que no est
an centradas con respecto
a la media pueden ser muy diferentes de lo que podran serlo, si hubieran sido centradas; as, en una solucion
por pasos, las variables pueden ser incluidas en la ecuaci
on en un orden diferente del que ha sido hecho, si
una constante hubiera sido estimada.
En el programa REGRESSN una matriz con elementos
X
wk xik xjk
aij = sX k
X
wk x2ik
wk x2jk
k
Captulo 48
Escalamiento multidimensional
Notaci
on
x = elemento de la configuracion
i, j, l, m = subndices para variables
48.1.
n
s
= n
umero de variables
= subndice para dimensi
on
= n
umero de dimensiones.
Orden de los c
alculos
Para un n
umero dado de dimensiones, t, MDSCAL calcula la configuracion de mnimo esfuerzo (stress)
utilizando un proceso iterativo. El programa comienza con una configuracion inicial (suministrada por el
usuario o por programa) y contin
ua modific
andola hasta que converge hacia la configuracion que tenga el
mnimo esfuerzo.
48.2.
Configuraci
on inicial
Si el usuario no proporciona una configuracion de entrada, el programa genera una configuracion arbitraria
tomando los primeros n puntos a partir de la lista a continuacion (cada expresion entre parentesis representa
un punto):
(1, 0, 0, . . . , 0),
(0, 2, 0, . . . , 0),
(0, 0, 3, . . . , 0),
..
.
(0, 0, 0, . . . , t),
(t + 1, 0, 0, . . . , 0),
(0, t + 2, 0, . . . , 0),
..
.
48.3.
Centrado y normalizaci
on de la configuraci
on
368
Escalamiento multidimensional
xis centrada = xis xs
xis normalizada =
donde
xs =
xis xs
n.f.
xis
n
es la media de la dimensi
on s y
v
u
n
n.f. = u
t X X x2
is
i
es el factor de normalizaci
on.
Note que el total de la suma de cuadrados de los elementos de la configuracion centrada y normalizada es
igual a n, el n
umero de variables.
48.4.
Historia de los c
alculos
vX X
u
u
(dij dbij )2
u
u i j
Esfuerzo SQDEV = u X X
t
(dij d )2
i
donde
dij
dbij
=
=
d =
b) SRAT. Coeficiente de esfuerzo. El usuario puede detener el procedimiento de escalamiento, especificando un coeficiente de esfuerzo a alcanzar. Para la primera iteraci
on (iteracion 0), su valor se fija a
0.800.
SRAT =
Esfuerzo actual
Esfuerzo anterior
369
2
gis
sX X
i
00 2
(gis
)
donde
g
g 00
=
=
gradiente actual
gradiente anterior.
El tama
no del primer paso se calcula como sigue:
STEP = 50. Esfuerzo SFGR
370
Escalamiento multidimensional
48.5.
48.6.
Esfuerzo SQDEV
20.0 %
10.0 %
5.0 %
2.5 %
0.0 %
40.0 %
20.0 %
10.0 %
5.0 %
0.0 %
Configuraci
on final
En cada iteraci
on la configuracion siguiente se forma comenzando a partir de la configuracion precedente y
desplazandose en direcci
on (negativa) del gradiente de esfuerzo, de una distancia igual al tama
no del paso.
STEP
(gradiente)
SFGR
Cada fila de la matriz de configuracion final proporciona las coordenadas de una variable de la configuracion.
La orientacion de los ejes de referencia es arbitraria y por ello uno debe buscar los ejes que hayan sido
girados o inclusive ejes oblicuos que sean interpretados de inmediato. Si una distancia Euclideana ordinaria
se utilizo, es posible girar la configuracion tal que sus ejes principales coincidan con los ejes cardinales. El
programa CONFIG puede ser utilizado para este prop
osito.
Nueva configuracion = configuracion precedente +
48.7.
Configuraci
on clasificada
48.8.
Resumen
a) IPOINT, JPOINT. Estos son subndices de las variables, (i, j), indicando a que par de variables se
refieren las tres estadsticas a continuacion.
b) DATA. Para cada pareja de variables, es el ndice de igualdad o diferencia proporcionado por el usuario
en la matriz de datos de entrada.
c) DIST. Es la distancia entre puntos en la configuracion final.
Para la metrica - r de Minkowski,
dij =
"
X
s
|xis xjs |
#1/r
371
dbij dblm
si pij plm
o
pij plm
(similitudes)
(diferencias)
donde
dij
dbij
pij
48.9.
una transformaci
on monot
onica de las pij
Las ataduras en los datos de entrada, es decir, los valores iguales en la matriz de datos de entrada, pueden
ser tratados de dos maneras, el usuario indicara su elecci
on.
El primer enfoque, DIFFER, trata las ataduras en la matriz de entrada como una relacion de orden indeterminado, que puede ser resuelta en forma arbitraria para disminuir la dimensi
on o el esfuerzo.
El segundo enfoque, EQUAL, trata las ataduras como una implicacion de una relacion de equi-valencia, que
(hasta donde es posible) es mantenida (inclusive si el esfuerzo es aumentado).
Si hay pocas ataduras, el enfoque seleccionado no tendra mucha diferencia.
48.10.
vX X
u
u
wij (dij dbij )2
u
u i j
Esfuerzo SQDEV = u X X
t
wij (dij d )2
i
donde
d=
XX
i
wij dij
XX
i
wij
372
48.11.
Escalamiento multidimensional
References
Kruskal, J.B., Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis, Psychometrica, 3, 1964.
Kruskal, J.B., Nonmetric multidimensional scaling: a numerical method, Psychometrica, 29, 1964.
Captulo 49
An
alisis de clasificaci
on m
ultiple
Notaci
on
y
w
=
=
k
i
=
=
p
c
=
=
n
umero de predictores
n
umero de categoras que no est
an vacas para todos los predictores
aij
Nij
=
=
desviaci
on ajustada de la j esima categora del predictor i (ver 2.c mas abajo)
n
umero de casos en la j esima categora del predictor i
N
W
=
=
n
umero total de casos
suma total de los pesos
el subndice ijk indica que el caso k corresponde a la j esima categora del predictor i.
49.1.
y=
wk yk
b) Desviaci
on est
andar de y (estimada).
v
u
u
u
u
sby = t
N
N 1
!" W
c) Coeficiente de variaci
on.
Cy =
100 sby
y
d) Suma de y.
Suma de y =
X
k
wk yk
X
k
wk yk2
X
W2
wk yk
2
374
An
alisis de clasificaci
on m
ultiple
e) Suma de y cuadrada.
Suma de y 2 =
wk yk2
X
k
wk (yk y)2
XX
i
aij
X
wijk yijk
49.2.
a) Media de clase. Media de la variable dependiente para casos en la j esima categora del predictor i.
yij =
X
k
wijk yijk
wijk
b) Desviaci
on no ajustada de la media general.
aij no ajustada = y ij y
c) Coeficiente. Desviaci
on ajustada aij de la media general. Este es el coeficiente de regresion para cada
categora de cada predictor.
yk proyectado = y +
aijk
Los valores de aij son obtenidos por medio de un proceso iterativo que se detiene cuando
yk proyectado)2 alcanza el mnimo.
k (yk
wijk yijk /
wijk
u
u
k
k
k
u
X
sbij = u
X
t
wijk
wijk / Nij
k
375
f ) Coeficiente de variaci
on (C.var.).
Cij =
100 sbij
y ij
g) Desviaci
on de la SS (Sum of Squares) no ajustada. Es la suma de cuadrados de las desviaciones
no ajustadas para el predictor i.
Ui =
X X
j
wijk
yij y
2
X X
j
wijk
a2ij
i) Eta cuadrada para el predictor i. Eta cuadrada puede interpretarse como el porcentaje de la
variancia en la variable dependiente que puede ser explicada solamente por el predictor i.
i2 =
Ui
TSS
j) Eta para el predictor i. Indica la habilidad del predictor, utilizando las categoras dadas, para
explicar la variaci
on en la variable dependiente.
q
i = i2
k) Eta cuadrada para el predictor i, ajustada para los grados de libertad.
i2 ajustada = 1 A (1 i2 )
donde A es el ajuste para los grados de libertad (ver 3.b mas abajo).
l) Eta para el predictor i, ajustada.
i ajustada =
q
1 A (1 i2 )
m) Beta cuadrada para el predictor i. Beta cuadrada es la suma de cuadrados atribuida al predictor,
despues de haber mantenido otros predictores constantes, relativa al total de la suma de cuadrados.
Esta expresion no est
a descrita en terminos de porcentaje de la variancia explicada.
i2 =
Di
TSS
n) Beta para el predictor i. Beta proporciona una medida de la habilidad del predictor para explicar
la variaci
on en la variable dependiente despues de haber la ajustado para la influencia de todos los
dem
as predictores. Los coeficientes Beta indican la importancia relativa de los predictores (entre mas
alto sea el valor, mayor sera la variacion explicada por la beta correspondiente).
i =
q
i2
376
An
alisis de clasificaci
on m
ultiple
49.3.
Estadsticas del an
alisis para an
alisis de clasificaci
on m
ultiple
a) R cuadrada m
ultiple no ajustada. Este es el coeficiente de correlaci
on m
ultiple al cuadrado. Indica
la proporcion actual de la variancia explicada por los predictores usados en el analisis.
R2 =
ESS
TSS
A=
c) R cuadrada m
ultiple ajustada. Proporciona una estimaci
on de la correlaci
on m
ultiple en la poblacion,
a partir de la cual una muestra fue extrada. Note que es una estimaci
on de la correlaci
on m
ultiple
que sera obtenida si los mismos predictores, pero no necesariamente los mismos coeficientes, fueran
utilizados para la poblacion.
R2 ajustada = 1 A (1 R2 )
d) R m
ultiple ajustada. Este es el coeficiente de correlaci
on m
ultiple ajustado para los grados de
libertad. Es una estimaci
on de la R que sera obtenida si los mismos predictores fueran aplicados a la
poblacion.
p
R ajustada = 1 A (1 R2 )
49.4.
r=
wk rk
b) Variancia (estimada).
sb2r
N
N 1
!" W
X
k
wk rk2
X
W2
wk rk
2
m3 =
X
k
wk (rk r)3
W
m4 =
X
k
wk (rk r)4
W
49.5.
49.6.
Estadsticas del an
alisis, para an
alisis de variancia de una
entrada
49.7.
N 1
N c
Referencias
Andrews, F.M., Morgan, J.N., Sonquist, J.A., and Klem, L., Multiple Classification Analysis, 2nd ed., Institute for Social Research, The University of Michigan, Ann Arbor, 1973.
Captulo 50
An
alisis multivariado de variancia
Notaci
on
y
i, j
k
p
dfh
dfe
50.1.
Estadsticas generales
a) Medias de celda. Sea yijk la representacion del valor de una variable dependiente o covariada para
el caso k en la subclase i, j de una clasificacion de dos entradas.
y ij =
Nij
X
yijk
k=1
Nij
380
An
alisis multivariado de variancia
X
par
ametros a ser estimados
K
D
=
=
la matriz de dise
no
una matriz diagonal con el n
umero de casos en cada celda
con T T 0 = T 0 T = I = SK 0 DKS 0
asi
K 0 D1/2 = S 1 T
y
(K 0 DK)1 = S 0 S
y sustituyendo en la primera ecuaci
on de arriba,
(S 0 )1 LX = SK 0 DY
Esta u
ltima ecuaci
on define un conjunto nuevo de par
ametros que son funciones lineales de los contrastes, con la matriz SK 0 reemplazando K 0 . Estos par
ametros son ortogonales.
S es la matriz producida con la ortogonalizaci
on de Gram-Schmidt de K en la metrica D y reduce las
filas de esta a longitud unitaria. S, y as (S 0 )1 , es triangular.
e) Partici
on de matrices. En un analisis univariado de variancia, cada caso tiene una variable independiente y; en analisis multivariado de variancia, cada caso tiene un vector y de variables dependientes.
El analogo multivariado de y 2 es el producto de matrices y 0 y y el analogo multivariado de una suma
de cuadrados es una suma de productos de matrices.
En un analisis multivariado, hay una matriz que corresponde a cada suma de cuadrados de un dise
no
univariado. Las pruebas multivariadas dependen de particiones de la suma total de productos de
matrices, as como las pruebas univariadas dependen de particiones de la suma total de cuadrados. Las
formulas para la suma total de productos, la suma de productos entre subclases y la suma de productos
dentro (intra) de subclases son
St = Y 0 Y
Sb = Y.0 DY.
Sw = Y 0 Y Y.0 DY.
donde
Y
50.2 C
alculos para una prueba en un an
alisis multivariado
381
donde
Sw
s2e
=
=
Sw
dfe
donde
Sw
dfe
los grados de libertad del error, ajustados para aumento si eso se solicito.
50.2.
C
alculos para una prueba en un an
alisis multivariado
Se repiten los c
alculos para cada prueba solicitada por el usuario. No se imprimen los resultados de los
c
alculos internos descritos mas adelante bajo los puntos a) hasta d).
a) Matriz de suma de cuadrados debida a la hip
otesis. La suma de cuadrados entre subclases
se divide de acuerdo con los varios efectos del modelo. Para probar una hipotesis dada, el programa
determina los estimativos ortogonales a probar y calcula la suma de cuadrados debidos a la hipotesis
(Sh ).
b) Sw e Sh reducidas a cuadrados medios y escaladas al espacio de correlaci
on. La matriz de
cuadrados medios para la hip
otesis, Mh , se calcula analogamente a los cuadrados medios para el error.
Mh =
Sh
dfh
donde
Sh
382
An
alisis multivariado de variancia
Mh es una matriz de los productos medios de las entre-subclases asociada con el efecto principal o la
hipotesis de interacci
on.
Ambas Me y Mh est
an escaladas al espacio de correlaci
on:
1
Re = 1
e Me e
1
Ch = 1
e Mh e
donde
Re
Ch
Me
Mh
=
=
Sea
Re = F F 0
donde
F
La segunda ecuaci
on de detrimento se pre-multiplica por F 1 y se post-multiplica por su transpuesta
para dar
|(e F )1 Mh ((e F )1 )0 F 1 (F F 0 )(F 1 )0 | = 0
o
|(e F )1 Mh ((e F )1 )0 I| = 0
La u
ltima ecuaci
on se resuelve para los valores .
d) Criterio de raz
on de similitud.
=
1
s
Y
dfh
q
1+
dfe
q=1
donde
q
50.2 C
alculos para una prueba en un an
alisis multivariado
383
1/k
2p(dfh )
donde
k=
p2 (dfh )2 4
p2 + (dfh )2 5
Esta es una prueba multivariada de significancia del efecto para todas las variables dependientes simultaneamente.
f ) Grados de libertad para el cociente F.
p(dfh )
y
k(2dfe + dfh p 1) p(dfh ) + 2
2
Si p = 1 o 2 y dfh = 1 o 2, k se pone a 1 en casos cuando p(dfh ) = 2.
g) Variancias can
onicas de las componentes principales de la hip
otesis. Estas son las lambdas
calculadas como se describio en la secci
on Solucion de la ecuaci
on de determinante atr
as. Se ordenan
por magnitud descendente. El n
umero de lambdas diferentes de cero para una ecuaci
on dada es igual
a dfh (el n
umero de grados de libertad asociado con Mh ), o p, el n
umero de variables dependientes, el
que sea menor.
h) Coeficientes de las componentes principales de la hip
otesis. La resolucion de la ecuaci
on
|(e F )1 Mh ((e F )1 )0 I| = 0
produce T , para lo cual
1
1 0
F 1 1
) = T T0
e Mh e (F
La ecuaci
on anterior se considera como
T 0 F 1 1
e X h = Sh
donde
Sh (Sh )0 =
y escrita en la forma habitual de la ecuaci
on de factor, X = F S, es
1
e X h = F T Sh
384
An
alisis multivariado de variancia
j) Pruebas acumulativas de Bartlett en las races. Las pruebas se pueden usar para determinar
la dimensionalidad de la configuracion. Las lambdas o las races se ordenan ascendentemente seg
un
la magnitud. En las pruebas de Bartlett, se prueban primero todas las races. Despues todas menos
la primera, despues todas menos las dos primeras, y as sucesivamente. La prueba de Ji cuadrada
suministra una prueba de significancia de la variancia para las races n k despues de aceptar las
primeras k races.
Primero se escalan las lambdas
i normada =
dfh
i
dfe
dfh + p + 1
= dfe + dfh
2
s
X
ln(i normada + 1)
i=k+1
donde
k
s
= n
umero de races aceptadas (k = 0, 1, ..., s 1)
= n
umero de races.
El n
umero de grados de libertad es
DF = (p k)(g k 1)
donde g es igual al n
umero de niveles de la hipotesis.
1
k) Cocientes F para pruebas univariadas. Son los elementos de la diagonal de 1
e Mh e . El
cociente F para la variable y es exactamente el cociente F que se obtendra para el efecto dado si se
hubiera hecho un analisis univariado con la variable y como la u
nica variable dependiente.
50.3.
An
alisis univariado
50.4.
An
alisis de covariancia
Captulo 51
An
alisis de variancia de una entrada
Notaci
on
y
w
k
i
Ni
Wi
= n
umero de casos en la categora i
= suma de los pesos para la categora i
= n
umero total de casos
W
c
51.1.
a) Media.
yi =
wik yik
Wi
b) Desviaci
on est
andar (estimada).
v
u
u
u
u
sbi = t
Ni
Ni 1
!" Wi
X
k
2
wik yik
c) Coeficiente de variaci
on (C.var.).
Ci =
100 sbi
yi
d) Suma de y.
Suma yi =
X
k
wik yik
Wi2
X
k
wik yik
2
386
An
alisis de variancia de una entrada
e) Porcentaje.
Suma yi
Porcentajei = X
Suma yi
i
f ) Suma de y cuadrada.
X
Suma yi2 =
2
wik yik
g) Total. El rengl
on de totales da las estadsticas a) a e) arriba calculadas para todos los casos, excepto
aquellas categoras codificadas con cero grados de libertad.
h) Grados de libertad para la categora i.
gli = Wi (Ni 1) / Ni
Categoras con cero grados de libertad no est
an incluidas en los c
alculos de las estadsticas de resumen.
51.2.
Estadsticas del an
alisis de variancia
TSS =
XX
i
2
wik yik
X X
i
wik yik
2
b) Suma de cuadrados entre medias. Esta es llamada a veces la suma de cuadrados entre grupos.
BSS =
X
i
"
X
k
wik yik
wik
2
X X
i
wik yik
2
BSS
TSS
W 1
W c
387
g) Eta ajustada.
ajustada =
p
2 ajustada
BSS/(c 1)
WSS/(N c)
Captulo 52
Sea un conjunto de elementos denotado por V = {a, b, c, . . . , } y una relacion binaria definida en V denotada
por R.
a) Relaci
on binaria. Una relaci
on binaria R en V es tal que para cualesquiera dos elementos a, b V
aRb
Para una relaci
on R en V existe una relacion conversa R+ en V tal que
bR+ a
b) Relaci
on reflexiva y antirreflexiva. Una relacion R es reflexiva cuando
aRa
para todo a V
y R es antirreflexiva cuando
no(aRa)
para todo a V
c) Relaci
on sim
etrica y antisim
etrica. Una relacion R es simetrica cuando R = R+ , esto es cuando
aRb bRa
para todo a, b V
para todos a, b, c V
e) Relaci
on de equivalencia. Una relacion R definida en un conjunto de elementos V es una relacion
de equivalencia cuando es:
reflexiva,
simetrica, y
transitiva.
Note que la relaci
on com
unmente utilizada de igualdad, (=), definida en el conjunto de los n
umeros
reales es una relaci
on de equivalencia.
390
f ) Relaci
on de orden parcial estricto. Una relacion R es un orden parcial estricto cuando satisface
las condiciones:
aRb y bRa no pueden ser satisfechas simult
aneamente, y
R es transitiva.
Una relacion de orden parcial estricto sera notada de ahora en adelante por .
g) Conjunto parcialmente ordenado. Un conjunto V es un conjunto parcialmente ordenado si una
relacion de orden parcial estricta es definida en el. Las propiedades fundamentales de un conjunto
parcialmente ordenado son:
a b b c = a c
para todos a, b, c V
l) Dominaci
on estricta. Un elemento b domina estrictamente un elemento a si
ab
no(b a)
Tambien se puede decir que b es estrictamente mejor que a, o que a es estrictamente peor que b.
52.2.
C
alculo de puntajes
52.3 Referencias
391
donde xi (a) y xi (b) indican el valor de la iesima variable para los casos a y b respectivamente.
Cuando se comparan dos casos, las variables cuya prioridad es la mas elevada (valor de LEVEL mas bajo)
se consideran primero. Si estas determinan la relacion de forma inequvoca el procedimiento de comparaci
on
termina. En caso de igualdad, la comparaci
on contin
ua utilizando variables del nivel de prioridad siguiente.
Este procedimiento se repite hasta que la relacion se determina en uno de los niveles de prioridad, o hasta
el final de la lista de variables.
Para cada caso a del conjunto analizado, el programa calcula:
N (a) =
n
umero de casos que dominan estrictamente al caso a
N (a) =
N (a) =
n
umero de casos equivalentes al caso a
n
umero de casos estrictamente dominados por el caso a
N (a)
N (a) + N (a) + N (a)
r1 (a) = S s1 (a)
s2 (a) = S
N (a) + N (a)
N (a) + N (a) + N (a)
r2 (a) = S s2 (a)
s3 (a) = S
N (a)
N
r3 (a) = S
N (a) + N (a)
N
s4 (a) = S
N (a) + N (a)
N
r4 (a) = S
N (a)
N
donde
N
= n
umero de casos en el conjunto analizado
El par
ametro ORDER selecciona los puntaje(s) como sigue:
ASEA
: r3 (a)
DEEA : s4 (a)
ASCA : r4 (a)
DESA
ASER
: s3 (a)
: s1 (a), r1 (a)
DESR
ASCR
: s1 (a), r1 (a)
: s2 (a), r2 (a)
52.3.
Referencias
Debreu, G., Representation of a preference ordering by a numerical function, Decision Process, eds. R.M.
Thrall, C.A. Coombs and R.L. Davis, New York, 1954.
Hunya, P., A Ranking Procedure Based on Partially Ordered Sets, Internal paper, JATE, Szeged, 1976.
Captulo 53
Correlaci
on de Pearson
Notaci
on
x, y
w
= valores de variables
= valor del peso
k
N
53.1.
Estadsticas pareadas
Est
an calculadas para las variables, tomadas por parejas (x, y) en el subconjunto de casos que tengan datos
validos en x y y.
a) Suma ponderada ajustada. El n
umero de casos, ponderados, con datos validos en x y y.
b) Media de x.
X
x=
wk xk
Nota: la f
ormula para la media de y es semejante.
c) Desviaci
on est
andar de x (estimada).
v
X
2
u
X
u
!" W
wk x2k
wk xk #
u
u
N
k
k
sbx = t
N 1
W2
Nota: la f
ormula para la desviaci
on est
andar de y es semejante.
d) Coeficiente de correlaci
on. Momento producto r de Pearson.
X
X
X
W
wk xk yk
wk xk
wk yk
k
k
k
rxy = v"
#"
#
u
X
2
X
X
X
u
2
2
2
t W
wk xk
W
wk yk
wk xk
wk yk
k
e) Prueba t. Esta estadstica se utiliza para probar la hipotesis que el coeficiente de correlaci
on de la
poblacion es cero.
r N 2
t=
1 r2
394
Correlaci
on de Pearson
53.2.
Est
an calculadas variable por variable para todas las variables includas en el analisis, utilizando las formulas
dadas en 1.a, 1.b y 1.c respectivamente, la diferencia en los resultados se debe en particular a la diferencia
de casos validos.
a) Suma ponderada ajustada. El n
umero de casos, ponderado, con datos validos para x.
b) Media de x. Media de la variable x para todos los casos que tengan datos validos para x.
c) Desviaci
on est
andar de x (estimada). La desviacion est
andar de la variable x para todos los casos
que tengan datos validos para x.
53.3.
Ecuaci
on de regresi
on para puntajes primarios
Calculada para todos los casos validos para la pareja (x, y).
a) Coeficiente de regresi
on. Es el coeficiente no estandarizado de la regresion de y (variable dependiente) sobre x (variable independiente).
sby
Byx = rxy
sbx
b) T
ermino constante.
A = y Byx x;
53.4.
ecuaci
on de regresion: y = Byx x + A
Matriz de correlaci
on
53.5.
53.6.
Matriz de covariancia
sx =
v
u
u W X w x2 X w x 2
u
k k
k k
t
k
k
W2
Captulo 54
Ordenamiento de alternativas
Notaci
on
i, j, l
m
54.1.
=
=
k
n
n
umero maximo de alternativas que podan ser seleccionadas en una evaluacion
pk
n
umero de alternativas actualmente seleccionadas en la evaluacion ek
y pk p < m .
396
Ordenamiento de alternativas
Note que una alternativa aki1 es estrictamente preferida a o domina estrictamente a otra alternativa
aki2 de acuerdo con los datos que provienen de la evaluacion ek , si la primera tiene un rango superior
a la segunda. Igualmente, una alternativa aki1 es preferida a o domina otra alternativa aki2 de
acuerdo con los datos que provienen de la evaluacion ek , si el rango de aki1 es al menos tan elevado
como el rango de aki2 . El valor 1 es considerado como el rango mas elevado.
para ai 6 Ak
para ai Ak
k (ai ) =
para ai 6 Ak
Como resultado de las trasformaciones definidas arriba, los datos de preferencia, (o prioridad en la selecci
on)
toman para los pasos subsiguientes del analisis, la forma:
11 12 1i 1m
21 22 2i 2m
..
..
..
..
.
.
.
.
P(n,m) =
k1 k2 ki km
.
..
..
..
..
.
.
.
n1 n2 ni nm
54.2.
M
etodo basado en la l
ogica cl
asica
En este metodo, la matriz P se utiliza como si sus elementos fueran los datos iniciales del analisis. En lo que
se refiere al car
acter estricto o debil de la relacion de preferencia, debe notarse que la relacion de preferencia
juega un papel solamente en los pasos que nos llevan a la matriz P. En los pasos subsiguientes del analisis, el
procedimiento est
a controlado por otros par
ametros, tales como la diferencia de rangos para la concordancia
y la diferencia de rangos para la discordancia (ver abajo).
El procedimiento de ordenamiento basado en la logica clasica, consiste de dos pasos mayores, a saber: a)
construcci
on de relaciones, y b) identificaci
on de n
ucleos.
a) Construcci
on de relaciones. En este paso, dos relaciones de trabajo (la relacion de concordancia
y la relacion de discordancia) se construyen en primer lugar. Despues, son utilizadas para construir
una relacion final de dominacion.
i) Las relaciones de concordancia y de discordancia se construyen a partir de la matriz
P(n,m) , y las reglas aplicadas en este proceso son esencialmente iguales para ambas relaciones.
n de concordancia. Se utilizan dos par
Relacio
ametros para crear una relacion que refleje la
concordancia de la opini
on colectiva que ai es preferida a aj :
dc
pc
54.2 M
etodo basado en la l
ogica cl
asica
397
Los elementos de RCk (dc ), miden la dominacion de ai sobre aj de acuerdo con la evaluacion k, y
son definidos como sigue:
1 si kj ki dc
rckij (dc ) =
0 de otra forma.
La suma de estas matrices mide la dominacion promedio de ai sobre aj y toma la forma de una
relaci
on difusa descrita por la matriz
h
i
RC(dc ) = rcij (dc )
donde
rcij (dc ) =
X
k
wk rckij (dc )
X
wk
Una proporci
on mnima de concordancia hace posible la transformaci
on de una relacion difusa
RC(dc ) en una relaci
on no-difusa, llamada relacion de concordancia, descrita por la matriz
h
i
RC(dc , pc ) = rcij (dc , pc )
pd
Los elementos de RDk (dd ), que miden la dominacion de aj sobre ai de acuerdo a la evaluacion k,
se definen como sigue:
1 si ki kj dd
rdkij (dd ) =
0 de otra forma.
La suma de estas matrices mide la dominacion promedio de aj sobre ai y tiene la forma de una
relaci
on difusa descrita por la matriz
h
i
RD(dd ) = rdij (dd )
donde
rdij (dd ) =
X
k
wk rdkij (dd )
X
k
wk
398
Ordenamiento de alternativas
En lo que se refiere a la concordancia, el segundo par
ametro (proporcion maxima de discordancia),
permite al usuario transformar la relacion difusa RD(dd ) en una relacion no-difusa, llamada la
relacion de discordancia, y que est
a descrita por la matriz
h
i
RD(dd , pd ) = rdij (dd , pd )
los elementos de la cual est
an definidos como sigue:
1 si rdij (dd ) > pd
rdij (dd , pd ) =
0 de otra forma.
54.3.
M
etodos basados en la l
ogica difusa: la relaci
on de entrada
En el metodo de ordenamiento basado en la logica difusa, la matriz P(n,m) se utiliza para construir: a)
relaciones preferenciales individuales, y b) relaciones de entrada (llamadas tambien relaciones difusas)
sobre el conjunto de alternativas A. En este contexto, el car
acter estricto y debil de la relacion de preferencia
juega un papel importante.
54.3 M
etodos basados en la l
ogica difusa: la relaci
on de entrada
399
a) Construcci
on de relaciones preferenciales individuales. Para cada evaluacion ek una relacion de
preferencia individual, que est
a dada implcitamente en P, es transformada en una matriz de dimensi
on
m m:
h
i
k
Rk = rij
donde i, j = 1, 2, . . . , m
en la cual
k
=
rij
(preferencia estricta), o
(preferencia debil).
b) Construcci
on de la relaci
on de entrada (relaci
on difusa). La suma de las matrices de preferencia individual genera la matriz que representa una relacion difusa en el conjunto de alternativas
A:
i
h
R = rij
donde
rij =
k
wk rij
wk
Cada elemento rij de R puede ser interpretado como la credibilidad de aserciones ai es preferida a
aj en un sentido global, y sin referirse a una evaluacion. As, la siguiente interpretaci
on general es
posible:
rij = 1
ai es preferida a aj en todas las evaluaciones,
rij = 0
ai es preferida a aj en ninguna de las evaluaciones,
0 < rij < 1 ai es preferida a aj en una cierta porcion de las evaluaciones.
c) Caractersticas de la relaci
on de entrada.
i) Difusion
no difuso :
difuso :
ii) Simetra
simetrico :
si rij = rji para todo i, j = 1, 2, . . . , m;
antisimetrico : si rij 6= 0 implica que rji = 0 para toda i 6= j;
asimetrico :
de otra forma.
iii) Reflexividad
reflexiva :
si rii = 1 para todo i = 1, 2, . . . , m;
antirreflexiva : si rii = 0 para todo i = 1, 2, . . . , m;
irreflexiva :
de otra forma.
iv) Tricotomia
tric
otomo :
si rij + rji = 1 para todo i, j = 1, 2, . . . , m e i 6= j;
(normalizado)
atric
otomo :
de otra forma.
(no normalizado)
400
Ordenamiento de alternativas
v) Indice de coherencia. Su valor, C, depende del orden de las filas y columnas en R, es decir,
en el orden de las alternativas en A, y 1 C 1.
X
(rij rji )
i<j
C=X
(rij + rji )
i<j
Ca = X
(rij + rji )
i<j
vi) Indice de intensidad. El ndice I puede ser interpretado como un nivel de credibilidad promedio
de las expresiones ai es preferida a aj o aj es preferida a ai . En general, toma valores en
1 I 2, mientras que en el caso de una preferencia estricta, toma valores en 0 I 1. En
caso que I = 1, esto implica una relacion normalizada (ver 3.c abajo) y significa que en todos los
datos de preferencia una de las expresiones arriba es valida para todas las parejas de alternativas.
X
(rij + rji )
i<j
I=
m(m 1)/2
i<j
m(m 1)/2
Indice de dominacio
n absoluta, en forma similar al ndice de coherencia, se define como un
ndice de dominacion independiente del orden. Su valor, Da , es una frontera superior para D y
toma valores en 0 Da 1.
X
|rij rji |
Da =
i<j
m(m 1)/2
Ca I = Da
54.4.
rij
rij + rji
rij
si i 6= j y rij + rji 6= 0
de otra forma.
M
etodo difuso-1: capas no dominadas
El metodo de ordenamiento basado en la logica difusa supone una relacion de preferencia difusa con una
funci
on de pertenencia : A A [0, 1] en un conjunto dado A de alternativas. Esta funci
on de pertenencia est
a representada por la matriz R (ver la secci
on 3 arriba). Los valores rij = (ai , aj ) deben de ser
54.4 M
etodo difuso-1: capas no dominadas
401
interpretados como los grados en los cuales las preferencias expresadas por las aserciones ai es preferida a
aj son ciertas.
Otra suposicion es que:
en el caso de una preferencia debil, es reflexiva, es decir,
(ai , ai ) = rii = 1
para toda ai A
para toda ai A
aj A
Los n
ucleos siguientes se construyen mediante una aplicacion sucesiva del procedimiento descrito arriba. Los
elementos del n
ucleo inmediatamente anterior, son excluidos de la relacion difusa, es decir, las filas y las
columnas correspondientes son excluidas de la matriz de relacion difusa. Entonces, los c
alculos se repiten en
la nueva estructura reducida.
402
Ordenamiento de alternativas
54.5.
M
etodo difuso-2: rangos
La relacion de entrada a este metodo es la misma que para el metodo difuso-1, a saber: la matriz R que tiene
que ser reflexiva o antirreflexiva. Sin embargo la pregunta a la que tenemos que responder, es completamente
diferente.
El procedimiento del metodo difuso-2 busca los niveles de credibilidad, notados cjp , de las aserciones
aj est
a exactamente en el pesimo lugar en la secuencia ordenada de alternativas en A, denotada Tjp . Los
valores de las cjp forman una matriz M de dimensiones m m que representan una funci
on de pertenencia
difusa, en la cual las filas corresponden a las alternativas y las columnas a las posibles posiciones en la
secuencia 1, 2, . . . , m.
Para poder hacer posibles los c
alculos de las cjp , estas deben estar desglosadas en niveles de credibilidad
ya conocidos rij y por tanto las aserciones Tjp deben estar desglosadas en expresiones elementales con
niveles de credibilidad conocidos rij . Para esto, a
nadiremos notaciones suplementarias. Note que para que
una alternativa aj se encuentre exactamente en el pesimo lugar significa que es preferida a m p alternativas
y que est
a precedida por las p 1 alternativas restantes. Cuando el subconjunto de alternativas despues de
aj ha sido fijado, entonces
Ajmp
Ajp1
Aj
=
=
=
Obviamente,
Ajp1 Ajmp = Aj
Ajp1 Ajmp =
y la expresion Tjp es equivalente a una secuencia de aserciones aj es preferida a todos los elementos de
Ajmp , y todos los elementos de Ajp1 son preferidos a aj , conectados por el operador disyuntivo de logica.
Todava mas, la aserci
on aj es preferida a todos los elementos de Ajmp es una conjunci
on de las expresiones
ya conocidas aj es preferida a al con un nivel de credibilidad igual a rjl , para todos los elementos al de
Ajmp .
Igualmente, la expresion todos los elementos de Ajp1 son preferidos a aj es una conjunci
on de las aserciones
ya conocidas ai es preferida a aj con un nivel de credibilidad igual a rij , para todos los elementos al de
Ajmp .
Si empleamos los operadores difusos correspondientes, los elementos de la matriz M pueden ser obtenidos
como sigue:
#
"
rjl , mn
rij
mn
mn
cjp = j max
j
j
Amp Aj
al Amp
ai Ap1
El c
alculo de los valores cjp se hace utilizando un procedimiento de optimizacion que genera una serie de
subconjuntos Ajmp (manteniendo j y p fijos) incrementando monot
onicamente en forma estricta los valores
de la funci
on que tiene que ser maximizada en pasos sucesivos.
El programa proporciona dos formas de interpretar la matriz M.
Conjuntos difusos de rangos por alternativas.
Para cada alternativa aj , los valores de una funci
on de pertenencia difusa muestran la credibilidad de tener
esta alternativa en el pesimo lugar (p = 1, 2, . . . , m). Tambien, los rangos (lugares) mas plausibles para cada
alternativa son listados.
Subconjuntos difusos de alternativas por rangos.
Para cada rango (lugar) p, los valores de una funci
on difusa de pertenencia muestran la credibilidad de las
alternativas aj (j = 1, 2, . . . , m) de estar en ese lugar. Tambien las alternativas mas plausibles, candidatas
para ese puesto, son listadas.
54.6 Referencias
54.6.
403
Referencias
Dussaix, A.-M., Deux methodes de determination de priorites ou de choix, Partie 1: Fondements mathematiques, Document UNESCO/NS/ROU/624, UNESCO, Paris, 1984.
Jacquet-Lagr`eze, E., Analyse dopinions valuees et graphes de preference, Mathematiques et sciences humaines, 33, 1971.
Jacquet-Lagr`eze, E., Lagregation des opinions individuelles, Informatique et sciences humaines, 4, 1969.
Kaufmann, A., Introduction a
` la theorie des sous-ensembles flous, Masson, Paris, 1975.
Orlovski, S.A., Decision-making with a fuzzy preference relation, Fuzzy Sets and Systems, Vol. 1, No 3, 1978.
Captulo 55
Diagramas de dispersi
on
Notaci
on
x
y
w
k
= n
umero total de casos
55.1.
Estadsticas univariadas
Estas estadsticas que no son ponderadas se calculan para todas las variables indicadas en la pasada.
a) Media.
x=
xk
b) Desviaci
on est
andar.
sx =
55.2.
v
uX
u
x2k
u
t k
N
x2
Se calculan para el conjunto de casos que tienen datos validos en x y y. Son estadsticas ponderadas si se
especifica una variable de peso.
a) Media.
x=
wk xk
Nota: la f
ormula de la media de y es analoga.
406
Diagramas de dispersi
on
b) Desviaci
on est
andar.
sx =
v
uX
u
wk x2k
u
t k
x2
55.3.
Estadsticas bivariadas
Est
an calculadas en el conjunto de casos con datos validos en x y y.
a) Momento producto r de Pearson.
W
wk xk yk
X
wk xk
X
wk yk
k
k
k
rxy = v"
#"
#
u
X
2
X
2
X
X
u
t W
wk x2k
W
wk yk2
wk xk
wk yk
k
b) Estadsticas de regresi
on: constante A y coeficiente B.
A=
X
k
wk yk
wk xk B
X
k
wk xk yk
W
X
k
X
k
wk x2k
wk xk
X
k
X
k
wk xk
2
wk yk
Captulo 56
B
usqueda de estructura
Notaci
on
y
x
k
j
o n
umero de variables dic
otomas dependientes
= subndice de grupo; g = 1 indica toda la muestra
i
t
Ng
Wg
= n
umero de casos en el grupo g
= suma de pesos en el grupo g
Ni
Wi
= n
umero de casos en el grupo final i
= suma de pesos en el grupo final i
N
W
= n
umero total de casos
= suma total de pesos.
56.1.
An
alisis de medias
Este metodo se puede usar cuando se analiza una variable dependiente (por intervalos o dic
otoma) y varios
predictores. Busca crear grupos que permitan la mejor predicci
on de los valores de la variable dependiente
a partir del promedio de grupo. En otras palabras, los grupos creados deben suministrar las diferencias mas
grandes entre medias de grupos. El criterio de divisi
on (variacion explicada) se basa en las medias de grupos.
a) Estadsticas de huella. Son las estadsticas calculadas sobre toda la muestra (para g = 1) y sobre
divisiones tentativas de grupos padres as como tambien para cada grupo que resulte de la mejor
divisi
on.
i) Suma (wt). N
umero de casos (Ng ) si no se ha especificado la variable de ponderaci
on o n
umero
de casos ponderado (Wg ) en el grupo g.
408
B
usqueda de estructura
ii) Med y. Valor medio de la variable dependiente y en el grupo g.
yg =
Ng
X
wk ygk
k=1
Wg
y2g =
Ng
X
k=1
wk (ygk yg )2
Wg
Wg
Ng
Ng
X
k=1
wk (ygk yg )2
b) An
alisis de una entrada de grupos finales. Son estadsticas de analisis de variancia de una entrada
calculadas para los grupos finales.
n explicada y GL. Es la cantidad de variacion explicada por los grupos finales y los
i) Variacio
grados de libertad correspondientes.
VE =VT VN =VT
t
X
Vi
i=1
GL = t 1
n total y GL. Variaci
ii) Variacio
on total calculada para toda la muestra, es decir, para el grupo
1 y los correspondientes grados de libertad.
V T = V1
GL = W 1
iii) Error and GL. Es la cantidad de variancia no explicada y los correspondientes grados de libertad.
VN =
t
X
Vi
i=1
GL = W t
c) Tabla de resumen de separaci
on. La tabla suministra valor medio de grupo, variancia y variacion
de la variable dependiente en cada divisi
on as como tambien la variacion explicada por esa divisi
on
(ver 1.a atr
as).
56.2 An
alisis de regresi
on
409
d) Tabla de resumen de grupos finales. Esta tabla suministra valor medio, variancia y variacion de
la variable dependiente para los grupos finales (ver 1.a atr
as).
e) Porcentaje de variaci
on explicada. El porcentaje de la variacion total explicada por la mejor
divisi
on de cada grupo, se calcula as:
P orcentajeg = 100
V Eg
VT
N
otese que este valor es igual a cero para los grupos finales (indicados con un asterisco).
f ) Residuos. Los residuos son las diferencias entre el valor observado y el valor predicho de la variable
dependiente.
ek = yk ybk
Como valor predicho, se asigna a un caso el valor medio de la variable dependiente para el grupo al
cual pertenece, es decir
56.2.
ybik = y i
An
alisis de regresi
on
Este metodo se puede usar cuando se analiza una variable dependiente (por intervalos o dic
otoma) con una
covariada y varios predictores. Busca crear grupos que permitan la mejor predicci
on de valores de la variable
dependiente a partir de la ecuaci
on de regresion del grupo y el valor covariado. En otras palabras, los grupos
creados deben suministrar las diferencias mas grandes en las lneas de regresion de grupo. El criterio de
divisi
on (variaci
on explicada) se basa en la regresion de la variable dependiente sobre la covariada.
a) Estadsticas de huella. Son las estadsticas calculadas sobre toda la muestra (para g = 1) y sobre
divisiones tentativas de grupos padres as como tambien para cada grupo que resulte de la mejor
divisi
on.
i) Suma (wt). N
umero de casos (Ng ) si no se ha especificado la variable de ponderaci
on o n
umero
de casos ponderados (Wg ) en el grupo g.
ii) Med y,z. Valor medio de la variable dependiente y y de la covariada z en el grupo g (ver 1.a.ii
atr
as).
iii) Var y,z. Variancia de la variable dependiente y y de la covariada z en el grupo g (ver 1.a.iii
atr
as).
iv) Pendiente. Es la pendiente de la variable dependiente y sobre la covariada z en el grupo g.
bg =
Ng
X
k=1
wk (ygk y g )(zgk z g )
Ng
X
k=1
wk (zgk z g )2
Ng
X
k=1
wk (ygk y g )2 bg
Ng
X
k=1
wk (ygk yg )(zgk z g )
410
B
usqueda de estructura
b) An
alisis de una entrada de grupos finales. Son estadsticas resumen para los grupos finales. Ver
1.b. atr
as para informaci
on general y 2.a.v y 2.a.vi atr
as para detalles sobre las medidas de V y V E
usadas en el analisis de regresion.
c) Tabla de resumen de separaci
on. La tabla suministra el valor medio de grupo, variancia y variacion
de la variable dependiente en cada divisi
on as como tambien la variacion explicada por esa divisi
on.
Tambien suministra el valor medio y variancia de la covariada. Ver 2.a atr
as para formulas. Se calculan
las siguientes estadsticas de regresion para cada divisi
on:
i) Pendiente. Es la pendiente de la variable dependiente y sobre la covariada z en el grupo g (ver
2.a.iv atr
as).
ii) Intercepto. Es el termino constante en la ecuaci
on de regresion.
ag = y g b g z g
donde bg es la pendiente en el grupo g.
iii) Corr. Coeficiente r de la correlaci
on de Pearson entre la variable dependiente y y la covariada z
en el grupo g.
rg =
Ng
X
k=1
wk (ygk yg ) (zgk z g )
q
y2g z2g
d) Tabla de resumen de grupos finales. Esta tabla suministra la misma informacion (a excepcion de
la variacion explicada) que la Tabla de resumen de separacion, pero para los grupos finales.
e) Porcentaje de variaci
on explicada. El porcentaje de la variacion total explicada por la mejor
divisi
on para cada grupo (ver 1.e y 2.a.vi atr
as).
f ) Residuos. Los residuos son las diferencias entre el valor observado y el valor predicho de la variable
dependiente.
ek = yk ybk
56.3.
An
alisis de Ji-cuadrada
Este metodo se puede usar cuando se analiza una variable dependiente (nominal u ordinal) o un conjunto de
variables dependientes dic
otomas con varios predictores. Busca crear grupos que permitan la mejor predicci
on
de la categora de la variable dependiente a partir de su distribuci
on de grupo. En otras palabras, los grupos
creados deben suministrar las diferencias mas grandes en las distribuciones de la variable dependiente. El
criterio de divisi
on (variaci
on explicada) se calcula sobre la base de la distribuci
on de frecuencias de la
variable dependiente. N
otese que las variables dependientes dic
otomas m
ultiples se tratan como categoras
de una variable categ
orica.
a) Estadsticas de huella. Son las estadsticas calculadas sobre toda la muestra (para g = 1) y sobre
divisiones tentativas de grupos padres as como tambien para cada grupo resultante de la mejor divisi
on.
i) Suma (wt). N
umero de casos (Ng ) si no se ha especificado la variable de ponderaci
on o n
umero
ponderado de casos (Wg ) en el grupo g.
n. Es la entropa del grupo g, es decir, una medida del desorden en la distribuci
ii) Variacio
on de
la variable dependiente.
Vg = 2
m
X
j=1
xjg ln
xjg
xg
56.4 Referencias
411
donde
xjg =
Ng
X
xjgk
k=1
xg =
m
X
xjg
j=1
Los valores observados, xjk , se crean como una serie de variables ficticias, codificadas 0 o 1.
Como valor predicho para la categora j, se le asigna al caso un valor proporcional al n
umero de casos
que est
an en esta categora para el grupo al cual pertenece el caso, es decir:
x
bjik = Pji /100
56.4.
x
bjik = Pji /100
Referencias
Morgan, J.N., Messenger, R.C., THAID A Sequential Analysis Program for the Analysis of Nominal Scale
Dependent Variables, Institute for Social Research, The University of Michigan, Ann Arbor, 1973.
Sonquist, J.A., Baker, E.L., Morgan, J.N., Searching for Structure, Revised ed., Institute for Social Research,
The University of Michigan, Ann Arbor, 1974.
Captulo 57
y
w
=
=
i =
j =
r
c
=
=
n
umero de filas en tablas bivariadas
n
umero de columnas en tablas bivariadas
fi
fj
=
=
n
umero total de casos.
57.1.
Estadsticas univariadas
a) Wtnum. N
umero de la variable de ponderaci
on, o cero si el peso no est
a especificado.
b) Wtsum. N
umero de casos si la variable de ponderaci
on no est
a especificada, o n
umero ponderado de
casos (suma de los pesos).
c) Moda. La primera categora que contiene la frecuencia maxima.
d) Mediana. La mediana est
a calculada como un cuantil n-tile con dos subintervalos solicitados. Ver
el captulo Funciones de distribuci
on y de Lorenz para detalles.
e) Media.
X
wk xk
x= X
wk
sb2x =
N
N 1
X
k
wk (xk x)2
X
k
wk
414
g) Desviaci
on est
andar. Note que sbx no es en s mismo un estimador insesgado de la desviacion est
andar
de la poblacion.
sbx =
p
sb2x
h) Coeficiente de variaci
on (C.var.).
Cx =
100 sbx
x
g1 =
N
N 2
m3
p
2
sbx sb2x
donde m3 =
X
k
wk (xk x)3
X
wk
Esta cifra es una medida de asimetra. Distribuciones que son asimetricas hacia la derecha, es decir, la
cola se encuentra del lado derecho, tienen una medida de asimetra positiva; distribuciones que tienen
una asimetra cargada hacia la izquierda, tienen una medida de asimetra negativa; una distribuci
on
normal tiene asimetra igual a cero.
j) Kurtosis. La kurtosis de la distribuci
on de x est
a medida por
g2 =
N
N 3
m4
(b
s2x )2
3 donde m4 =
X
k
wk (xk x)4
X
wk
57.2.
Estadsticas bivariadas
X X (fij Eij )2
Eij
i
j
donde
fij
Eij
Para tablas de dos por dos, la 2 se calcula de acuerdo con la formula siguiente:
2 =
415
2
+N
d) Grados de libertad.
gl = (r 1)(c 1)
e) N ajustada. Es la N utilizada en los c
alculos estadsticos, es decir, el n
umero de casos con c
odigos
validos. Ser
a ponderada si una variable de peso ha sido especificada.
f ) S. S es igual al n
umero de acuerdos en el orden, menos el n
umero de desacuerdos en el orden. Para
una celda dada en una tabla, todos los casos en las celdas a la derecha y abajo est
an en acuerdo, todos
los casos a la izquierda y abajo est
an en desacuerdo. S es el numerador de la estadsticas tau y gama.
S=
r1 X
c
X
i=1 j=1
fij
r
X
c
X
h=i+1 l=j+1
fhl
j1
r
X
X
m=i+1 n=1
fmn
donde fij , fhl y fmn son las frecuencias observadas en las celdas ij, hl y mn respectivamente.
g) Variancia de S. Es la variancia de S cuando hay ataduras. (Una atadura se presenta en los datos si
mas de un caso aparece en una fila o en una columna dadas).
s2
N (N 1)(2N + 5)
=
"
X
"
X
X
j
fj (fj 1)(2fj + 5)
#"
fj (fj 1)(fj 2)
18
X
i
X
i
fi (fi 1)(2fi + 5)
+
fi (fi 1)(fi 2)
9N (N 1)(N 2)
#
#"
X
fi (fi 1)
fj (fj 1)
2N (N 1)
h) Desviaci
on est
andar de S.
s =
p
s2
i) Desviaci
on normal de S. Proporciona una prueba de significaci
on de muestra grande para valores de
tau o gama con ataduras. El n
umero menos uno en el numerador es una correccion para continuidad (si
S es negativa, el n
umero uno es a
nadido). El n
umero puede ser comparado a una tabla de distribuci
on
normal. La prueba est
a condicionada por la distribuci
on de ataduras.
Z=
S1
s
416
j) Tau a. Tau a supone que no hay ataduras entre los datos, o que las ataduras, si las hay, representan
un error de medida que se refleja claramente a traves de una disminuci
on de intensidad de la relacion
misma. Tau a tiene un rango que va de menos uno a mas uno.
a =
S
N (N 1)
2
S
N (N 1)
T1
2
N (N 1)
T2
2
donde
T1
hX
i
T2
hX
j
i
fi (fi 1) / 2
i
fj (fj 1) / 2
S
1/2 N 2 [(L
1)/L]
S
S+ + S
donde
S
S+
S
= S+ S
= n
umero total de parejas en orden similar
= n
umero total de parejas en orden diferente.
t3 t
12
donde t es igual al n
umero de casos atados en un rango dado, es decir, el n
umero de casos en una fila
dada o en una columna dada.
La ro de Spearman se calcula
P 2 P 2 P 2
x + y d
pP
s =
P 2
y
x2
2
417
donde
X
X
X
x2
y2
d2
N3 N X
Tx
12
3
N N X
Ty
12
X
(Xk Yk )2
k
Tx
Ty
Xk
Yk
=
=
Note que cuando mas de un caso ocurre en una fila (o columna) dada, el valor de las Xk (o las Yk ) para
casos atados, es el promedio de los rangos que hubieran sido asignados si no hubiera habido ataduras.
Por ejemplo, si hay 15 casos en la primera fila de una tabla, entonces a esos 15 casos se les habra
asignado un rango, es decir, valor de X de 8.
n
) Lambda sim
etrica. Es una medida simetrica del poder de predicci
on; es adecuada cuando ni las filas
ni las columnas est
an especialmente designadas como las fuentes a partir de las cuales debe proyectarse
o ser conocidos en primer lugar. Lambda tiene un rango de cero a uno.
sym =
max fij +
j
X
j
2N max fj max fi
j
donde
fij
max fij
max fij
max fj
max fi
j
i
o) Lambda A, variable dependiente en fila. Esta lambda es adecuada cuando la variable de fila es
la variable dependiente. Es una medida de reduccion proporcional en la probabilidad de error, cuando
se proyecta la variable fila, especificado por una categora de columna. La lambda dependiente de fila
tiene un rango de cero a uno.
rd =
X
j
N max fi
i
cd =
X
i
N max fj
j
418
q) Estadsticas para medicina basada en evidencia (EBM). Se calculan para las tablas 2 x 2
donde la primera fila contiene las frecuencias de evento (a) y no-evento (b) para los casos en el grupo
experimental y la secunda fila contiene las frecuencias de evento (c) y no-evento (d) para los casos en
el grupo control.
Son calculadas las estadsticas siguientes:
Tasa de eventos en el grupo experimental
T EE = a/(a + b)
Tasa de eventos en el grupo control
T EC = c/(c + d)
Reducci
on absoluta del riesgo (Diferencia de riesgo)
RAR = |T EC T EE|
Reducci
on relativa del riesgo
RRR = RAR/T EC
N
umero necesario a tratar
N N T = 1/RAR
Riesgo relativo (relaci
on de riesgo)
RR = T EE/T EC
y su intervalo de confianza al 95 %
h
i
ICRR = exp ln(RR estimado) 1,96 T
d/c
b/a
+
a+b c+d
1 1 1 1
+ + +
a
b
c d
r) Prueba exacta de Fisher. La prueba exacta de probabilidad de Fisher es una tecnica no-parametrica
muy u
til para analizar datos discretos (que sean nominales o ordinales) a partir de dos muestras
independientes. Es utilizada cuando todos los casos de dos muestras aleatorias independientes caen en
una o en otra de dos categoras mutuamente exclusivas. La prueba determina si los dos grupos difieren
en la proporci
on en la cual se separan las dos clasificaciones.
La probabilidad de un resultado observado se calcula como sigue:
p=
419
s) Prueba de Mann-Whitney. La prueba U de Mann-Whitney puede ser utilizada para probar si dos
grupos independientes han sido seleccionados a partir de la misma poblacion. Es la mejor alternativa
a la prueba parametrica t cuando la medida es inferior al escalamiento por intervalos. En el programa
TABLES se requiere que la variable por fila sea la variable de agrupamiento dicotomica.
Sean
n1
n2
= n
umero de casos en el grupo mas peque
no de casos en los dos grupos
= n
umero de casos en el segundo grupo
R1
R2
Entonces
U 1 = n1 n2 +
n1 (n1 + 1)
R1
2
U 2 = n1 n2 +
n2 (n2 + 1)
R2
2
y
U = mn(U1 , U2 )
Si hay mas de 10 casos en cada grupo, el programa TABLES proporciona la aproximacion Z (aproximaci
on normal de U ) calculada como sigue:
Z= r
U n1 n2 /2
n1 n2 (n1 + n2 + 1)
12
t) Prueba de rangos con signo de Wilcoxon. La prueba estadstica de Wilcoxon sirve para probar
la relaci
on entre dos muestras y utiliza ambas informaciones, sobre la direcci
on y la magnitud relativa
de la diferencia entre parejas de variables.
La suma de rangos positivos, T + , se obtiene como sigue:
Las diferencias con signo dk = xk yk se calculan para todos los casos.
Las diferencias dk son ordenadas con respecto al rango e independientemente de su signo. Los
casos en los cuales dk toma el valor cero son descartados. A las dk que est
an atadas, se les asigna
el promedio de los rangos atados.
A cada rango se le anexa el signo (+ o ) de la d que representan.
N 0 es el n
umero de dk cuyo valor no es cero.
+
T es la suma de las dk con signo positivo.
Si N 0 > 15, el programa calcula la aproximacion Z (aproximacion normal de T + ) como sigue:
Z=
T + T +
T +
donde
T + =
N 0 (N 0 + 1)
4
g
T2 +
1X
N 0 (N 0 + 1) (2N 0 + 1)
nt (nt 1) (nt 2)
=
24
2 t=1
g
nt
=
=
y
n
umero de grupos de diferentes rangos atados
n
umero de rangos atados en el grupo t.
420
u) Prueba-t. El cociente t es adecuado para probar la diferencia entre dos medias independientes, es
decir, dos muestras independientes. La variancia est
a calculada en com
un.
t = s
yi yh
ni + nh
+ nh s2h
ni + nh 2
ni nh
ni s2i
donde
yi
yh
=
=
s2i
s2h
=
=
57.3.
sP
y2
y 2i
ni
=
=
wk xk
wk x2k
yk
yk2
=
=
fij
wk yk
wk y 2
X k
wk
k
Captulo 58
Tipologa y clasificaci
on ascendente
Notaci
on
x
k
v
g, i, j
= n
umero de variables activas (cuantitativas y cualitativas dicotomizadas)
p
t
= n
umero de variables pasivas (cuantitativas y cualitativas dicotomizadas)
= n
umero inicial de grupos
Ni
Nj
w
W
58.1.
= valores de variables
= subndice para el caso
= n
umero de casos en el grupo i ponderado si el peso del caso est
a especificado)
= n
umero de casos en el grupo j (ponderado si el peso del caso est
a especificado)
= valor del peso de la variable
= valor del peso del caso
= suma total de los pesos del caso.
58.2.
Perfil de caso
422
Tipologa y clasificaci
on ascendente
58.3.
Perfil de grupo
El perfil del grupo i, conocido tambien como el barycentro de grupo, es un vector Pi tal que
Pi = (xi1 , xi2 , . . . , xiv , . . . , xia ) = (xiv )
y en caso de datos estandarizados se convierte en,
x
iv
Pi =
sv
donde el numerador es la media de la variable xv de los casos que corresponden al grupo i y el denominador
es la desviacion est
andar de esta variable.
58.4.
Distancias utilizadas
dij = d(Pi , Pj ) =
a
X
v=1
v |xiv xjv |
a
X
v=1
b) Distancia euclideana.
v
uX
u a
u
v (xiv xjv )2
u
u v=1
dij = d(Pi , Pj ) = u
a
u
X
t
v=1
c) Distancia Ji-cuadrada.
v
u a
uX 1 piv
pjv 2
dij = d(Pi , Pj ) = t
p
pi
pj
v=1 v
donde
pv =
t
X
xgv ,
pi =
g=1
piv =
xiv
t
a
XX
a
X
xiv ,
pj =
v=1
,
xgv
g=1 v=1
pjv =
a
X
xjv
v=1
xjv
t
a
XX
xgv
g=1 v=1
2Ni Nj
dij
Ni + Nj
Note que el desplazamiento entre el perfil de dos casos es igual a su distancia ya que Ni = Nj = 1.
58.5 Construcci
on de una tipologa inicial
58.5.
423
Construcci
on de una tipologa inicial
a) Selecci
on de la configuraci
on inicial. Antes de comenzar el proceso de agregacion de los casos, el
programa selecciona la configuracion inicial, es decir, t perfiles iniciales de grupo, en una de las formas
siguientes:
los perfiles de casos de t casos escogidos al azar (con n
umeros aleatorios) constituyen la configuraci
on de partida; para obtener la configuracion inicial, los casos restantes se distribuyen en t
grupos como se describe mas adelante;
los perfiles de casos de t casos escogidos por pasos constituyen la configuracion de partida; para
obtener la configuracion inicial, los casos restantes se distribuyen en t grupos como se describe
mas adelante;
la configuracion inicial es un conjunto de perfiles calculados para los casos distribuidos a lo largo
de las categoras de una variable clave;
la configuracion inicial es un conjunto de perfiles de grupo proporcionados a priori por el usuario.
Cuando la construcci
on comienza a partir de t perfiles, el programa considera este conjunto de t
vectores, como un conjunto de t casos de partida y distribuye los casos restantes de acuerdo a la
distancia de cada uno de los casos de partida.
Notemos el conjunto de los t casos de partida por
o
n
Ppartida = Pk1 , Pk2 , . . . , Pkt
i
h
= mn D(Pk1 , Pk2 ), D(Pk1 , Pk3 ), . . . , D(Pkt1 , Pkt )
: el caso i queda asignado al grupo mas cercano Pkj y el perfil de este grupo es calculado
nuevamente
Pkj = Pkj + Pi /2
> : el caso i construye un nuevo grupo que es a
nadido al conjunto Ppartida , y los dos perfiles
mas cercanos Pkj y Pkj0 se suman formando un nuevo grupo con el nuevo perfil
Pkj = Pkj + Pkj0 /2
b) Estabilizaci
on de la configuraci
on inicial. La configuracion inicial es estabilizada por medio de
un proceso iterativo. En cada iteraci
on, el programa redistribuye los casos entre los grupos iniciales
tomando en cuenta sus distancias de cada perfil de grupo.
Aqu tambien hay dos posibilidades:
cuando el caso i Pj y
h
i
D(Pi , Pj ) = mn D(Pi , Pg )
1gt
424
Tipologa y clasificaci
on ascendente
cuando el caso i Pj pero
h
i
D(Pi , Pj 0 ) = mn D(Pi , Pg )
1gt
entonces el caso i es transferido del grupo Pj al grupo Pj 0 , y los perfiles de esos dos grupos son
calculados nuevamente como sigue:
Pj = (Nj Pj Pi ) /(Nj 1)
Pj 0 = (Nj 0 Pj 0 + Pi ) /(Nj 0 + 1)
Despues de haber efectuado esta operaci
on, el grupo Pj contiene Nj 1 casos y el grupo Pj 0 contiene
0
Nj + 1 casos.
Note que si los casos est
an ponderados, entonces:
Nj = Nj wi
Nj 0 = Nj 0 + wi
Pi = wi Pi
umero de casos ponderados en los grupos Pj
en donde wi es igual al peso del caso i; Nj y Nj 0 son el n
and Pj 0 respectivamente.
58.6.
a) N. N
umero de casos en cada grupo de la tipologa inicial.
b) Media. Distancia media para cada grupo, es decir, el promedio de las distancias del perfil de grupo
sobre todos los casos que partenecen a este grupo.
c) D.E. Desviaci
on est
andar de la distancia para cada grupo.
d) Clasificaci
on de distancias. Distribucion de casos en terminos de frecuencia y porcentaje, a traves
de 15 intervalos continuos que son diferentes para cada grupo.
e) Conteo total. N
umero total de casos que participan en la construcci
on de la tipologa inicial.
f ) Media. Distancia media total.
g) D.E. Desviaci
on est
andar total de la distancia.
h) Clasificaci
on de distancias (lmites iguales para cada grupo). Igual que 6.d arriba, a la excepcion que los 15 intervalos tienen el mismo espectro en todos los grupos.
58.7.
Estadsticas de resumen
Son calculadas para las variables cuantitativas y para las variables cualitativas activas.
a) Media. Media de las xv cuantitativas, tales que xv (Xa Xp ). Para las categoras de variables
cualitativas, es una proporci
on de casos en esa categora.
xv =
wk xkv
58.8 Descripci
on de la tipologa resultante
425
b) D.E. Desviaci
on est
andar.
sv =
v
2
u
u W X w x2 X w x
u
k kv
k kv
t
k
k
W2
v =
58.8.
(c+1)/3
c
Descripci
on de la tipologa resultante
Al final de la construcci
on de la tipologa inicial, y tambien al final de cada paso de la clasificacion ascendente,
todas las variables, es decir, activas y pasivas son evaluadas por una cantidad de variancia explicada. Es una
medida de poder discriminante de cada variable cuantitativa y de cada una de las categoras de las variables
cualitativas. Le sigue una descripci
on individual de todos los grupos de la tipologa.
a) Proporci
on de casos. Porcentaje multiplicado por 1000 de los casos que corresponden a cada grupo
de la tipologa.
b) Variancia explicada.
tg
X
i=1
VE(xv ) = X
k
Ni (xiv xv )
wk (xkv xv )2
1000
donde
tg
xiv
xv
= n
umero de grupos en la tipologa
= media de la variable v en el grupo i
= media global de la variable v.
c) Media global.
Para variables cuantitativas, los valores medios como descrito en 7.a arriba.
Para cada categora de las variables cualitativas, porcentaje de casos en esta categora.
d) Estadsticas para cada grupo de la tipologa.
Para variables cuantitativas:
primera lnea: valores medios tal como est
an descritos en 7.a arriba;
segunda lnea: desviaciones est
andar como est
an descritas en 7.b arriba.
Para cada categora de las variables cualitativas:
primera lnea: porcentaje de casos de columna;
segunda lnea: porcentaje de casos de fila.
426
58.9.
Tipologa y clasificaci
on ascendente
VEactivas =
a
X
v VE(xv )
v=1
a
X
v=1
VEtodas =
a+p
X
v VE(xv )
v=1
a+p
X
v=1
d) Variancia explicada media por las variables que explican el 80 % de la variancia total.
Despues de cada agrupamiento, el programa busca las variables que explican al menos el 80 % de la variancia total e imprime la variancia media explicada por esas variables antes y despues del agrupamiento
as como el porcentaje de dichas variables.
58.10.
Clasificaci
on jer
arquica ascendente
v
sv
58.11 Referencias
58.11.
427
Referencias
Ap
endice
Errores y advertencias
Los errores (E) siempre causan la terminaci
on de la ejecuci
on de programas de IDAMS; las advertencias
(W) alertan al usuario acerca de posibles anormalidades en los datos y/o proposiciones de control as como
tambien, de una interpretaci
on equivocada de los resultados. Los mensajes de error y de advertencia tienen
el formato siguiente:
***E* aaannn texto del mensaje de error
***W* aaannn texto del mensaje de advertencia
donde
nnn
es un n
umero de tres dgitos, que empieza en 001 para las advertencias y en 101 para los errores;
aaa
RCD
DTM
SYS
FLM
430
Indice alfab
etico
agrupaci
on de datos, 59, 97
analisis
basado en ordenamiento parcial de puntajes, 245,
389
de clasificacion, 173, 293, 333, 421
de configuracion, 179, 341
de correspondencias, 197, 353
de preferencias, 259, 395
de proximidades, 215, 367
de regresion, 205, 221, 361, 373
de segmentacion binaria, 273, 407
de series de tiempo, 4, 323, 328
de variancia, 221, 239, 373, 385
discriminatorio, 185, 345
en componentes principales, 197, 353
factorial, 197, 353
analisis de variancia
multivariado, 231
analisis multivariado de variancia, 231
archivos
clasificacion, 157
Datos, 5, 79
de datos, 12
de diccionario, 14
de matrices, 5, 16
del sistema, 80
permanentes, 80
del usuario, 79
Diccionario, 5, 79
especificaci
on de, 23
intercalaci
on, 157
jerarquicos, 12
Matriz, 79
nombre, 79
rectangulares, creacion de, 57
Resultados, 79
Setup, 79
usados en WinIDAMS, 79
asimetra, 354, 414
blancos
identificaci
on, 112
recodificacion por BUILD, 103
c
odigos
incorrectos/invalidos, especificaci
on, 109
nombre de, 16
verificacion, 89, 109
carpetas
en WinIDAMS, 80
por defecto, 80
casos
activos, 358
duplicados
eliminacion con SUBSET, 163
tratamiento con MERGE, 151
eliminacion, 129, 161, 165
excenticos
tratamiento por MCA, 226
tratamiento por SEARCH, 277
faltantes, tratamiento con MERGE, 150
fijacion de n
umero a procesar, 30
identificacion con MERCHECK, 121
listado, 129, 145, 165
ordenamiento parcial, 245
pasivos, 360
selecci
on de, 25
centrado de configuraciones, 179, 341
clasificacion de alternativas, 259, 395
basada en la logica clasica, 259, 396
basada en la logica difusa, 259, 400, 402
clasificacion de archivos, 157
clasificacion de casos
basada en la logica difusa, 174, 336
basada en repartici
on, 173, 174, 334, 336
jerarquica, 173, 174, 293, 337339, 421
clasificacion de objetos
basada en la logica difusa, 174, 336
basada en repartici
on, 173, 174, 334, 336
jerarquica, 173, 174, 337, 338
clasificacion jerarquica
ascendente, 174, 177, 293, 337, 421
basada en variables dicotomicas, 174, 177, 339
de casos, 293, 421
descendente, 174, 177, 338
por aglomeracion, 174, 177, 337
por divisi
on, 174, 177, 338
cociente F, 223, 240, 387
coeficiente de Gini, 191, 350
coeficientes
B, 207, 254, 267, 364, 394, 406
beta, 207, 223, 364, 375
de contingencia, 281, 415
de correlaci
on
m
ultiple, 207, 223, 363, 376
parcial, 207, 362
r de Pearson, 206, 253, 362, 393
de regresion, 207, 254, 267, 364, 394, 406
de variacion, 361, 373, 375, 385, 414
eta, 223, 240, 375, 386
comandos de IDAMS
432
INDICE ALFABETICO
$CHECK, 21
listado, 60, 145
$COMMENT, 22
no numericos, edici
on, 103
$DATA, 22
numericos
$DICT, 22
edici
on, 103
$FILES, 22
tratamiento de campos no numericos, 13
$MATRIX, 22
reagrupamiento (ver agrupaci
on), 97
$PRINT, 22
recodificacion, 31, 59
$RECODE, 22
salvar datos recodificados, 165
$RUN, 23
transformaci
on, 59, 165
$SETUP, 23
para recodificacion, 31
comentario en el setup, 22
seguro con TRANS, 59
configuracion
validaci
on, 57, 58
analisis, 179, 341
verificacion
centrado, 179, 341
de consistencia, 57, 59, 115
matriz de configuracion, 179, 215, 295, 296, 341,
de intercalaci
on, 57, 58
367
de orden de clasificacion, 121, 161, 163
en entrada de CONFIG, 180
de valores, 57, 58, 109
en entrada de MDSCALE, 218
datos faltantes
en entrada de TYPOL, 296
asignacion de c
odigos por Recode, 51
en salida de CONFIG, 180
c
odigos de, 13
en salida de MDSCALE, 217
declaracion en el setup, 30
en salida de TYPOL, 295
definicion, 13
normalizaci
on, 180, 341
eliminacion por casos
proyeccion, 182
en PEARSON, 254
rotacion varimax, 180, 343
en REGRESSN, 206
transformaci
on, 180, 342
eliminacion por pares
correccion
en PEARSON, 253
de datos, 57, 59, 88, 129
especificaci
on en el diccionario, 15
de identificador de casos, 129
tratamiento con Recode, 34
Cramer (V de), 281, 306, 415
datos preferenciales
curva de Lorenz, 191, 350
selecci
on de alternativas, 261
tipos
de,
260
D de Sormer, 306
ddname, 23
dataset, definicion en IDAMS, 11
modificacion, 30
datasets
nombre por defecto, 30
construcci
on, 103
densidades,
318
copia, 161
desviaci
o
n
est
andar, 304, 345, 353, 361, 373, 374, 385,
importacion, 89
393,
394, 405, 406, 414, 425
intercalaci
on, 59, 149
determinaci
o
n
de prioridades, 259, 395
de diferente nivel, 59, 149
diagramas
de mismo nivel, 59, 149
agrupados, 320
preparacion, 58
de caja y bigotes, 319
subdivisi
on, 60, 161
de dispersi
on, 198, 202, 267, 316
datos
tridimensional,
320
actualizacion, 129
diccionario
agrupaci
on, 59, 97
archivos de, 5, 79
almacenamiento, 11
construcci
on, 86, 103
archivos de, 5, 79
correci
o
n,
86
conversi
on a modo binario, 13
descripci
o
n,
14
correccion, 57, 59, 88, 129
en el setup, 22
en el setup, 22
listado con LIST, 145
en IDAMS, 5
registros
entrada, 88
de c
odigos y nombres de categoras, 15
exportacion, 90, 135
de tipo C, 15
formato DIF, 136
de tipo T, 15
formato libre, 90, 136
descriptor de diccionario, 14
formato, 11
descriptores de variables, 15
importacion, 20, 89, 135
verificacion, 86
formato DIF, 137
distancia
formato libre, 89, 137
INDICE ALFABETICO
cuadra urbana, 176, 219, 297, 334, 371, 422
de Mahalanobis, 185, 346
euclideana, 176, 219, 297, 334, 370, 422
Ji-cuadrada, 297, 422
Durbin-Watson (estadstica de), 207, 365
factor de repetici
on en TABLES, 287
filtro, 25
colocacion, 25
local, 25
en ONEWAY, 242
en QUANTILE, 194
ELECTRE (metodo de clasificacion de alternativas),
en SCAT, 270
259, 396
en TABLES, 286
eliminacion
principal, 25
de casos
reglas de codificacion, 25
con CORRECT, 129
variables a usar, 26
con SUBSET, 161
variables alfabeticas., 26
con TRANS, 165
variables numericas, 26
de casos duplicados con SUBSET, 163
variables R, 26
de variables
Fisher
con SUBSET, 161
prueba exacta de, 281, 418
con TRANS, 165
prueba F de, 207, 223, 240, 363, 387
esfuerzo en analisis de proximidades, 216, 368
frecuencias
estadsticas, c
alculo de
bivariadas, 281, 305
bivariadas por TABLES, 281
univariadas, 281, 305
de residuos por MCA, 223
univariadas acumulativas, 281
para medicina basada en evidencia, 281
funci
on
univariadas, 318
de distribuci
on, 191, 349
interactivo, 304
de Lorenz, 191, 350
por AGGREG, 97, 98
discriminatoria lineal, 185, 346
por FACTOR, 198
funciones de Recode
por TABLES, 281
aritmeticas, 37
exploraci
on gr
afica interactiva, 4, 313
logicas, 45
exportacion
de datos, 90, 135
gamma (estadstica), 281, 306, 416
de matrices, 135
Gini (coeficiente de), 191, 350
de tablas multidimensionales, 306
histogramas, 318
facilidades de analisis
analisis de componentes principales, 3, 197, 353 IDAMS
caractersticas est
andar, 5
analisis de configuracion, 3, 179, 341
comandos, 21
analisis de conglomerados, 3, 173, 333
dataset, 11, 103
analisis de correspondencias, 3, 197, 353
construcci
on, 103
analisis de regresion, 3, 221, 373
exportacion, 90
analisis de variancia, 3, 221, 373
importacion, 89
analisis de variancia de una entrada, 3, 239, 385
datos
analisis discriminatorio, 3, 185, 345
exportacion, 135
analisis factorial, 3, 197, 353
importacion, 135
b
usqueda de estructura, 4, 273, 407
diccionario, construcci
on, 103
clasificacion jer
arquica ascendente, 4, 293, 421
especificaci
on de archivos, 23
correlaci
on de Pearson, 4, 253, 393
GraphID, 4, 313
diagramas de dispersi
on, 4, 267, 405
matrices, 16
escalamiento multidimensional, 3, 215, 367
exportacion, 135
exploraci
on gr
afica interactiva de datos, 4, 313
importacion, 135
funciones de distribuci
on y de Lorenz, 3, 191, 349
mensajes de error, 429
interactivo de series de tiempo, 4, 323
programas de, 2, 3
nubes de puntos, 4, 267, 405
proposiciones de control, 25, 61
ordenamiento de alternativas, 4, 259, 395
proposiciones de recodificacion, 31, 61
puntajes basados en el orden parcial de casos, 3,
245, 389
setup, 21, 61
regresion lineal, 3, 205, 361
tablas multidimensionales, 4, 303
segmentacion binaria, 4, 273, 407
TimeSID, 4, 323
tablas multidimensionales interactivas, 4, 303
identificador de caso
tablas univariadas y bivariadas, 4, 281, 413
correccion, 129
tipologia iterativa, 4, 293, 421
en LIST, 146
433
434
en MERGE (variables de emparejamiento), 154
importacion
de datos, 20, 89, 135
de matrices, 135
impresion de resultados, 93
imprimir
tablas, 306
interacciones
construcci
on de una variable de combinaci
on, 222
definicion, 221
deteccion y tratamiento, 221
intercalaci
on
de archivos, 157
de datasets, 59, 60, 149
de diferente nivel, 149
de mismo nivel, 149
Ji-cuadrada (prueba), 281, 306, 414
Kaiser (criterio de), 201
Kendall (taus de), 281, 306, 416
Kolmogorov-Smirnov (prueba de), 191, 350
kurtosis, 354, 414
logica difusa
clasificacion de alternativas, 259, 400, 402
clasificacion de objetos, 174, 336
lambda (estadsticas), 281, 306, 417
lista de variables, reglas de codificacion, 31
listado
de casos
con CORRECT, 129
con LIST, 145
con TRANS, 165
de datos con LIST, 60, 145
de diccionarios con LIST, 145
Lorenz
curva de, 191, 350
funci
on de, 191, 350
Mahalanobis (distancia de), 185, 346
Man-Whitney (prueba de), 281, 419
manejo de datos
agrupaci
on de datos, 2, 97
clasificacion e intercalaci
on de archivos, 2, 157
construcci
on de un dataset IDAMS, 2, 103
correccion de datos, 2, 129
importacion o exportacion de datos, 2, 135
intercalaci
on de datasets, 2, 149
listado de datos, 2, 145
subdivisi
on de datasets, 2, 161
transformaci
on de datos, 2, 165
verificacion de c
odigos, 2, 109
verificacion de consistencia, 2, 115
verificacion de intercalaci
on de datos, 2
verificacion de intercalaci
on de registros, 121
matriz
archivos de, 5, 16, 79
cuadrada, 17
descriptor, 17
INDICE ALFABETICO
formato, 17
de configuracion, 179, 215, 295, 296, 341, 367
en entrada de CONFIG, 180
en entrada de MDSCALE, 218
en entrada de TYPOL, 296
en salida de CONFIG, 180
en salida de MDSCALE, 217
en salida de TYPOL, 295
de correlaci
on, 206, 254, 362, 394
en entrada de CLUSFIND, 175
en entrada de REGRESSN, 208
en salida de PEARSON, 255
en salida de REGRESSN, 207
de correlaci
on parcial, 207, 362
de correlaciones, 355
de correspondencias, 355
de covariancia, 254, 394
en salida de PEARSON, 255
de covariancias, 355
de distancias, 180, 342
en salida de CONFIG, 180
de estadsticas, 281
de estadsticas bivariadas
en salida de TABLES, 284
de medidas de similitud/disimilitud, 173, 215,
334
en entrada de CLUSFIND, 175
en entrada de MDSCALE, 217
de productos cruzados, 207, 254, 361, 394
de productos escalares, 180, 342, 355
de relaciones, 197, 198, 260, 354, 399
en el setup, 22
exportacion, 135
formato libre, 137
importacion, 20, 135
formato libre, 137
inversa, 207, 362
programas que leen, 17, 18
programas que producen, 17, 18
proyeccion, 321
rectangular, 18
descriptor, 19
formato, 19
media, 304, 345, 353, 373, 374, 379, 385, 393, 394,
405, 413, 424
mensajes de error, 429
nombre
de c
odigos, 16
de variables, 15
normalizaci
on
de configuraciones, 180, 341
de la matriz de relaciones, 264, 400
nubes de puntos, 198, 202, 267, 316
palabras clave
est
andar, 27
reglas de codificacion, 29
tipos de, 28
par
ametros
INDICE ALFABETICO
colocacion, 27
comunes, 30
BADDATA, 30
INFILE, 30
MAXCASES, 30
MDVALUES, 30
OUTFILE, 30
VARS, 31
WEIGHT, 30
formatos de especificaci
on, 27
presentacion en el Manual, 27
reglas de codificacion, 29
valores por defecto, 28
Pearson (coeficiente r de), 206, 253, 362, 393
pesos, 30
ponderaci
on de datos, 30
porcentajes
basados en el gran total, 281, 304
basados en totales de columna, 281, 304
basados en totales de fila, 281, 304
predictores, 221, 239, 273
preferencia
debil, 260
estricta, 260
programas
de analisis de datos, 3
de manejo de datos, 2
ejemplo de setup, 60
promedio, 333, 361
proposiciones de control
filtro, 25
parmetros, 27
reglas de codificacion, 25
ttulo, 27
proposiciones de Recode, 31
asignacion, 46
condicionales, 50
control, 48
definicion/asignacion, 50
verificacion, 35, 165
proposiciones, ejemplo de setup, 60
proyeccion
de casos, 198, 267, 316
de variables, 198
prueba
de Durbin-Watson, 207, 365
de Kolmogorov-Smirnov, 191, 350
de Man-Whitney, 281, 419
de Wilcoxon, 281, 419
exacta de Fisher, 281, 418
F de Fisher, 223, 240, 387
Ji-cuadrada, 281, 306, 414
t de Student, 281, 420
puntajes
calculados por FACTOR, 198
calculados por POSCOR, 246
quantiles, 193, 283, 349, 414
reagrupamiento de datos con AGGREG, 97
435
Recode
constantes (tipos de), 35
expresiones, 36
aritmeticas, 36
logicas, 36
forma de proposiciones, 33
funciones aritmeticas, 37
funciones logicas, 45
iniciacion de valores de variables, 34
lenguaje, elementos de, 35
operadores
aritmeticos, 35
logicos, 36
relacionales, 36
operandos b
asicos, 35
proposiciones, 46, 48
reglas de codificacion, 33
restricciones, 54
tratamiento de datos faltantes, 34
variables V y R, 35
Recode, funciones aritmeticas
ABS, 37
BRAC, 37
COMBINE, 38
COUNT, 39
LOG, 39
MAX, 40
MD1, MD2, 40
MEAN, 40
MIN, 40
NMISS, 41
NVALID, 41
RAND, 41
RECODE, 41
SELECT, 42
SQRT, 43
STD, 43
SUM, 43
TABLE, 43
TRUNC, 44
VAR, 45
Recode, funciones logicas
EOF, 45
INLIST, 45
MDATA, 46
Recode, proposiciones
BRANCH, 48
CARRY, 51
CONTINUE, 48
DUMMY, 47
ENDFILE, 48
ERROR, 49
GO TO, 49
IF, 50
MDCODES, 51
NAME, 51
REJECT, 49
RELEASE, 49
RETURN, 49
436
SELECT, 47
recodificacion
de blancos con BUILD, 103
de datos, 31, 59
salvar variables recodificadas, 165
registros
duplicados, identificaci
on y correccion, 122
eliminados, tratamiento, 122
faltantes, deteccion y reemplazo, 122
identificacion en MERCHECK, 121
invalidos, identificaci
on y correccion, 122
regresion, 205, 361
con variables categ
oricas, 205, 221
con variables ficticias, 205, 221
lneas de, 318
lineal m
ultiple, 205, 361
por pasos, 205, 365
por pasos descendente, 205, 366
repartici
on
alrededor de medoides, 174, 177, 334, 336
basada en la logica difusa, 174, 177, 336
residuos, 206, 221, 273, 376, 409411
en salida de MCA, 224
en salida de REGRESSN, 208
en salida de SEARCH, 274
ro de Spearman, 281, 416
rotacion varimax
de configuraciones, 180, 343
de factores, 198, 360
salvar
datos recodificados, 165
variables recodificadas, 165
segmentacion binaria, 273, 407
selecci
on
de casos, 25
de variables, 31
series de tiempo
analisis, 323, 328
autoregresion, 328
correlaciones, 328
espectro, 328
espectro cruzado, 328
estadsticas, 328
filtros de frecuencia, 329
proyeccion, 326
transformaci
on, 327
setup
archivos de, 5, 79, 91
comentarios, 22
ejecuci
on, 92
preparacion, 91
Sormer (D de), 306
Spearman (ro de), 281, 416
Student (prueba t de), 207, 281, 365, 420
subdivisi
on de datasets, 60, 161
sumas de cuadrados, 207, 223, 240, 361, 374, 386
ttulo
colocacion, 27
INDICE ALFABETICO
reglas de codificacion, 27
tablas
bivariadas, 281, 305, 413
de 3 y 4 entradas, 281
de contingencia, 281, 413
de estadsticas en salida de TABLES, 284
de factores, 198, 356
de frecuencias bivariadas, 281
de frecuencias univariadas, 281
de frecuencias univariadas acumulativas, 281
multidimensionales, 305
univariadas, 281, 305, 413
tau (estadsticas), 281, 306, 416
tipologa iterativa, 293, 421
transformaci
on
de configuraciones, 180, 342
de datos, 59, 165
para recodificacion, 31
seguro con TRANS, 59
de series de tiempo, 327
V de Cramer, 281, 306, 415
validaci
on de datos, 57, 58
valores excentricos
tratamiento por MCA, 226
tratamiento por SEARCH, 277
valores no numericos, tratamiento, 30
valores propios, 355, 356
valores residuales, 206, 221, 273, 376, 409411
en salida de MCA, 224
en salida de REGRESSN, 208
en salida de SEARCH, 274
variable
de clasificacion producida por TYPOL, 295
de combinaci
on, 222
de grupo, 187
de muestra, 187
variables
activas, 197, 293, 356, 421
agrupadas, 97
alfabeticas, 13
categoricas
en MCA, 221
en REGRESSN, 205, 211
nombres de c
odigos, 16
con decimales, 12
construidas por POSCOR, 246
cualitativas, nombres de c
odigos, 16
de control, 97, 221, 239
eliminacion, 161, 165
ficticias
en MCA, 221
en REGRESSN, 205, 211
lista de, 31
colocacion, 31
reglas de codificacion, 31
localizacion en los registros, 15
nombre de, 15
asignacion por Recode, 51
numericas, 12
INDICE ALFABETICO
correccion, 129
edici
on, 14, 103
tratamiento de campos no numericos, 13
tratamiento por BUILD, reglas de, 103
pasivas, 197, 293, 358, 421
referencia a, 12
salvar variables recodificadas, 165
selecci
on de, 31
suplementarias, 197
variancia, analisis de, 221, 239, 373, 385
varimax
rotacion de configuraciones, 180, 343
rotacion de factores, 198, 360
vectores propios, 355
verificacion
de c
odigos con ayuda de registros C, 89, 109
de consistencia, 57, 59, 115
de intercalaci
on de datos, 57, 58
de proposiciones Recode, 35, 91, 165
de valores de datos, 57, 58, 109
del orden de clasificacion de datos, 121, 161, 163
Wilcoxon (prueba de), 281, 419
WinIDAMS
archivos, 79
carpetas, 80
personalizacion del ambiente, 83
437