Está en la página 1de 458

IDAMS

Paquete de Programas
para el An
alisis y Manejo de Datos
Desarrollado Internacionalmente

Manual de Referencia de WinIDAMS


(versi
on 1.3)

Abril de 2008

c UNESCO 2001-2008
Copyright

Publicado por
UNESCO, Organizaci
on de las Naciones Unidas
para la Educacion, la Ciencia y la Cultura
7, Place de Fontenoy
75352 Paris 07 SP, Francia

Ttulo de la obra original:


WinIDAMS Reference Manual (release 1.3)
c 2001-2008 by UNESCO

Primera edici
on en ingles por la UNESCO en 1988

Traduccion en espa
nol:
Prof. Bernardo LIEVANO
Profesor de Fisica y Matem
aticas
Escuela Colombiana de Ingeniera, Bogota, Colombia

ISBN 92-3-102577-5 (UNESCO - versi


on en ingles)

Prefacio
Objetivos de IDAMS
La idea en IDAMS, es poner a disposicion de los Estados Miembros de UNESCO, exento de costo, un
paquete de programas para el manejo y el analisis estadstico de datos. IDAMS utilizado en combinaci
on con
CDS/ISIS (programas de UNESCO para la administracion y recuperaci
on de datos de texto), entrega a los
Estados Miembros de un paquete de programas integrado que permite el procesamiento de datos de texto
y numericos de una manera unificada para prop
osito cientfico y administrativo en universidades, institutos
de investigacion, administraciones nacionales, etc. El objetivo final es ayudar a los Estados Miembros a
progresar en la racionalizaci
on del manejo de sus diversos sectores de actividad, objetivo crucial para el
establecimiento de planes de desarrollo adecuados y las correspondientes monitoras de su ejecuci
on.

Origen y breve historia de IDAMS


IDAMS proviene originalmente del paquete estadstico OSIRIS III.2 desarrollado al comienzo de la decada
de los a
nos 70 en el Instituto para la Investigacion Social de la Universidad de Michigan en los Estados
Unidos de America. Ha sido y continua siendo enriquecido, modificado y puesto al dia por el Secretariado
de la UNESCO con la cooperaci
on de expertos de diferentes paises, a saber: especialistas Belgas, Brit
anicos,
Colombianos, Eslovacos, Estadounidenses, Franceses, H
ungaros, Poloneses, Rusos y Ucranianos; de ah el
nombre Internationally Developed Data Analysis and Management Software Package, en castellano Paquete de software para el analisis y manejo de datos desarrollado internacionalmente.
Inicialmente, IDAMS se dise
no
para computadores grandes de tipo IBM
La primera versi
on (1.2) sali
o en 1988; tena la mayora de las facilidades de manaejo y analisis de datos. A
pesar de que se tomo un n
umero b
asico de rutinas y programas de OSIRIS III.2 estos fueron substancialmente
modificados y se adicionaron nuevos programas consistentes en ordenamiento de puntajes, analisis factorial,
ordenamiento de alternativas y tipologa con clasificaci
on ascendente. Se incorporaron recursos para manejo
de nombres de c
odigos y de documentacion de programas. Los programas estaban acompa
nados del Manual
del Usuario, Listados de muestra y una Tarjeta de referencia rapida.
La versi
on 2.0 sali
o en 1990 con mejoras tecnicas en varios programas, se reagrupadon dos programas para
calcular correlaciones de Pearson, por una parte, y otros dos programas para ordenamiento de alternativas
por rangos, por la otra.
La versi
on 3.0 sali
o en 1992; tena mejoras significativas tales como: armonizacion de par
ametros, palabras
clave y sint
axis de proposiciones de control, posibilidad de verificar sin ejecuci
on la sint
axis de las proposiciones de control, posibilidad de ejecutar programas con un n
umero limitado de casos, armonizacion de los
mensajes de error, posibilidad de reunir y listar las variables de Recode, recodificacion alfabetica y seis nuevas
funciones aritmeticas en la facilidad Recode. Se adicionaron dos nuevos programas para la verificacion de
consistencias y analisis discriminatorio. Se incluyo el anexo con formulas estadsticas al Manual.
Nota: en 1993, despues de la preparacion de la versi
on 3.02 para los sistemas operacionales OS y VM/CMS,
termino el desarrollo de la versi
on para compuadores mainframe.
Paralelamente, se adapt
o IDAMS para microcomputadores bajo MS-DOS
El desarrollo de la versi
on para microcomputadores comenzo en 1988 y avanzo en forma simult
anea con el
desarrollo de la versi
on para computadores grandes hasta la versi
on 3.0.

II

La primera versi
on (1.0) sali
o en 1989, con las mismas facilidades de la versi
on para computadores
grandes.
La versi
on 2.0 sali
o en 1990 y era totalmente compatible con la versi
on para OS. Es mas, suministraba en
la Interfaz del Usuario, facilidades para preparar el diccionario, entrada de datos, preparacion y ejecuci
on
de archivos de setup e impresion de resultados.
La versi
on 3.0 apareci
o en 1992 junto con la versi
on para OS. Sin embargo, la Interfaz del Usuario era
mucho mas amigable ya que tena nuevos editores para el diccionario y los datos, ofreca un acceso directo
a prototipos de setup para todos los programas y se enriqueci
o con un modulo para exploraci
on interactiva
gr
afica.
Las dos versiones intermedias (3.02 y 3.04) que salieron en 1993 y 1994 respectivamente, incluan mejoras
tecnicas internas y la depuraci
on de los programas. La versi
on 3.02 fue la u
ltima totalmente compatible con
la versi
on de computadores grandes.
La existencia independiente de micro IDAMS comenz
o en 1993. Los programas se sometieron a pruebas
completas y sistem
aticas, especialmente en el
area del manejo de errores del usuario y se hizo una depuracion
total.
La versi
on 4.0 que apareci
o en 1996 (
ultima versi
on para DOS) incluye una Interfaz del Usuario mas amigable, posibilidad de ambiente personalizado, Manual del Usuario en linea, lenguaje de control simplificado,
nuevas modalidades de presentacion gr
afica y capacidad de producir versiones en distintos idiomas. Dos
nuevos programas aparecieron para dar al usuario tecnicas de analisis de conglomerados y de b
usqueda de
estructura. Se reorganiz
o el Manual del Usuario para presentar los t
opicos de una manera mas concisa y mas
f
acil de consultar. Inicialmente estaba solo en ingles.
Desde 1998, la versi
on 4 se desarroll
o progresivamente en Espa
nol, Frances, Arabe y Ruso.
2000: primera versi
on de IDAMS para Windows y desarollo posterior
La versi
on 1.0 de IDAMS para el sistema operativo grafico Windows de 32 bits se puso a prueba en 2000
y su distribuci
on se inici
o en 2001. Ofrece una moderna Interfaz del Usuario, nuevas caractersticas para
facilitar el uso y acceso en lnea al Manual de Referencia con la ayuda est
andar de Windows. Nuevos componentes interactivos de analisis suministran herramientas para construcci
on de tablas multidimensionales,
la exploraci
on grafica de datos y analisis de series de tiempo.
La versi
on 1.1 sali
o en septiembre de 2002 con las siguientes mejoras: (1) externalizaci
on de textos para
el uso de los programas en otros idiomas ademas del ingles; (2) concordancia de los textos en los resultados.
Fue una primera versi
on para Windows que aparecio en ingles, frances y espa
nol.
La versi
on 1.2 sali
o en julio de 2004 en ingles, frances y espa
nol, y contiene nuevas funciones en tres
programas, en la Interfaz del Usuario, y en los componentes interactivos para la exploraci
on grafica de datos
y el analisis de series de tiempo. Ella sali
o en abril 2006 en portugues.
La versi
on 1.3 sali
o igualmente en ingles, frances, espa
nol y portugues, y contiene un nuevo programa para
analisis de variancia multivariado (MANOVA), c
alculo de coeficiente de variabilidad en cuadro programas,
mejora de tratamiento de variables de Recode con decimales en SCAT y TABLES, y armonizacion completa
de la longitud de registro de datos.

Reconocimientos
En primer lugar, se debe agradecer al profesor Frank-M. Andrews ( 1994) del Instituto para la Investigacion
en Ciencias Sociales de la Universidad de Michigan, Estados Unidos de America, y a este Instituto el cual
autorizo a UNESCO tomar el c
odigo fuente de OSIRIS III.2 para usarlo en el desarrollo del paquete de
programas IDAMS. A partir de entonces, continu
o el aporte de adiciones y mejoras sustanciales. En este
aspecto, fueron particularmente importantes: el Dr. Jean-Paul Aimetti, Administrador de D.H.E. Conseil,
Paris y profesor en el Conservatoire National des Arts et Metiers (CNAM), Pars (Francia); los profesores J.P. Benzecri y E.-R. Iagolnitzer, U.E.R. de Mathematiques, Universite de Pars V (Francia); el ingeniero Tibor
Diamant y el Dr. Zoltan Vas de la Universidad Jozsef Attila, Szeged (Hungra); la profesora Anne-Marie
Dussaix, Ecole Superieure des Sciences Economiques et Commerciales (ESSEC), Cergy-Pontoise (Francia);
el Dr. Igor S. Enyukov y el ingeniero Nicola D. Vylegjanin, StatPoint, Mosc
u (Federacion Rusa); el Dr

III

Peter Hunya, quien fue Director del Laboratorio Kalmar de Cibernetica, Universidad Jozsef Attila, Szeged
(Hungra), y quien fue el Administrador del Programa IDAMS en UNESCO entre julio 1993 y febrero 2001;
Jean Massol, EOLE, Pars (Francia); la profesora Anne Morin, Institut de Recherche en Informatique et
Syst`emes Aleatoires (IRISA), Rennes (Francia); Judith Rattenbury, ex-directora, Data Processing Division,
World Fertility Survey, Londres y actualmente fundadora y cabeza de publicaciones SJ MUSIC, Cambridge
(Reino Unido); J.M. Romeder y la Association pour le Developpement et la Diffusion de lAnalyse des
Donnees (ADDAD), Pars (Francia); el profesor Peter J. Rousseeuw, Universitaire Instelling Antwerpen,
Amberes (Belgica); el Dr. A.V. Skofenko, Academia de Ciencias, Kiev (Ucrania); el ingeniero Neal Van Eck,
Philadelphia College of Textiles and Science, Philadelphia (EEUU); Nicole Visart quien lanzo el programa
IDAMS y quien, en adici
on a sus contribuciones tecnicas en todas las etapas, aseguro la coordinaci
on y el
monitoreo de todo el proyecto hasta su retiro en 1992.
Es imposible dar el credito a todas las personas, ademas de las mencionadas, quienes han contribuido con
ideas y esfuerzo para IDAMS y para OSIRIS III.2 del cual se derivo IDAMS. Hasta ahora, IDAMS se
desarrolla principalmente en UNESCO. A continuacion se presenta una lista de los principales programas,
componentes y facilidades incluidas en IDAMS, con los nombres de sus autores y programadores, y las
instituciones en las cuales se llev
o a cabo el trabajo.
Interfaz del Usuario y facilidades b
asicas
Recodificacion de datos

Ellen Grun
Peter Solenberger
Tibor Diamant
Jean-Claude Dauphin

ISR
ISR
UNESCO
UNESCO

Interfaz del Usuario

Jean-Claude Dauphin

UNESCO

Acceso en lnea al
Manual del Usuario

Pawel Hoser
Jean-Claude Dauphin

Polish Academy of Sciences


UNESCO

Facilidades para el manejo de datos


AGGREG
BUILD

CHECK
CONCHECK
CORRECT
IMPEX
LIST

MERCHECK

MERGE

SORMER
SUBSET

TRANS

Tina Bixby
Jean-Claude Dauphin
Carl Bixby
Sylvia Barge
Tibor Diamant
Tina Bixby
Jean-Claude Dauphin
Neal Van Eck
Tibor Diamant
Peter Hunya
Marianne Stover
Sylvia Barge
Jean-Claude Dauphin
Karen Jensen
Sylvia Barge
Zoltan Vas
Tina Bixby
Nancy Barkman
Jean-Claude Dauphin
Carol Cassidy
Jean-Claude Dauphin
Judy Mattson
Judith Rattenbury
Jean-Claude Dauphin
Jean-Claude Dauphin

ISR
UNESCO
ISR
ISR
UNESCO
ISR
UNESCO
Van Eck Computing Consulting
UNESCO
UNESCO
ISR
ISR
UNESCO
ISR
ISR
JATE
ISR
ISR
UNESCO
ISR
UNESCO
ISR
ISR
UNESCO
UNESCO

IV

Facilidades para el an
alisis de datos
CLUSFIND

CONFIG
DISCRAN

FACTOR

MANOVA

MCA

MDSCAL

ONEWAY
PEARSON

POSCOR
QUANTILE
RANK

REGRESSN

SCAT
SEARCH

TABLES
TYPOL

Tablas multidimensionales
GraphID
TimeSID

Leonard Kaufman
Peter J. Rousseeuw
Neal Van Eck
Tibor Diamant
Herbert Weisberg
J.-M. Romeder
and ADDAD
Peter Hunya
Tibor Diamand
J.P. Benzecri,
E.R. Iagolnitzer
Peter Hunya
Charles E. Hall
Elliot M. Cramer
Neal Van Eck
Tibor Diamand
Edwin Dean
John Sonquist
Tibor Diamant
Joseph Kruskal
Frank Carmone
Lutz Erbring
Spyros Magliveras
Tibor Diamant
John Sonquist
Spyros Magliveras
Neal Van Eck
Ronald Nuttal
Tibor Diamant
Peter Hunya
Robert Messenger
Tibor Diamant
Anne-Marie Dussaix
Albert David
Peter Hunya
A.V. Skofenko
M.A. Efroymson
Bob Hsieh
Neal Van Eck
Peter Solenberger
Judith Goldberg
John Sonquist
Elizabeth Lauch Baker
James N. Morgan
Neal Van Eck
Tibor Diamant
Neal Van Eck
Tibor Diamant
Jean-Paul Aimetti
Jean Massol
Peter Hunya
Jean-Claude Dauphin
Jean-Claude Dauphin
Igor S. Enyukov
Nicola D. Vylegjanin
Igor S. Enyukov

Vrije Universiteit Brussel


Vrije Universiteit Brussel
Van Eck Computing Consulting
UNESCO
ISR
ADDAD
UNESCO
UNESCO
Universite de Paris V
Universite de Paris V
JATE
George Washington University
George Washington University
ISR
UNESCO
ISR
ISR
UNESCO
Bell Telephone
Bell Telephone
ISR
ISR
UNESCO
ISR
ISR
ISR
Boston College
UNESCO
JATE
ISR
UNESCO
ESSEC
ESSEC
JATE
Ukrainian Academy of Sciences
ESSO Corporation
ESSO Corporation
ISR
ISR
ISR
ISR
ISR
ISR
Van Eck Computing Consulting
UNESCO
ISR and Van Eck Computing Consulting
UNESCO
CFRO
CFRO
JATE
UNESCO
UNESCO
StatPoint
StatPoint
StatPoint

Con relaci
on a la documentaci
on, se debe agradecer a todas las personas que han aportado su colaboraci
on, en particular a Judith Rattenbury quien redact
o la primera versi
on del Manual en ingles (1988)
as como la revision de las versiones posteriores hasta 1998; Jean-Paul Griset (UNESCO, Paris) quien concibio junto con Nicole Visart el dise
no tipogr
afico utilizado para el Manual hasta 1998; Teresa Krukowska
(grupo IDAMS, UNESCO, Paris) quien compilo los captulos de las formulas estadsticas y a partir de 1998
mantiene al da la versi
on original inglesa, hizo el nuevo dise
no tipogr
afico y es responsable de la produccion
electronica de las versiones en ingles, espa
nol, frances y portugues, y se hace cargo de la concordancia de los
textos en ingles, espa
nol, frances y portugues hasta donde esto es posible.
Reconocimientos a los autores de los documentos de OSIRIS de los cuales se tomo material para el Manual
del Usuario de WinIDAMS, as: Volumen 1 del Manual del Usuario de OSIRIS III.2 (editado por Sylvia
Barge y Gregory A. Marks) y el Volumen 5 (compilado por Laura Klem), Insituto para la Investigacion
Social, Universidad de Michigan, Estados Unidos de America.
De la misma manera, se agradece la cooperaci
on a los traductores de la documentacion y del paquete de
software en espa
nol, frances y portugues:
Profesor Jose Raimundo Carvalho, CAEN P
os-graduacao em Economia, UFC, Fortaleza, Brasil, por
la traducci
on del Manual y de los textos que hacen parte integral de los programas en portugues.
Profesor Bernardo Lievano, Escuela Colombiana de Ingeniera (ECI) Bogota, Colombia, por la traduccion del Manual y de los textos que hacen parte integral de los programas en espa
nol.
Profesora Anne Morin, Institut de Recherche en Informatique et Syst`emes Aleatoires (IRISA), Rennes,
Francia, por su contribuci
on a la traducci
on de los textos que hacen parte integral de los programas
en frances.
Nicole Visart, Grez-Doiceau, Belgica, por la traducci
on del Manual en frances.
Las siguientes instituciones se han encargado de las traducciones en arabe y en ruso del paquete y del Manual:
ALECSO - Departmento de Documentacion e Informaci
on, T
unez, T
unez, y Universidad Hidrometeorol
ogica
del Estado Ruso, Departmento de Telecomunicaciones, San Petersburgo, Federacion Rusa.

Solicitudes de WinIDAMS e informaci


on adicional
Para informaci
on adicional sobre WinIDAMS referente a contenido, actualizaciones, entrenamiento y distribucion, por favor escribir a:
UNESCO
Sector de la Comunicacion y la Informaci
on
Division de la Sociedad de la Informaci
on
CI/INF - IDAMS
1, rue Miollis
75732 PARIS CEDEX 15
Francia
e-mail: idams@unesco.org
http://www.unesco.org/idams

Indice general
1. Introducci
on
1.1. Interfaz del Usuario de WinIDAMS . . . . . . .
1.2. Facilidades para el manejo de datos . . . . . . .
1.3. Facilidades para el analisis de datos . . . . . .
1.4. Los datos en IDAMS . . . . . . . . . . . . . . .
1.5. Comandos de IDAMS y el archivo Setup . . . .
1.6. Caractersticas est
andar de IDAMS . . . . . . .
1.7. Importacion y exportacion de datos . . . . . .
1.8. Intercambio de datos entre CDS/ISIS e IDAMS
1.9. Estructura de este Manual . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

Nociones fundamentales

1
1
2
3
5
5
5
6
6
7

2. Los datos en IDAMS


2.1. El dataset IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1. Descripci
on general . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2. Metodo de almacenamiento y acceso . . . . . . . . . . . . . . . . . . .
2.2. Archivos Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1. El arreglo de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2. Caractersticas del archivo Datos . . . . . . . . . . . . . . . . . . . . .
2.2.3. Archivos jer
arquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.4. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.5. C
odigos de datos faltantes . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.6. Valores no numericos o en blanco en variables numericas - datos malos
2.2.7. Las reglas de edici
on de las variables en salida de programas IDAMS .
2.3. El diccionario IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1. Descripci
on general . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.2. Ejemplo de un diccionario . . . . . . . . . . . . . . . . . . . . . . . . .
2.4. Matrices IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.4.1. La matriz cuadrada IDAMS . . . . . . . . . . . . . . . . . . . . . . . .
2.4.2. La matriz rectangular IDAMS . . . . . . . . . . . . . . . . . . . . . .
2.5. Uso de datos de otros paquetes . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.1. Datos primarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5.2. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

11
11
11
11
11
11
12
12
12
13
13
13
14
14
16
16
17
18
20
20
20

3. El archivo Setup de IDAMS


3.1. Contenido y prop
osito . . . . . . . . . . . . . .
3.2. Comandos de IDAMS . . . . . . . . . . . . . .
3.3. Especificaci
on de archivos . . . . . . . . . . . .
3.4. Ejemplos de uso de comandos $ y especificaci
on
3.5. Proposiciones de control de programa . . . . .
3.5.1. Descripci
on general . . . . . . . . . . . .
3.5.2. Reglas generales de codificacion . . . . .
3.5.3. Filtros . . . . . . . . . . . . . . . . . . .
3.5.4. Ttulos . . . . . . . . . . . . . . . . . .
3.5.5. Par
ametros . . . . . . . . . . . . . . . .
3.6. Proposiciones de Recode . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

21
21
21
23
23
25
25
25
25
27
27
31

. . . . . . .
. . . . . . .
. . . . . . .
de archivos
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.


INDICE GENERAL

VIII

4. Facilidad Recode
4.1. Reglas de codificacion . . . . . . . . . . . . . . . . . . . . . .
4.2. Conjunto de muestra de proposiciones Recode . . . . . . . . .
4.3. Tratamiento de datos faltantes . . . . . . . . . . . . . . . . .
4.4. Como funciona Recode . . . . . . . . . . . . . . . . . . . . . .
4.5. Operandos b
asicos . . . . . . . . . . . . . . . . . . . . . . . .
4.6. Operadores b
asicos . . . . . . . . . . . . . . . . . . . . . . . .
4.7. Expresiones . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8. Funciones aritmeticas . . . . . . . . . . . . . . . . . . . . . .
4.9. Funciones logicas . . . . . . . . . . . . . . . . . . . . . . . . .
4.10. Proposiciones de asignacion . . . . . . . . . . . . . . . . . . .
4.11. Proposiciones especiales de asignacion . . . . . . . . . . . . .
4.12. Proposiciones de control . . . . . . . . . . . . . . . . . . . . .
4.13. Proposiciones condicionales . . . . . . . . . . . . . . . . . . .
4.14. Proposiciones de definicion/de asignacion de valores iniciales
4.15. Ejemplos de uso de proposiciones de Recode . . . . . . . . . .
4.16. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.17. Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

33
33
33
34
34
35
35
36
37
45
46
47
48
50
50
52
54
55

5. Manejo y an
alisis de datos
5.1. Validaci
on de datos con IDAMS . . . . . . . . . . . . .
5.1.1. Visi
on general . . . . . . . . . . . . . . . . . . .
5.1.2. Verificacion si los datos son completos . . . . .
5.1.3. Detecci
on de valores no numericos e invalidos .
5.1.4. Verificacion de consistencia . . . . . . . . . . .
5.2. Manejo/transformaci
on de datos . . . . . . . . . . . .
5.3. Analisis de datos . . . . . . . . . . . . . . . . . . . . .
5.4. Ejemplo de un peque
no trabajo a ejecutar con IDAMS

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

57
57
57
58
58
59
59
60
60

II

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

El trabajo con WinIDAMS

6. Instalaci
on
6.1. Requisitos del sistema . . . . . . . . .
6.2. Procedimiento de instalaci
on . . . . .
6.3. Prueba de la instalaci
on . . . . . . . .
6.4. Archivos y carpetas creados durante la
6.4.1. Carpetas de WinIDAMS . . . .
6.4.2. Archivos instalados . . . . . . .
6.5. Desintalacion . . . . . . . . . . . . . .

63
. . . . . . .
. . . . . . .
. . . . . . .
instalaci
on
. . . . . . .
. . . . . . .
. . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

65
65
65
65
66
66
66
67

7. Primeros pasos
7.1. Visi
on general de los etapas con WinIDAMS . . . .
7.2. Creaci
on de un ambiente de aplicacion . . . . . . .
7.3. Preparaci
on del diccionario . . . . . . . . . . . . .
7.4. Captura de datos . . . . . . . . . . . . . . . . . . .
7.5. Preparaci
on del setup . . . . . . . . . . . . . . . .
7.6. Ejecuci
on del setup . . . . . . . . . . . . . . . . . .
7.7. Revisi
on de los resultados y modificacion del setup
7.8. Impresi
on de los resultados . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

69
69
70
71
73
75
76
76
78

8. Archivos y carpetas
79
8.1. Archivos en WinIDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
8.2. Las carpetas en WinIDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9. Interfaz del Usuario
9.1. Concepto general . . . . . . . . . . . . . . . . . . . .
9.2. Men
us comunes a todas las ventanas de WinIDAMS
9.3. Personalizacion del ambiente para una aplicacion . .
9.4. Crear/actualizar/mostrar archivos Diccionario . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

81
81
82
83
85


INDICE GENERAL

IX

9.5. Crear/actualizar/mostrar archivos Datos . . . . .


9.6. Importacion de archivos de datos . . . . . . . . .
9.7. Exportacion de archivos Datos de IDAMS . . . .
9.8. Crear/actualizar/mostrar archivos Setup . . . . .
9.9. Ejecuci
on de los setups de IDAMS . . . . . . . .
9.10. Manejo de los archivos Resultados . . . . . . . .
9.11. Creaci
on/actualizacion de archivos en formato de

III

. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
texto y RTF

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

Facilidades para el manejo de datos

10.Agrupaci
on de datos (AGGREG)
10.1. Descripci
on general . . . . . . . . . . .
10.2. Caractersticas est
andar de IDAMS . .
10.3. Resultados . . . . . . . . . . . . . . . .
10.4. Dataset de salida . . . . . . . . . . . .
10.5. Dataset de entrada . . . . . . . . . . .
10.6. Estructura del setup . . . . . . . . . .
10.7. Proposiciones de control del programa
10.8. Restricciones . . . . . . . . . . . . . .
10.9. Ejemplo . . . . . . . . . . . . . . . . .

87
89
90
91
92
92
94

95
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

97
97
98
98
98
99
100
100
102
102

11.Construcci
on de un dataset IDAMS (BUILD)
11.1. Descripci
on general . . . . . . . . . . . . . . . .
11.2. Caractersticas est
andar de IDAMS . . . . . . .
11.3. Resultados . . . . . . . . . . . . . . . . . . . . .
11.4. Dataset de salida . . . . . . . . . . . . . . . . .
11.5. Diccionario de entrada . . . . . . . . . . . . . .
11.6. Datos de entrada . . . . . . . . . . . . . . . . .
11.7. Estructura del setup . . . . . . . . . . . . . . .
11.8. Proposiciones de control del programa . . . . .
11.9. Ejemplos . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

103
103
104
104
105
105
106
106
106
107

12.Verificaci
on de c
odigos (CHECK)
12.1. Descripci
on general . . . . . . . . . . .
12.2. Caractersticas est
andar de IDAMS . .
12.3. Resultados . . . . . . . . . . . . . . . .
12.4. Dataset de entrada . . . . . . . . . . .
12.5. Estructura del setup . . . . . . . . . .
12.6. Proposiciones de control del programa
12.7. Restricciones . . . . . . . . . . . . . .
12.8. Ejemplos . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

109
109
109
109
110
110
110
112
112

13.Verificaci
on de consistencia (CONCHECK)
13.1. Descripci
on general . . . . . . . . . . . . . . .
13.2. Caractersticas est
andar de IDAMS . . . . . .
13.3. Resultados . . . . . . . . . . . . . . . . . . . .
13.4. Dataset de entrada . . . . . . . . . . . . . . .
13.5. Estructura del setup . . . . . . . . . . . . . .
13.6. Proposiciones de control del programa . . . .
13.7. Restricciones . . . . . . . . . . . . . . . . . .
13.8. Ejemplos . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

115
115
115
115
116
116
116
118
118

14.Verificaci
on de intecalaci
on de registros (MERCHECK)
14.1. Descripci
on general . . . . . . . . . . . . . . . . . . . . . . .
14.2. Caractersticas est
andar de IDAMS . . . . . . . . . . . . . .
14.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . .
14.4. Datos de salida . . . . . . . . . . . . . . . . . . . . . . . . .
14.5. Datos de entrada . . . . . . . . . . . . . . . . . . . . . . . .
14.6. Estructura del setup . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

121
121
123
123
123
124
124

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.


INDICE GENERAL

14.7. Proposiciones de control del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124


14.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
14.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
15.Correcci
on de datos (CORRECT)
15.1. Descripci
on general . . . . . . . . . . .
15.2. Caractersticas est
andar de IDAMS . .
15.3. Resultados . . . . . . . . . . . . . . . .
15.4. Dataset de salida . . . . . . . . . . . .
15.5. Dataset de entrada . . . . . . . . . . .
15.6. Estructura del setup . . . . . . . . . .
15.7. Proposiciones de control del programa
15.8. Restricci
on . . . . . . . . . . . . . . .
15.9. Ejemplo . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

129
129
129
130
130
130
130
131
132
132

16.Importaci
on/exportaci
on de datos (IMPEX)
16.1. Descripci
on general . . . . . . . . . . . . . . .
16.2. Caratersticas est
andar de IDAMS . . . . . .
16.3. Resultados . . . . . . . . . . . . . . . . . . . .
16.4. Archivos de salida . . . . . . . . . . . . . . .
16.5. Archivos de entrada . . . . . . . . . . . . . .
16.6. Estructura del setup . . . . . . . . . . . . . .
16.7. Proposiciones de control del programa . . . .
16.8. Restricciones . . . . . . . . . . . . . . . . . .
16.9. Ejemplos . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

135
135
135
136
136
137
139
139
142
142

17.Listado de datasets (LIST)


17.1. Descripci
on general . . . . . . . . . . .
17.2. Caractersticas est
andar de IDAMS . .
17.3. Resultados . . . . . . . . . . . . . . . .
17.4. Dataset de entrada . . . . . . . . . . .
17.5. Estructura del setup . . . . . . . . . .
17.6. Proposiciones de control del programa
17.7. Restricci
on . . . . . . . . . . . . . . .
17.8. Ejemplos . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

145
145
145
145
146
146
147
147
148

18.Intercalaci
on de datasets (MERGE)
18.1. Descripci
on general . . . . . . . . . . .
18.2. Caractersticas est
andar de IDAMS . .
18.3. Resultados . . . . . . . . . . . . . . . .
18.4. Dataset de salida . . . . . . . . . . . .
18.5. Dataset de entrada . . . . . . . . . . .
18.6. Estructura del setup . . . . . . . . . .
18.7. Proposiciones de control del programa
18.8. Restricciones . . . . . . . . . . . . . .
18.9. Ejemplos . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

149
149
149
150
150
152
152
153
155
155

19.Clasificaci
on e intercalaci
on de archivos (SORMER)
19.1. Descripci
on general . . . . . . . . . . . . . . . . . . . .
19.2. Caractersticas est
andar de IDAMS . . . . . . . . . . .
19.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . .
19.4. Diccionario de salida . . . . . . . . . . . . . . . . . . .
19.5. Datos de salida . . . . . . . . . . . . . . . . . . . . . .
19.6. Diccionario de entrada . . . . . . . . . . . . . . . . . .
19.7. Datos de entrada . . . . . . . . . . . . . . . . . . . . .
19.8. Estructura del setup . . . . . . . . . . . . . . . . . . .
19.9. Proposiciones de control del programa . . . . . . . . .
19.10.Restricciones . . . . . . . . . . . . . . . . . . . . . . .
19.11.Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

157
157
157
157
157
157
158
158
158
159
159
160

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.


INDICE GENERAL

XI

20.Subdivisi
on de datasets (SUBSET)
20.1. Descripci
on general . . . . . . . . . . .
20.2. Caractersticas est
andar de IDAMS . .
20.3. Resultados . . . . . . . . . . . . . . . .
20.4. Dataset de salida . . . . . . . . . . . .
20.5. Dataset de entrada . . . . . . . . . . .
20.6. Estructura del setup . . . . . . . . . .
20.7. Proposiciones de control del programa
20.8. Restricciones . . . . . . . . . . . . . .
20.9. Ejemplos . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

161
161
161
161
162
162
162
163
164
164

21.Transformaci
on de datos (TRANS)
21.1. Descripci
on general . . . . . . . . . . .
21.2. Caractersticas est
andar de IDAMS . .
21.3. Resultados . . . . . . . . . . . . . . . .
21.4. Dataset de salida . . . . . . . . . . . .
21.5. Dataset de entrada . . . . . . . . . . .
21.6. Estructura del setup . . . . . . . . . .
21.7. Proposiciones de control del programa
21.8. Restricciones . . . . . . . . . . . . . .
21.9. Ejemplos . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

165
165
165
165
165
166
166
167
168
168

IV

Facilidades para an
alisis de datos

171

22.An
alisis de conglomerados (CLUSFIND)
22.1. Descripci
on general . . . . . . . . . . . . .
22.2. Caractersticas est
andar de IDAMS . . . .
22.3. Resultados . . . . . . . . . . . . . . . . . .
22.4. Dataset de entrada . . . . . . . . . . . . .
22.5. Matriz de entrada . . . . . . . . . . . . .
22.6. Estructura del setup . . . . . . . . . . . .
22.7. Proposiciones de control del programa . .
22.8. Restricciones . . . . . . . . . . . . . . . .
22.9. Ejemplos . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

173
173
173
173
174
175
175
175
177
178

23.An
alisis de configuraci
on (CONFIG)
23.1. Descripci
on general . . . . . . . . . . .
23.2. Caractersticas est
andar de IDAMS . .
23.3. Resultados . . . . . . . . . . . . . . . .
23.4. Matriz de configuracion de salida . . .
23.5. Matriz de distancias de salida . . . . .
23.6. Matriz de configuracion de entrada . .
23.7. Estructura del setup . . . . . . . . . .
23.8. Proposiciones de control del programa
23.9. Restricci
on . . . . . . . . . . . . . . .
23.10.Ejemplos . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

179
179
179
179
180
180
180
181
181
183
183

24.An
alisis discriminatorio (DISCRAN)
24.1. Descripci
on general . . . . . . . . . . .
24.2. Caractersticas est
andar de IDAMS . .
24.3. Resultados . . . . . . . . . . . . . . . .
24.4. Dataset de salida . . . . . . . . . . . .
24.5. Dataset de entrada . . . . . . . . . . .
24.6. Estructura del setup . . . . . . . . . .
24.7. Proposiciones de control del programa
24.8. Restricciones . . . . . . . . . . . . . .
24.9. Ejemplos . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

185
185
185
186
186
187
187
188
190
190

25.Funciones de distribuci
on y de Lorenz (QUANTILE)

191


INDICE GENERAL

XII

25.1. Descripci
on general . . . . . . . . . . .
25.2. Caractersticas est
andar de IDAMS . .
25.3. Resultados . . . . . . . . . . . . . . . .
25.4. Dataset de entrada . . . . . . . . . . .
25.5. Estructura del setup . . . . . . . . . .
25.6. Proposiciones de control del programa
25.7. Restricciones . . . . . . . . . . . . . .
25.8. Ejemplo . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

191
191
191
192
192
192
194
194

26.An
alisis factorial (FACTOR)
26.1. Descripci
on general . . . . . . . . . . .
26.2. Caractersticas est
andar de IDAMS . .
26.3. Resultados . . . . . . . . . . . . . . . .
26.4. Dataset(s) de salida . . . . . . . . . .
26.5. Dataset de entrada . . . . . . . . . . .
26.6. Estructura del setup . . . . . . . . . .
26.7. Proposiciones de control del programa
26.8. Restricciones . . . . . . . . . . . . . .
26.9. Ejemplos . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

197
197
197
198
198
199
199
200
203
203

27.Regresi
on lineal (REGRESSN)
27.1. Descripci
on general . . . . . . . . . . .
27.2. Caractersticas est
andar de IDAMS . .
27.3. Resultados . . . . . . . . . . . . . . . .
27.4. Matriz de correlaci
on de salida . . . .
27.5. Dataset de residuos de salida . . . . .
27.6. Dataset de entrada . . . . . . . . . . .
27.7. Matriz de correlaci
on de entrada . . .
27.8. Estructura del setup . . . . . . . . . .
27.9. Proposiciones de control del programa
27.10.Restricciones . . . . . . . . . . . . . .
27.11.Ejemplos . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

205
205
206
207
207
208
208
208
209
209
212
212

28.Escalamiento multidimensional (MDSCAL)


28.1. Descripci
on general . . . . . . . . . . . . . . .
28.2. Caractersticas est
andar de IDAMS . . . . . .
28.3. Resultados . . . . . . . . . . . . . . . . . . . .
28.4. Matriz de configuracion de salida . . . . . . .
28.5. Matriz de datos de entrada . . . . . . . . . .
28.6. Matriz de ponderaciones de entrada . . . . .
28.7. Matriz de configuracion de entrada . . . . . .
28.8. Estructura del setup . . . . . . . . . . . . . .
28.9. Proposiciones de control del programa . . . .
28.10.Restricciones . . . . . . . . . . . . . . . . . .
28.11.Ejemplo . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

215
215
216
216
217
217
217
218
218
218
220
220

29.An
alisis de clasificaci
on m
ultiple (MCA)
29.1. Descripci
on general . . . . . . . . . . . . .
29.2. Caractersticas est
andar de IDAMS . . . .
29.3. Resultados . . . . . . . . . . . . . . . . . .
29.4. Dataset(s) de residuos de salida . . . . . .
29.5. Dataset de entrada . . . . . . . . . . . . .
29.6. Estructura del setup . . . . . . . . . . . .
29.7. Proposiciones de control del programa . .
29.8. Restricciones . . . . . . . . . . . . . . . .
29.9. Ejemplos . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

221
221
222
222
224
224
225
225
227
227

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

30.An
alisis multivariado de variancia (MANOVA)
231
30.1. Descripci
on general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
30.2. Caractersticas est
andar de IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232


INDICE GENERAL
30.3. Resultados . . . . . . . . . .
30.4. Dataset de entrada . . . . .
30.5. Estructura del setup . . . .
30.6. Proposiciones de control del
30.7. Restricciones . . . . . . . .
30.8. Ejemplos . . . . . . . . . .

XIII

. . . . . .
. . . . . .
. . . . . .
programa
. . . . . .
. . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

232
233
234
234
236
236

31.An
alisis de variancia de una entrada (ONEWAY)
31.1. Descripci
on general . . . . . . . . . . . . . . . . . .
31.2. Caractersticas est
andar de IDAMS . . . . . . . . .
31.3. Resultados . . . . . . . . . . . . . . . . . . . . . . .
31.4. Dataset de entrada . . . . . . . . . . . . . . . . . .
31.5. Estructura del setup . . . . . . . . . . . . . . . . .
31.6. Proposiciones de control del programa . . . . . . .
31.7. Restricciones . . . . . . . . . . . . . . . . . . . . .
31.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

239
239
239
239
240
241
241
242
243

32.Puntajes basados en el orden parcial de


32.1. Descripci
on general . . . . . . . . . . . .
32.2. Caractersticas est
andar de IDAMS . . .
32.3. Resultados . . . . . . . . . . . . . . . . .
32.4. Dataset de salida . . . . . . . . . . . . .
32.5. Dataset de entrada . . . . . . . . . . . .
32.6. Estructura del setup . . . . . . . . . . .
32.7. Proposiciones de control del programa .
32.8. Restricciones . . . . . . . . . . . . . . .
32.9. Ejemplos . . . . . . . . . . . . . . . . .

casos (POSCOR)
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

245
245
245
246
246
246
247
247
250
250

33.Correlaci
on de Pearson (PEARSON)
33.1. Descripci
on general . . . . . . . . . . .
33.2. Caractersticas est
andar de IDAMS . .
33.3. Resultados . . . . . . . . . . . . . . . .
33.4. Matrices de salida . . . . . . . . . . .
33.5. Dataset de entrada . . . . . . . . . . .
33.6. Estructura del setup . . . . . . . . . .
33.7. Proposiciones de control del programa
33.8. Restricciones . . . . . . . . . . . . . .
33.9. Ejemplos . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

253
253
253
254
255
255
255
256
257
257

34.Ordenamiento de alternativas (RANK)


34.1. Descripci
on general . . . . . . . . . . . .
34.2. Caractersticas est
andar de IDAMS . . .
34.3. Resultados . . . . . . . . . . . . . . . . .
34.4. Dataset de entrada . . . . . . . . . . . .
34.5. Estructuda del setup . . . . . . . . . . .
34.6. Proposiciones de control del programa .
34.7. Restricciones . . . . . . . . . . . . . . .
34.8. Ejemplos . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

259
259
260
260
261
262
263
264
265

35.Diagramas de dispersi
on (SCAT)
35.1. Descripci
on general . . . . . . . . . . .
35.2. Caractersticas est
andar de IDAMS . .
35.3. Resultados . . . . . . . . . . . . . . . .
35.4. Dataset de entrada . . . . . . . . . . .
35.5. Estructura del setup . . . . . . . . . .
35.6. Proposiciones de control del programa
35.7. Restricciones . . . . . . . . . . . . . .
35.8. Ejemplo . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

267
267
267
268
268
269
269
270
271

36.B
usqueda de estructura (SEARCH)

.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

273


INDICE GENERAL

XIV

36.1. Descripci
on general . . . . . . . . . . .
36.2. Caractersticas est
andar de IDAMS . .
36.3. Resultados . . . . . . . . . . . . . . . .
36.4. Dataset de residuos de salida . . . . .
36.5. Dataset de entrada . . . . . . . . . . .
36.6. Estructura del setup . . . . . . . . . .
36.7. Proposiciones de control del programa
36.8. Restricciones . . . . . . . . . . . . . .
36.9. Ejemplos . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

273
273
274
274
275
275
275
278
278

37.Tablas univariadas y bivariadas (TABLES)


37.1. Descripci
on general . . . . . . . . . . . . . .
37.2. Caractersticas est
andar de IDAMS . . . . .
37.3. Resultados . . . . . . . . . . . . . . . . . . .
37.4. Tablas univariadas/bivariadas de salida . .
37.5. Matrices de estadsticas bivariadas de salida
37.6. Dataset de entrada . . . . . . . . . . . . . .
37.7. Estructura del setup . . . . . . . . . . . . .
37.8. Proposiciones de control del programa . . .
37.9. Restricciones . . . . . . . . . . . . . . . . .
37.10.Ejemplo . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

281
281
282
282
284
284
284
285
285
290
291

38.Tipologa y clasificaci
on ascendente (TYPOL)
38.1. Descripci
on general . . . . . . . . . . . . . . . .
38.2. Caractersticas est
andar de IDAMS . . . . . . .
38.3. Resultados . . . . . . . . . . . . . . . . . . . . .
38.4. Dataset de salida . . . . . . . . . . . . . . . . .
38.5. Matriz de configuracion de salida . . . . . . . .
38.6. Dataset de entrada . . . . . . . . . . . . . . . .
38.7. Matriz de configuracion de entrada . . . . . . .
38.8. Estructura del setup . . . . . . . . . . . . . . .
38.9. Proposiciones de control del programa . . . . .
38.10.Restricciones . . . . . . . . . . . . . . . . . . .
38.11.Ejemplos . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

293
293
293
294
295
295
295
296
296
296
299
299

.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

An
alisis interactivo de datos

39.Tablas multidimensionales y su presentaci


on gr
afica
39.1. Visi
on general . . . . . . . . . . . . . . . . . . . . . . .
39.2. Preparaci
on del analisis . . . . . . . . . . . . . . . . .
39.3. Ventana de tablas multidimensionales . . . . . . . . .
39.4. Presentacion gr
afica de tablas univariadas y bivariadas
39.5. Como hacer una tabla multidimensional . . . . . . . .
39.6. Como cambiar una tabla multidimensional . . . . . . .

301
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

303
303
303
305
306
307
309

40.Exploraci
on gr
afica de datos
40.1. Visi
on general . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40.2. Preparaci
on del analisis . . . . . . . . . . . . . . . . . . . . . .
40.3. Ventana principal de GraphID para analisis de un dataset . . .
40.3.1. Barra de men
u y barra de herramientas . . . . . . . . .
40.3.2. Manipulacion de la matriz de graficos de dispersi
on . . .
40.3.3. Histogramas y densidades . . . . . . . . . . . . . . . . .
40.3.4. Lneas de regresion (Lneas suavizadas) . . . . . . . . .
40.3.5. Diagramas de caja y bigotes . . . . . . . . . . . . . . . .
40.3.6. Grafico agrupado . . . . . . . . . . . . . . . . . . . . . .
40.3.7. Diagramas de dispersi
on tridimensionales y su rotacion
40.4. Ventana de GraphID para analisis de una matriz . . . . . . . .
40.4.1. Barra de men
u y barra de herramientas . . . . . . . . .
40.4.2. Manipulacion de la matriz en pantalla . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.

313
313
313
313
314
316
318
318
319
320
320
321
321
322

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.


INDICE GENERAL

XV

41.An
alisis de series de tiempo
41.1. Visi
on general . . . . . . . . . . . . . . . . . . .
41.2. Preparaci
on del analisis . . . . . . . . . . . . .
41.3. Ventana principal de TimeSID . . . . . . . . .
41.3.1. Barra de men
u y barra de herramientas
41.3.2. Ventana de series de tiempo . . . . . . .
41.4. Transformaci
on de series de tiempo . . . . . . .
41.5. Analisis de series de tiempo . . . . . . . . . . .

VI

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

F
ormulas estadsticas y referencias bibliogr
aficas

323
323
323
323
324
326
327
328

331

42.An
alisis de conglomerados
42.1. Estadsticas univariadas . . . . . . . . . . . . . . . . . . . . . . . . . .
42.2. Medidas estandarizadas . . . . . . . . . . . . . . . . . . . . . . . . . .
42.3. Matriz de disimilitudes calculada a partir de un dataset de IDAMS . .
42.4. Matriz de disimilitudes calculada a partir de una matriz de similitudes
42.5. Matrix de disimilitudes calculada a partir de una matriz de correlaci
on
42.6. Reparticion alrededor de medoides (PAM) . . . . . . . . . . . . . . . .
42.7. Reparticion para grandes datasets (CLARA) . . . . . . . . . . . . . .
42.8. Conglomeraci
on difusa (FANNY) . . . . . . . . . . . . . . . . . . . . .
42.9. Conglomeraci
on jer
arquica acumulativa (AGNES) . . . . . . . . . . .
42.10.Conglomeraci
on jer
arquica divisiva (DIANA) . . . . . . . . . . . . . .
42.11.Conglomeraci
on monotetica (MONA) . . . . . . . . . . . . . . . . . .
42.12.Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

333
333
333
334
334
334
334
336
336
337
338
339
339

43.An
alisis de configuraci
on
43.1. Configurati
on centrada . . . . . .
43.2. Configurati
on normalizada . . . .
43.3. Soluci
on en ejes principales . . .
43.4. Matriz de productos escalares . .
43.5. Matriz de distancias entre puntos
43.6. Configuraci
on rotada . . . . . .
43.7. Configuraci
on transladada . . . .
43.8. Rotaci
on varimax . . . . . . . . .
43.9. Configuraci
on clasificada . . . . .
43.10.Referencias . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

341
341
341
342
342
342
342
342
343
343
343

. . . . . . . . . .
2 grupos . . . .
mas de 2 grupos
. . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

345
345
346
347
348

45.Funciones de distribuci
on y de Lorenz
45.1. Formula para los puntos de separacion . . . . . . .
45.2. Puntos de separacion de la funci
on de distribuci
on
45.3. Puntos de separacion de la funci
on de Lorenz . . .
45.4. Curva de Lorenz . . . . . . . . . . . . . . . . . . .
45.5. El coeficiente de Gini . . . . . . . . . . . . . . . . .
45.6. Estadstica D de Kolmogorov-Smirnov . . . . . . .
45.7. Nota sobre los pesos . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

349
349
349
350
350
350
350
351

46.An
alisis factorial
46.1. Estadsticas univariadas . . . . . . . . .
46.2. Datos de entrada . . . . . . . . . . . . .
46.3. Matrices n
ucleo (matrices de relaciones)
46.4. Huella . . . . . . . . . . . . . . . . . . .
46.5. Valores y vectores propios . . . . . . . .
46.6. Tabla de valores propios . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

353
353
354
354
355
355
356

44.An
alisis discriminatorio
44.1. Estadsticas univariadas .
44.2. Discriminaci
on lineal entre
44.3. Discriminaci
on lineal entre
44.4. Referencias . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.


INDICE GENERAL

XVI

46.7. Tabla de factores de variables activas .


46.8. Tabla de factores de variables pasivas .
46.9. Tabla de factores de casos activos . . .
46.10.Tabla de factores de casos pasivos . . .
46.11.Factores rotados . . . . . . . . . . . .
46.12.Referencias . . . . . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

356
358
358
360
360
360

47.Regresi
on lineal
47.1. Estadsticas univariadas . . . . . . . . . . . . . . . . . . . . . .
47.2. Matriz de sumas totales de cuadrados y productos cruzados . .
47.3. Matriz de sumas de cuadrados residuales y productos cruzados
47.4. Matriz de correlaci
on total . . . . . . . . . . . . . . . . . . . . .
47.5. Matriz de correlaci
on parcial . . . . . . . . . . . . . . . . . . .
47.6. Matriz inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47.7. Estadsticas de resumen del analisis . . . . . . . . . . . . . . . .
47.8. Estadsticas de analisis para los predictores . . . . . . . . . . .
47.9. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47.10.Nota sobre la regresion por pasos . . . . . . . . . . . . . . . . .
47.11.Nota sobre la regresion descendente . . . . . . . . . . . . . . . .
47.12.Nota sobre la regresion con intercepto cero . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

361
361
361
362
362
362
362
363
364
365
365
366
366

48.Escalamiento multidimensional
48.1. Orden de los c
alculos . . . . . . . . . . . . . .
48.2. Configuraci
on inicial . . . . . . . . . . . . . .
48.3. Centrado y normalizaci
on de la configuracion
48.4. Historia de los c
alculos . . . . . . . . . . . . .
48.5. Esfuerzo para la configuracion final . . . . . .
48.6. Configuraci
on final . . . . . . . . . . . . . . .
48.7. Configuraci
on clasificada . . . . . . . . . . . .
48.8. Resumen . . . . . . . . . . . . . . . . . . . . .
48.9. Nota sobre ataduras en los datos de entrada .
48.10.Nota sobre los pesos . . . . . . . . . . . . . .
48.11.References . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

367
367
367
367
368
370
370
370
370
371
371
372

49.An
alisis de clasificaci
on m
ultiple
49.1. Estadsticas de la variable dependiente . . . . . . . . . . . . . . . . . . .
49.2. Estadsticas de los predictores para analisis de clasificacion m
ultiple . .
49.3. Estadsticas del analisis para analisis de clasificacion m
ultiple . . . . . .
49.4. Estadsticas de resumen de residuos . . . . . . . . . . . . . . . . . . . .
49.5. Estadsticas de categora de los predictores, para analisis de variancia de
49.6. Estadsticas del analisis, para analisis de variancia de una entrada . . .
49.7. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
una entrada
. . . . . . .
. . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

373
373
374
376
376
377
377
377

50.An
alisis multivariado de variancia
50.1. Estadsticas generales . . . . . . . . . . . . . . . . . .
50.2. Calculos para una prueba en un analisis multivariado .
50.3. Analisis univariado . . . . . . . . . . . . . . . . . . . .
50.4. Analisis de covariancia . . . . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

379
379
381
384
384

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

51.An
alisis de variancia de una entrada
385
51.1. Estadsticas descriptivas para cada categora de la variable de control . . . . . . . . . . . . . . 385
51.2. Estadsticas del analisis de variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
52.Puntajes basados en el orden parcial
52.1. Terminologa especial y definiciones .
52.2. Calculo de puntajes . . . . . . . . .
52.3. Referencias . . . . . . . . . . . . . .

de
. .
. .
. .

casos
389
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391

53.Correlaci
on de Pearson
393
53.1. Estadsticas pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
53.2. Medias y desviaciones est
andar no pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394


INDICE GENERAL

XVII

53.3. Ecuaci
on de regresion para puntajes primarios
53.4. Matriz de correlaci
on . . . . . . . . . . . . . . .
53.5. Matriz de productos cruzados . . . . . . . . . .
53.6. Matriz de covariancia . . . . . . . . . . . . . .
54.Ordenamiento de alternativas
54.1. Manejo de los datos de entrada . . . .
54.2. Metodo basado en la logica cl
asica . .
54.3. Metodos basados en la logica difusa: la
54.4. Metodo difuso-1: capas no dominadas
54.5. Metodo difuso-2: rangos . . . . . . . .
54.6. Referencias . . . . . . . . . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

394
394
394
394

. . . . . . . . . . . .
. . . . . . . . . . . .
relacion de entrada .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

.
.
.
.
.
.

395
395
396
398
400
402
403

55.Diagramas de dispersi
on
405
55.1. Estadsticas univariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
55.2. Estadsticas univariadas por parejas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
55.3. Estadsticas bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
56.B
usqueda de estructura
56.1. Analisis de medias . . .
56.2. Analisis de regresion . .
56.3. Analisis de Ji-cuadrada
56.4. Referencias . . . . . . .

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

.
.
.
.

407
407
409
410
411

57.Tablas univariadas y bivariadas


413
57.1. Estadsticas univariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413
57.2. Estadsticas bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
57.3. Nota sobre los pesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
58.Tipologa y clasificaci
on ascendente
58.1. Tipos de variables utilizadas . . . . . . . . . . . . . . . . . . . .
58.2. Perfil de caso . . . . . . . . . . . . . . . . . . . . . . . . . . . .
58.3. Perfil de grupo . . . . . . . . . . . . . . . . . . . . . . . . . . .
58.4. Distancias utilizadas . . . . . . . . . . . . . . . . . . . . . . . .
58.5. Construccion de una tipologa inicial . . . . . . . . . . . . . . .
58.6. Caractersticas de distancias por grupos . . . . . . . . . . . . .
58.7. Estadsticas de resumen . . . . . . . . . . . . . . . . . . . . . .
58.8. Descripci
on de la tipologa resultante . . . . . . . . . . . . . . .
58.9. Resumen de la cantidad de variancia explicada por la tipologa
58.10.Clasificaci
on jer
arquica ascendente . . . . . . . . . . . . . . . .
58.11.Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.

421
421
421
422
422
423
424
424
425
426
426
427

Ap
endice: Mensajes de error de los programas de IDAMS.

429

Indice alfab
etico.

431

Captulo 1

Introducci
on
IDAMS es un paquete de programas para la validaci
on, manejo y analisis estadstico de datos. Consiste en
un grupo de programas y facilidades que usan el mismo ambiente de manera que un solo lenguaje permite el
acceso a las diferentes funciones en todos los programas. Ejemplos del tipo de datos que se pueden procesar
con IDAMS son: respuestas a las preguntas de una encuesta, informacion acerca de los libros en una biblioteca.
caractersticas personales y desempe
no de los alumnos en una escuela, medidas de un experimento cientfico.
La caracterstica que tienen en com
un estos datos es que consisten en valores de variables para cada una de
las colecciones de objetos/casos (por ej. en una encuesta, las preguntas corresponden a las variables y los
encuestados a los casos).
Existen numerosos paquetes y programas que ayudan al analisis estadstico de tales datos. Una caracterstica
especial de IDAMS es que tambien suministra facilidades para hacer una validaci
on extensa de los datos (por
ej. verificacion de c
odigos y de consistencia) antes del analisis. En lo que concierne al analisis, IDAMS realiza
tecnicas clasicas tales como construcci
on de tablas, analisis de regresion, analisis de variancia de una entrada,
analisis de discriminaci
on y conglomerados y tambien algunas tecnicas mas avanzadas tales como analisis
factorial de componentes principales, analisis factorial de correspondencias, c
alculo de puntajes basados en el
orden parcial de casos, ordenamiento de alternativas, segmentacion y tipologa iterativa. Ademas, la versi
on
de IDAMS para Windows (WinIDAMS) ofrece los componentes interactivos para construcci
on de tablas
multidimensionales, exploraci
on gr
afica de datos y analisis de series de tiempo.

1.1.

Interfaz del Usuario de WinIDAMS

Es una interfaz de documento m


ultiple (MDI). Permite trabajar simult
aneamente con diferentes tipos de
documentos en ventanas separadas.
Esta Interfaz suministra lo siguiente:
la definicion de las carpetas Datos, Trabajo y Temporal para una aplicacion;
la ventana Diccionario para crear/actualizar/mostrar archivos Diccionario;
la ventana Datos para crear/actualizar/mostrar archivos Datos;
la ventana Setup para preparar/mostrar archivos Setup (el editor de sint
axis en color);
la ventana Resultados para mostrar, copiar e imprimir partes seleccionadas de los resultados;
un editor general de texto;
opcion para ejecutar setups de IDAMS desde un archivo o desde la ventana activa Setup;
facilidades interactivas de importar/exportar datos;
acceso a los componentes de analisis interactivo de datos (Tablas multidimensionales, GraphID, TimeSID);
acceso en lnea al Manual de Referencia.

1.2.

Introducci
on

Facilidades para el manejo de datos

Agrupaci
on de datos (AGGREG). Permite agrupar en un solo registro los registros que vienen de varios
casos y produce a la salida un nuevo dataset con un registro por grupo, por ejemplo los miembros de
una familia se reagrupan en un registro que representa la familia. Las variables en el nuevo registro son
estadsticas de resumen de variables especficas de los registros individuales, por ej. la suma, media, valor
mnimo/maximo.
Construcci
on de un dataset IDAMS (BUILD). Lee un archivo de datos primarios (que puede tener
m
ultiples registros por caso) junto con un diccionario que describe las variables que se van a seleccionar.
BUILD verifica la presencia de valores no numericos en campos numericos; los campos en blanco se pueden
recodificar a valores numericos especificados por el usuario y otros no numericos se reportan y reemplazan
con nueves. La salida es un dataset IDAMS que comprende un archivo Datos con un solo registro por caso
y un diccionario asociado que describe cada campo en los registros de datos.
Verificaci
on de c
odigos (CHECK). Reporta casos que tengan valores invalidos en las variables. Los c
odigos
validos para cada variable los especifica el usuario y se toman del diccionario.
Verificaci
on de consistencia (CONCHECK). Reporta casos con inconsistencias entre dos o mas variables.
Las proposiciones de Recode de IDAMS se utilizan para especificar las relaciones logicas a verificar.
Verificaci
on de intercalaci
on de registros (MERCHECK). Verifica que esten presentes los registros
correctos para cada caso en un archivo de m
ultiples registros por caso. Produce un archivo de salida que
tiene un n
umero igual de registros por caso. Se pueden eliminar registros invalidos o duplicados y se pueden
insertar registros faltantes con c
odigos de valores faltantes especificados por el usuario.
Correcci
on de datos (CORRECT). Actualiza un archivo al aplicar correcciones a valores individuales de
variables para casos especificados. El archivo Resultados contiene un informe escrito con la historia de las
correcciones y estas se pueden archivar.
Importaci
on/exportaci
on de datos (IMPEX). La importacion tiene por objeto crear datasets o matrices de IDAMS a partir de archivos que vienen de otro programa. La exportacion pretende hacer posible
el uso de archivos Datos y Matrices, almacenados o creados por IDAMS, en otros paquetes. Se pueden
importar/exportar archivos de texto en formato libre y en formato DIF.
Listado de datasets (LIST). Se pueden listar los valores de variables seleccionadas (originales o recodificadas) y casos seleccionados en formato de columnas.
Intercalaci
on de datasets (MERGE). Se pueden intercalar dos datasets emparejando casos de acuerdo con
un conjunto com
un de variables llamadas variables de emparejamiento. Hay cuatro opciones para seleccionar
casos en el dataset de salida: (1) solo casos presentes en ambos archivos (interseccion); (2) cada caso en
ambos archivos (uni
on); (3) cada caso en el primer archivo; (4) cada caso en el segundo archivo. El usuario
especifica cuales variables de cada uno de los dos archivos de entrada van a la salida. Existe una opcion para
encajar un caso de un archivo con mas de un caso del segundo archivo, por ej. para a
nadir datos de hogares
de un archivo al registro de cada individuo en un segundo archivo.
Clasificaci
on e intercalaci
on de archivos (SORMER). Es un utilitario de uso general para clasificar
datos en forma ascendente o descendente hasta por 12 campos de clasificacion. Se pueden intercalar hasta
16 archivos.
Subdivisi
on de datasets (SUBSET). Produce un nuevo dataset (archivos Datos y Diccionario) con casos
y variables seleccionados del dataset de entrada. Tiene una opcion para verificar casos duplicados.
Transformaci
on de datos (TRANS). Este programa se usa para guardar las variables creadas por la
facilidad Recode de IDAMS en un dataset permanente.

1.3 Facilidades para el an


alisis de datos

1.3.

Facilidades para el an
alisis de datos

An
alisis de conglomerados (CLUSFIND). Ejecuta analisis de conglomerados dividiendo un conjunto de
objetos (casos o variables) en un conjunto de conglomerados determinado por uno de 6 algoritmos, 2 basados
en la divisi
on alrededor de medoides, 1 basado en la logica difusa y los otros 3 basados en una conglomeracion
jerarquica.
An
alisis de configuraci
on (CONFIG). Ejecuta analisis sobre una configuracion de entrada, creada por
ejemplo con el programa MDSCAL. Tiene la capacidad de centrar, normalizar, rotar, trasladar dimensiones,
calcular distancias entre puntos y productos escalares. Se puede graficar la configuracion despues de cada
transformaci
on.
An
alisis discriminatorio (DISCRAN). Busca la mejor funci
on lineal de discriminaci
on de un conjunto de
variables que produce, hasta donde sea posible, una agrupaci
on a priori de los casos. Utiliza un procedimiento
por pasos, es decir, en cada paso entra la variable mas poderosa. El programa distingue tres muestras de
casos: la muestra b
asica sobre la cual se hacen los analisis discriminatorios principales, muestra de prueba
sobre la cual se verifica la potencia de la funci
on de discriminacion y muestra anonima que se usa solo para
clasificar los casos. Se pueden guardar en un dataset la u
ltima asignacion de grupos a los casos y valores de
los dos primeros factores discriminatorios (para analisis con mas de 2 grupos).
Funciones de distribuci
on y de Lorenz (QUANTILE). Funciones de distribuci
on con 2 a 100 subintervalos, funciones de Lorenz, curva de Lorenz y coeficientes de Gini, y la prueba de Kolmogorov-Smirnov.
An
alisis factorial (FACTOR). Consiste en un conjunto de analisis factoriales de componentes principales
(productos escalares, covariancias, correlaciones) y an
alisis factorial de correspondencias. Para cada analisis
construye una matriz que representa las relaciones entre las variables y calcula sus valores propios y vectores
propios. Calcula los factores para los casos y las variables dando para cada caso y cada variable su ordenada,
su calidad de representacion y su contribucion a los factores. Estos factores se pueden guardar en el dataset y
se puede obtener una representacion gr
afica de casos y variables en el espacio factorial. El programa distingue
entre casos y variables activas y pasivas.
Regresi
on lineal (REGRESSN). Suministra una capacidad general de regresion m
ultiple para analisis de
regresion lineal est
andar y por pasos. Se puede usar un dataset o una matriz de correlaci
on como entrada.
Se pueden imprimir residuos con la estadstica de Durbin-Watson para su correlaci
on de primer orden, y
tambien puede llevarse al archivo de salida, por ej. para analisis posteriores.
Escalamiento multidimensional (MDSCAL). Este es un procedimiento de escalamiento multidimensional
no metrico para el analisis de similitudes. Opera sobre una matriz de medidas de similitud o disimilitud y
est
a dise
nado para hallar la mejor representacion geometrica de los datos. El usuario controla la dimensi
on
de la configuracion, la metrica usada y la manera de manejar las ataduras (valores iguales) en los datos de
entrada.
An
alisis de clasificaci
on m
ultiple (MCA). Examina las relaciones entre varias variables predictoras (control) y una sola variable dependiente y determina el efecto de cada predictor antes y despues del ajuste de sus
intercorrelaciones con otros predictores. Suministra informacion de las relaciones bivariadas y multivariadas
entre predictores y la variable dependiente. Se pueden imprimir los residuos y llevarlos a un dataset.
An
alisis de variancia multivariado (MANOVA). Ejecuta analisis de variancia univariado y multivariado,
y analisis de covariancia, usando un modelo general lineal. Se pueden usar hasta ocho factores (variables
dependientes). Cuando hay mas de una variable dependiente, se ejecutan ambos analisis univariado y multivariado. El programa aplica una solucion exacta con un nombre igual o diferente de casos en las celdas.
An
alisis de variancia de una entrada (ONEWAY). Estadsticas descriptivas dentro de las categoras
de la variable de control y estadsticas de analisis de variancia de una entrada tales como: suma total de
cuadrados, suma de cuadrados entre medias, suma de cuadrados dentro grupos, eta y eta cuadrada (no
ajustada y ajustada) y el valor de la prueba F.
Puntajes basados en el orden parcial de casos (POSCOR). Calcula puntajes de escala ordinales a partir
de variables de intervalos u ordinales. Se calculan los puntajes para cada caso involucrado en el analisis y
miden la posicion relativa del caso dentro del conjunto de los mismos. Los puntajes, opcionalmente con otras
variables especificadas por el usuario, salen en la forma de un dataset IDAMS.

Introducci
on

Correlaci
on de Pearson (PEARSON). Calcula los coeficientes r de correlaci
on de Pearson, covariancias
y coeficientes de regresion. Se puede solicitar eliminacion de datos faltantes por parejas o por casos. Las
matrices de correlaci
on y de covariancias de salida se pueden guardar en un archivo.
Ordenamiento de alternativas (RANK). Determina un orden de alternativas por rangos usando datos
preferenciales y tres procedimientos diferentes de asignacion de rangos, uno basado en la logica clasica y
otros dos basados en la logica difusa. Los datos preferenciales pueden representar una selecci
on o un rango
de alternativas. Se pueden especificar dos tipos de relaciones individuales preferenciales: debil y estricta. Con
la asignacion difusa de rangos, los datos determinan completamente los resultados obtenidos mientras que
con la asignacion cl
asica el usuario tiene la posibilidad de controlar los c
alculos.
Diagramas de dispersi
on (SCAT). Diagramas de dispersi
on, estadsticas univariadas (media, desviacion
est
andar y N), estadsticas bivariadas (r de Pearson y estadsticas de regresion: coeficiente B y constante A).
B
usqueda de estructura (SEARCH). Un procedimiento de segmentacion binaria para desarrollar modelos
predictivos. La pregunta que dicotoma y en que variable predictora se obtendr
a el maximo aprovechamiento
de la capacidad para predecir valores de la variable dependiente dentro de un esquema iterativo, es la base
del algoritmo usado.
Tablas univariadas y bivariadas (TABLES). Las opciones incluyen: (1) distributiones de frecuencia
univariadas simples y acumulativas y de porcentajes; (2) estadsticas univariadas: media, mediana, moda,
variancia, desviaci
on est
andar, asimetra, kurtosis, mnimo y maximo; (3) tablas de frecuencias bivariadas con
porcentajes por fila, columna y total; (4) tablas de valores medios de una variable adicional; (5) estadsticas
bivariadas: pruebas-t de medias entre pares de filas, Ji-cuadrada, coeficiente de contingencia, V de Cramer,
Tau a, b, c de Kendall, Gama, Lambda, Ro de Spearman, estadsticas para la medicina basada en evidencia,
y tres pruebas no par
ametricas: Wilcoxon, Mann-Whitney y Fisher.
Tipologa y clasificaci
on ascendente (TYPOL). Crea una variable de clasificacion como el resumen
de un gran n
umero de variables cuantitativas y cualitativas. El usuario escoge el n
umero inicial y final de
grupos, el tipo de distancia usada y la manera de comenzar la tipologa inicial. Los grupos de la tipologa
inicial se estabilizan con un procedimiento iterativo. El n
umero de grupos se puede reducir con un algoritmo
de clasificacion jer
arquica ascendente. El programa distingue entre variables activas que participan en la
construcci
on de la tipologa y variables pasivas para las cuales se calculan las estadsticas principales dentro
de los grupos de la tipologa.
Tablas interactivas multidimensionales. El componente Tablas multidimensionales permite visualizar
y personalizar tablas con frecuencias, porcentajes de fila, de columna y totales, estadsticas univariadas
(suma, conteo, media, maximo, mnimo, variancia, desviacion est
adar) de variables adicionales y estadsticas
bivariadas. Se pueden anidar hasta siete variables en filas y columnas. Se puede repetir la construcci
on de
tablas para cada valor hasta tres variables de pagina. Tambien se pueden imprimir las tablas o exportarlas
en formato libre (coma o car
acter de tabulaci
on como delimitador) o en formato HTML.
Exploraci
on gr
afica interactiva de los datos. Un componente separado, GraphID, est
a disponible en
WinIDAMS para explorar datos a traves de despliegues graficos. El despliegue b
asico se encuentra en la
forma de graficos de dispersi
on m
ultiple para diferentes pares de variables. Se puede graficar informacion
adicional tal como histogramas y lneas de regresion. Los graficos se pueden manejar de varias maneras. Por
ejemplo, se pueden marcar en un gr
afico casos seleccionados y luego resaltarlos en todos los otros graficos.
Se pueden aumentar partes del gr
afico (zoom). Las matrices de IDAMS se muestran como graficos de tres
dimensiones en los cuales se representan las variables/los c
odigos en dos de los ejes y la tercera dimensi
on
se usa para mostrar el tama
no de la estadsitica en la matriz (por ej. coeficiente de correlaci
on) para cada
par de variables.
An
alisis interactivo de series de tiempo. Otro componente separado, TimeSID, suministra la posibilidad de analisis interactivo de series de tiempo. Contiene analisis de tendencias, correlaciones auto y
cruzadas, analisis gr
afico y estadstico de los valores de las series de tiempo, pruebas de aleatoriedad y tendencia, predicci
on a corto plazo, periodogramas y estimaci
on de densidades espectrales. Las series se pueden
transformar calculando promedios, composiciones aritmeticas, diferencias secuenciales, razones de cambio,
se pueden suavizar con promedios moviles y se pueden descomponer usando filtros de frecuancia.

1.4 Los datos en IDAMS

1.4.

Los datos en IDAMS

Dataset IDAMS - el archivo Datos. El archivo de entrada a IDAMS puede ser cualquier archivo de
caracteres (ASCII) de formato fijo, es decir, los valores de una variable ocupan la misma posicion en el
registro para cada caso. Las caracersticas del archivo Datos son:
1-50 registros por caso;
cada caso puede contener hasta 4096 caracteres;
n
umero de casos limitado para la capacidad de disco y la representacion numerica interna;
las variables pueden ser numericas (hasta 9 caracteres) o alfabeticas (hasta 255 caracteres).
Dataset IDAMS - el archivo Diccionario. El diccionario se usa para describir los datos:
puede contener hasta 1000 variables identificadas con un n
umero u
nico entre 1 y 9999;
para cada variable, contiene como mnimo el n
umero de la variable, su tipo (numerica o alfabetica), su
localizacion en el registro de datos;
para cada variable se puede especificar tambien un nombre de variable, dos c
odigos de datos faltantes,
el n
umero de cifras decimales y n
umero de referencia;
para variables cualitativas se pueden incluir sus c
odigos y nombres correspondientes.
El conjunto de los dos archivos Diccionario y Datos se conoce como dataset IDAMS.
Matrices IDAMS. Algunos programas de analisis utilizan como entrada una matriz de valores rectangular
o cuadrada en lugar de un archivo de datos primarios.
La matriz cuadrada se usa para arreglos simetricos de estadsticas bivariadas con una constante en la
diagonal. Solamente se guarda la esquina superior derecha de la matriz, sin la diagonal.
La matriz rectangular es para arreglos no simetricos. El significado de filas y columnas vara seg
un el
programa de IDAMS.

1.5.

Comandos de IDAMS y el archivo Setup

Excepto los componentes interactivos de WinIDAMS, la ejecuci


on de un programa de IDAMS comienza
con un archivo Setup. Contiene informacion tal como especificaci
on de archivos, proposiciones de control de
programa, instrucciones de recodificacion de variables, etc. separadas por comandos de IDAMS (comienzan
con un signo $) los cuales identifican la clase de informacion que se especifica. El primer comando de IDAMS
en el archivo Setup identifica siempre el primer programa que se va a ejecutar, por ej.
$RUN TABLES
$FILES
DICTIN = nombre del archivo Diccionario
DATAIN = nombre del archivo Datos
$SETUP
proposiciones de control para el programa TABLES
$RECODE
proposiciones de transformaci
on de variables

1.6.

Caractersticas est
andar de IDAMS

Selecci
on de casos. Por defecto, en una ejecuci
on de un programa de IDAMS se procesan todos los casos
de un archivo Datos. Para escoger un subconjunto, se incluye una proposicion de filtro en el setup, por ej.
INCLUDE V3=1 (incluir solo aquellos casos para los cuales la variable 3 es igual a 1).

Introducci
on

Selecci
on de variables. Las variables son referidas por sus n
umeros de variable asignados en el diccionario.
Se especifica un conjunto de variables en una lista de variables que sigue a continuacion de palabras clave
tales como VARS, CONVARS, OUTVARS. Tales listas de variables tambien pueden incluir variables R
construidas con la facilidad Recode de IDAMS (ver mas adelante) por ej. VARS=(V3-V6,V129,R100,R101).
Transformaci
on/recodificaci
on de datos. Es una poderosa herramienta de recodificacion que permite
asignar nuevos c
odigos y construir nuevas variables. Las instrucciones de recodificacion las escribe el usuario
en el lenguaje Recode de IDAMS. Incluye la posibilidad de hacer c
alculos aritmeticos as como tambien
el uso de varias funciones especiales para operaciones tales como agrupamiento de variables, creacion de
variables ficticias, etc. Tambien se permiten proposiciones condicionales. Los siguientes son ejemplos de
proposiciones de Recode para construir tres nuevas variables R100, R101, R102:
R100=V4+V5
R101=BRAC(V10,0-15=1,16-60=2,60-98=3,99=9)
IF (MDATA(V3,V4) OR V4 EQ 0) THEN R102=99 ELSE R102=V3*100/V4
Las variables R as construidas para cada caso se pueden usar temporalmente en el programa que se est
a ejecutando o se pueden guardar en un dataset con el programa TRANS.
Ponderaci
on de datos. Cuando se usan procedimentos complejos de muestreo durante la recolecci
on de
datos, puede ser necesario usar diferentes ponderaciones de los casos durante el analisis. Tales ponderaciones
se guardan como una variable en el archivo Datos. Se utiliza entonces el par
ametro WEIGHT para invocar
la ponderaci
on en las proposiciones de control del programa, por ej. WEIGHT=V5.
Tratamiento de datos faltantes y datos malos . Se pueden identificar valores especiales como c
odigos
de datos faltantes para cada variable numerica y guardarlos en el diccionario. Durante el procesamiento de
los datos, el manejo de datos faltantes se hace con dos par
ametros:
MDVALUES (especifica cuales de los c
odigos de datos faltantes se usaran para verificar datos faltantes
en las variables numericas);
MDHANDLING (especifica que hacer cuando se encuentren datos faltantes).
Normalmente se supone que los datos se han depurado antes del analisis. Si no es este el caso entonces se
dispone del par
ametro BADDATA para omitir casos con valores no numericos o con valores en blanco en
campos numericos o para tratar esos valores como datos faltantes.

1.7.

Importaci
on y exportaci
on de datos

IDAMS no utiliza formatos internos especiales para almacenar los datos. Cualquier archivo de caracteres
ASCII de formato fijo puede ser descrito con un diccionario IDAMS y luego ser ledo por IDAMS. Por el
contrario, los datos en formato libre separados con Tab, coma o punto y coma se pueden importar a traves
de la Interfaz del Usuario de WinIDAMS. Aun mas, el programa IMPEX permite crear datos de IDAMS de
formato fijo a partir de un archivo de texto en cualquier formato libre o en formato DIF.
Los datos creados por IDAMS son siempre archivos de caracteres de formato fijo. Los archivos pueden entrar
directamente a otro programa junto con la informacion descriptiva apropiada para dicho programa. Los
datos en formato libre separados con Tab, coma o punto y coma se pueden obtener a traves de la Interfaz del
Usuario de WinIDAMS. Aun mas, el programa IMPEX permite a exportar un archivo IDAMS de formato
fijo como archivo de texto en formato libre o formato DIF.
Las matrices IDAMS se guardan en un formato especfico de IDAMS (descrito en el captulo Los datos en
IDAMS). Se puede usar el programa IMPEX para importar/exportar matrices con formato libre.

1.8.

Intercambio de datos entre CDS/ISIS e IDAMS

Hay un programa separado, WinIDIS, el cual prepara la descripcion de los datos y hace la transferencia de los
mismos entre IDAMS y CDS/ISIS (programas de UNESCO para el manejo de bases de datos y recuperaci
on
de informacion). La transferencia es controlada por los archivos de descripcion de datos de IDAMS e ISIS

1.9 Estructura de este Manual

(el diccionario IDAMS y la tabla de definicion de campos de CDS/ISIS). Para ir de ISIS a IDAMS siempre
se construyen nuevos archivos de diccionario y de datos y se pueden intercalar con otros datos usando las
facilidades de manejo de datos de IDAMS. Para ir de IDAMS a ISIS, hay tres posibilidades: (1) se puede
construir una base de datos completamente nueva, (2) se pueden a
nadir los registros transferidos a una base
de datos existente como nuevos registros de la base de datos, (3) se pueden actualizar los registros de una
base de datos existente con los datos transferidos.

1.9.

Estructura de este Manual

Todas las caractersticas generales de IDAMS, incluida la facilidad Recode, se describen en la Parte 1 de
este Manual.
La Parte 2 incluye las instrucciones de instalaci
on, la descripcion de archivos y carpetas usadas en
WinIDAMS, una secci
on titulada Primeros pasos la cual lleva al usuario a traves de los pasos requeridos
para hacer una ejecuci
on de IDAMS y la descripcion de la Interfaz del Usuario de WinIDAMS.
En las Partes 3 y 4 se dan descripciones detalladas de cada programa IDAMS. Estas documentaciones
contiene las secciones siguientes:
Descripci
on general. Una descripci
on del prop
osito principal del programa.
Caractersticas est
andar de IDAMS. Descripcion de las posibilidades de selecci
on de casos y de
variables, transformaci
on de datos, capacidad de ponderaci
on y manejo de datos faltantes.
Resultados. Detalles de los resultados destinados a ser impresos (o revisados en pantalla).
Descripci
on de archivos de salida y entrada. Una secci
on para cada dataset de IDAMS, cada
matriz y cualquier otro archivo de entrada o salida diferente, que proporciona una descripcion
de su contenido.
Estructura del setup. Una designacion de las definiciones de archivos, comandos de IDAMS y
proposiciones de control necesarias para ejecutar el programa.
Proposiciones de control del programa. Los par
ametros y formatos de cada una de las proposiciones de control del programa con un ejemplo para cada tipo.
Restricciones. Un resumen de las limitaciones del programa.
Ejemplos. Ejemplos de conjuntos completos de proposiciones de control para ejecutar el programa.
La Parte 5 suministra una descripci
on de los componentes interactivos de IDAMS para la construcci
on de
tablas multidimensionales, para la exploraci
on grafica de los datos y para el analisis de series de tiempo.
En la Parte 6 se pueden encontrar detalles de tecnicas estadsticas, formulas y referencias bibliograficas de
los programas de analisis.
Finalmente, los errores generados por los programas de IDAMS se resumen en el Apendice.

Parte I

Nociones fundamentales

Captulo 2

Los datos en IDAMS


2.1.
2.1.1.

El dataset IDAMS
Descripci
on general

El dataset consiste en dos archivos distintos y asociados: un archivo Datos y un archivo Diccionario que
describe algunos o todos los campos (variables) en los registros de datos. Todos los archivos Diccionario/Datos
que salen de un programa IDAMS son datasets de IDAMS.

2.1.2.

M
etodo de almacenamiento y acceso

Los archivos Diccionario y Datos se leen y se escriben secuencialmente. De esta manera, se pueden guardar
en cualquier medio de almacenamiento. No hay un archivo especial interno del sistema de IDAMS como
en otros paquetes. Los archivos se encuentran en formato de texto/car
acter (ASCII) y se pueden procesar
en cualquier momento con utilitarios generales o editores o pueden entrar directamente a otros paquetes
estadsticos.

2.2.
2.2.1.

Archivos Datos
El arreglo de datos

Sin importar el formato que tengan los datos en el archivo, estos pueden visualizarse como un arreglo
rectangular de valores de variables, en donde el elemento xij es el valor de la variable representada por la
columna j-esima para el caso representado por la fila i-esima. Por ejemplo, los datos de una encuesta se
pueden mostrar de la manera siguiente:
Casos

Variables

identificaci
on
educaci
on
sexo
edad
...
___________________________________________________________________
caso 1
caso 2
.
.

1300
1301
1302
.

6
2
3
.

2
1
1
.

31
25
55
.

...
...
...
...

...

En el ejemplo, cada fila representa una persona que responde a una encuesta y cada columna representa una
pregunta del cuestionario.

12

Los datos en IDAMS

2.2.2.

Caractersticas del archivo Datos

Este archivo contiene normalmente, pero no necesariamente, registros de longitud fija, ya que el final del
registro se reconoce con caracteres de alimentacion de retorno. Sin embargo, la longitud del registro mas
largo debe suministrarse en la especificaci
on de archivo (ver comando $FILES). No hay lmite para el n
umero
de registros del archivo Datos.
La longitud maxima de registro es 4096 caracteres.
Cada caso puede tener mas de un registro (hasta un maximo de 50). Si en una ejecuci
on particular de un
programa, se accede a las variables desde mas de un tipo de registro, entonces debe haber exactamente el
mismo n
umero de registros para cada caso. El programa MERCHECK puede usarse para crear archivos que
cumplan esta condicion. N
otese que cualquier archivo Datos de salida de un programa IDAMS siempre se
reestructura para tener un solo registro por caso.
Si un archivo de datos primarios tiene tipos de registro diferentes y el tipo de registro est
a codificado y
no tiene exactamente el mismo n
umero de registros por caso, los programas de IDAMS se pueden ejecutar
usando variables de un tipo de registro a la vez, mediante la selecci
on de ese tipo de registro al comienzo.

2.2.3.

Archivos jer
arquicos

IDAMS solo procesa archivos rectangulares como se indico anteriormente. Los archivos jerarquicos se
pueden manejar al almacenar registros de los diferentes niveles en diferentes archivos y despues se usan los
programas AGGREG y MERGE para producir registros compuestos que tengan las variables de los diferentes
niveles. Alternativamente, el archivo jer
arquico completo de datos se puede procesar de a un nivel a la vez
mediante el filtrado de registros para ese nivel (siempre que los tipos de registros esten codificados).

2.2.4.

Variables

Referencia a variables. Las variables en el archivo Datos se identifican con un n


umero u
nico entre 1 y
9999. Este n
umero, precedido de una V (por ej. V3) se usa para referirse a una variable en particular en
las instrucciones de control de programa. El n
umero de variable se usa para asignar un ndice a un registro
descriptor de variable en el diccionario que suministra el resto de informacion necesaria acerca de la variable
tal como el nombre y su ubicacion dentro del registro de datos.
Tipos de variable. Las variables pueden ser de tipo numerico o alfabetico, ambas almacenadas en modo
de caracteres.
Variables num
ericas. Estas pueden ser positivas o negativas con las siguientes caractersticas:
Un valor se puede componer de los caracteres numericos 0-9, un punto decimal y un signo (+,-). Se
permiten blancos a la izquierda.
Los valores deben estar justificados a la derecha dentro del campo (es decir, sin blancos a la derecha)
a menos que aparezca un punto decimal.
El ancho maximo de campo es 9 pero solo hasta 7 dgitos significativos (tomando enteros y decimales)
se retienen en el procesamiento.
Los valores de variable pueden ser enteros (por ej. una variable de edad o una variable categorica
como sexo) o pueden tener decimales (por ej. una variable con valores de porcentajes). El n
umero de
decimales (NDEC) se guarda en el registro descriptor de la variable en el diccionario. Normalmente
el punto decimal est
a implcito y no aparece en los datos. En este caso NDEC indica el n
umero de
dgitos del valor de la variable que se van a tratar como cifras decimales. Si se codifica un punto decimal
explcito en los datos, entonces NDEC se utiliza para determinar el n
umero de dgitos a retener a la
derecha del punto decimal, con el redondeo necesario del valor, por ej. valores codificados 4.54 y 4.55
con NDEC=1 se usaran como 4.5 y 4.6 respectivamente.
Un signo (si aparece) debe ser el primer car
acter, por ej. -0123.
Los campos en blanco se consideran no numericos y se tratan c
omo datos malos. Ver mas adelante
c
omo tratar los blancos en los datos que indican datos inaplicables y faltantes.

2.2 Archivos Datos

13

Con excepci
on de BUILD, todos los programas de IDAMS aceptan valores en notaci
on exponencial,
por ej. el valor codificado como .215E02 se usera como 21.5.
Variables alfab
eticas. Se pueden guardar variables alfabeticas en los archivos Datos y pueden tener hasta
255 caracteres de longitud. Pueden usarse en los programas de manejo de datos. Las variables alfabeticas
de 1-4 caracteres pueden usarse tambien en filtros. Para usarlas en los programas de analisis deben ser
recodificadas a valores numericos. Esto se puede hacer con la funci
on BRAC de Recode.

2.2.5.

C
odigos de datos faltantes

El valor de una variable para un caso en particular puede ser desconocido por muchas razones, por ejemplo
una pregunta puede ser inaplicable a ciertos encuestados o uno de ellos puede rehusarse a contestar la
pregunta. Se pueden establecer c
odigos especiales para datos faltantes en cada variable numerica y se pueden
codificar en los datos cuando se necesiten. Se permiten dos codigos de datos faltantes: MD1 y MD2. En caso
de usarlos, cualquier valor en los datos igual a MD1 se considerar
a dato faltante; cualquier valor mayor
o igual que MD2 (si MD2 es positivo o cero) o menor o igual que MD2 (si MD2 es negativo) tambien se
considerar
a dato faltante.
Estos c
odigos de datos faltantes se guardan en el registro de diccionario de la variable. Igual que para valores
de datos, pueden ser enteros o decimales con punto decimal implcito o explcito. Si se especifica MD1 o
MD2 con punto decimal implcito, NDEC da el n
umero de dgitos a tratar como cifras decimales. Si se ha
codificado un punto decimal en MD1 o MD2, entonces NDEC determina el n
umero de dgitos a la derecha
del punto decimal que deben retenerse, y el valor se redondea apropiadamente.
Cuando los c
odigos MD1 y MD2 de una variable est
an en blanco en el diccionario, significa que no hay
c
odigos especiales numericos de datos faltantes. Durante una ejecuci
on de un programa IDAMS, los c
odigos
MD1 y MD2 del diccionario que esten en blanco se convierten a c
odigos de datos faltantes por defecto con
valores de 1,5 109 y 1,6 109 respectivamente.
Como los c
odigos de datos faltantes est
an limitados a un m
aximo de 7 dgitos (o 6 dgitos y un signo
negativo), pueden presentar problemas para variables de 8 y 9 dgitos. El usuario debe considerar el uso de
un primer c
odigo negativo de datos faltantes en este caso.

2.2.6.

Valores no num
ericos o en blanco en variables num
ericas - datos malos

En los programas de manejo de datos de IDAMS, estos simplemente se copian de un lado a otro y no
se lleva a cabo una conversi
on a modo computacional (binario); en este caso no se verifica si las variables
numericas tienen valores numericos. Sin embargo, cuando las variables se usan para analisis o en operaciones
de Recode, entonces sus valores se convierten a modo binario y los valores con caracteres no numericos
causaran problemas. Normalmente, se deben limpiar esos caracteres de los datos antes del analisis. Ademas,
valores en blanco en variables numericas no se tratan autom
aticamente como datos faltantes; se consideran
tambien como no numericos o datos malos.
Para permitir el analisis de datos con limpieza incompleta y para el manejo de campos en blanco no recodificados, se puede usar el par
ametro BADDATA para tratar los blancos y otros valores no numericos como
faltantes y de esta manera tener la posibilidad de eliminarlos del analisis. La especificaci
on del par
ametro
BADDATA=MD1 o BADDATA=MD2 resulta en la conversi
on de valores malos a los c
odigos MD1 o MD2
de la variable. Si los c
odigos MD1 o MD2 est
an en blanco, entonces los valores malos se convierten a los c
odigos de datos faltantes correspondientes por defecto (ver arriba) y entonces se tratan como valores faltantes
(ver tambien la descripci
on del par
ametro BADDATA en el captulo El archivo Setup de IDAMS).

2.2.7.

Las reglas de edici


on de las variables en salida de programas IDAMS

Los programas IDAMS crean siempre un archivo Datos y un diccionario correspondiente, es decir un dataset
IDAMS.
El archivo Datos contiene un registro para cada caso. La longitud del registro es la suma de los anchos de
campo de todas las variables de salida y es determinada por el programa.

14

Los datos en IDAMS

Los valores de las variables num


ericas se editan de acuerdo con una forma est
andar que se describe a
continuacion.
Si la totalidad del campo contiene unicamente los caracteres numericos 0-9, estos se envan a la salida
tal como aparecen en el archivo de entrada.
Si el campo contiene un n
umero precedido por blancos (por ej. 5), los blancos se convierten a ceros
antes de la salida de los datos. Los campos con los blancos a la derecha (por ej. 04 en un campo
numerico de tres dgitos), los blancos entre digitos (por ej. 0 4) y solo los blancos, se tratan seg
un la
especificaci
on de BADDATA.
Si el campo contiene un valor positivo o negativo con los caracteres + y - dados explcitamente,
el signo positivo se elimina y el signo negativo se pone antes del primer dgito numerico significativo.
Si el campo contiene un n
umero con un punto decimal explcito, se elimina el punto decimal y se
produce un valor con el mismo tama
no del campo de entrada y n cifras decimales tal como se hayan
definido en el campo NDEC de la descripcion de la variable. Los blancos a la izquierda en el campo
se convierten a ceros. Si en el campo de entrada se encuentran mas de n dgitos despues del punto
decimal, el valor se redondea a n cifras decimales y se enva a la salida (por ej. si n=2 el valor de salida
de 2.146 sera 215; si n=0, el valor de salida para 1.5 sera 002). Los blancos a la derecha no causan
condicion de error. Si se encuentran menos de n dgitos, se insertan ceros a la derecha en los lugares
de los decimales faltantes.
Los valores demasiado grandes para entrar en el campo asignado son tratados seg
un la especificaci
on
de BADDATA.
Los valores de las variables alfab
eticas no se editan y son los mismos en la entrada y en la salida.

2.3.
2.3.1.

El diccionario IDAMS
Descripci
on general

El diccionario se usa para describir las variables en los datos. Para cada variable, este debe contener como
mnimo el n
umero de la variable, su tipo y su localizacion dentro del registro de datos. Adicionalmente se
puede suministrar un nombre de variable, dos c
odigos de datos faltantes, el n
umero de cifras decimales y un
n
umero o nombre de referencia. La informaci
on se guarda en registros descriptores de variables conocidos
a veces como registros T. Registros opcionales C para variables categoricas dan nombres a los diferentes
c
odigos posibles. El primer registro del diccionario, el registro descriptor del diccionario, identifica el tipo
de diccionario, da los n
umeros de la primera y de la u
ltima variable usados en el diccionario y especifica el
n
umero de registros de datos que hacen un caso.
El diccionario original lo prepara el usuario para describir los datos primarios. Los programas de IDAMS
que construyen datasets siempre producen nuevos diccionarios que reflejan el nuevo formato de los datos.
Los registros del diccionario se guardan como registros de formato fijo de longitud de 80 caracteres.
A continuacion se ofrece una descripci
on detallada de cada tipo de registro de diccionario.
Registro descriptor de diccionario. Es siempre el primer registro del diccionario.
Columnas Contenido
4
5-8
9-12
13-16
20

3 (indica el tipo de diccionario).


N
umero de la primera variable (justificado a la derecha).
N
umero de la u
ltima variable (justificado a la derecha).
N
umero de registros por caso (justificado a la derecha).
Forma en la cual se ha especificado la localizacion de variables (columnas 32-39) en los registros
descriptores de variable.
Blanco
N
umero de registro y columnas inicial y final. La longitud de registro debe ser 80
para usar este formato si el n
umero de registros por caso es > 1.
1
Posicion inicial y ancho de campo.

2.3 El diccionario IDAMS

15

Registros descriptores de variables (registros T). El diccionario tiene un registro de estos por cada
variable. Estos registros est
an arreglados en orden ascendente por n
umero de variable. Los n
umeros de
variables no necesitan ser contiguos. El n
umero maximo de variables es 1000.
Columnas Contenido
1
2-5
7-30
32-39

40
41

45-51

52-58

59-62
73-75

T
N
umero de variable.
Nombre de variable.
Localizacion; de acuerdo con la columna 20 del registro descriptor de diccionario.
o bi
en
32-33
N
umero secuencial de registro con la columna inicial de la variable.
34-35
N
umero de columna inicial.
36-37
N
umero secuencial de registro con la columna final de la variable.
38-39
N
umero de columna final.
o
32-35
Posicion inicial de la variable dentro del caso.
36-39
Ancho de campo (1-9 para las variables numericas y 1-255 para las variables alfabeticas).
N
umero de cifras decimales (solo variables numericas).
Blanco implica que no hay cifras decimales.
Tipo de variable.
Blanco
Numerica.
1
Alfabetica.
Primer c
odigo de datos faltantes para variables numericas (o blancos si no hay primer c
odigo de
datos faltantes).
Justificado a la derecha.
Segundo c
odigo de datos faltantes para variables numericas (o blancos si no hay segundo c
odigo
de datos faltantes).
Justificado a la derecha.
N
umero de referencia (opcional - se puede usar para alguna referencia alfanumerica inmodificable
para la variable, por ej. el n
umero original de la variable o una referencia a la pregunta).
Identificador de estudio (opcional - se puede usar para identificar el estudio al cual pertenece este
diccionario).

Nota 1: cuando se usan n


umero de registro y de columna para identificar la localizacion de la variable, los
listados de registros de diccionario no muestran el n
umero de registro y de columna tal como aparecen en
el registro del diccionario. En cambio, la localizacion de la variable se traslada y se imprime en el formato
de posicion inicial/ancho. Por ejemplo, para una variable en las columnas 22-24 del tercer registro de un
archivo de registros m
ultiples por caso (longitud de registro 80), la posicion inicial sera 182 (2 * 80 + 22) y
el ancho 3.
Nota 2: si hay mas de un registro por caso y la longitud de registro no es 80, entonces la notaci
on de posicion
inicial y ancho de campo debe usarse en los registros T. La posicion inicial se cuenta a partir del comienzo
del primer registro. Por ejemplo, para registros de longitud 121, la posicion inicial de un campo en la posicion
11 del segundo registro de un caso sera 132.
Registros de nombres de c
odigos (registros C). El diccionario puede contener estos registros opcionalmente para cualquiera de las variables. Van inmediatamente a continuacion del registro T para la variable
a la cual aplican y suministran c
odigos y nombres para diferentes valores posibles de la variable. Los usan
programas tales como TABLES para imprimir nombre de filas y columnas junto con los c
odigos correspondientes. Tambien pueden usarse como la especificaci
on de c
odigos validos para una variable durante la entrada
de datos con la Interfaz del Usuario de WinIDAMS y para la validaci
on de datos con el programa CHECK.

16

Los datos en IDAMS

Columnas Contenido
1
2-5
6-9

C
N
umero de variable.
N
umero de referencia (opcional - se puede usar para alguna referencia inmodificable para la
variable, por ej. el n
umero original de la variable o una referencia a la pregunta).
Valor del c
odigo justificado a la izquierda.
Nombre para este c
odigo. (Nota: los programas de analisis solo usan los primeros 8 caracteres e
imprimen nombres de c
odigos aunque el nombre completo aparecer
a en el listado del diccionario).
Identificador de estudio (opcional).

15-19
22-72
73-75

2.3.2.

Ejemplo de un diccionario

Columnas:

1
2
3
4
5
6...
123456789012345678901234567890123456789012345678901234567890...

T
T
T
C
C
T
C
C
C
C
T
T

3
1
2
3
3
3
11
11
11
11
11
12
20

1 20
1
1
Identificaci
on
Edad
Sexo
1
Mujer
2
Hombre
Regi
on
1
Norte
2
Sur
3
Este
4
Oeste
Calificaci
on promedio
Nombre

1
6
8

5
2
1

16

17
31

31
30 1

99

000

900

Este es un diccionario que describe 6 campos en un registro de datos como se ven esquem
aticamente a
continuacion.
1-5
V1

6-7
V2

8
V3

16
V11

17-19
V12

31-60
V20

ID

Edad

Sexo

Region

Calif.

Nombre

Las localizaciones de variables se expresan en terminos de posicion inicial y ancho de campo (1 en la columna
20 del registro descriptor de diccionario) y hay un registro por caso (1 en la columna 16). Hay una cifra
decimal implcita en la variable de calificaci
on promedio (V12). La variable edad tiene c
odigo 99 para datos
faltantes. Para la calificaci
on promedio, los ceros significan datos faltantes as como todos los valores mayores
o iguales a 90.0. El nombre de cada encuestado (V20) se graba como una variable de tipo alfabetico (tipo 1)
de 30 caracteres. N
otese que los n
umeros de variable no necesitan ser contiguos y que no se requiere describir
todos los campos en los datos.

2.4.

Matrices IDAMS

Hay dos tipos de matrices IDAMS: cuadradas y rectangulares. Ambos tipos se describen por s mismos, pero
contrariamente al dataset IDAMS, el diccionario se guarda en el mismo archivo de los valores del arreglo.
En general, estas matrices se crean con un programa IDAMS para ser usadas como entrada a otro programa
y el usuario no tiene que estar familiarizado con el formato. Sin embargo, si es necesario preparar una matriz
de correlaci
on, una matriz de configuracion, etc. a mano, entonces se deben observar los formatos descritos
mas adelante.
Sin importar el tipo, todos los registros son de longitud fija de 80 caracteres.

2.4 Matrices IDAMS

2.4.1.

17

La matriz cuadrada IDAMS

La matriz cuadrada se puede usar solamente para un arreglo cuadrado y simetrico. S


olo se guardan los
valores del triangulo superior derecho, sin la diagonal. Un arreglo para una correlaci
on de Pearson se guarda
satisfactoriamente en esta forma.
Programas que leen/producen matrices cuadradas. PEARSON produce matrices cuadradas de correlacion y covariancia; REGRESSN produce matrices de correlaci
on cuadradas; TABLES produce matrices
cuadradas de medidas de asociaci
on bivariadas. Estas matrices son la entrada apropiada para otros programas, por ej. la matriz de correlaci
on que sale de PEARSON puede entrar a REGRESSN y a CLUSFIND.
Adamas, CLUSFIND y MDSCAL leen las matrices cuadradas de similitudes o disimilitudes.
Ejemplo.
Columnas:

Descriptor de matriz
Formatos
Identificaci
on de
variables

Arreglo de valores

Medias y
desviaciones est
andar

111111111122222222223...
123456789012345678901234567890...

|
|
|
|
|
|
|
|
|
|
|

2
4
#F (12F6.3)
#F (6E12.5)
#T
1 EDAD
#T
3 EDUCACION
#T
9 RELIGION
#T 10 SEXO
-.011 -.174 -.033
.131 -.105
-.133
0.33350E 01 0.54950E 01 0.50251E 01 0.40960E 01
0.20010E 01 0.19856E 01 0.15000E 01 0.12345E 01

Formato. La matriz cuadrada contiene lo siguiente:


1. Un registro descriptor de la matriz. Este, el primer registro, da el tipo de matriz y las dimensiones del
arreglo de valores.
Columnas Contenido
4
5-8

2 (indica matriz cuadrada).


N
umero de variables (justificado a la derecha).

2. Una proposicion de formato Fortran que describe cada fila del arreglo de valores. La proposicion de
formato describe el n
umero de campos por registros de 80 caracteres y el formato de cada uno. Por
ejemplo, un formato de (12F6.3) indica que cada fila del arreglo se graba hasta con 12 valores por
registro, cada valor ocupa 6 columnas 3 de las cuales son decimales. Si una fila contiene mas de 12
valores, el valor 13 quedara en el siguiente registro, etc. Cada nueva fila del arreglo siempre comienza
en un nuevo registro.
Columnas Contenido
1-2
3-80

#F
Proposicion de formato, entre parentesis.

3. Una proposicion de formato Fortran que describe los vectores de medias y desviaciones est
andar de
variables. La proposicion de formato describe el n
umero de valores por registro y el formato de cada
uno.
Columnas Contenido
1-2
3-80

#F
Proposicion de formato, entre parentesis.

4. Registros de identificaci
on de variables. Son n registros, donde n es el n
umero de variables especificadas
en el registro descriptor de matriz. El orden de estos registros corresponde al orden de las variables
que asignan ndices a las filas (y columnas) del arreglo de valores. Cuando una matriz es creada por un
programa IDAMS, los n
umeros de variable y los nombres de las mismas se retienen del dataset IDAMS
del cual se generaron las estadsticas.

18

Los datos en IDAMS


Columnas Contenido
1-2
3-6
8-31

#T or #R (indica identificacion de variable para una fila de la matriz).


N
umero de variable (justificado a la derecha).
Nombre de variable.

Las cuatro secciones anteriores de la matriz se llaman el diccionario de la matriz. En seguida del
diccionario de la matriz est
a el arreglo de valores.
5. El arreglo de valores. Como el arreglo es simetrico y tiene celdas diagonales que contienen una constante
(por. ej. una correlaci
on de 1.0 para una variable correlacionada consigo misma), solo se guarda el
angulo superior derecho sin la diagonal. N
otese que para una matriz de covariancia los elementos de la
diagonal pueden calcularse utilizando las desviaciones est
andar que est
an includas en el archivo de la
matriz (ver secci
on 7 mas adelante). En el ejemplo anterior de la matriz de 4 variables, el arreglo total
(antes de entrar en el formato de matriz cuadrada) sera as:
vars
1
3
9
10

1
1.000
-.011
-.174
-.033

3
-.011
1.000
.131
-.105

9
-.174
.131
1.000
-.133

10
-.033
-.105
-.133
1.000

9
-.174
.131

10
-.033
-.105
-.133

La porcion del arreglo que se guarda es:


vars
1
3
9
10

3
-.011

Cada fila de este arreglo reducido da comienzo a un nuevo registro y se escribe de acuerdo con el
formato especificado en el diccionario de la matriz (ver arriba).
6. Un vector de medias de variables. Los n valores se graban de acuerdo con la proposicion de formato
en el diccionario de la matriz.
7. Un vector de desviaciones est
andar de variables. Los n valores se graban de acuerdo con la proposicion
de formato en el diccionario de la matriz.

2.4.2.

La matriz rectangular IDAMS

La matriz rectangular difiere de la matriz cuadrada en que el arreglo de valores puede ser cuadrado (y no
simetrico) o rectangular. M
as a
un, como las variables no asignan ndices a las filas de algunos arreglos, por
ej. una tabla de frecuencias, la matriz rectangular puede o no puede contener registros de identificacion de
variables; la matriz rectangular no contiene ni medias ni desviaciones est
andar de variables.
Programas que leen/producen matrices rectangulares. Estas matrices son creadas por los programas CONFIG, MDSCAL, TABLES y TYPOL. Son apropiadas para como entrada a CONFIG, MDSCAL,
TYPOL.

2.4 Matrices IDAMS

19

Ejemplo.
Columnas:

Descriptor de matriz
Formatos
Identificaci
on de
variables

Arreglo de valores

111111111122222222223...
123456789012345678901234567890...

|
|
|
|
|
|
|
|

3
4
3
#F (l6F5.0)
#T
2 CI
#T
5 EDUCACION
#T
8 MOVILIDAD
#T 12 RIVALIDAD ENTRE HERMANOS
59
20
10
37
15
2
50
40
7
8
26
31

Formato. La matriz rectangular continene lo siguiente:


1. Un registro descriptor de la matriz.
Columnas Contenido
4
5-8
9-12
16
20

21-40
41-60
61-80

3 (indica matriz rectangular)


El n
umero de filas (justificado a la derecha).
El n
umero de columnas (justificado a la derecha).
N
umero de registros de proposiciones de formato (#F). (Blanco implica 1).
Presencia de nombres de filas y columnas:
blanco/0
S
olo hay nombres de fila (registros #R o #T).
1
S
olo hay nombres de columna (registros #C).
2
Hay nombres de filas y columnas (registros #R o #T, y #C).
3
No hay nombres de filas ni de columnas.
Nombre de variable de fila (opcional).
Nombre de variable de columna (opcional).
Descripci
on de contenido de la matriz (opcional):
Frequencies/weighted (frecuencias/ponderadas)
Frequencies/unwtd (frecuencias/sin ponderar)
Percentages/row (porcentajes de fila)
Percentages/column (porcentajes de columna)
Percentages/total (porcentajes de total de la tabla)
Nombre de la variable par la cual las medias est
an includas en la matriz.

2. Una proposicion de formato Fortran que describe cada fila del arreglo de valores. El formato describe
un registro de 80 caracteres. Por ejemplo, un formato de (16F5.0) indica que cada fila del arreglo se
graba hasta con 16 valores por registro y cada valor ocupa 5 columnas sin ninguna cifra decimal.
Columnas Contenido
1-2
3-80

#F
La proposicion de formato, entre parentesis.

3. Registros de identificaci
on de variables. El orden de estos registros corresponde al orden de las variables/los c
odigos que asignan ndeces a las filas y columnas de la matriz. Cuando un programa de
IDAMS crea una matriz rectangular, los n
umeros y nombres de las variables/los c
odigos se retienen
del dataset o matriz de entrada del cual o de la cual se derivo el arreglo de valores.
Columnas Contenido
1-2
3-6
8-31

#T o #R para nombres de filas, #C para nombres de columnas.


N
umero de variable o valor de c
odigo (justificado a la derecha).
Los c
odigos con longitud mayor que 4, se reemplazan con ****.
Nombre de variable o nombre de c
odigo.

Las tres secciones anteriores de la matriz se llaman el diccionario de la matriz. A continuacion del
diccionario de la matriz est
a el arreglo de valores.
4. El arreglo de valores. Se guarda todo el arreglo. Cada fila del arreglo da comienzo a un nuevo registro
y se escribe de acuerdo con el formato especificado en el diccionario de la matriz.

20

2.5.
2.5.1.

Los datos en IDAMS

Uso de datos de otros paquetes


Datos primarios

Cada archivo en la forma de registros de formato fijo en modo de caracteres (ASCII) puede usarse directamente para los programas de IDAMS. Casi todos los paquetes de bases de datos y estadsticos tienen una
funci
on de exportar o convertir para producir archivos de datos de caracteres en formato fijo. Debe
prepararse entonces un diccionario IDAMS para describir los campos requeridos en los datos.
Un archivo de formato libre con Tab, coma o punto y coma como delimitador se puede importar directamente
utilizando la Interfaz del Usuario de WinIDAMS. Ver el captulo Interfaz del Usuario para mas detalles.
Los archivos de texto en formato libre (se puede utilizar para separar cualquier caracter, incluso blancos) y
en formato DIF se pueden importar usando el programa IMPEX.
Los datos almacenados en una base de datos CDS/ISIS se pueden importar con un programa WinIDIS.

2.5.2.

Matrices

Se puede usar el programa IMPEX para importar matrices en formato libre. Ademas, las matrices producidas
fuera de IDAMS, por ejemplo una matriz en una publicacion, pueden entrar de acuerdo con el formato descrito
en la secci
on Matrices IDAMS.

Captulo 3

El archivo Setup de IDAMS


3.1.

Contenido y prop
osito

Para ejecutar los programas IDAMS el usuario prepara un archivo especial llamado archivo Setup, el cual
controla la ejecuci
on de los programas. El archivo Setup contiene comandos de IDAMS e instrucciones que
especifican lo que se requiere, tales como que programa se va a ejecutar, nombres de archivos, opciones a
escoger del programa e instrucciones de transformaci
on de variables; por. ej.
$RUN nombre de programa
$FILES
especificaci
on de archivos
$SETUP
proposiciones de control del programa
$RECODE
proposiciones de Recode

3.2.

Comandos de IDAMS

Estos comandos, los cuales comienzan con $, separan las diferentes clases de informacion que se suminsitran
a una ejecuci
on de un programa de IDAMS. Los comandos disponibles son:
$RUN programa
$FILES [RESET]
$RECODE
$SETUP
$DICT
$DATA
$MATRIX
$PRINT
$COMMENT [texto]
$CHECK [n]

(nombre del programa a ejecutar)


(se
nala el comienzo de especificaci
on de archivos)
(se
nala el comienzo de las proposiciones de Recode)
(se
nala el comienzo de las proposiciones de control de programa)
(se
nala el comienzo del diccionario)
(se
nala el comienzo de los datos)
(se
nala el comienzo de una matriz)
(activa/desactiva el interruptor de impresion)
(comentarios)
(verifica si el paso previo termino satisfactoriamente).

La primera lnea en un archivo Setup debe ser siempre un comando $RUN que identifica el programa IDAMS
a ejecutar. Otros comandos relacionados con la ejecuci
on de este programa (seguidos de las proposiciones de
control asociadas o de datos) se pueden colocar en cualquier orden. Estos se siguen con un comando $RUN
para ejecutar el siguiente programa (si lo hay) y as sucesivamente.
Los comandos individuales de IDAMS se describen a continuacion en orden alfabetico.
$CHECK [n]. Cuando este comando est
a presente, el programa no se ejecutara si el programa inmediatamente precedente termin
o con un c
odigo de condicion mayor que n. Si el comando est
a presente pero no se
ha suministrado ning
un valor, n toma 1 por defecto.

22

El archivo Setup de IDAMS


Todos los programas de IDAMS terminan con un c
odigo de condicion de 16 si se encuentran errores de
setup. Por ejemplo, si TABLES se va a ejecutar inmediatamente despues de TRANS pero el usuario
no quiere ejecutar TABLES si se presenta un error en la ejecuci
on de TRANS, un comando $CHECK
despues del comando $RUN TABLES va a impedir la ejecuci
on de TABLES.
El comando $CHECK puede aparecer en cualquier parte dentro del setup del programa pero por lo
general se coloca inmediatamente despues del comando $RUN.

$COMMENT texto. El texto en este comando se imprime en el listado del setup. Este comando no
tiene efecto en la ejecuci
on del programa.
$DATA. El comando $DATA se
nala que vienen los datos.
No se puede usar si el programa genera un archivo Datos de salida y no se ha especificado el archivo
DATAOUT, es decir que los datos de salida van a un archivo temporal por defecto.
No se puede usar si se usa el comando $MATRIX.
La longitud del registro de los datos en el setup no puede exceder de 80 caracteres. Si entran registros,
o lneas mas largas, solo se usaran los primeros 80 caracteres.
El comando $DATA desactiva el interruptor de impresion. As, a menos de que un comando $PRINT
venga inmediatamente despues del comando $DATA, los datos no se imprimen.
$DICT. El comando $DICT se
nala que viene un diccionario IDAMS.
No se puede usar si el programa genera un archivo Diccionario de salida y no se ha especificado el
archivo DICTOUT, es decir si el diccionario sale a un archivo temporal por defecto.
El comando $DICT desactiva el interruptor de impresion. As, a menos de que un comando $PRINT
venga inmediatamente despues del comando $DICT, el diccionario no se imprime.
$FILES [RESET]. Se
nala el comienzo de especificaci
on de archivos. Al comienzo de la ejecuci
on de los
programas de IDAMS se colocan nombres por defecto a cada archivo, con el uso de un archivo especial
idams.def. Cualquiera de estos nombres por defecto, se puede cambiar con proposiciones de especificaci
on
de archivo introducidas despues del comando $FILES (ver Especificaci
on de archivos mas adelante). Para
obtener nuevamente los nombres por defecto para archivos Fortran FT (excepto FT06 y FT50), use el
comando FILES RESET.
$MATRIX. El comando $MATRIX se
nala que viene una matriz o una serie de matrices.
No se puede usar si se usa $DATA.
El comando $MATRIX desactiva el interruptor de impresion. As, a menos que un comando $PRINT
venga inmediatamente despues del comando $MATRIX, la matriz no se imprime.
$PRINT. Se invierte el interruptor de impresion; si estaba activado, $PRINT lo desactiva; si estaba desactivado, $PRINT lo activa. Si la impresion estaba activada, las lneas del archvo Setup se imprimen como
una parte de los resultados.
Cuando se encuentra un comando $RUN, el interruptor de impresion siempre se activa. Los comandos
$DICT, $DATA y $MATRIX desactivan autom
aticamente el interruptor de impresion.
$RECODE. La presencia de este comando se
nala que se va a usar la facilidad Recode de IDAMS. La
facilidad Recode de IDAMS se describe en el captulo La facilidad Recode de este manual.
Las proposiciones de Recode normalmente siguen a continuacion del comando $RECODE. Si un nuevo
comando de IDAMS sigue inmediatamente despues de un comando $RECODE, se usan las proposiciones Recode del setup del programa precedente.

3.3 Especificaci
on de archivos

23

$RUN programa. $RUN especifica el programa que se va a ejecutar y siempre es la primera proposicion
en el setup.
programa es el nombre del programa de 1-8 caracteres.
Todos los comandos y proposiciones que van a continuacion del comando $RUN y van hasta el siguiente
comando $RUN se aplican al programa nombrado.
El interruptor de impresion se activa cuando se encuentra un comando $RUN. Ver la descripcion de
$PRINT.
$SETUP. El comando $SETUP se
nala el comienzo de las proposiciones de control del programa, es decir
el filtro, ttulo, proposicion de par
ametros, etc. (ver mas adelante).
Se requiere el comando $SETUP aun cuando haya proposiciones de control de programa imediatamente
despues del comando $RUN.

3.3.

Especificaci
on de archivos

Los nombres de los archivos a usar se dan despues del comando $FILES y toman el formato siguiente:
ddname=nombre de archivo

[RECL=longitud maxima de registro]

donde:
ddname es el nombre de la referencia de archivo usado interiormente para los programas, por ej.
DICTIN. Los archivos requeridos y los correspondientes ddnames para un programa en particular se
dan en la documentacion del programa en la secci
on titulada Estructura del setup.
nombre de archivo es el nombre del archivo fsico. Encierre el nombre entre comillas sencillas si este
tiene blancos. Ver la secci
on Carpetas en WinIDAMS para explicaciones adicionales.
RECL debe usarse si el primer registro del archivo Datos no es el mas largo. Si no se ha especificado
RECL la longitud de registro se toma como la longitud del primer registro. Si un registro posterior es
mas largo, se presenta un error de entrada.
Ejemplos:
DATAIN
PRINT
FT02
DICTIN

=
=
=
=

A:ECON.DAT RECL=92
RSLTS.LST
ECON.MAT
\\nec0102\commondata\econ.dic

Referirse a la secci
on Personalizacion del ambiente para una aplicacion en el captulo Interfaz del Usuario
para una descripci
on adicional.

3.4.

Ejemplos de uso de comandos $ y especificaci


on de archivos

Ejemplo A. Hacer m
ultiples ejecuciones de un programa de analisis, por ej. ONEWAY con los mismos
datos pero, por ejemplo, con filtros diferentes.
$RUN ONEWAY
$FILES
DICTIN = CHEESE.DIC
DATAIN = CHEESE.DAT
$RUN ONEWAY
$SETUP

24

El archivo Setup de IDAMS


Filtro 1
Otras proposiciones de control para ONEWAY
$RUN ONEWAY
$SETUP
Filtro 2
Otras proposiciones de control para ONEWAY

Ejemplo B. Ejecutar TABLES y ONEWAY usando el mismo diccionario y los mismos datos para cada
programa y con el mismo Recode; no imprimir las proposiciones de Recode.
$RUN TABLES
$FILES
DICTIN = ABC.DIC
DATAIN = ABC.DAT RECL=232
$SETUP
Proposiciones de control para TABLES
$RECODE
$PRINT
Proposiciones de Recode
$RUN ONEWAY
$SETUP
Proposiciones de control para ONEWAY
$RECODE
$COMMENT EL RECODE DE ENTRADA PARA TABLES SE USARA EN ONEWAY
Ejemplo C. Ejecutar TABLES usando Recode de IDAMS, diccionario en el setup, datos en disco. Imprimir
el diccionario de entrada.
$RUN TABLES
$FILES
DATAIN = A:MYDATA.DAT
$RECODE
Proposiciones de Recode
$SETUP
Proposiciones de control para TABLES
$DICT
$PRINT
Diccionario
Ejemplo D. Usar los datos de salida de un programa de manejo de datos como entrada a los programas de
analisis sin retener el archivo de salida, por ej. ejecutar TRANS seguido de TABLES usando los datos de
salida de TRANS mediante la especificaci
on del par
ametro INFILE=OUT. TABLES no se ejecuta si TRANS
tiene errores en las proposiciones de control.
$RUN TRANS
$FILES
DICTIN = MY.DIC
DATAIN = MY.DAT
$SETUP
Proposiciones de control para TRANS
$RECODE
Proposiciones de Recode
$RUN TABLES
$CHECK
$SETUP
Proposiones de control para TABLES, inclu
do el par
ametro INFILE=OUT

3.5 Proposiciones de control de programa

3.5.

25

Proposiciones de control de programa

3.5.1.

Descripci
on general

Las proposiciones de control de la ejecuci


on de programa (van a continuacion del comando $SETUP), se
usan para especificar los par
ametros del programa a ejecutar. Hay tres proposiciones de control est
andar que
usan todos los programas:
1. la proposicion opcional de filtro para seleccionar los casos a usar del archivo de datos,
2. la proposicion mandatoria de ttulo que asigna un ttulo a la ejecuci
on,
3. una proposicion mandatoria de par
ametros que selecciona las opciones para el programa; algunas
opciones de programa son est
andar en muchos programas, otras son especficas de cada uno.
Proposiciones de control adicionales requeridas en programas individuales se describen en la documentacion
del programa.

3.5.2.

Reglas generales de codificaci


on

Las proposiciones de control entran en lneas de hasta 255 caracteres de longitud.


Las lneas se pueden continuar si se coloca un gui
on al final de la lnea y se sigue en la siguiente.
La longitud maxima de la informacion que puede entrar en una proposicion de control es 1024 caracteres, excludos los caracteres de continuacion.
Las letras min
usculas, con excepci
on de las que se encuentren en cadenas entre comillas sencillas, se
convierten a letras may
usculas.
Si se incluyen cadenas de caracteres entre comillas sencillas en una proposicion de control, estas deben
continuar en una lnea.

3.5.3.

Filtros

Prop
osito. Una proposicion de filtro se usa para seleccionar un subconjunto de casos. Una proposicion
de filtro se expresa en terminos de variables y de los valores tomados por esas variables. Por ejemplo, si la
variable V5 indica sexo del encuestado en una encuesta y el c
odigo 1 representa mujer, entonces INCLUDE
V5=1 es una proposicion de filtro que especifica encuestados femeninos como el subconjunto deseado de
casos.
El filtro principal selecciona casos de un archivo Datos de entrada y se aplica en toda la ejecuci
on de
un programa. Estos filtros est
an disponibles en todos los programas de IDAMS que cargan un diccionario
(excepto BUILD y SORMER). Algunos programas permiten subdivisi
on adicional. Tales filtros locales se
aplican solamente a una accion especfica del programa, por ej. una tabla de frecuencias.
Ejemplos.
1. INCLUDE V2=1-5 AND V7=23,27,35 AND V8=1,2,3,6
2. EXCLUDE V10=2-3,6,8-9 AND V30=<5 OR V91=25
3. INCLUDE V50=FRAN,UK,MORO,INDI
Colocaci
on. Si se usa un filtro principal, es siempre la primera proposicion de control de programa. La
documentacion de cada programa indica si se pueden usar filtros locales tambien.
Reglas de codificaci
on.
La proposicion de filtro comienza con las palabras INCLUDE o EXCLUDE. Seg
un la palabra usada,
la proposicion de filtro define el subconjunto de casos a usar (INCLUDE) o ignorar (EXCLUDE) por
el programa.

26

El archivo Setup de IDAMS


Una proposicion puede contener un maximo de 15 expresiones. Una expresion consiste en un n
umero
de variable, un signo igual y una lista de posibles valores. Esta lista puede tener valores individuales
y/o rangos de los mismos separados con comas, por ej. V2=1,5-9. Los rangos con extremos abiertos
se indican con < o >, por ej. INCLUDE V1=0,3-5,>10; sin embargo la variable siempre debe estar
seguida de un signo = para comenzar, por ej. V1>0 debe expresarse como V1=>0 y V1<0 como
V1=<0.
Las expresiones se conectan con las conjunciones AND y OR.
AND indica que debe hallarse un valor de cada una de las series de expresiones conectadas con
AND.
OR indica que debe hallarse un valor por lo menos de una de las series de expresiones conectadas
con OR.
Las expresiones conectadas con AND se eval
uan antes de las expresiones conectadas con OR. Por ejemplo, expresi
on-1 OR expresion-2 AND expresion-3 se interpreta como expresion-1 OR (expresion-2
AND expresion-3). As, para que un caso este en el subconjunto definido por estas expresiones, debe
presentarse un valor de expresion-1 o valores de expresion-2 y expresion-3 o bien debe presentarse un
valor de cada una de las tres expresiones.
No se pueden usar parentesis en la proposicion de filtro para indicar precedencia de evaluacion de
expresiones.
Las variables pueden aparecer en cualquier orden y en mas de una expresion. Sin embargo, n
otese que
V1=1 OR V1=2 es equivalente a la expresion sencilla V1=1,2. N
otese tambien que V1=1 AND
V1=2 es una condicion imposible ya que un caso no puede tener ambos valores 1 y 2 para la
variable V1.
Una proposicion de filtro puede terminar opcionalmente con un asterisco.
Las variables en un filtro.
Se pueden usar variables de caracteres de tipo numerico y alfabetico.

No se permiten variables R en filtros principales. Se permiten en filtros especificos de analisis o


en filtros locales. N
otese que la proposicion REJECT de Recode se puede usar para utilizar las
variables R para filtrar casos.

Los valores en un filtro para variables numericas.


Los valores numericos pueden ser enteros o decimales, positivos o negativos, por ej. 1, 2.4, -10.

Los valores se expresan en forma sencilla o en rangos y se separan con comas, por ej. 1-5, 8, 12-13.
Para variables numericas de filtro, los valores en el archivo de datos se convierten primero a
modo binario real con el n
umero correcto de cifras decimales del diccionario y despues se hace
la comparaci
on numericamente con el valor en el filtro. N
otese que esto significa que para una
variable con decimales, los valores de filtro se deben suministrar con el punto decimal en el lugar
correcto, por ej. V2=2.5-2.8.

Los casos con valores no numericos en una variable de filtro siempre se excluyen de la ejecuci
on.
Los valores en un filtro para variables alfabeticas.
Valores de 1-4 caracteres se expresan como cadenas de caracteres entre comillas sencillas, por ej.
F. No se requiere entrar los blancos a la derecha, es decir que se a
naden los blancos a la derecha.
Si la variable tiene un ancho de campo mayor que 4, entonces se usan solo los primeros cuatro
caracteres de los datos para comparar con la variable de filtro.
No se pueden usar rangos de cadenas de caracteres; solo se permiten valores individuales separados
con comas.
Nota. La primera proposicion despues del comando $SETUP se reconoce como filtro principal si comienza
con INCLUDE o EXCLUDE. Si los primeros caracteres que no esten en blanco son cualquier otra cosa, se
supone que la proposicion es un tltulo.

3.5 Proposiciones de control de programa

3.5.4.

27

Ttulos

Prop
osito. Una proposicion de ttulo se usa para titular los resultados que produce un programa. Algunos
programas de IDAMS imprimen este ttulo una vez al comienzo del listado mientras que otros lo utilizan
para titular cada p
agina del mismo.
Ejemplos.
1. TABLAS DE LOS DATOS DE LAS ELECCIONES - JULIO, 2000
2. LISTADO DE DATOS DE ENCUESTA CORREGIDOS A34
Colocaci
on. Todos los programas de IDAMS requieren una proposicion de ttulo. El ttulo es la primera
proposicion de control de programa o (si se usa filtro) la segunda. Si no se desea ttulo en especial, es necesario
de todas maneras incluir una lnea en blanco.
Reglas de codificaci
on.
La proposicion puede ser cualquier cadena de caracteres de los cuales se usan los primeros 80, es decir,
si entra un ttulo con mas de 80 caracteres, se trunca a los primeros 80.
Si el ttulo no esta encerrado entre comillas sencillas, las min
usculas se convierten a may
usculas y los
blancos se reducen a un solo blanco.
El ttulo no puede empezar con las palabras INCLUDE o EXCLUDE.

3.5.5.

Par
ametros

Prop
osito. Todos los programas de IDAMS se han dise
nado de una manera m
as o menos general de forma
tal que permitan al usuario seleccionar varias opciones. Estas opciones y valores se llaman parametros y
se suministran en las proposiciones de control del programa, tales como parametros, especificaciones de
regresion, especificaciones de tablas, etc. El usuario especifica los par
ametros en formato de palabra clave
est
andar con una palabra inglesa o su abreviaci
on para identificar una opcion.
Ejemplos.
1. WRITE=CORR WEIGHT=V3, PRINT=(DICT, PAIR)
(par
ametros de PEARSON)
2. DEPV=V5 METHOD=STEP VARS=(R3-R9,V30) WRITE=RESID
(par
ametros de regresi
on de REGRESSN)
3. ROWV=(V3,V9,V10) COLV=(V4,V11,V19) CELLS=(FREQ,ROWPCT) STATS=(CHI,TAUA)
(descripci
on de tabla de TABLES)
Colocaci
on. Todos los programas de IDAMS requieren la proposicion principal de par
ametros y debe
seguir despues de la proposicion de ttulo. Si se escogen todos los valores por defecto, debe suministrarse
una lnea con un asterisco. Cada documentacion de programa indica el tipo y contenido de cualesquiera
otras listas de par
ametros que se requieran e indica su posicion relativa a otras proposiciones de control del
programa.
Presentaci
on de par
ametros en formato de palabra clave en la documentaci
on de programas.
Toda la documentacion tiene una notaci
on est
andar en las secciones que describen los par
ametros de los que
se dispone. La notaci
on b
asica es la siguiente:
Una diagonal indica que se puede escoger solo uno de los terminos mutuamente excluyentes, por ej.
SAMPLE/POPULATION o PRINT=CDICT/DICT.
Una coma indica que se pueden escoger todos, algunos o niguno de los tems, por ej. STATS=(TAUA,
TAUB, GAMMA).
Cuando se combinan comas y diagonales, se puede escoger solo uno (o ninguno) de los tems dentro
de cada grupo separados por comas y conectados con diagonales, por ej. PRINT= (CDICT/DICT,
LONG/SHORT).

28

El archivo Setup de IDAMS


Valores por defecto, si los hay, est
an en negrilla, por ej. METHOD=STANDARD/STEPWISE/
DESCENDING. Un valor por defecto es un valor que el programa asume para el par
ametro, si no hay
una selccion explcita hecha por el usuario.
Si el uso de un par
ametro es obligatorio pero no tiene valores por defecto se usan las palabras Sin
valor por defecto.
Las palabras en may
usculas son palabras clave. Palabras o frases en min
usculas indican que el usuario
debe reemplazar la palabra o la frase con un valor apropiado, por ej. MAXCASES=n, VARS=(lista de
variables).

Tipos de palabras clave. Hay 5 tipos de palabras clave para especificar par
ametros.
1. Una palabra clave seguida de una cadena de caracteres. Este tipo de palabra clave identifica un
par
ametro que consiste en una cadena de caracteres, por ej.
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
El usuario puede especificar:
INFILE=IN2
(los ddnames serian DICTIN2 y DATAIN2)
2. Una palabra clave seguida de uno o mas n
umeros de variables, por ej.
WEIGHT=n
umero de variable
El n
umero de la variable de ponderaci
on, si se van a ponderar los datos.
VARS=(lista de variables)
Usar solo las variables en la lista; los n
umeros se pueden listar en cualquier orden con notaci
on V
o sin ella, es decir VARS=(V1-V3) o VARS=(1-3). N
otese que la documentacion de los programas
indica si se pueden usar variables V y R o solo variables tipo V.
El usuario puede especificar:
WEIGHT=V39
(la variable de ponderaci
on es V39)
VARS=(32,1,10)
(solo se usan las variables especificadas)
3. Una palabra clave seguida de uno o mas valores numericos, por ej.
MAXCASES=n
S
olo se procesar
an los primeros n casos.
IDLOC=(i1,f1,i2,f2, ...)
Columnas inicial y final para 1-5 campos de identificacion de caso.
El usuario puede especificar:
MAXCASES=100
(solo se procesar
an los primeros 100 casos)
IDLOC=(1,3,7,9)
(la identificaci
on de caso se halla en las columnas 1-3 y 7-9)
4. Una palabra clave seguida de uno o mas valores de palabras clave. Los valores de palabra clave pueden
ser una mezcla de opciones mutuamente excluyentes (separadas con diagonales) y opciones independientes (separadas con comas). Por ejemplo:
PRINT=(OUTDICT/OUTCDICT/NOOUTDICT,DATA)
OUTD
Imprimir diccionario de salida sin registros C.
OUTC
Imprimir diccionario de salida con registros C si los hay.
NOOU
No imprimir diccionario de salida.
DATA
Imprimir los valores de las variables de salida.
El usuario puede especificar:
PRINT=(OUTC,DATA)
(se imprime todo el diccionario de salida y se imprimen los datos)

3.5 Proposiciones de control de programa

29

PRINT=NOOUTDICT
(no se imprime el diccionario de salida ni los datos)
5. Un conjunto de palabras clave mutuamente excluyentes. De un conjunto de opciones solo se puede
seleccionar una de ellas, por ej.
SAMPLE/POPULATION
SAMP
Calcule la variancia y/o desviacion est
andar con la ecuaci
on de la muestra.
POPU
Usar la ecuaci
on de la poblacion.
Todas las palabras clave con excepci
on del u
ltimo tipo van seguidas de un signo igual (=). Los valores de
caracteres, numericos y palabras clave que siguen al signo igual se llaman valores asociados.
Reglas de codificaci
on.
Reglas para especificar palabras clave
S
olo se requiere suministrar las primeras 4 letras de una palabra clave o una palabra clave asociada,
aunque se puede suministrar toda la palabra clave. As, TRAN es una abreviaci
on apropiada para
de la palabra clave TRANSVARS. No hay abreviaci
on para palabras clave de 4 letras o menos.
Reglas para especificar valores asociados
El valor asociado es una lista de tems.
Los tems en la lista se separan con comas.

Si hay dos o mas tems, la lista debe estar entre parentesis.

Rangos de valores enteros numericos o de variables se indican con un gui


on.
No se permiten rangos de valores numericos con decimales.

Por ejemplo:
R=(V2,3,5)
PRIN=(DICT,DATA,STAT)
MAXC=5
TRAN=(V5,V10-V25,V32)
IDLOC=(1,3,7,8)
El valor asociado es una cadena de caracteres.
La cadena debe encerrarse entre comillas sencillas si contiene caracteres no-alfanumericos, por ej.
FNAME=EDUCACION:ONDA 1. N
otese que los blancos, el punto y la coma son caracteres
no-alfanumericos. Cuando haya duda, use comillas sencillas.
Dos comillas sencillas consecutivas (no el car
acter de comilla doble) se deben usar para representar
una comilla sencilla, por ej. ANAME=KEVINS (la comilla sencilla extra se elimina una vez
que se ha ledo la cadena).
Es mejor no separar una cadena entre lneas.
Reglas para especificar listas de palabras clave
Las palabras clave (con o sin valores asociados) se separan unas de otras con comas o con uno o mas
blancos, por ej.
FNAME=FRED, TRAN=3

KAISER

Una lista de palabras clave puede continuar en tantas lneas como sea necesario pero un gui
on es
necesario al final de cada lnea para indicar la continuaci
on, por ej.
FNAME=FRED TRAN=3 KAISER

30

El archivo Setup de IDAMS


Las palabras clave se pueden suministrar en cualquier orden. Si una palabra clave aparece mas de una
vez en la lista, entonces se utiliza el u
ltimo valor encontrado.
Una palabra clave no puede separarse entre dos lneas.
Cada lista de palabras clave puede terminar opcionalmente con un asterisco.
Si se escogen todas las opciones por defecto, debe suministrarse una lnea con un asterisco.

Detalles de par
ametros m
as comunes y no descritos totalmente en la documentaci
on de cada
programa.
1. BADDATA. Tratamiento de datos no numericos.
BADDATA=STOP/SKIP/MD1/MD2
Cuando se encuentran caracteres no numericos (incluidos blancos intercalados y campos totalmente en blanco) en variables numericas, el programa debe:
STOP
Terminar la ejecuci
on.
SKIP
Saltar el caso.
MD1
Reemplazar los valores no numericos por el primer c
odigo de datos faltantes (o por
1,5 109 si el primer c
odigo de datos faltantes no est
a specificado).
MD2
Reemplazar los valores no numericos por el segundo c
odigo de datos faltantes (o por
1,6 109 si el segundo c
odigo de datos faltantes no est
a specificado).
Para SKIP, MD1 y MD2 se imprime un mensaje acerca del n
umero de casos as tratados.
2. MAXCASES. N
umero maximo de casos a procesar.
MAXCASES=n
El valor dado es el maximo n
umero de casos que se van a procesar. Si n=0, no se leen casos;
esta opci
on se puede usar para probar setups sin leer datos. Si no se especifica el par
ametro, se
procesan todos los casos.
3. MDVALUES. Especifica cuales de los c
odigos de datos faltantes (MD1,MD2) del diccionario o de
las especificaciones de MDCODES en el Recode, si los hay, se van a usar para verificar datos faltantes
en los valores de las variables. N
otese que algunos programas tienen adicionalmente un par
ametro
MDHANDLING para especificar c
omo se van a manejar los valores faltantes en los datos.
MDVALUES=BOTH/MD1/MD2/NONE
BOTH
Los valores de las variables se verificar
an contra los c
odigos MD1 y los rangos de los
c
odigos definidos par MD2.
MD1
Los valores de las variables se verificar
an contra los c
odigos MD1 solamente.
MD2
Los valores de las variables se verificar
an contra los rangos de los c
odigos definidos par
MD2 solamente.
NONE
No se usaran c
odigos MD. Se consideran validos todos los valores de los datos.
Por defecto siempre se usan ambos c
odigos MD.
4. INFILE, OUTFILE. Especifican los ddnames con los cuales se definen los archivos Diccionario y
Datos de entrada y salida.
INFILE=IN/xxxx
OUTFILE=OUT/yyyy
Los archivos Diccionario y Datos de entrada y de salida para los programas de IDAMS se definen
con ddnames DICTxxxx, DATAxxxx, DICTyyyy, DATAyyyy. Normalmente tienen los valores por
defecto DICTIN, DATAIN. DICTOUT, DATAOUT. Si se usan varios programas de IDAMS en
el setup, por ejemplo programas que utilizan diferentes datasets como entrada o cuando se usa
la salida de un programa como entrada directa a otro programa (encadenamiento), entonces es
necesario algunas veces cambiar estos valores por defecto.
5. WEIGHT. Este par
ametro especifica la variable cuyos valores se usaran para ponderar los datos en
los casos.
WEIGHT=n
umero de variable
La variable especificada puede ser tipo V o tipo R, entera o decimal. Los casos con valores
de ponderaci
on faltantes, ceros, negativos y no numericos, siempre se saltan y se imprime un
mensaje acerca del total de casos as tratados. Si no se especifica el par
ametro WEIGHT, no se
hace ponderaci
on.

3.6 Proposiciones de Recode

31

6. VARS. Este par


ametro y otros similares como ROWVARS, OUTVARS, CONVARS, etc. se usan
para especificar una lista de variables.
VARS=(lista de variables)
Si se especifica mas de una variable, la lista debe estar entre parentesis.
Reglas para especificar listas de variables
Las variables se especifican con un n
umero de variable precedido de una V o una R. Una V
denota una variable de un dataset o de una matriz de IDAMS. Una R denota una variable que
resulta de una operaci
on de Recode. N
otese que internamente en el programa y en los resultados
del mismo, las variables tipo V y tipo R se distinguen con el signo del n
umero de variable; los
n
umeros positivos denotan variables tipo V y los n
umeros negativos denotan variables tipo R.
Para especificar un conjunto de variables numeradas en forma contigua, tales como V3, V4, V5,
V6, conecte dos n
umeros con un gui
on, cada n
umero precedido de una V (por ej. V3-V6 es valido;
V3-6 es invalido). Use los rangos con precauci
on si el dataset que contiene las variables tiene
vacos en la numeraci
on de las mismas, ya que todas las variables dentro del rango deben aparecer
en el dataset o en la matriz, es decir V6-V8 implica V6,V7,V8. Si V7 no est
a en el diccionario
entonces aparecer
a un mensaje de error. Las variables tipo V y tipo R no pueden estar mezcladas
en un rango, es decir V2-R5 es invalido.
Los n
umeros de variables individuales o rangos de n
umeros de variables se separan con comas.
En general, para los programas de manejo de datos, las variables se pueden listar mas de una vez
mientras que para los programas de analisis de datos especificar una variable mas de una vez es
inapropiado y causara la terminaci
on. Ver la documentacion del programa para los detalles.
Se pueden insertar blancos en cualquier parte de la lista.
En general, las variables se pueden especificar en cualquier orden, Sin embargo, el orden de las
variables puede tener significaci
on especial para algunos programas, verificar la documentacion
del programa para los detalles.
Ejemplos:
VARS=(V1-V6, V9, V16, V20-V102, V18, V11, V209)
OUTVARS=(R104, V7, V10-V12, R100-R103, V16, V1)
CONVARS=V10

3.6.

Proposiciones de Recode

La facilidad Recode de IDAMS permite recodificar temporalmente los datos durante la ejecuci
on de programas de IDAMS. Los resultados de esas operaciones de recodificacion junto con las variables transferidas del
archivo de entrada se pueden guardar tambien en archivos permanentes con el programa TRANS.
La recodificacion se invoca con el comando $RECODE. Este comando y las proposiciones asociadas de
recodificacion se colocan despues del comando $RUN para el programa con el cual se va a usar la facilidad
Recode. Por ejemplo:
$RUN programa
$FILES
Definici
on de archivos
$RECODE
Proposiciones de Recode

$SETUP
Proposiciones de control
de programa

$RUN ONEWAY
$FILES
DICTIN=MYDIC
DATAIN=MYDAT
$RECODE
R10 = BRAC(V3,0-10=1,11-20=2)
R11 = SUM(V7,V8)
NAME R10 NIVEL EDUC., R11ING. TOT
$SETUP
INGRESO POR EDUC, SEXO
BADDATA=SKIP
CONVARS=(R10,V2) DEPVAR=R11

Una descripci
on completa de la facilidad Recode se encuentra en el captulo Facilidad Recode.

Captulo 4

Facilidad Recode
4.1.

Reglas de codificaci
on

Las proposiciones de Recode, tienen la forma:


eti

proposicion

donde eti es una etiqueta opcional de 1-4 caracteres que comienza en la posicion 1 de la lnea y
est
a seguido, por lo menos, de un espacio en blanco. Las proposiciones sin etiqueta deben comenzar en
la posicion 2 o mas alla.
La etiqueta permite que proposiciones de control tales como GO TO, se refieran a una proposicion en
particular, por ej. GO TO ST1. No puede haber etiquetas en las proposiciones de iniciacion (CARRY,
MDCODES, NAME).
Para continuar una proposicion en otra lnea, coloque un gui
on al final de la lnea y contin
ue en la
lnea siguiente en cualquier posicion.
La longitud maxima de lnea es de 255 caracteres y el n
umero total maximo de caracteres por cada
proposicion es de 1024, excluidos los guiones de continuacion y los blancos despues de cada gui
on.

4.2.

Conjunto de muestra de proposiciones Recode

Para dar alguna idea de como encajan los elementos del lenguaje de Recode, se ofrece a continuacion una
muestra de proposiciones Recode.
$RECODE
IF V5 LT 8 THEN REJECT
(excluir casos donde V5 < 8)
IF NOT MDATA(V6) THEN R51=TRUNC(V6/4) ELSE R51=0
R52=BRAC(V10,0-24=1,25-49=2,50-74=3, (agrupar valores de V10)
74-99=4,TAB=1)
R53=BRAC(V11,TAB=1)
(agrupar V11 igual que V10)
IF V26 INLIST(1-10) THEN R54=1 AND R55=1 ELSE R54=2
IF R54 EQ 1 THEN GO TO L1
R55=99
R56=V15 + V35
GO TO L2
L1 R56=99
L2 R57=COUNT(1,V20-V27,V29)
(cuantas de las variables tienen el valor 1)
NAME R52 EDAD AGRUPADA, R53 EDAD AGRUPADA EN MATRIM
MDCODES R55(99),R56(99)

34

4.3.

Facilidad Recode

Tratamiento de datos faltantes

Recode no verifica autom


aticamente los datos faltantes en las variables con excepcion de las funciones
especiales MAX, MEAN, MIN, STD, SUM, VAR. Por lo tanto el usuario debe controlar especficamente los
datos faltantes antes de hacer c
alculos con las variables. Para este prop
osito est
a la funci
on MDATA, por ej.
IF MDATA (V5,V6) THEN R1=999 ELSE R1=V5+V6
Hay dos funciones adicionales, MD1 y MD2, las cuales devuelven el primero o segundo c
odigo de datos
faltantes para una variable, por ej.
R2=MD1(V6)
asigna a R2 el valor del primer c
odigo de datos faltantes de V6.
Finalmente, se pueden asignar c
odigos de datos faltantes a variables R o V con la proposicion de definicion
MDCODES, por ej.
MDCODES R3(8,9)
asigna 8 y 9 como primero y segundo c
odigo de datos faltantes de R3.
Algunas veces un conjunto de proposiciones de Recode no asigna un valor a una variable de resultado para
un registro de datos en particular. La variable R tomara entonces el valor MD1 por defecto 1,5 109 el cual
le fue asignado como valor inicial. Para cambiarla a un valor mas aceptable, debemos ensayar si el valor es
grande y si es as, asignar el valor de datos faltantes apropiado, por ej.
IF R100 GT 1000000 THEN R100=99
MDCODES R100(99)

4.4.

Como funciona Recode

Verificaci
on de sintaxis e interpretaci
on. Las proposiciones de Recode se leen y se analizan para detectar
errores antes de ser interpretadas por otras proposiciones de control de programa de IDAMS y antes de la
ejecuci
on del programa. Si se encuentran errores, se imprimen mensajes de diagnostico y termina la ejecuci
on
del programa en curso.
Resultados. Recode imprime las proposiciones de Recode que fueron suministradas por el usuario junto
con los errores de sintaxis detectados, si los hubo. Esto se presenta antes de ejecutar el programa, es decir
antes de imprimir la interpretaci
on de las proposiciones de control del programa.
Iniciaci
on antes de comenzar a procesar un archivo de datos. Las tablas, c
odigos de datos faltantes,
nombres, etc. se inician (de acuerdo con las proposiciones de iniciacion/definicion proporcionadas por el
usuario) antes de comenzar la lectura de los datos, siempre que no haya errores de sintaxis. Las variables R
en las proposiciones CARRY se inician con cero.
Iniciaci
on antes de procesar cada caso. Al comenzar el procesamiento de cada caso y antes de la
ejecuci
on de las proposiciones de Recode para ese caso, todas las variables R con excepcion de aquellas
listadas en proposiciones CARRY, se inician con los valores internos por defecto de IDAMS para datos
faltantes (1,5 109 ).
Ejecuci
on de proposiciones de Recode. La recodificacion propiamente dicha tiene lugar despues de
haber ledo los datos para un caso y despues de haber aplicado el filtro principal. Los casos que no pasan
el filtro no van a las rutinas de Recode. Por lo tanto, no se pueden usar variables de Recode en filtros
principales.
El uso de las proposiciones de Recode es secuencial (es decir, la primera proposicion se usa primero, despues
la segunda, la tercera, etc.) excepto cuando se modifican con las proposiciones GO TO, BRANCH, RETURN,
REJECT, ENDFILE, ERROR (proposiciones de control). Cuando se han usado todas las proposiciones, el
caso se pasa al programa IDAMS que se ejecuta.
Cuando el programa ha terminado de usar el caso, se procesa el siguiente caso que haya pasado el filtro, la
variables R se re-inician (excepto las variables en CARRY) con los c
odigos de datos faltanes y se ejecutan
las proposiciones de Recode para ese caso y as sucesivamente hasta llegar al final del archivo de datos.

4.5 Operandos b
asicos

35

Prueba de proposiciones Recode. Se pueden presentar errores de logica que no son detectables por la
facilidad Recode. Para verificar los resultados buscados contra los generados por Recode, las proposiciones
de Recode deben probarse sobre unos pocos registros con el programa LIST y el par
ametro MAXCASES
iniciado por ejemplo a 10. Se pueden inspeccionar entonces los valores de las variables de entrada y de las
correspondientes variables de resultados.
Archivos usados por Recode. Cuando se encuentra un comando $RECODE en el archivo Setup, las
lneas subsiguientes se copian a un archivo de trabajo en la unidad FT46. El programa RECODE lee las
proposiciones Recode de este archivo y las analiza para buscar errores antes de pasar a la interpretaci
on
de otras proposiciones de control y antes de la ejecuci
on cualquier programa IDAMS. Si hay errores, se
imprimen los mensajes de diagnostico y se termina la ejecuci
on de ese programa de IDAMS.
Las proposiciones interpretadas se escriben en forma de tablas en un archivo de trabajo en la unidad FT49
en la cual las lee el programa IDAMS que se ejecuta.
Los mensajes acerca de las proposiciones de Recode se escriben en la unidad FT06 junto con los resultados
del programa que se ejecuta.

4.5.

Operandos b
asicos

Variables. Las variables de Recode se refieren a variables de entrada (variables V) o variables de resultado
(variables R). Se definen as:
Variables de entrada (Vn). V seguida de un n
umero. Estas son variables que siguen la definicion
del diccionario de entrada. Sus valores se pueden cambiar con Recode (por ej. V10=V10+V11).
Normalmente deben ser numericas, pero se pueden usar variables alfabeticas que no tengan mas
de cuatro (4) caracteres y en particular se pueden recodificar a valores numericos.
Variables de resultado (Rn). R seguida de un n
umero (1 a 9999). Estas son variables creadas
por el usuario. Las variables R, (excepto aquellas listadas en proposiciones CARRY - ver mas
adelante) se incian con el valor de datos faltantes por defecto 1,5 109 antes de procesar cada
caso.
Para usar una variable R en un programa, se especifica una R (en lugar de V) en la lista de variables correspondiente a un par
ametro de palabra clave (por ej. WEIGHT=R50 o VARS=(R10R20)). Cuando los programas las escriben, se puede identificar un n
umero de variables de resultado con un signo negativo. As, la variable 10 es V10 y la variable -10 es R10. Es menos
confuso usar n
umeros diferentes para las variables de resultado a los n
umeros de las variables de
entrada. Las variables R siempre son numericas.
Constantes num
ericas. Las constantes pueden ser enteras o decimales, positivas o negativas, por ej. (3,
5.5, -50, -0.5).
Constantes de caracteres. Las constantes de caracteres se encierran entre comillas sencillas (por ej.
ABCXYZ, M). Una comilla sencilla dentro de una constante de caracteres se debe representar por dos
comillas sencillas adyacentes (por ej. DONTS se escribira: DONTS). Se usan constantes de caracteres
en la proposicion NAME para asignar nombres a nuevas variables. Tambien pueden usarse en expresiones
logicas para verificar valores de variables alfabeticas (por ej. IF V10 EQ M); para estas comparaciones, solo
se usan los cuatro primeros caracteres y los valores de las variables/constantes con longitud inferior a cuatro
(4) caracteres, se llenan de espacios en blanco a la derecha. Las constantes de caracteres no se pueden usar
en funciones aritmeticas (a excepci
on de BRAC).

4.6.

Operadores b
asicos

Operadores aritm
eticos. Los operadores aritmeticos se usan dentro de los operandos aritmeticos. Los
operadores aritmeticos en orden de precedencia, son:

36

Facilidad Recode

EXP x
*
/
+
-

(negacion)
(exponenciacion a la potencia x, donde -181 < x < 175)
(multiplicaci
on)
(division)
(adicion)
(sustraccion)

Operadores relacionales. Los operadores relacionales se usan para determinar si existe o no alguna relacion
particular entre dos valores aritmeticos. Los operadores relacionales son:
LT
LE
GT
GE
EQ
NE

(menor que)
(menor o igual que)
(mayor que)
(mayor o igual que)
(igual)
(no igual)

Operadores l
ogicos. Los operadores logicos se usan entre operandos logicos. Los operandos logicos toman
solamente los valores verdadero o falso. Los operadores logicos son:
NOT
AND
OR

4.7.

(ambos)
(uno u otro)

Expresiones

Una expresion es una representacion de un valor. Una constante sola, una variable o una referencia de
una funci
on son expresiones. Las combinaciones de constantes, variables, funciones y otras expresiones con
operadores, son tambien expresiones. Recode puede evaluar expresiones aritmeticas y expresiones logicas.
N
otese que se pueden usar parentesis en cualquier parte dentro de una expresion para clarificar el orden de
evaluacion deseado.
Expresiones aritm
eticas. Las expresiones aritmeticas se construyen con operadores aritmeticos y variables,
constantes y funciones aritmeticas. Las expresiones aritmeticas producen un valor numerico. Ejemplos:
V732
44
R67/V807 + 25
LOG(R10)

(el
(la
(25
(el

valor de V732)
constante 44)
m
as el valor de R67 dividido por el valor de V807)
logaritmo del valor de R10)

Expresiones l
ogicas. Las expresiones logicas se eval
uan para obtener un valor de verdadero o falso. No
existen variables logicas en el lenguaje Recode, de manera que el resultado de la evaluacion de expresiones
logicas no se puede asignar a una variable. Las expresiones logicas se pueden usar solamente con proposiciones
IF. Ejemplos:
R5 EQ V33
Verdadera, si el valor de R5 es igual al valor de V333, falsa si no lo es.
(V62 GT 10) OR (R5 EQ V333)
Verdadera, si alguna de las dos expresiones logicas resulta verdadera, falsa si ambas expresiones logicas
resultan falsas.
MDATA(V10,R20) AND V9 GT 2
Verdadera, si el valor de V10 o el valor de R20 corresponden a un c
odigo de datos faltantes y si el valor de
V9 es mayor que 2, falsa, si lo anterior no se cumple.

4.8 Funciones aritm


eticas

4.8.

37

Funciones aritm
eticas

Todas las funciones aritmeticas devuelven un solo valor numerico. Las listas de argumentos para las funciones aritmeticas pueden ser listas simples encerradas entre parentesis o listas altamente estructuradas que
involucren elementos de palabras clave y elementos en posiciones especficas dentro de la lista. Las funciones
disponibles son:
Functi
on

Ejemplo

Prop
osito

ABS
BRAC

ABS(R3)
BRAC(V5,TAB=1,ELSE=9, 1-10=1,11-20=2)
BRAC(V10,F=1,M=2)
COMBINE V1(2), V42(3)
COUNT(1,V20-V25)

Valor absoluto
Agrupamiento univariado

COMBINE
COUNT
LOG
MAX
MD1,MD2
MEAN
MIN
NMISS
NVALID
RAND
RECODE
SELECT

LOG(V2)
MAX(V10-V20)
MD1(V3)
MEAN(V5-V8,MIN=2)
MIN(V10-V20)
NMISS(V3-V6)
NVALID(V3-V6)
RAND(0)
RECODE V7,V8,(1/1)(1/2)=1, (2-3/3)=2, ELSE=0
SELECT (BY=V10,FROM=R1-R5,9)

SQRT
STD
SUM
TABLE
TRUNC
VAR

SQRT(V2)
STD(V20-V25,MIN=4)
SUM(V6,V8,V9-V12,MIN=3)
TABLE(V5,V3,TAB=2,ELSE=9)
TRUNC(V26/3)
VAR(V6,R5-R10,MIN=7)

Recodificacion alfabetica
Combinaci
on de 2 variables
Conteo de ocurrencias de un valor a traves
de un conjunto de variables
Logaritmo de base 10
Valor maximo
Valor de c
odigo de datos faltantes
Valor medio
Valor mnimo
Nr. de valores de datos faltantes
Nr. de valores de datos no faltantes
N
umero aleatorio
Recodificacion multivariada
Seleccion del valor de una variable dentro de un
conjunto de variables seg
un una variable ndice
Raz cuadrada
Desviaci
on est
andar
Suma de valores
Recodificacion bivariada
Parte entera del valor del argumento
Variancia

A continuacion se muestra la sintaxis exacta para cada funci


on.
ABS. La funci
on ABS devuelve un valor que corresponde al valor absoluto del argumento entregado a la
funci
on.
Prototipo: ABS(arg)
Donde arg es cualquier expresion aritmetica para la cual se tomara el valor absoluto.
Ejemplo:
R5=ABS(V5-V6)
BRAC. La funci
on BRAC devuelve un valor que es el resultado de operaciones especficas (reglas) ejecutadas
sobre una sola variable.
Prototipo: BRAC(var [,TAB=i] [,ELSE=valor] [,regla1,...,regla n] )
Donde:
var es cualquier variable tipo V o tipo R cuyos valores se van a probar.
TAB=i numera el conjunto de reglas y la clausula ELSE asociada en este uso de BRAC (opcional)
o bien, se refiere a un conjunto de reglas establecidas en una utilizaci
on previa de BRAC. Nota: la
clausula ELSE se considera parte del conjunto de reglas de recodificacion.
ELSE=valor se usa cuando el valor de var no se puede encontrar dentro de las reglas dadas. Si
ELSE=valor se omite, entonces se asume por defecto ELSE=99, esto significa entonces que BRAC
siempre recodifica.

38

Facilidad Recode
regla 1, regla 2, ..., regla n es el conjunto de reglas que definen los valores que BRAC debe devolver,
seg
un el valor de var. Las reglas se expresan en la forma: x=c, en donde x define uno o mas c
odigos y c
es el valor a devolver cuando el valor de var sea igual al c
odigo o c
odigos definidos por x. Las posibles
reglas (m es cualquier constante numerica o de caracteres) son:
>m=c (si el valor de var es mayor que m, devuelva c)
<m=c (si el valor de var es menor que m, devuelva c)
m=c (si el valor de var es igual a m, devuelva c)
m1-m2=c (si el valor de var est
a dentro del rango de m1 a m2, es decir m1<=var<=m2, devuelva
c).
Se pueden dar tantas reglas como sean necesarias. Se eval
uan de izquierda a derecha y se usa la primera
que se satisfaga. N
otese que se usan los smbolos > y < a cambio de los operadores logicos GT y
LT.
ELSE, TAB y las reglas se pueden especificar en cualquier orden.
No se permiten rangos de valores de variables alfabeticas, por ej. A-B no estan permitidos.

Ejemplos:
R1=BRAC(V10,TAB=1,ELSE=9,1-10=1,11-20=2,<0=0)
El valor de R1 sera 1 si la variable V10 est
a dentro del rango de 1 a 10, sera 2 si la variable V10 est
a dentro
del rango 11 a 20 y sera cero (0) cuando el valor de V10 sea menor que cero (0). Si V10 tiene cualquier otro
valor, por ej. -3, 10.5, 25, 0, entonces se aplica la clausula ELSE y R1 toma el valor de 9. Estas reglas de
agrupamiento entre parentesis se denominan tabla 1, de manera que pueden usarse posteriormente, por ej.
R2=V1 + BRAC(V2, TAB=1) * 3
En este ejemplo, para la variable V2 se aplicaran las mismas reglas que a la variable V10 de agrupamiento
entre parentesis del ejemplo previo. El valor asignado a la variable R2 sera igual al de la variable V1 +
(resultado del agrupamiento multiplicado por 3).
R100=BRAC(V10,F=1,M=2,ELSE=9)
Este es un ejemplo de recodificacion de una variable alfabetica, la cual tiene los valores F o M recodificados
a los valores numericos 1 y 2.
COMBINE. La funci
on COMBINE devuelve un valor u
nico para cada combinaci
on de valores de las
variables que se usan como argumentos. Esta funci
on se utiliza normalmente con variables categoricas.
Prototipo: COMBINE var1 (n1), var2 (n2),...,varm(nm)
Donde:
var1 a varm son las variables tipo V o tipo R que se van a combinar.
n1 a nm son los c
odigos maximos +1 de las respectivas variables.
La lista de argumentos para la funci
on COMBINE, no va entre parentesis.
Cada variable debe tener solamente valores no-negativos y enteros.
Los valores devueltos se calculan con la siguiente formula:
V1 + (n1 * V2) + (n1 * n2 * V3) + (n1 * n2 * n3 * V4) etc.
El usuario, sin embargo, determina normalmente el resultado de la funci
on al listar las combinaciones
de valores en una tabla, como se ve en el primer ejemplo que sigue a continuacion.
Ejemplos:
R1=COMBINE V6(2), R330(3)

4.8 Funciones aritm


eticas

39

Suponga que V6 tiene dos c


odigos (0,1) que representan hombres y mujeres respectivamente y R330 tiene
tres c
odigos que representan j
ovenes, personas con edad media y viejos, la proposicion combinara los c
odigos
de V6 y R330 para devolver una sola variable R1 as:
V6

V330

R1

0
1
0
1
0
1

0
0
1
1
2
2

0
1
2
3
4
5

Hombres
Mujeres
Hombres
Mujeres
Hombres
Mujeres

j
ovenes
j
ovenes
con edad media
con edad media
viejos
viejas

Como V6 tiene dos c


odigos y R330 tiene tres, R1 tendra seis. En el ejemplo anterior, si V6 tuviera c
odigos
1 y 2 en vez de 0 y 1, el valor maximo se debera establecer como 3. Esto permitira los valores 0,
1 y 2, aunque el c
odigo 0 nunca aparecera. Para evitar estos c
odigos extra, el usuario debe primero
agrupar aquellas variables que produzcan un conjunto continuo de c
odigos que comiencen desde 0, es decir
BRAC(V6,1=0,2=1).
Restricciones:
Puede tener un maximo de 13 variables.
La funci
on COMBINE no se puede usar con otras funciones dentro de la misma proposicion de asignacion.
Se debe tener especial cuidado en especificar con los c
odigos maximos cuando se usa la funci
on COMBINE, de lo contrario, se generar
an valores no-
unicos. Por ejemplo, con COMBINE V1(2), V2(4) la
funci
on devolver
a un valor de 7 para el par de valores, V1=1 y V2=3, y tambien devolvera un valor
de 7 para el par de valores V1=3 y V2=2. Si los valores de 3 pueden existir para V1, entonces n1 se
debe especificar como 4 (1 + c
odigo maximo).
COUNT. La funci
on COUNT devuelve un valor que es igual al n
umero de veces que se presenta un valor
de una variable o de una constante como el valor de una de las variables en la lista varlist.
Prototipo: COUNT(val,varlist)
Donde:
val es normalmente una constante pero tambien puede ser una variable tipo V o tipo R.
varlist especifica las variables V y/o las variables R, cuyos valores se verificaran contra val.
Ejemplos:
R3=COUNT(1,V20-V25)
R3 se le asignar
a un valor igual al n
umero de veces que se repita el valor 1 dentro de las seis variables
V20-V25. Esto se podra usar, por ejemplo, para contar el n
umero de respuestas SI en un conjunto de
preguntas hechas a un encuestado.
R5=COUNT(V1,V8-V10)
R5 se le asignar
a un valor igual al n
umero de veces que se repita el valor de V1 dentro de las variables
V8-V10.
LOG. La funci
on LOG devuelve un valor de punto flotante que es el logaritmo con base 10 del argumento
entregado a la funci
on.
Prototipo: LOG(arg)
Donde arg es cualquier expresion aritmetica para la cual se quiere calcular su logaritmo con base 10.
Ejemplos:
R10=LOG(V30)

40

Facilidad Recode

Nota: el logaritmo de cualquier n


umero X en otra base B, se puede calcular facilmente a partir de la siguiente
transformaci
on:
R1=LOG(X)/LOG(B)
Para el logaritmo natural (base e), sera: R1=2.302585 * LOG(X).
As R1=2.302585 * LOG(V30) asignar
a a R1 el logaritmo natural de la variable V30.
MAX. La function MAX devuelve el valor maximo de un conjunto de variables. Se excluyen datos faltantes.
El argumento MIN se puede usar para especificar el mnimo n
umero de valores validos a partir del cual se
devolvera el valor maximo. En caso contrario, se devuelve el valor 1,5 109 asignado por defecto para datos
faltantes.
Prototipo: MAX(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el n
umero mnimo de valores validos, para los cuales se calcula el valor maximo. El valor por
defecto para n es 1.
Ejemplo:
R12=MAX(V20-V25)
MD1, MD2. La funci
on MD1 (o MD2) devuelve un valor que es el primero (o segundo) c
odigo de datos
faltantes de la variable suministrada en el argumento.
Prototipo: MD1(var)

MD2(var)

Donde var es cualquier variable de entrada (variable V) o cualquier variable de resultado previamente definida
(variable R).
Ejemplo:
R12=MD2(V20)
Para cada caso procesado, R12 tendra asignado el segundo c
odigo de datos faltantes para la variable de
entrada V20.
MEAN. La funci
on MEAN devuelve el valor de la media de un conjunto de variables. Se excluyen valores de
datos faltantes. El argumento MIN se usa para especificar el n
umero mnimo de valores validos para calcular
la media. En caso contrario, el sistema devuelve el valor por defecto 1,5 109 para datos faltantes.
Prototipo: MEAN(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el n
umero mnimo de datos validos, para los cuales se calcula el valor de la media. El valor por
defecto para n es 1.
Ejemplo:
R15=MEAN(R2-R4,V22,V5,MIN=2)
El resultado sera el valor de la media de las variables especificadas, si por lo menos dos de las variables tienen
valores no-faltantes. En caso contrario, el resultado ser
a 1,5 109 .
MIN. La funci
on MIN devuelve el valor mnimo de un conjunto de variables. Se excluyen valores de datos
faltantes. El argumento MIN se puede usar para especificar el mnimo n
umero de valores validos, a partir
del cual se calculara el valor mnimo. En caso contrario, se devuelve el valor 1,5 109 asignado por defecto
para datos faltantes.
Prototipo: MIN(varlist [,MIN=n] )

4.8 Funciones aritm


eticas

41

Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el n
umero mnimo de valores validos, para los cuales se calcula el valor mnimo. El valor por
defecto para n es 1.
Ejemplo:
R10=MIN(V5,V7,V9,R2)
NMISS. La funci
on NMISS devuelve el n
umero de valores faltantes en un conjunto de variables.
Prototipo: NMISS(varlist)
Donde varlist es una lista de variables tipo V y tipo R.
Ejemplo:
R22=NMISS(R6-R10)
El valor que se devuelve, depende de cuantas de las variables R6-R10 tienen valores faltantes. El valor
maximo es de 5 para un caso, en el cual todas las cinco variables tengan datos faltantes.
NVALID. La funci
on NVALID devuelve el n
umero de valores validos (no faltantes) dentro de un conjunto
de variables.
Prototipo: NVALID(varlist)
Donde varlist es una lista de variables tipo V o tipo R.
Ejemplo:
R2=NVALID(V20,V22,V24)
El valor que se devuelve, depende de cuantas variables tienen valores validos. Se obtendr
a un maximo valor
de 3, si todas las variables tienen todos los valores validos. Se devuelve cero cuando faltan datos para todas
las tres variables.
RAND. La funci
on RAND devuelve un valor que corresponde a un n
umero aleatorio uniformemente distribuido, basado en los argumentos comienzo y lmite que se describen a continuacion.
Prototipo: RAND(comienzo [,lmite] )
Donde:
comienzo es una constante entera que se usa para iniciar la secuencia aleatoria. Si comienzo es cero,
entonces se usa el tiempo ordinario del reloj.
lmite es un argumento opcional. Es una constante entera que se usa para especificar el rango (3 significa
un rango de 1 a 3). El valor asumido por defecto es 10, es decir que el rango por defecto es de 1 a 10.
Ejemplos:
R1=RAND(0)
IF RAND(0) NE 1 THEN REJECT
Para cada caso procesado, R1 tendra asignado un n
umero aleatorio, uniformemente distribuido de 1 a 10.
La secuencia se inicia con el tiempo del reloj al ejecutar RAND por primera vez. N
otese que RAND puede
usarse con la proposicion REJECT para seleccionar una muestra aleatoria de casos. En el segundo ejemplo,
el resultado sera la inclusi
on de una muestra aleatoria de 1/10 de casos.
RECODE. La funci
on RECODE se usa para devolver un valor basado en los valores concurrentes de m
variables.
Prototipo: RECODE var1,var2,...,varm [,TAB=i] [,ELSE=valor] [,regla1,regla2,...,regla n]

42

Facilidad Recode

Donde:
var1,var2,...,varm es una lista de hasta 12 variables tipo V y tipo R que se van a probar.
TAB=i numera el conjunto de reglas de recodificacion establecidas en este uso de RECODE (opcional)
o bien, se refiere a un conjunto de reglas establecidas en una utilizaci
on previa de RECODE. Nota: la
clausula ELSE no se considera parte del conjunto de reglas de recodificacion.
ELSE=valor (opcional), indica el valor a devolver cuando ninguna de las listas de c
odigos coincide con
los valores de las variables. Aunque normalmente es una constante, tambien puede ser una expresion
aritmetica. Si ELSE se omite y ninguna de las listas de c
odigos coincide con los valores de las variables,
la funci
on no devuelve ning
un valor, es decir que su valor permanece sin modificarse. Cuando es la
primera proposicion de asignacion para una variable, entonces su valor sera el dato de entrada para
una variable tipo V o datos faltantes para una variable tipo R.
regla1, regla2, ..., regla n, es el conjunto de reglas que definen los valores a devolver, seg
un los valores
de var1, var2,..., varm. Cada regla es de la forma (lista de c
odigos 1)(lista de c
odigos 2) ... (lista de
c
odigos p)=c. Cada lista de c
odigos es de la forma (a1/a2/.../am) donde a1 es el c
odigo que se
compara con var1, a2 es el c
odigo que se compara con var2, etc. El valor c corresponde al n
umero que
se devuelve cuando var1, var2,...,varm coinciden con los c
odigos definidos en cualquiera de las listas de
c
odigos.
El prototipo para una regla es:
(a1/a2/.../am)(b1/b2/.../bm)...(x1/x2/.../xm)=c
Cada lista de c
odigos contiene una lista y/o un rango de valores para cada variable, por ej. con dos
variables, (3/2)(6-9/4)(0/1,3,5)=1.
Los c
odigos en una lista de c
odigos pueden separarse por una diagonal (indica AND) o por una barra
vertical (indica OR), aunque solo una o la otra pueden usarse en una lista de c
odigos dada.
Por ejemplo:
(a1/a2/a3)=c
(la funci
on devolver
a c si var1=a1 y var2=a2 y var3=a3)
(a1|a2|a3)=c
(la funci
on devolver
a c si var1=a1 o var2=a2 o var3=a3)
Las reglas se examinan de izquierda a derecha. La primera lista de c
odigos que coincida con los valores
de la lista de variables, determina el valor a devolver.
La lista de argumentos para la funci
on RECODE no va entre parentesis.
TAB, ELSE y las reglas pueden estar en cualquier orden.
Ejemplos:
R7=RECODE V1,V2,(3/5)(7/8)=1,(6-9/1-6)=2
A R7 se le asignar
a un valor basado en los valores de V1 y V2. En este ejemplo, R7 sera 1 si V1=3 y V2=5,
o si V1=7 y V2=8. R7 sera 2 si V1=6-9 y V2=1-6. En los dem
as casos, R7 permanecer
a sin cambios (ver
atr
as).
R7=RECODE V1,V2,TAB=1,ELSE=MD1(R7),(3/5)(7/8)=1,(6-9/1-6)=2
A R7 se le asignar
a un valor igual al del ejemplo anterior, excepto que a R7 se le asignar
a su propio valor
de MD1 cuando no se cumplan las reglas. TAB=1 permitira usar estas mismas reglas en otra llamada a la
funci
on RECODE.
Restricci
on: Cuando se use la funci
on RECODE, esta debe ser el u
nico operando al lado derecho del signo
igual.
SELECT. La funci
on SELECT devuelve el valor de la constante o variable en la lista que se define en
FROM y el cual se encuentra en la misma posicion definida por el valor de la variable en BY. (Advertencia:
si el valor de la variable en BY es menor que 1 o mayor que el n
umero de variables en la lista de FROM,

4.8 Funciones aritm


eticas

43

resulta un error fatal). Puede haber hasta 50 elementos en la lista de FROM, por lo tanto el valor maximo
para la variable en BY es 50. Una funci
on SELECT puede combinarse con otras funciones, operaciones y
variables y formar as expresiones complejas. Nota: la funci
on SELECT selecciona el valor de una sola
variable de un conjunto de variables; la proposici
on SELECT selecciona la variable que se va a usar para
el resultado. (Ver la secci
on Proposiciones especiales de asignacion para una descripcion de la proposicion
SELECT).
Prototipo: SELECT (FROM=lista de variables y/o constantes, BY=variable)
Ejemplo:
R10=SELECT (FROM=R1-R3,9,BY=V2)
R10 tendra asignado el valor de R1, R2, R3 o 9 para los valores 1, 2, 3 y 4 de la variable V2 respectivamente.
SQRT. La funci
on SQRT devuelve un valor que es la raz cuadrada del argumento entregado a la funci
on.
Prototipo: SQRT(arg)
Donde arg es cualquier expresion aritmetica.
Ejemplo:
R5=SQRT(V5)
STD. La funci
on STD devuelve la desviacion est
andar de los valores de un conjunto de variables. Se excluyen
valores de datos faltantes. El argumento MIN se usa para especificar el n
umero mnimo de valores validos
para los cuales se va a calcular la desviacion est
andar. En caso contrario el sistema asume el valor para datos
faltantes de 1,5 109 .
Prototipo: STD(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el n
umero mnimo de valores validos, para los cuales se calcula la desviacion est
andar. El valor
por defecto para n es 1.
Ejemplo:
R5=STD(V20-V24,R56-R58,MIN=3)
SUM. La funci
on SUM devuelve la suma de los valores de un conjunto de variables. Se excluyen valores
faltantes. El argumento MIN especifica el n
umero mnimo de valores validos de un caso, para calcular la
suma. En caso contrario se asume el valor para datos faltantes por defecto 1,5 109 .
Prototipo: SUM(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el n
umero mnimo de valores validos, para los cuales se calcula la suma. El valor por defecto para
n es 1.
Ejemplo:
R8=SUM(V20,V22,V24,V26,MIN=3)
Si tres o mas variables, tienen valores validos, se devuelve la suma de estas variables, de lo contrario, se
devuelve el valor 1,5 109 .
TABLE. La funci
on TABLE devuelve un valor basado en los valores concurrentes de dos variables.
Prototipo: TABLE (r, c, [TAB=i,] [ELSE=valor,] [PAD=valor,] COLS c1,c2,...,cm,
ROWS r1(vals fila r1),r2(vals fila r2),...,rn(vals fila rn))

44

Facilidad Recode

Donde:
r es una variable o constante que se usara como ndice de fila de una tabla.
c es una variable o constante que se usara como ndice de columna de una tabla.
TAB=i numera la tabla definida en este uso de TABLE (opcional) o bien, se refiere a una tabla definida
en una utilizaci
on previa de TABLE.
ELSE=valor da un valor para usar con pares de valores que no est
an definidos en la tabla. Este valor
puede ser una expresion aritmetica. El valor de ELSE usa 99 por defecto cuando no se especifica, o sea
que TABLE siempre devuelve un valor.
PAD=valor da un valor para insertar en cualquier celda definida por la especificaci
on COLS, pero no
definida por la especificaci
on ROWS.
TAB, ELSE y PAD pueden estar en cualquier orden.
c1,c2,...,cm son las columnas de la tabla. Se pueden usar rangos en la definicion de columnas.
r1,r2,...,rn son las filas de la tabla. El tama
no total de la tabla sera m por n, donde m es el n
umero de
columnas y n es el n
umero de filas.
(vals fila r1), (vals fila r2),...,(vals fila rn) son los valores retornados dependiendo de los valores de r y
c. Los valores se dan en el mismo orden de la especificaci
on de columnas; el primer valor corresponde
en c1, el segundo en c2, etc. Se pueden usar rangos en la definicion de los valores de las filas.
Ejemplos: suponga la siguiente tabla:

Fil:

Col:

2
3
5
6
8

1
1
1
3
9

1
2
2
3
9

2
2
2
3
9

2
2
2
3
9

3
3
3
3
9

4
4
4
4
9

R1=TABLE (V6, V4, TAB=1, ELSE=0, PAD=9, COLS 1-6, ROWS 2(1,1,2,2,3,4), 3(1,2,2,2,3,4),5(1,2,2,2,3,4),6(3,3,3,3,3,4),8(9))
Si V6 es igual a 5 y V4 es igual a 3, entonces a R1 se le asigna el valor 2 (la interseccion de la fila 5 y la
columna 3).
Si V6 es igual a 2 y V4 es igual a 6, entonces a R1 se le asigna el valor 4 (la interseccion de la fila 2 y la
columna 6).
Si V6 es igual a 4 y V4 es igual a 2, entonces a R1 se le asigna el valor 0 (la fila 4 no est
a definida; se usa el
valor de la clausula ELSE).
R5=TABLE (3, V8, TAB=7, ELSE=TABLE(V1,V8,TAB=1) )
Este ejemplo usara la tabla llamada 7 con 3 como ndice de fila y el valor de V8 como ndice de columna.
Si un valor de V8 no est
a en la tabla 7, entonces se usara la tabla denominada 1, con ndice de fila la
variable V1 e ndice de columna la variable V8.
TRUNC. La funci
on TRUNC devuelve el valor entero de un argumento.
Prototipo: TRUNC(arg)
Donde arg es cualquier expresion aritmetica de la cual se va a tomar la parte entera.
Ejemplo:
R5=TRUNC(V5)
R5 se le asignar
a el valor de la variable de entrada V5 truncada a un entero.

4.9 Funciones l
ogicas

45

VAR. La funci
on VAR devuelve la variancia de los valores de un conjunto de variables, excluyendo los datos
faltantes. El argumento MIN se usa para especificar el n
umero mnimo de valores validos, para los cuales se
va a calcular la variancia. En caso contrario el sistema asume el valor para datos faltantes de 1,5 109 .
Prototipo: VAR(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el n
umero mnimo de valores validos, para los cuales se calcula la variancia para el caso. El valor
por defecto para n es 1.
Ejemplo:
R9=VAR(V5-V10)

4.9.

Funciones l
ogicas

Cuando se eval
uan funciones logicas, estas devuelven un valor verdadero o falso. No se pueden usar como
operandos aritmeticos. Se usan funciones logicas en expresiones logicas y las expresiones logicas comprenden
la porcion de prueba de la proposicion condicional IF prueba THEN .... Las funciones disponibles son:
Funci
on

Exjemplo

Prop
osito

EOF
INLIST

IF EOF THEN GO TO NEXT


IF V5 INLIST(2,4,6) THEN R100=1 ELSE R100=0
IF MDATA(V5,V6) THEN R101=99

Verifica el final del archivo de datos


Busca una lista de valores

MDATA

Verifica datos faltantes

EOF. La funci
on EOF se usa para agrupar valores a traves de los casos. Ver el ejemplo 10 dado en la secci
on
Ejemplo de uso de proposiciones de Recode. La presencia de la funci
on EOF hace que las proposiciones
de Recode se ejecuten una vez mas despues de encontrar el fin de archivo. El valor de la funci
on EOF es
verdadero durante de esta pasada de las proposiciones de Recode, y es falso todas las otras veces.
Para la pasada final a traves de las proposiciones de Recode, las variables tipo V tendran el valor que tenan
despues de haber procesado totalmente el u
ltimo caso. Las variables tipo R (excepto aquellas listadas en
proposiciones CARRY), tendran asignado el valor 1,5 109 . Las variables tipo R de CARRY permanecer
an
sin modificacion. El usuario debe tener cuidado de establecer un camino correcto a seguir a traves de las
proposiciones de Recode cuando se haya llegado al fin de archivo.
Prototipo: EOF
Ejemplo:
IF R1 NE V1 OR EOF THEN GO TO L1
INLIST. La funci
on INLIST (abreviada IN) devuelve un valor verdadero si el resultado de una expresion
aritmetica es uno de los valores de un conjunto especificado de valores. Si la expresion es igual a un valor
por fuera del conjunto de valores, la funci
on devuelve el valor falso.
Prototipo: expr INLIST(valores)

expr IN(valores)

Donde:
expr es cualquier expresion aritmetica o una variable individual.
valores es una lista de valores. Pueden ser discretos y/o un rango de valores.
Ejemplos:
IF R12 INLIST(1-5,9,10) THEN V5=0

46

Facilidad Recode

Si R12 tiene un valor de 1,2,3,4,5,9 o 10, la funci


on INLIST devuelve un valor verdadero y a la variable
de entrada V5 se le asigna el valor cero. En caso contrario, la funci
on INLIST devuelve un valor falso y la
variable de entrada V5 mantiene su valor original.
IF (V3 + V7) IN(2,4,5,6) THEN R1=1 ELSE R1=9
Si la suma de las variables de entrada V3 y V7 resulta en el valor 2,4,5 o 6, entonces INLIST devuelve un
valor verdadero y la variable de resultado R1 contendra el valor 1. En caso contrario, INLIST devolvera el
valor falso y a la variable R1 se le asignar
a el valor 9.
MDATA. La funci
on MDATA devuelve un valor verdadero cuando cualquiera de las variables que se han
pasado a la funci
on tienen valores de datos faltantes; en caso contrario, la funci
on devuelve el valor falso.
Esta funci
on se usa ampliamente ya que los valores de datos faltantes no se verifican autom
aticamente en la
evaluacion de expresiones, con excepci
on de las funciones MAX, MEAN, MIN, STD, SUM y VAR.
Prototipo: MDATA(varlist)
Donde varlist es una lista de variables de tipo V y tipo R. Puede haber un maximo de 50 variables en esta
lista.
Ejemplo:
IF MDATA(V1,V5-V6) THEN R1=MD1(R1) ELSE R1=V1+V5+V6
Si alguna variable de la lista V1, V5, V6 tiene un valor igual a su c
odigo MD1 de datos faltantes, o est
a en
el rango especificado por su c
odigo MD2, la funci
on MDATA devuelve un valor verdadero y a la variable
de resultado R1 se le asigna el valor de su primer c
odigo de datos faltantes. En caso contrario, la funci
on
MDATA devuelve el valor falso y a la variable R1 se le asigna el resultado de la suma de V1, V5 y V6.

4.10.

Proposiciones de asignaci
on

Estas son las unidades estructurales principales del lenguaje Recode. Se usan para asignar un valor a un
resultado. Se puede usar cualquier n
umero entre 1 y 9999 para una variable R, pero se evita confusi
on si los
n
umeros R son distintos de los n
umeros V de las variables en el diccionario, por ej. si hay 22 variables en
el diccionario entonces comience la numeraci
on de las variables R desde R30. Tambien se pueden usar para
asignar un valor nuevo a una variable de entrada. En este caso se pierde el valor original de la variable de
entrada durante la ejecuci
on del programa de IDAMS.
Prototipo: variable=expresion
Donde:
variable es cualquier variable de entrada (Vn) o de resultado (Rn).
expresion es cualquier expresion aritmetica que use opcionalmente funciones aritmeticas de Recode.
N
otese que para las variables usadas en la expresion, no se verifican autom
aticamente los datos faltantes
con excepcion de las funciones especiales MAX, MEAN, MIN, STD, SUM, VAR. En todos los dem
as
casos, se deben introducir proposiciones especificas para la verificacion de datos faltantes en donde sea
necesario. Para un ejemplo, ver Proposiciones condicionales mas adelante.
Ejemplos:
R10=5
A R10 se le asigna el valor constante 5.
R5=2*V10 + (V11 + V12)/2
Se puede usar cualquier expresion aritmetica y los parentesis se utilizan para cambiar la precedencia normal
de los operadores aritmeticos.
V20=SQRT(V20)
El valor en V20 se reemplaza por el valor de su raz cuadrada al usar la funci
on SQRT.

4.11 Proposiciones especiales de asignaci


on

47

R20=BRAC(V6,0-15=1,16-25=2,26-35=3,36-90=4,ELSE=9)
A R20 se le asigna el valor 1, 2, 3, 4 o 9 de acuerdo con el grupo dentro del cual este el valor de la variable
V6.
R10=MD1(V10)
A R10 se le asigna un valor igual al primer c
odigo de datos faltantes de V10.

4.11.

Proposiciones especiales de asignaci


on

DUMMY. La proposicion DUMMY produce una serie de variables ficticias, codificadas 0 o 1, a partir
de una sola variable.
Prototipo: DUMMY var1,...,varn USING var(val1)(val2)...(valn) [ELSE expresion]
Donde:
var1, var2,...,varn es una lista de las variables ficticias cuyos valores est
an definidos por esta proposicion.
Pueden ser variables tipo V o tipo R, pueden listarse individualmente o en rangos y deben estar
separadas por comas (por ej. R1-R3, R10, R7-R9, V20). El orden especificado se mantiene.
Las referencias dobles (R1, R3, R1) son validas.
var es cualquier variable tipo V o tipo R. El valor de esta variable es probado contra las listas de valores
(val1)(val2) etc. para asignar el valor apropiado a las variables ficticias.
(val1)(val2)...(valn) son listas de valores que se usan para asignar el valor de las variables ficticias.
Debe haber el mismo n
umero de listas como variables ficticias haya (var1, var2, ..., varn). Las listas de
valores pueden tener constantes solas o rangos o ambos.
expresion es cualquier expresion aritmetica que se usa como valor para todas las variables ficticias
cuando el valor de la variable var no se encuentra en una de las listas de valores. El valor por defecto
para expresion es la constante 0.
El valor de la variable var se prueba contra las listas de valores (el n
umero de listas de valores debe ser
igual al n
umero de variables ficticias); si var tiene un valor en la primera lista de valores, la primera
variable ficticia toma el valor 1 y las otras 0; si el valor de var se presenta en la segunda lista de valores,
la segunda variable ficticia toma el valor 1 y las dem
as 0, etc. Si el valor de var no se presenta en
ninguna de las listas de valores, todas las variables ficticias toman el valor especificado despues de la
clausula ELSE (valor por defecto 0).
Ejemplo:
DUMMY R1-R3 USING V8(1-4)(5,7,9)(0,8) ELSE 99
La tabla siguiente muestra los valores de R1, R2 y R3, basados en valores diferentes de V8:
V8:
R1:
R2:
R3:

1
1
0
0

2
1
0
0

3
1
0
0

4
1
0
0

5
0
1
0

7
0
1
0

8
0
0
1

9
0
1
0

0
0
0
1

OTROS
99
99
99

SELECT. La proposicion SELECT hace que la variable en la lista de FROM que tiene una posicion igual
al valor de la variable BY, tome el valor de la expresion a la derecha del signo igual, es decir, selecciona a
cual variable se le va a asignar un valor. Si el valor de la variable en BY es menor que 1 o mayor que el
n
umero de variables en la lista de FROM, resulta un error fatal. El n
umero maximo de variables en la lista
de FROM es de 50, por lo tanto, el maximo valor de la variable en BY es 50.
Prototipo: SELECT (FROM=lista de variables, BY=variable)=expresi
on
Ejemplos:
SELECT (FROM=R1, V3-V10, BY=R99)=1
SELECT (BY=V1, FROM=V8, R2, R5)=R7*5

48

Facilidad Recode

En el primer ejemplo, R1 tomara el valor de 1 si R99 es igual a 1; V3 tomara el valor de 1 si R99 toma el
valor de 2,...; y V10 tomara el valor de 1 si R99 toma el valor de 9. Si R99 es mayor que 9 o menor que 1,
se presentar
a un error fatal. Los valores de las ocho variables no referidas no se alterar
an.
SELECT se puede usar para un bucle as:
L1

R99=1
SELECT (BY=R99, FROM=R1, V3-V10)=0
IF R99 LT 9 THEN R99=R99+1 AND GO TO L1

Las nueve variables R1, V3-V10, tomaran el valor cero una despues de la otra, en tanto que R99 se incrementa
de 1 a 9. El bucle se completa cuando R99 es igual a 9 y a todas las variables se han asignado valores iniciales.

4.12.

Proposiciones de control

Las proposiciones de Recode se ejecutan normalmente sobre cada caso en orden desde el primero hasta el
u
ltimo. El orden se puede cambiar con una de las proposiciones de control:
Proposici
on

Ejemplo

Prop
osito

BRANCH
CONTINUE
ENDFILE
ERROR
GO TO
REJECT
RELEASE

BRANCH (V16,L1,L2)
CONTINUE
ENDFILE
ERROR
GO TO TOWN
REJECT
RELEASE

RETURN

RETURN

Ramificar seg
un el valor de una variable
Continuar con la siguiente proposicion
No procesar mas casos despues de este
Terminar la ejecuci
on completamente
Ramificar incondicionalmente
Rechazar el caso
Entregar el caso al programa para ser procesado
y asumir la ejecuci
on de las proposiciones Recode
nuevamente despues, sin leer otro caso
Usar el caso para analisis, sin recodificacion adicional

BRANCH. La proposicion BRANCH cambia la secuencia en la cual se ejecutan las proposiciones, seg
un el
valor de la variable.
Prototipo: BRANCH(var, etiquetas)
Donde:
var es una variable tipo V o tipo R.
etiquetas es una lista de una o mas etiquetas de proposiciones de 1-4 caracteres.
Ejemplo:
BRANCH(R99,LAB1,LAB2,LAB3)
La transferencia se hace a LAB1, LAB2 o LAB3, seg
un el valor de R99 sea 1, 2 o 3.
CONTINUE. CONTINUE es una proposicion simple que no ejecuta ninguna operaci
on. Se usa como un
punto conveniente al cual se hace la transferencia.
Prototipo: CONTINUE
Ejemplo:

AT
THAT

IF V17 EQ 10 THEN GO TO AT
R10=V11
GO TO THAT
R20=V11*100
CONTINUE

ENDFILE. La proposicion ENDFILE hace que Recode cierre el dataset de entrada, exactamente como si
hubiera encontrado un fin de archivo. Si se ha especificado la funci
on EOF, la funci
on EOF tomara un valor

4.12 Proposiciones de control

49

verdadero para una pasada final a traves de las proposiciones de Recode desde el principio, despues de
haber ejecutado ENDFILE.
Prototipo: ENDFILE
Ejemplo:
IF V1 EQ 100 THEN ENDFILE
Esta proposicion se puede usar para probar un conjunto de proposiciones Recode o un setup de IDAMS con
los primeros n casos de un dataset.
ERROR. La proposicion ERROR hace que Recode termine con un mensaje de error que indica el n
umero
del caso y el n
umero de la proposicion de Recode en donde se present
o el error.
Prototipo: ERROR
Ejemplo:

IF R6 EQ 2 THEN GO TO B
ERROR
CONTINUE

GO TO. La proposicion GO TO se usa para cambiar la secuencia en la cual se ejecutan las proposiciones.
Cuando no hay un GO TO o un BRANCH, cada proposicion se ejecuta secuencialmente.
Prototipo: GO TO etiqueta
Donde etiqueta es una etiqueta de proposicion de 1 a 4 caracteres. La proposicion identificada por la etiqueta
puede estar antes o despues de GO TO. (Advertencia: tenga cuidado al referir una proposicion antes de GO
TO ya que pueden formarse bucles infinitos).
Ejemplo:

TOWN
1

GO TO TOWN
.
.
R10=R5
GO TO 1
R10=R5+V11
R11=...

REJECT. La proposicion REJECT hace que Recode rechace el caso presente y obtenga otro caso. El nuevo
caso se procesa desde el comienzo de las proposiciones de Recode. De esta manera, REJECT se puede usar
como un filtro con variables tipo R.
Prototipo: REJECT
Ejemplo:
IF MDATA (V8,V12-V13) THEN REJECT
RELEASE. La proposicion RELEASE hace que Recode entregue el caso al programa para procesarlo y
tome nuevamente el control despues de ese procesamiento sin leer otro caso. Despues de tomar el control
nuevamente, Recode contin
ua con la primera proposicion de Recode. RELEASE se puede usar para separar
un registro individual en varios casos para analisis. Nota: cuando se utiliza la proposicion RELEASE tenga
cuidado de no crear bucles infinitos.
Prototipo: RELEASE
Ejemplo:
CARRY (R1)
R1=R1+1
IF R1 LT V1 THEN RELEASE ELSE R1=0
RETURN. La proposicion RETURN hace que Recode regrese el control al programa de IDAMS. No se
ejecutan mas proposiciones Recode para el caso en cuestion.

50

Facilidad Recode

Prototipo: RETURN
Ejemplo:

4.13.

IF V8 LT 12 THEN GO TO A
RETURN
R10=V8

Proposiciones condicionales

La proposicion IF permite la asignacion condicional y/o control condicional. Es una proposicion compuesta
con varias proposiciones simples conectadas por las palabras clave THEN, AND y ELSE.
Prototipo:
IF prueba THEN prop1 [AND prop2 AND...prop n] [ELSE eprop1] [AND eprop2 AND...eprop n]
Donde:
prueba puede ser cualquier combinaci
on de expresiones logicas (incluidas funciones logicas) conectadas
con AND u OR y opcionalmente precedidas de NOT. Puede estar entre parentesis, pero esto no es
necesario.
prop1,...,prop n,eprop1,...,eprop n puede ser cualquier proposicion de asignacion o proposicion de control (excepto CONTINUE).
La(s) proposicion(es) entre THEN y ELSE se ejecutan si el resultado de la prueba es verdadero.
La(s) proposicion(es) despues de ELSE se ejecutan si el resultado de la prueba es falso. Si no hay
clausula ELSE, se ejecuta la siguiente proposicion.
Las palabras clave THEN y ELSE pueden estar seguidas cada una por cualquier n
umero de proposiciones, conectadas cada una con la palabra clave AND.
Ejemplos:
IF V5 EQ V6 THEN R1=1 ELSE R1=2
Asigne el valor 1 a la variable R1 si V5 es igual a V6; si no lo es, entonces asigne a R1 el valor 2.
IF MDATA(V7,V10-V12) THEN R6=MD1(V7) AND R10=99 ELSE R6=V7+V10+V11 AND R10=V12*V7
Asigne a la variable R6, el primer c
odigo de datos faltantes de la variable V7 cuando cualquiera de las
variables V7, V10, V11, V12 sean iguales a sus c
odigos de datos faltantes; si esta condicion no se cumple,
entonces haga R6 igual a la suma de V7, V10 y V11 y haga tambien R10 igual al producto de las variables
V12 y V7.
IF (V5 NE 7 AND R8 EQ 9) THEN V3=1 ELSE V3=0
Haga V3 igual a 1 cuando V5 no sea igual a V7 y R8 sea igual a 9 (debe cumplir ambas condiciones), en
caso contrario haga V3 igual a 0. (Nota: los parentesis no son necesarios).
IF MDATA(V6) OR V10 LT 0 THEN GO TO X
Si falta el valor de V6 o si V10 es menor que cero, vaya a la proposicion etiquetada X; de lo contrario,
continue con la siguiente proposicion.

4.14.

Proposiciones de definici
on/de asignaci
on de valores iniciales

Estas proposiciones se ejecutan una sola vez, antes de comenzar el procesamiento de los datos, para asignar
de valores iniciales que se van a utilizar durante la ejecuci
on de proposiciones de Recode. No se pueden usar
dentro de expresiones y no pueden tener etiquetas.

4.14 Proposiciones de definici


on/de asignaci
on de valores iniciales

51

CARRY. La proposicion CARRY hace que los valores de las variables listadas sean llevados de caso en caso.
Las variables de CARRY son asignadas los valores iniciales con ceros solo una vez (antes de comenzar a leer
los datos). Las variables de CARRY se pueden usar como contadores o acumuladores para agrupamiento.
Prototipo: CARRY(varlist)
Donde varlist es una lista de variables tipo R.
Ejemplo:
CARRY(R1,R5-R10,R12)
MDCODES. La proposicion MDCODES cambia los c
odigos de datos faltantes del diccionario para las
variables de entrada o asigna c
odigos de datos faltantes a variables de resultado. Los valores por defecto que
usa Recode para variables tipo R y tipo V que no tengan especificaci
on de datos faltantes en el diccionario
y que no tengan especificaci
on en MDCODES son MD1=1,5 109 y MD2=1,6 109 .
Prototipo: MDCODES (varlist1)(md1,md2),(varlist2)(md1,md2), ..., (varlistn)(md1,md2)
Donde:
varlist1, varlist2, ..., varlistn son listas de variables individuales y de rangos de variables.
md1 y md2 son respectivamente, el primero y segundo c
odigos de datos faltantes para todas variables
listadas. Los c
odigos de datos faltantes que tengan decimales deben especificarse con el punto decimal
explcito. Advertencia: solo se retienen 2 cifras decimales para variables R y se redondean los valores
apropiadamente, por ej. md1 especificado como 9.999 se trata como 10.00 .
Se puede omitir cualquiera de los dos c
odigos md1 o md2. Si se omite md1, se debe colocar una coma
que preceda al valor de md2.
Ejemplos:
MDCODES V5(8,9)
El primer c
odigo de datos faltantes para V5 sera 8; el segundo sera 9.
MDCODES (R9-R11)(,99), V7(8,9), V6(9)
Para R9, R10 y R11, el primer c
odigo de datos faltantes sera 1,5 109 y el segundo sera 99.
Para V7, el primer c
odigo de datos faltantes sera 8 y el segundo sera 9.
Para V6, el primer c
odigo de datos faltantes sera 9 y el segundo sera 1,6 109 .
NAME. La proposicion NAME asigna nombres a variables tipo R o reasigna nombres a variables tipo V.
Prototipo: NAME var1 nombre1, var2 nombre2, ..., varn nombre n
Donde:
var1,var2,...,varn son variables tipo V o tipo R.
nombre1, nombre2, ..., nombre n son los nombres a asignar a estas variables.
El n
umero maximo de caracteres por nombre es 24; si es mas largo, el nombre se trunca a 24 caracteres.
El valor por defecto del nombre para una variable tipo R es RECODED VARIABLE Rn.
Para incluir un apostrofo en un nombre (por ej. PERSONS), usar dos comillas sencillas (por ej.
PERSONS).
Ejemplo:
NAME R1 V5 + V6, V1 PERSONS STATUS

52

Facilidad Recode

4.15.

Ejemplos de uso de proposiciones de Recode

Supongamos que existe un archivo de datos con las siguientes variables:


V1
V2
V4
V5

Identificador de ciudad
Sexo
Edad
Nivel educativo

V8
V9
V10
V21
V22
V31
V32
V33
V34
V35
V41
V42
V43
V44
V45

Ingreso del primer empleo


Ingreso del segundo empleo
Ingreso del compa
nero(a)
Peso en Kg (un decimal)
Altura en metros (dos decimales)
Posee autom
ovil?
Posee TV?
Posee estereo?
Posee refrigerador?
Posee microcomputador?
N
umero de hijos
Edad primer hijo
Edad segundo hijo
Edad tercer hijo
Edad cuarto hijo

1=hombre, 2=mujer
21-98, 99=sin definir
1=primaria, 2=secundaria,
3=universitaria, 9=sin definir

1=si, 2=no, 9=sin definir

A continuacion se muestra someramente la construcci


on de algunas variables de analisis posibles a partir de
estos datos.
1. Ingreso total. Si faltan los ingresos del primero y del segundo empleos, entonces faltar
a el ingreso total.
Si falta solo uno de ellos entonces u
selo como ingreso total.

END

IF NVALID(V8,V9) EQ 0 THEN R101=-1 AND GO TO END


IF NVALID(V8,V9) EQ 2 THEN R101=V8+V9 AND GO TO END
IF MDATA(V8) THEN R101=V9 ELSE R101=V8
CONTINUE
MDCODES R101(-1)

R101=SUM(V8,V9,MIN=1)
IF R101 EQ 1.5 * 10 EXP 9 THEN R101=-1
MDCODES R101(-1)

2. No usar el caso si el ingreso total es cero o falta.


IF MDATA(R101) OR R101 EQ 0 THEN REJECT
3. Componer el ingreso con 3/4 del ingreso propio mas 1/4 del ingreso del compa
nero(a). Si falta el ingreso
del compa
nero(a) sup
ongalo como cero.
IF MDATA(V10) THEN V10=0
IF MDATA(R101) THEN R102=MD1(R102) ELSE R102=R101 * .75 + V10 * .25
NAME R102Ingreso compuesto
MDCODES R102(99999)
4. Peso del encuestado agrupado en liviano (30-50), medio (51-70), y pesado (70+).
R103=BRAC(V21,30-50=1,50-70=2,70-200=3,ELSE=9)
N
otese que V21 est
a grabada con un decimal. Para asegurarase de que valores tales como 50.2 tengan
una asignacion a una categora, los rangos dentro de la proposicion BRAC deben traslaparse. Recode
trabaja de izquierda a derecha y asigna el c
odigo al primer rango en el cual se presente el caso. De esta
manera, un valor de 50.0 se ubicar
a en la categora 1 pero un valor de 50.1 se ubicar
a en la categora
2. Para colocar valores de 50.0 en la categora 2, usar

4.15 Ejemplos de uso de proposiciones de Recode

53

R103=BRAC(V21, <50=1, <70=2, <200=3, ELSE=9)


Un valor de 49 caera en todas las tres categoras pero Recode usara el primer rango valido que
encuentre (codigo 1). Un valor de 50 no satisfara al primer rango y se asignar
a el c
odigo 2.
5. Indice de alfluencia con valores de 0-5 de acuerdo con el n
umero de bienes posedos.
R104=COUNT(1,V31-V35)
Si todos los tems se codifican 1 (s), el ndice, R104, tomara el valor 5. Si todos se codifican 2 (no) o
faltan, entonces el ndice sera cero.
6. Crear tres variables ficticias (codificadas 0/1) a partir de la variable educacion.
DUMMY R105-R107 USING V5(1)(2)(3)
Las tres variables de resultado tomaran los valores siguientes:
V5=1
V5=2
V5=3
V5 no es ni 1
ni 2 ni 3

R105=1,
R105=0,
R105=0,
R105=0,

R106=0,
R106=1,
R106=0,
R106=0,

R107=0
R107=0
R107=1
R107=0 (valor por defecto si no hay valor para ELSE)

7. Edad del hijo menor. Las edades de los u


ltimos 4 hijos se guardan en las variables 42 a 45, el mayor
est
a en V42. Si alguien tiene 3 hijos, entonces el valor de V44 da la edad del menor de los hijos; si
alguien tiene 4 o mas hijos entonces queremos V45. En este caso, V41 (n
umero de hijos) se puede usar
como un ndice para seleccionar la variable correcta con la funci
on SELECT.
IF V41 GT 4 THEN V41=4
IF V41 EQ 0 OR MDATA(V41) THEN R109=99 ELSE R109=SELECT (FROM=V42-V45, BY=V41)
NAME R109Edad ultimo hijo
MDCODES R109(99)
8. Relacion peso/edad como un decimal redondeado al entero proximo.
IF MDATA (V21,V22) OR V22 EQ 0 THEN R111=99 AND R112=99 ELSE R111=V21/V22 AND R112=TRUNC ((V21/V22) + .5)
NAME R111relaci
on peso/edad dec, R112 P/E REDONDEADO
MDCODES (R111,R112)(99)
9. Crear una variable sencilla combinando sexo y nivel educacional en cuatro grupos as:
Mujeres, solo educacion primaria
Mujeres, educacion+ secundaria
Hombres, solo educacion primaria
Hombres, educacion+ secundaria
Metodo a. Primero se reducen los c
odigos para sexo y educacion a c
odigos contiguos que comienzan
desde 0, se guardan los resultados temporalmente en las variables R901, R902.
R901=BRAC (V5,1=0,2=1,ELSE=9)
R902=BRAC (V6,1=0,2=1,3=1,ELSE=9)
Ahora se usa la funci
on COMBINE asegurandose primero de que los casos con codigos falsos se coloquen
en una categora de datos faltantes.
IF R901 GT 1 OR R902 GT 1 THEN R110=9 ELSE R110=COMBINE R901(2),R902(2)

54

Facilidad Recode
Metodo b. Usar IFs, colocando un valor por defecto de 9 al comienzo.
R110=9
IF V5 EQ
IF V5 EQ
IF V5 EQ
IF V5 EQ

1
1
2
2

AND
AND
AND
AND

V6
V6
V6
V6

EQ 1 THEN R110=1
INLIST (2,3) THEN R110=2
EQ 1 THEN R110=3
INLIST (2,3) THEN R110=4

Metodo c. Usar la funci


on RECODE.
R110=RECODE V5,V6(1/1)=1,(1/2-3)=2,(2/1)=4,(2/2-3)=5,ELSE=9
10. Agrupaci
on de casos con Recode. Supongamos que queremos analizar los datos (que consisten en registros de nivel individual) a nivel ciudad, por ejemplo producir una tabla que muestre la distribuci
on
de ciudades por ingreso (V8,V9) y el % de gente con automovil propio en la ciudad (V31). Podramos
hacerlo con AGGREG para agrupar los datos a nivel de ciudad y despues ejecutar TABLES. Alternativamente, podemos usar las proposiciones CARRY, EOF, y REJECT del lenguaje Recode y usar
TABLES directamente.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

VIL

CARRY (R901,R902,R903,R904)
IF (R901 EQ 0) THEN R901=V1
IF (R901 NE V1) THEN GO TO VIL
IF EOF THEN GO TO VIL
R902=R902+1
R903=R903+V8+V9
IF (V31 EQ 1) THEN R904=R904+1
REJECT
R101=(R904*100)/R902
R101=BRAC(R101,<25=1,<50=2,<75=3,<101=4)
R102=R903/R902
R102=BRAC(R102,<1000=1,<2000=2,<5000=3,ELSE=4)
R901=V1
R902=1
R903=V8+V9
IF (V31 EQ 1) THEN R904=1 ELSE R904=0
NAME R102ingr. promedio, R101% con autom
ovil

R901 es una variable de trabajo usada para para retener el identificador de la ciudad; cuando se lee
el primer caso (R901=0), a R901 se le asigna el valor del identificador de ciudad (V1); R902 a R904
son variables de trabajo para el n
umero de personas en la ciudad, el ingreso total de las personas en
la ciudad y el n
umero de personas con autom
ovil en la ciudad respectivamente.
Mientras que el identificador de ciudad se mantiene igual, se acumulan los datos en las variables R902
a R904 (cuyos valores se llevan a medida que se lean nuevos casos). Entonces el caso se rechaza (no
pasa al analisis) y se lee el nuevo caso. Cuando aparece un cambio en el identificador de ciudad, se
ejecutan las instrucciones en la etiqueta VIL: los contenidos que tienen las variables R9902, R903 y
R904 en ese momento se usan para calcular las variables requeridas (media agrupada del ingreso y %
agrupado de propietarios de autom
oviles) y entonces se pasan estas variables al analisis despues de
colocar primero en las variables de trabajo los valores para el u
ltimo caso ledo (el primer caso de la
siguiente ciudad). Cuando se llega al final del archivo, necesitamos estar seguros de que se usaran los
datos de la u
ltima ciudad. La proposicion 4 hace esto.

4.16.

Restricciones

1. El maximo n
umero de variables R es 200.
2. El maximo n
umero de tablas numeradas (BRAC, RECODE, TABLE) es 20.
3. El maximo n
umero de caracteres en una proposicion de Recode, excluidos los guiones de continuacion
es 1024.

4.17 Nota

55

4. El n
umero maximo de etiquetas de proposiciones es aproximadamente 60.
5. El maximo n
umero de constantes, incluidas las de todas las tablas es aproximadamente 1500.
6. El maximo n
umero de nombres que se pueden definir en proposiciones NAME es 70.
7. El maximo n
umero de valores de datos faltantes que se pueden definir en proposiciones MDCODES es
100 y solo se retienen 2 cifras decimales para variables R.
8. El n
umero maximo de anidamientos con parentesis dentro de una proposicion (es decir, parentesis
dentro de parentesis) es 20.
9. El maximo n
umero de operadores aritmeticos es aproximadamente 400.
10. El maximo n
umero de variables en proposicion SELECT es 50.
11. El maximo n
umero de proposiciones IF es aproximadamente 100.
12. El maximo n
umero de anidamientos de funciones (es decir, referencias a funci
on como argumentos de
funci
on) es 25.
13. El maximo n
umero de proposiciones es aproximadamente 200.
14. El maximo n
umero de etiquetas en una proposicion BRANCH es 20.
15. El maximo n
umero de variables de CARRY es 100.
16. El m
aximo n
umero de variables dado en la secci
on de restricciones de cada documentacion de
programa de analisis, incluye variables R y variables V usadas en el analisis y variables V usadas en
Recode pero no en el analisis. As, si un programa tiene un maximo de 40 variables y se usan 40 variables
de entrada en el analisis, no se pueden usar mas variables de entrada que las 40 en las proposiciones
de Recode. Las variables R definidas en las proposiciones de Recode y que no se usan en el analisis, no
se necesita tenerlas en cuenta para el m
aximo n
umero de variables.
17. El filtrado se hace antes de la recodificacion, de manera que a las variables de resultado no se les pueda
hacer referencia en filtros principales.

4.17.

Nota

Recodificacion univariada/bivariada se puede hacer con los metodos de TABLE, IF y RECODE. M


as adelante
hay una breve comparaci
on de estos metodos teniendo en cuenta dos aspectos de ejecuci
on.
Totalidad
TABLE ... hace una recodificacion completa. Se produce un valor de resultado, a
un cuando el valor de
entrada este por fuera de la tabla (por que ELSE asume 99 por defecto).
RECODE permite recodificacion parcial. Si ninguna prueba es verdadera y no hay valor especificado
para ELSE, no hay recodificacion.
Tama
no de tabla
Las recodificaciones bivariadas y univariadas completas de gran tama
no tienen mayor eficiencia si usa
TABLE e IF...
Para una recodificacion grande, uno a uno, univariada, con una lnea de una tabla rectangular, TABLE
es mejor que IF...

Captulo 5

Manejo y an
alisis de datos
5.1.
5.1.1.

Validaci
on de datos con IDAMS
Visi
on general

Antes de iniciar un analisis de datos con cualquier programa, los datos necesitan, normalmente, validarse.
Esta validaci
on comprende tpicamente tres etapas:
1. Verificar si los datos son completos, es decir verificar que todos los casos esperados est
an presentes en
el archivo de datos y verificar que existan los registros correctos para cada caso cuando hay registros
multiples per caso.
2. Verificar que las variables numericas solo tienen valores numericos y verificar que los valores son
validos.
3. Verificar la consistencia entre las variables.
Como muchos otros programas estadsticos, IDAMS exija que debe haber la misma cantidad de datos para
cada caso. Si los datos para un caso abarcan varios registros, entonces cada caso debe abarcar exactamente
el mismo conjunto de registros. Si algunas variables no se aplican a algunos casos, entonces se deben asignar
valores faltantes. La capacidad de IDAMS de verificacion de intercalaci
on de registros, permite chequear
que cada caso de datos tenga el conjunto correcto de registros. Esto se hace con el programa MERCHECK
el cual produce un archivo de salida rectangular en el cual se han eliminado los registros extra/duplicados
y los casos con registros faltantes se han rellenado o bien se les han asignado registros ficticios.
La verificacion de valores no numericos en variables numericas y la conversi
on opcional de campos en blanco
a valores numericos especificados por el usuario la hace el programa BUILD. La verificacion de otros c
odigos
invalidos la hace el programa CHECK en donde los que son c
odigos validos se definen en proposiciones
especiales de control o bien se toman de registros C en el diccionario que describe los datos.
Si los datos se introducen con la Interfaz del Usuario de WinIDAMS, no se permiten caracteres no numericos
(excepto campos en blanco) en campos numericos. M
as aun, existe la posibilidad de verificacion de c
odigos
durante la introduccion de datos y de una verificacion general de c
odigos invalidos en todo el archivo de
datos. Los registros C del diccionario, se usan para este prop
osito.
Las verificaciones de consistencia se pueden expresar en el lenguaje Recode de IDAMS y se usan con el
programa CONCHECK para listar casos con incosistencias.
Los errores hallados en cualquiera de estos pasos se pueden corregir o bien con la Interfaz del Usuario o con
el programa CORRECT. Una secuencia tpica de pasos para la deteccion y correccion de errores con IDAMS
se describe con mas detalle a continuacion.

58

5.1.2.
Paso 1

Manejo y an
alisis de datos

Verificaci
on si los datos son completos
Producir tablas de resumen que muestren la distribuci
on de los casos dentro de las unidades
de muestreo, zonas geogr
aficas, etc. para obtener una verificacion contra los totales esperados.
Esto es particularmente u
til en una encuesta por muestreo. Por ejemplo, supongamos que se
va a hacer una encuesta de hogares. Se toma una muestra seleccionando primero unidades
primarias de muestreo (UPM), despues, hasta cinco (5) areas dentro de cada UPM y luego se
entrevistan los hogares ubicados dentro de esas areas. La distribuci
on que tienen en los datos
los hogares por UPM y
area se puede obtener con la preparaci
on de un peque
no diccionario
que contenga solamente las dos variables: UPM y area. La tabla tendra el siguiente aspecto:
V2 AREA

V1

UPM

01
02
03
.
.

01

02

03

04

05

3
10

6
4

2
2

Esta tabla puede compararse con la bit


acora de registro de los entrevistadores para verificar
si en el archivo existen los datos de todas las entrevistas tomadas.
Pasos 2, 3 y 4 son necesarios solo cuando hay mas que un registro por caso.
Paso 2
Paso 3

Paso 4

Los registros de datos primarios se clasifican en orden de identificacion de casos/identificacion


de registros con SORMER.
Los datos primarios ya clasificados, se verifican con MERCHECK para ver si se tiene el grupo
correcto de registros para cada caso. El archivo de salida contiene solamente casos buenos,
es decir, aquellos con registros correctos. Los registros que sobren y los duplicados se eliminan.
Los casos con registros faltantes se eliminan o se completan. Se imprimen todos los casos que
tengan errores de intercalaci
on.
A continuacion se hacen las correcciones de los errores detectados por MERCHECK. Esto se
pueden hacer de varias maneras:
Recapturar casos malos e intercalarlos con el archivo de salida de MERCHECK usando
SORMER.
Editar los datos primarios originales con un editor del sistema y repetir los pasos 2 y 3.
Recapturar los casos malos, hacer los pasos 2 y 3 con estos datos y despues intercalar
el archivo de salida de esta ejecuci
on del paso 3 con el archivo de salida original del paso
3.
Con cualquier metodo que se escoja, el programa MERCHECK debe ejecutarse nuevamente
con el archivo corregido para cerciorarse de que no hay errores.

5.1.3.
Paso 5

Paso 6

Paso 7

Detecci
on de valores no num
ericos e inv
alidos
Preparar un diccionario para todas las variables, con las proposiciones apropiadas para el
manejo de campos en blanco. Ejecutar BUILD. La salida es un dataset IDAMS (archivos
Datos y Diccionario). Todos los valores no numericos inesperados se convierten en nueves (9)
y se indican en los resultados.
Con TABLES imprimir distribuciones de frecuencias de todas las variables cualitativas y los
valores maximos, mnimos y medios de las variables cuantitativas. Esto da una idea inicial
del contenido de los datos y muestra cuales variables tienen c
odigos invalidos (variables cualitativas) o valores muy grandes o muy peque
nos (variables cuantitativas). Tambien pueden
compararse posteriormente con un listado similar producido despues de la limpieza para observar c
omo la validaci
on afecto los datos.
Preparar proposiciones de control que especifiquen los c
odigos validos o los rangos de valores
para cada variable. Estas proposiciones se pueden preparar con anterioridad para todas las

5.2 Manejo/transformaci
on de datos

Paso 8

59

variables, o bien, despues del paso 6, solamente para aquellas variables de las cuales se sabe
que tienen c
odigos invalidos. Usar el dataset de salida del paso 5 como entrada al programa
CHECK para obtener un listado que muestre los casos que tienen valores invalidos. Tengase
en cuenta que la especificaci
on de c
odigos validos para las variables tambien se puede tomar
de los registros C del diccionario, si estos se introdujeron en el paso 5.
Preparar la correccion de errores en variables detectados en los pasos 5 y 7. Usar el programa
CORRECT para actualizar el dataset IDAMS creado en el paso 5.
Tengase en cuenta que las correcciones tambien se podran hacer con la Interfaz del Usuario
si el n
umero de casos no es muy grande. Sin embargo, el uso de CORRECT es un metodo
menos propenso a los errores.

Ejecute nuevamente los pasos 7 y 8 hasta que no se encuentren errores.

5.1.4.
Paso 9

Verificaci
on de consistencia
Preparar proposiciones logicas de las verificaciones de consistencia que se van a hacer, por
ej. PREGNANT (V32) = no aplicable si y solo si SEX (V6) = masculino.
Asignar un n
umero de resultado a cada verificacion de consistencia y traducir la logica a
proposiciones de RECODE en donde el resultado se pone en uno (1) para una inconsistencia,
por ej.
IF V6 EQ 1 AND V32 NE 9 THEN R1001=1
IF V6 NE 1 AND V32 EQ 9 THEN R1001=1 ELSE R1001=0

Paso 10

Usar el conjunto de proposiciones de Recode con CONCHECK para imprimir los casos con
errores.
Corregir los casos con errores como en el paso 8.

Ejecute nuevamente los pasos 9 y 10 hasta que no se encuentren errores. Entonces los datos de salida de la
u
ltima ejecuci
on de CORRECT estar
an listos para analizarlos.

5.2.

Manejo/transformaci
on de datos

IDAMS posee un extenso conjunto de ayudas para generar ndices, medidas derivadas, agrupamientos
y otras transformaciones de los datos, incluida la recodificacion alfabetica. Las capacidades utilizadas mas
frecuentemente las provee la facilidad Recode, la cual puede llevar a cabo operaciones temporales en todos los
programas de analisis que usan como entrada un dataset IDAMS. Los resultados de la recodificacion se pueden
guardar como variables permanentes con el programa TRANS. Estas facilidades operan en las variables
que forman un caso y permiten recodificar los valores de una o mas variables, generar nuevas variables
mediante la combinaci
on de las mismas, controlar la secuencia de estas operaciones mediante la ejecuci
on de
proposiciones logicas y ejecutar un n
umero de proposiciones y funciones especializadas adicionales. La nueva
informacion del diccionario, necesaria para describir los resultados de las operaciones realizadas, se produce
autom
aticamente.
Para agrupaciones entre diferentes casos se dispone del programa AGGREG. AGGREG suministra sumas
aritmeticas y medidas relacionadas, rangos y conteos de valores de datos validos dentro de grupos de casos.
Las ejecuciones tpicas de AGGREG involucran el uso previo del programa SORMER para clasificar el
archivo Datos en los grupos deseados.
Hay un n
umero de circunstancias en las cuales es necesario combinar los registros de dos archivos diferentes,
por ejemplo, datos recolectados en puntos diferentes en el tiempo. En la medida en que se reciben nuevos
grupos de datos para las variables, el objetivo es a
nadirlos al registro que contena los datos previos para
el mismo caso o el mismo encuestado. El programa MERGE se encarga de esta labor, incluido el relleno
apropiado con datos faltantes cuando no se encuentren entrevistados en el nuevo grupo. Ejemplos similares
se presentan cuando en un programa de analisis se generan residuos o alg
un tipo de puntajes de escala para
cada caso y se necesita incluirlos en los datos originales.
Un proceso de combinaci
on algo diferente se presenta cuando se van a combinar datos obtenidos de diferentes

60

Manejo y an
alisis de datos

niveles de analisis. Una ilustraci


on de esto es la adici
on de datos de hogares a los registros individuales de
los encuestados. Cuando se ordena un dataset de tal manera que todos los encuestados de un mismo hogar
queden juntos, MERGE hace la intercalaci
on necesaria de los registros duplicados. Se presenta una situaci
on
similar cuando se van a adicionar res
umenes de grupo obtenidos con AGGREG a los registros de cada caso
en el grupo respectivo.
Otro proceso de combinaci
on de datasets, a menudo tambien llamado intercalaci
on, se presenta cuando se
desea a
nadir casos adicionales a un dataset. Los nuevos registros deben ser descritos por el mismo diccionario
del dataset original. Este tipo de intercalaci
on puede lograrse con el programa SORMER.
La mayora de los programas de IDAMS disponen como operaciones temporales, de funciones para la
subdivisi
on de los datos (usando un filtro), con el objeto de seleccionar casos particulares para procesar.
Tambien es posible crear archivos permanentes que contengan subconjuntos de los datasets IDAMS (un
subconjunto de variables o un subconjunto de casos, o ambos). Los programas TRANS y SUBSET son los
mas adecuados para esta clase de tareas, aunque otros programas que producen un dataset IDAMS como
salida, tales como MERGE, tambien pueden usarse. La selecci
on de casos puede hacerse sobre la base de que
solo ciertos casos tienen un interes logico (por ejemplo solo los encuestados de sexo femenino), o tambien
puede hacerse al azar, con la funci
on RAND de Recode en el programa TRANS.
Muchas veces es de gran ayuda para el usuario poder obtener una imagen de los valores almacenados en
el dataset IDAMS, con el objeto de verificar los resultados de los pasos de modificacion de los datos y
ciertamente en cualesquiera otras etapas. El programa LIST es el adecuado para este prop
osito y permite
obtener listados completos de diferentes selecciones de variables y casos especficos. El filtrado o la selecci
on
de los casos que se van a mostrar se puede lograr mediante la combinaci
on de varias variables dentro de
expresiones logicas; un ejemplo sera una selecci
on de solo aquellos registros de mujeres solteras entre los 21 y
los 25 a
nos de edad. Tanto las variables numericas y alfabeticas de un dataset como las variables construidas
con proposiciones de Recode se pueden incluir en la salida impresa. La Interfaz del Usuario tambien tiene
una opcion para imprimir el contenido de un archivo de datos en formato de tabla.

5.3.

An
alisis de datos

La consideracion fundamental del usuario con respecto a la escogencia de un programa de analisis es si este
posee las funciones estadsticas apropiadas. Una gua en esta materia est
a fuera del alcance de este manual.
En la Introduccion se puede hallar un resumen de la funci
on de cada programa de analisis de IDAMS. Se
dan mas detalles en la documentacion individual de cada programa. Las formulas usadas en cada programa
para calcular las estadsticas, y referencias se encuentran en la parte F
ormulas estadsticas y referencias
bibliograficas.

5.4.

Ejemplo de un peque
no trabajo a ejecutar con IDAMS

Supongamos que un dataset IDAMS contiene las respuestas al cuestionario de una encuesta e incluye las
siguientes variables:
V11 representa el sexo del encuestado seg
un la codificacion siguiente:
1. Hombre

2. Mujer

9. Sin informaci
on

V12 representa el ingreso del encuestado en d


olares (99999 = sin informacion).
V13 a V16 representan medidas de actitud ante diferentes situaciones. Las variables se codifican cada una
para reflejar los sentimientos del encuestado as:
1. Muy positivo 2. Positivo 3. Neutro 4. Negativo 5. Muy negativo 8. No sabe
9. Sin informaci
on 0. La pregunta es irrelevante para el encuestado
Supongamos que solo se necesita un agrupamiento o recodificacion de niveles de ingreso as:

5.4 Ejemplo de un peque


no trabajo a ejecutar con IDAMS
C
odigo nuevo
1
2
3
9

61

Significado
Ingreso en el rango $0 a $9999
Ingreso en el rango $10,000 a $29,999
Ingreso de $30,000 o mayor
Rechazado, sin informacion, no sabe

Los cruces deseados son entre la versi


on nuevamente codificada de la variable de ingreso, V12, y cada una
de las variables de actitud V13 a V16. Para este analisis solo se seleccionaran encuestados femeninos.
A continuacion se muestra un setup de IDAMS con las proposiciones de control necesarias para hacer este
trabajo. Los n
umeros entre parentesis a la izquierda identifican cada proposicion de control y la relacionan
a la explicaci
on subsiguiente.
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)

$RUN TABLES
$FILES
DICTIN = ECON.DIC
DATAIN = ECON.DAT
$RECODE
R101=BRAC(V12,0-9999=1,10000-29999=2,30000-99998=3, ELSE=9)
NAME R101Ingreso agrupado
$SETUP
INCLUDE V11=2
EJEMPLO DE TABLES USANDO DATOS ECONOMICOS
*
TABLES
ROWVARS=(R101,V13-V16)
ROWVAR=R101 COLVARS=(V13-V16) CELLS=(FREQS,ROWPCT) STATS=CHI

En pocas palabras, lo siguiente es lo que hace cada proposicion:


(1)
(2)
(3)&(4)
(5)
(6)(7)

(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)

$RUN TABLES es un comando de IDAMS, en el cual se le informa que se va a utilizar el


programa TABLES.
Esta proposicion se
nala el comienzo de especificaci
on de archivos para este trabajo.
El dataset IDAMS se almacena en dos archivos separados. Uno contiene el diccionario y el
otro los datos.
Esta proposicion indica que se requieren transformaciones de los datos. Las proposiciones que
siguen a continuacion se refieren especficamente a los comandos de Recode.
Estas dos lneas (una original y una de continuacion) forman una proposicion de Recode que
indica que el agrupamiento entre corchetes deseado para la variable de ingreso V12, sigue
el esquema indicado atr
as. El resultado de la funci
on BRAC se almacena en la variable de
resultado R101.
Esta proposicion asigna un nombre a la variable R101.
$SETUP es un comando que indica el fin de las proposiciones de Recode y el comienzo de
las proposiciones de control del programa TABLES.
Este es un filtro que indica que los u
nicos casos que se van a usar son aquellos en los cuales
la variable V11 tenga el c
odigo 2, para las mujeres.
Este es un ttulo que contiene el texto que se va a utilizar como encabezamiento de los listados.
Esta lnea especifica los par
ametros principales. Como solo se ha dado un asterisco, para esta
ejecuci
on se escogen las opciones por defecto para todos los par
ametros.
La palabra TABLES se introduce en este punto para separar la informacion global precedente,
valida para toda la ejecuci
on, de las especificaciones de las tablas individuales que siguen.
Esta proposicion solicita distribuciones de frecuencia univariadas para 5 variables.
Ahora se solicitan tablas bivariadas. Las celdas van a contener los conteos (frecuencias) y los
porcentajes de fila; para cada tabla se imprimira la estadstica Ji-cuadrada. Las dos listas de
variables que siguen a las palabras clave ROWVAR y COLVARS especifican aquellas variables
que se utilizaran, para las filas y las columnas de las tablas, respectivamente. De esta manera
se producir
an sucesivamente cuatro tablas: R101 (ingreso agrupado) por V13, V14, V15 y
V16.

Parte II

El trabajo con WinIDAMS

Captulo 6

Instalaci
on
6.1.

Requisitos del sistema

El paquete de programas WinIDAMS est


a disponible para versiones del sistema operacional Windows
de 32 bits (Windows 95, 98, NT 4.0, 2000 y XP).
Se recomienda un procesador Pentium II o un procesador mas veloz y memoria RAM de 64 megabytes.
En todos los sistemas se deben tener cerca de 11 megabytes de espacio libre en disco antes de instalar
el programa WinIDAMS en cada versi
on ling
ustica.

6.2.

Procedimiento de instalaci
on

La versi
on 1.3 de WinIDAMS se almacena en CD de distribuci
on en archivo de autoextraccion
WinIDAMS\English\Install\WIDAMSR13E.EXE
WinIDAMS\French\Install\WIDAMSR13F.EXE
WinIDAMS\Portuguese\Install\WIDAMSR13P.EXE
WinIDAMS\Spanish\Install\WIDAMSR13S.EXE

:
:
:
:

la
la
la
la

versi
on
versi
on
versi
on
versi
on

en
en
en
en

ingl
es
franc
es
portugu
es
espa~
nol

o en un archivo telecargado equivalente.


Para instalar la versi
on en espa
nol:
1. Seleccione WIDAMSR13S.EXE con el explorador Windows.
2. Haga doble click en este archivo y siga las instrucciones de pantalla.
3. Al final del proceso de instalaci
on aparece una caja de di
alogo con la pregunta Do you wish to
install HTML Help 1.3 update now? (Desea instalar la actualizacion de ayuda 1.3 de HTML
ahora?). Se recomienda responder YES (SI).
El procedimiento de instalaci
on crea dos elementos en el Administrador de programas/men
u Inicio,
uno para ejecutar WinIDAMS y uno para desinstalar WinIDAMS. Tambien crea un cono que es un
vnculo/atajo de WinIDAMS.

6.3.

Prueba de la instalaci
on

Un archivo Setup con las proposiciones para ejecutar 4 programas de manejo de datos (CHECK, CONCHECK,
TRANS y AGGREG) y 6 programas de analisis (TABLES, REGRESSN, MCA, SEARCH, TYPOL y RANK)
se copia en la carpeta Trabajo durante la instalaci
on. Para ejecutarlo:
Active WinIDAMS con un doble click en su cono.

66

Instalaci
on
Aparece la ventana principal de WinIDAMS con una aplicacion por defecto desplegada en el panel
izquierdo. Abra la carpeta Setup. Hay all el archivo demo.set con las proposiciones para ejecutar los
10 programas
Con un doble click este archivo se abre en la ventana Setup. Ejec
utelo desde adentro de esta ventana. Los
resultados se escriben en el archivo idams.lst que se abre autom
aticamente en la ventana Resultados.
El archivo demo.lst con la versi
on distribuida de los resultados se encuentra en la carpeta Results.
Compare las dos versiones de resultados.

6.4.
6.4.1.

Archivos y carpetas creados durante la instalaci


on
Carpetas de WinIDAMS

El nombre completo de la carpeta del sistema WinIDAMS se da en Seleccione la Carpeta Destino del
instalador y se crean las siguientes carpetas (ver el captulo Carpetas y archivos para una descripcion mas
detallada) durante la instalaci
on:
de la versi
on en ingl
es

de la versi
on en franc
es

<WinIDAMS13-EN>\appl
<WinIDAMS13-EN>\data
<WinIDAMS13-EN>\temp
<WinIDAMS13-EN>\trans
<WinIDAMS13-EN>\work

<WinIDAMS13-FR>\appl
<WinIDAMS13-FR>\data
<WinIDAMS13-FR>\temp
<WinIDAMS13-FR>\trans
<WinIDAMS13-FR>\work

de la versi
on en portugu
es

de la versi
on en espa~
nol

<WinIDAMS13-PT>\appl
<WinIDAMS13-PT>\data
<WinIDAMS13-PT>\temp
<WinIDAMS13-PT>\trans
<WinIDAMS13-PT>\work

<WinIDAMS13-SP>\appl
<WinIDAMS13-SP>\data
<WinIDAMS13-SP>\temp
<WinIDAMS13-SP>\trans
<WinIDAMS13-SP>\work

6.4.2.

Archivos instalados

Archivos del sistema en la carpeta Sistema


(\WinIDAMS13-EN, \WinIDAMS13-FR, \WinIDAMS13-PT, \WinIDAMS13-SP)
WinIDAMS.exe
Ter32.dll
Hts.dll
unesys.exe
Idame.mst
Idame.xrf
idams.def
Graph32.exe
graphid.ini
Idtml32.exe
Idaddto32.dll
IDAMSC_DLL.dll
Idams.chm
<pgname>.pro

Archivo principal ejecutable de la Interfaz del Usuario de WinIDAMS


|
| Dlls usados por la Interfaz del Usuario de WinIDAMS
Archivo ejecutable usado para la ejecuci
on de setups
Archivo maestro de base de datos de texto para los programas de IDAMS
Archivo de referencias cruzadas para la base de datos de texto
Definici
on del mapeo entre ddnames y nombres de archivo
Archivo ejecutable GraphID
Archivo .ini usado por GraphID para almacenar colores,
fuentes y coordenadas
Archivo ejecutable TimeSID
Dll usado por GraphID y TimeSID
Dll usado por TimeSID
Archivo de ayuda (Manual de referencias del usuario) de WinIDAMS
Prototipos para programas de IDAMS

6.5 Desintalaci
on

67

Archivos de diccionario y de datos usados como ejemplos, guardados en la carpeta Datos


(\WinIDAMS13-EN\data, \WinIDAMS13-FR\data, \WinIDAMS13-PT\data, \WinIDAMS13-SP\data)
educ.dic
educ.dat
rucm.dic
rucm.dat
watertim.dic
watertim.dat
data.csv
tab.mat
Archivos de setup y de resultados de demostraci
on, guardados en la carpeta Trabajo
(\WinIDAMS13-EN\work, \WinIDAMS13-FR\work, \WinIDAMS13-PT\work, \WinIDAMS13-SP\work)
demo.set
demo.lst

6.5.

Desintalaci
on

Durante el procedimiento de instalaci


on, se crea un programa desinstalador. El usuario puede ejecutar
el desinstalador bien haciendo clic en WinIDAMS/Uninstall WinIDAMS en el Administrador de programas/men
u Inicio o bien suprimiendo la entrada WinIDAMS versi
on 1.3 en espa
nol, Julio de 2006 en Agregar/Quitar programas del Panel de control. Este desinstalador borra el contenido del carpeta de WinIDAMS
usada en el proceso de instalaci
on. No borra carpetas que no esten vacas.

Captulo 7

Primeros pasos
7.1.

Visi
on general de los etapas con WinIDAMS

En este ejemplo, se prepara un diccionario IDAMS para la descripcion de los datos recogidos en un cuestionario y se toman los datos de algunos encuestados. Luego se prepara un conjunto de instrucciones (un
setup) y se usa para obtener distribuciones de frecuencias de Edad, Sexo, y Educacion (n
umero de a
nos
agrupado en 4 grupos). Se procede como sigue:
1. Cree un ambiente de la aplicacion.
2. Prepare y almacene un diccionario IDAMS que describa las variables en los datos.
3. Capture los datos (este paso sobra si los datos se capturaran fuera de WinIDAMS).
4. Haga y almacene un setup de instrucciones que especifique que se va a hacer con los datos.
5. Ejecute el programa de IDAMS seg
un el setup.
6. Revise los resultados y modifique el setup si es necesario; despues repita a partir del paso 4.
7. Imprima los resultados.
Para comenzar, primero active WinIDAMS. Vera la ventana principal de WinIDAMS

70

Primeros pasos

7.2.

Creaci
on de un ambiente de aplicaci
on

El ambiente de la aplicacion le permite definir rutas para tres carpetas. Todos los archivos de entrada/salida
se abrir
an/crear
an por defecto en una de estas carpetas. Esto le evita tener que escoger o suministrar siempre
la ruta completa de la carpeta.
Los archivos Diccionario y Datos: en la carpeta Datos.
Los archivos Setup y Resultados: en la carpeta Trabajo.
Los archivos temporales: en la carpeta Temporal.
Haga clic en Aplicacion en la barra de men
u y despues en Nuevo. Ahora ve el siguiente dialogo:

Crearemos una nueva aplicacion con el nombre MyAppl y con las carpetas de aplicacion C:\MyAppl\data,
C:\MyAppl\work y C:\MyAppl\temp suministrando estos nombres en los correspondientes cuadros de texto.

7.3 Preparaci
on del diccionario

71

Para cada carpeta de aplicacion creada que no exista, se vera un dialogo como el sigue a continuacion:

Haga clic en Yes (Si) para cada carpeta nueva y luego haga clic en OK. Ahora se ve la ventana principal
WinIDAMS nuevamente.

7.3.

Preparaci
on del diccionario

Crearemos un diccionario para describir los registros de datos para las siguientes variables:
N
umero
1
2
3

Nombre
Identificaci
on
Edad
Sexo
1 Hombre
2 Mujer
9 MD
Educacion

Ancho
3
2
1

C
odigo de datos faltantes (MD)

Teclee Ctrl/N o haga clic en Archivo/Nuevo. Estos comandos abren el dialogo del Nuevo documento:

El dialogo muestra la lista de tipos de documentos usados en WinIDAMS. Debe escoger IDAMS
Dictionary file (archivo Diccionario), ya seleccionado por defecto.
Haga clic en el campo de Nombre de archivo y suministre el nombre demog. Haga clic en OK. N
otese
que autom
aticamente se a
nade la extensi
on .dic al nombre del archivo.

72

Primeros pasos
Ahora se ve:
la ventana Aplicacion;

una ventana con dos paneles para entrar la descripcion de las variables y los c
odigos y nombres de
c
odigos opcionales asociados. Aparece el nombre completo del archivo Diccionario demog.dic.

Haga clic en la primera celda de la fila en el panel de variables e introduzca el n


umero de la primera
variable. Tan pronto como comience a introducir los datos de la fila marcada con un asterisco, se crea
una nueva fila inmediatamente despues y en la fila que est
a editando, aparece un lapiz en el encabezador
de fila. Con Intro o Tab se puede mover al campo siguiente. Ahora introduzca nombre y ancho. Salte
sobre los campos siguientes con Intro o con Tab y capture la descripcion con Intro o Tab en el u
ltimo
campo. N
otese que WinIDAMS adopta la localizacion por defecto cuando se ha aceptado la fila de
descripcion.
Cuando se teclea Intro o Tab en el u
ltimo campo, el lapiz desaparece, lo cual significa que la fila ha
sido capturada despues de una verificacion rudimentaria de campos. Ahora el campo es el primero de
la fila siguiente (marcada con un asterisco) y puede introducir la descripcion de la segunda variable,
Edad. Haga lo mismo para la variable 3, Sexo, pero suministre para esta variable un c
odigo MD1 de
datos faltantes con valor 9 (codigo para ausencia de respuesta).
Despues de aceptar la descripci
on de la variable 3, el primer campo (n
umero de variable) de la fila con
un asterisco, se convierte en el siguiente campo para recibir datos. Haga clic en cualquier campo de la
fila que se acaba de introducir (variable 3, Sexo) para activarla.
Cambiese al panel de c
odigos haciendo clic en el campo de codigo de la primera fila. N
otese que este
panel est
a sincronizado con la variable para la cual se est
an suministrando los datos en el panel de
variables.
Teclee 1 en el campo de c
odigo. Nuevamente, tan pronto como se comienza a introducir la informacion
de los nombres de c
odigos, se crea una nueva fila inmediatamente despues y la fila que se est
a editando
muestra un lapiz. Oprima Intro para moverse al siguiente campo, introduzca Hombre en el campo de
nombre. Oprima Intro. El campo actual es ahora el campo de c
odigo de la fila siguiente y puede entrar
2 con nombre Mujer y similarmente para el c
odigo 9.

7.4 Captura de datos

73

Regrese al panel de variables haciendo clic en el campo del n


umero de variable en la fila con asterisco.
Introduzca las informaciones para la variable 4.
Para suprimir filas, haga clic al lado de la fila y escoja Cortar del men
u Edici
on.
Guarde el diccionario haciendo clic en Archivo/Guardar como y aceptando el nombre del archivo
demog.dic.

7.4.

Captura de datos

Oprima Ctrl/N o haga clic en Archivo/Nuevo. Aparece el mismo dialogo de documento que ya se
vi
o para el diccionario.
Seleccione la lnea IDAMS Data file (archivo Datos) de la lista e introduzca el nombre del archivo
Datos. Por convencion, es mejor usar el mismo nombre para el archivo Datos y el archivo Diccionario
correspondiente. S
olo cambia la extensi
on de archivo, dic para el archivo Diccionario y dat para
el archivo Datos. El diccionario y los datos forman un dataset de IDAMS. Introduzca demog como
nombre de archivo y haga clic en OK.
Un dialogo Abrir archivo muestra ahora los diccionarios que existen para la aplicacion actual y solicita
escoger el diccionario que describe los datos. Escoja demog.dic y haga clic en Abrir.

74

Primeros pasos

Aparece ahora una ventana de entrada de datos con tres paneles. Los datos son introducidos solo en el
panel del fondo. Los otros dos paneles est
an sincronizados para mostrar la descripcion de la variable
para la cual est
an entrando los datos y los nombres de c
odigos si los hay. Se muestra el nombre completo
del archivo Datos demog.dat (la extensi
on .dat se a
nade autom
aticamente).
N
otese que en las imagenes que siguen, la ventana Aplicacion est
a cerrada.

Haga clic en el primer campo de la fila con un asterisco y teclee la primera lnea de datos como se ve
a continuacion, oprima la tecla Intro despues de cada dato. Tan pronto como se empiezan a entrar los
datos, aparece una nueva fila y aparece un lapiz en el encabezador de la fila a la cual est
an entrando
los datos, lo cual indica que se est
a editando esta fila.
Despues de entrar el valor de la u
ltima variable V4 y oprimir Intro, el primer campo de la fila siguiente
se habilita para recibir datos.
Introduzca los datos de los cinco casos que se dan a continuacion.

7.5 Preparaci
on del setup

75

Haga clic en Archivo/Guardar para guardar los datos en el archivo demog.dat.

7.5.

Preparaci
on del setup

Oprima Ctrl/N o haga clic en Archivo/Nuevo.


Seleccione la lnea IDAMS Setup file (archivo Setup) de la lista e introduzca un nombre, por ejemplo,
demog1 para el archivo Setup. Haga clic en OK. N
otese que la extensi
on .set se a
nade autom
aticamente al nombre del archivo y se muestra el nombre completo del archivo demog1.set.
Se ve ahora una ventana vaca de setup. Introduzca lo siguiente:

76

Primeros pasos
$RUN identifica el programa de IDAMS deseado; despues del comando $FILES, se especifica el archivo
Datos y el archivo Diccionario correspondiente; en seguida, las proposiciones de Recode aparecen
precedidas de la lnea $RECODE (aqu se usa Recode para reunir a
nos de educacion en 4 grupos);
finalmente, se dan los par
ametros (de acuerdo con las reglas del programa TABLES) para la tarea (en
este caso se solicitan distribuciones de frecuencia univariadas), precedidas del comando $SETUP.
Haga clic en Archivo/Guardar y guarde el setup en el archivo demog1.set.

7.6.

Ejecuci
on del setup

Desde adentro de la ventana Setup, haga clic en Ejecutar/Setup actual. Se guarda el setup en un
archivo temporal y se ejecuta. Aparece un dialogo durante la ejecuci
on y desaparece si la ejecuci
on
tuvo exito.
Los resultados se escriben, por defecto, en el archivo idams.lst. Para cambiar esta accion por defecto,
se puede a
nadir debajo de $FILES una lnea PRINT con el nombre del archivo requerido, por ejemplo,
print=a:demog1.lst para guardar los resultados en un diskette.

7.7.

Revisi
on de los resultados y modificaci
on del setup

El archivo de los resultados se carga autom


aticamente cuando se termina la ejecuci
on.

7.7 Revisi
on de los resultados y modificaci
on del setup

77

La tabla de contenido de los resultados que hay en el panel izquierdo permite localizar rapidamente

partes diferentes. Abrala


haciendo clic en idams.lst y oprima el boton con un asterisco en el teclado
numerico, ahora haga clic en el elemento que desea ver.

Si desea cambiar algo en el setup mientras revisa los resultados, entonces haga clic en el TAB demog1.set y haga las modificaciones requeridas. Oprima Ctrl/E para ejecutar.

78

Primeros pasos

7.8.

Impresi
on de los resultados

Seleccione Archivo/Imprimir.

Seleccione las p
aginas que desea imprimir y haga clic en OK.

Captulo 8

Archivos y carpetas
8.1.

Archivos en WinIDAMS

Archivos del usuario


Estos archivos los crea el usuario con la ayuda de las herramientas suministradas por la Interfaz del Usuario
de WinIDAMS, o bien, se producen por IDAMS como un resultado final o como una salida para ser procesada posteriormente. Todos son archivos est
andar de texto ASCII. Se permiten caracteres de tabulaci
on; se
convierten autom
aticamente al n
umero correcto de blancos. Las extensiones unificadas las usa la Interfaz del
Usuario para reconocer el tipo del archivo.
Archivo Datos (*.dat). Cualquier archivo de datos puede entrar a los programas de IDAMS teniendo
en cuenta que cada caso contenga un n
umero igual de registros de formato fijo. Sin embargo, si la
Interfaz del Usuario usa un archivo Datos, solo puede haber un registro por caso.
Puede haber registros de longitud variable con un maximo de 4096 caracteres por caso. Si el primer
registro del archivo no es mas largo, entonces la longitud maxima de registro (RECL) debe especificarse en la proposicion de especificaci
on de archivo correspondiente. Los archivos producidos por los
programas de IDAMS tienen registros de longitud fija sin caracteres de tabulaci
on. En general, no hay
lmite para el n
umero de casos que pueden entrar a un programa de IDAMS.
Archivo Diccionario (*.dic). Se usa para describir las variables en los datos. Como mnimo,
debe describir solamente las variables usadas en una ejecuci
on particular de un programa, pero puede
describir todas las variables en cada registro de datos. La longitud de registro es variable, pero tiene
un maximo de 80. Si un programa IDAMS produce un diccionario, entonces la longitud del registro es
fija (80 caracteres) sin caracteres de tabulaci
on.
El diccionario se puede preparar sin conocer su formato interno, en la ventana Diccionario de la Interfaz
del Usuario. Alternativamente, se puede preparar con el Editor General y siguiendo el formato dado
en el captulo Los datos en IDAMS.
Archivo Matriz (*.mat). Las matrices de IDAMS (para guardar varias estadsticas) tienen registros
de longitud fija (80 caracteres) sin caracteres de tabulaci
on.
Archivo Setup (*.set). Este archivo se usa para guardar comandos de IDAMS, especificaciones
de archivos, proposiciones de control del programa y proposiciones de Recode (si las hay). Se puede
preparar en la ventana Setup de la Interfaz del Usuario. La longitud de registro es variable aunque el
maximo es de 255 caracteres.
Archivo Resultados (*.lst). Normalmente IDAMS escribe los resultados en un archivo. El contenido
de este archivo puede entonces revisarse antes de producir la salida al papel.
Nota: para facilitar el trabajo con WinIDAMS, se aconseja utilizar el mismo nombre para los archivos
Diccionario y Datos, y el mismo nombre para los archivos Setup y Resultados.
Los archivos del usuario se especifican a continuacion del comando $FILES en el archivo Setup (ver el captulo
El archivo Setup de IDAMS).

80

Archivos y carpetas

Archivos del sistema


El usuario no tiene acceso directo a los archivos del sistema. Estos se crean durante el proceso de instalaci
on
(archivos permanentes del sistema), durante la personalizacion del ambiente para una aplicacion (archivos
Aplicacion) o durante la ejecuci
on de procedimientos de WinIDAMS (archivos temporales de trabajo).
Archivos permanentes del sistema. Incluyen los archivos ejecutables de programas, archivos dll,
archivos de par
ametros del sistema, archivo del Manual en pantalla (en formato HTML Help) y archivos
de prototipos de setup.
Archivos de controle del sistema.
Idams.def : definiciones de archivos por defecto que suministran conexion entre nombres logicos
y nombres fsicos de los archivos de usuario y los archivos temporales de trabajo.
<application nombre>.app : un archivo por aplicacion que contiene los nombres de las carpetas Datos, Trabajo y Temporal.
lastapp.ini : archivo que contiene el nombre de la u
ltima aplicacion usada.

graphid.ini : los par


ametros de configuracion para el componente GraphID .
tml.ini : los par
ametros de configuracion para el componente TimeSID .

Archivos temporales de trabajo. No conciernen al usuario ya que se definen y se eliminan automaticamente. Tienen extensi
on de archivo .tmp y .tra.

8.2.

Las carpetas en WinIDAMS

Los archivos que usa WinIDAMS se guardan en las siguientes carpetas:


archivos permanentes del systema en la carpeta Sistema,
archivos Aplicacion en la carpeta Aplicaci
on,
archivos Datos, Diccionario y Matriz en la carpeta Datos,
archivos Setup y Resultados en la carpeta Trabajo,
archivos temporales de trabajo en la carpeta Temporal y la carpeta Transpuesta.
Las cinco carpetas obligatorias para la aplicaci
on por defecto deben siempre estar presentes bajo la
carpeta <system dir>. Se definen y se crean por la primera vez durante el proceso de instalaci
on. Despues,
cuando WinIDAMS se ejecuta y falta alguna de las carpetas, esta se crea nuevamente de manera autom
atica.
carpeta
carpeta
carpeta
carpeta
carpeta

Aplicacion
Datos
Temporal
Transpuesta
Trabajo

<system
<system
<system
<system
<system

dir>\appl
dir>\data
dir>\temp
dir>\trans
dir>\work

on.
donde <system dir> es el nombre de la carpeta Sistema dado durante el proceso de instalaci
Referirse a la secci
on Personalizacion del ambiente para una aplicacion del captulo Interfaz del Usuario
para una descripci
on mas detallada de como las rutas definidas en la aplicacion se usan en los programas de
IDAMS.

Captulo 9

Interfaz del Usuario


9.1.

Concepto general

La Interfaz del Usuario de WinIDAMS es una interfaz de documentos m


ultiples. Puede mostrar y trabajar
simult
aneamente diferentes tipos de documentos tales como Diccionario, Datos, Setup, Resultados y documentos Texto en ventanas separadas. M
as aun, suministra el acceso a la ejecuci
on de los setups de IDAMS
y de los componentes para el analisis interactivo de datos, a saber: Tablas multidimensionales, Exploraci
on
grafica de los datos y Analisis de series de tiempo desde cualquier ventana del documento. La ventana
principal de WinIDAMS contiene:

la barra de men
u para abrir men
us desplegables con opciones o comandos de WinIDAMS,
la barra de herramientas para escoger comandos rapidamente,
la barra de estado para mostrar informacion acerca del documento activo o de la opcion o comando
resaltado,
la ventana Aplicaci
on, ubicada en el lado izquierdo, para mostrar el nombre de la aplicacion,
carpetas y documentos para la aplicacion activa,
las ventanas de documentos para mostrar los diferentes documentos de WinIDAMS.

82

Interfaz del Usuario

La barra de men
u y la barra de herramientas tienen contenidos fijos y dependiente de documentos. Los
men
us comunes a todos los tipos de documento se describen a continuacion y los men
us que dependen del
tipo de documento se describen en las secciones relevantes.

9.2.

Men
us comunes a todas las ventanas de WinIDAMS

La barra de men
u principal contiene siempre los siguientes siete men
us: Archivo, Edici
on, Ver, Ejecutar,
Interactivo, Ventana y Ayuda.

Archivo
Nuevo

Llama al cuadro de dialogo para seleccionar el tipo de documento a crear y


suministrar su nombre y localizacion.

Abrir

Despues de escoger el tipo de documento, llama al cuadra de dialogo para


seleccionar el documento a abrir.

Cerrar
Guardar

Cierra la ventana activa.


Guarda el documento mostrado en la ventana activa.

Guardar como

Llama al cuadro de dialogo para guardar el documento que est


a en la ventana
activa.
Llama al cuadro de dialogo para cambiar las optiones de impresion y de la
impresora.
Muestra el documento activo tal como se vera cuan lo se imprima.

Configurar impresora
Vista preliminar
Imprimir

Llama al cuadro de impresion para imprimir el conenido del documento


mostrado en la ventana activa o en el panel activo. N
otese que las partes
ocultas del documento no se imprimen.

Salir

Termina la sesi
on de WinIDAMS.

El men
u puede contener tambien la lista hasta de 7 documentos abiertos recientemente, es decir, documentos
usados en sesiones anteriores de WinIDAMS.

Edici
on
La disponibilidad y algunas veces el ttulo de algunos comandos en este men
u puede ser diferente en diferentes
ventanas.
Deshacer

Reversa la u
ltima accion.

Rehacer
Cortar

Hace nuevamente la u
ltima accion cancelada.
Mueve la selecci
on al portapapeles.

Copiar
Pegar

Copia la selecci
on al portapapeles.
Copia el contenido del portapapeles al sitio donde est
a ubicado el cursor.

Buscar
Reemplazar

Da comienzo al mecanismo de b
usqueda de Windows.
Da comienzo al mecanismo de reemplazo de Windows.

Buscar siguiente

Busca la siguiente ocurrencia de la cadena de caracteres activa en el cuadro


de dialogo de Buscar.

N
otese que en las ventanas Resultados y Texto, las acciones de buscar/reemplazar se activan con los comandos
Buscar, Buscar adelante, Buscar atr
as, y Reemplazar.

9.3 Personalizaci
on del ambiente para una aplicaci
on

83

Ver
Barra de herramientas

Muestra/oculta la barra de herramientas.

Barra de estado

Muestra/oculta la barra de estado.

Aplicaci
on
Pantalla completa

Muestra/oculta la ventana Aplicacion.


Muestra la ventana activa en pantalla completa. Haga clic en el cono Cerrar
la pantalla completa en la esquina superior izquierda o teclee Esc para
regresar a la ventana anterior.

Ejecutar
Con excepci
on de la ventana Setup, el men
u solo tiene un comando, Seleccionar setup, para seleccionar un
archivo con el setup a ejecutar.

Interactivo
Con este men
u, se puede acceder a tres componentes de analisis interactivo, a saber:
Tablas multidimensionales
Exploraci
on gr
afica de los datos
An
alisis de series de tiempo
Ver los captulos correspondientes para una descripcion detallada de cada componente.

Ventana
El men
u contiene la lista de ventanas abiertas y de comandos est
andar de Windows para organizarlos.

Ayuda
Manual de WinIDAMS
Acerca de WinIDAMS

9.3.

Da acceso al Manual de Referencia de WinIDAMS.


Muestra informacion de la versi
on y el copyright de WinIDAMS y un vnculo
para acceder a la p
agina web de IDAMS en la sede principal de UNESCO.

Personalizaci
on del ambiente para una aplicaci
on

El usuario puede definir y guardar los nombres de carpetas Datos, Tarbajo y Temporal en los archivos
Aplicacion con el nombre de la aplicacion como nombre del archivo. El nombre de la u
ltima aplicacion usada
es guardado por el sistema y las caractersticas que definen esta aplicacion se cargan al comienzo de la
siguiente sesi
on. Estas caractersticas se pueden cambiar en cualquier momento durante la sesi
on de trabajo
mediante la selecci
on/creacion y activaci
on de otra aplicacion.
Como es necesario, por lo menos, un archivo Aplicacion para usar WinIDAMS, se suministra una aplicacion
est
andar llamada Default y se activa cuando se usa WinIDAMS por primera vez despues de la instalaci
on.
Las caractersticas de definicion por defecto son:
Carpeta Datos
Carpeta Trabajo
Carpeta Temporal

<system dir>\data
<system dir>\work
<system dir>\temp

on. Esta aplicacion (guardadonde <system dir> es el nombre de la carpeta Sistema fijado durante la instalaci
da en el archivo Default.app) nunca debe suprimirse o modificarse.
El usuario puede crear, modificar, o suprimir los archivos Aplicacion (excepto el archivo Default.app) con
el men
u Aplicaci
on de la barra de men
u de la ventana principal de WinIDAMS. Contiene los siguientes
comandos:

84

Interfaz del Usuario


Nueva

Llama al cuadro de dialogo para crear una aplicacion nueva.

Abrir

Llama al cuadro de dialogo para escoger un archivo con los detalles de la


aplicacion que se va a abrir.

Mostrar
Cerrar

Llama al cuadro de dialogo para escoger el archivo Aplicaci


on y muestra las
caractersticas de la aplicacion.
Cierra la aplicacion activa y abre la aplicacion Default.

Actualizar

Crea nuevamente el arbol de la aplicacion en uso.

Creaci
on de una nueva aplicaci
on. La selecci
on del comando Nueva de men
u Aplicacion suministra un
cuadro de dialolgo para introducir el nombre de una nueva aplicacion y los nombres de las carpetas Datos,
Trabajo y Temporal. Con excepci
on del campo para el nombre de la aplicacion, el cual est
a libre, todos los
otros campos tienen valores tomados de la aplicacion por defecto, que se pueden modificar. Puede introducir
el nombre de la ruta o escogerlo, moviendo el resaltador al nombre requerido en el arbol de las carpetas.

Oprima el boton de OK para guardar la aplicacion. Con Cancelar, cancela la creacion de una nueva aplicacion
y regresa a la ventana principal de WinIDAMS con las caractersticas mostradas previamente.
Abrir una aplicaci
on. El comando Abrir de men
u Aplicacion llama al cuadro de dialogo para escoger un
archivo de aplicacion para abrir y suministra una lista de aplicaciones existentes en la carpeta Aplicacion.
Haciendo clic en el nombre requerido, se activan las caractersticas de esta aplicacion.
Modificar una aplicaci
on. Primero
abrala y luego cambie los valores de la misma manera que para crear
una aplicacion.
Mostrar las caractersticas de una aplicaci
on. Use el comando Mostrar de men
u Aplicacion para llamar
al cuadro de dialogo y haga clic en el nombre deseado.
Para mostrar las caractersticas de una aplicacion activa, haga doble clic en el nombre en la ventana Aplicacion.
Suprimir una aplicaci
on. Se puede retirar una aplicacion existente si se suprime el archivo correspondiente.
Use el comando Abrir de men
u Aplicacion para obtener una lista de archivos Aplicacion, escoja el archivo
para suprimir y use el boton derecho para acceder al comando de supresi
on de Windows. No se debe suprimir
el archivo Default.app.
Restaurar las caractersticas de WinIDAMS por defecto. Se puede hacer de dos maneras: con el
comando Cerrar de men
u Aplicacion, o bien para escoger y abrir el archivo Default.app.
Cerrar una aplicaci
on activa. Use el comando Cerrar de men
u Aplicacion. Se activa la aplicacion por
defecto.
Las rutas definidas en la aplicaci
on las usan los programas de IDAMS para prefijar el nombre de
cualquier archivo que no comience con <unidad>:\... o con \....

9.4 Crear/actualizar/mostrar archivos Diccionario

85

La ruta de la carpeta Datos : en las proposiciones con ddnames DICT..., DATA..., o FTnn referido a
matrices.
La ruta de la carpeta Trabajo : en las proposiciones con ddnames PRINT o FT06.
La ruta de la carpeta Temporal : los nombres de archivos temporales.
Ejemplo:
Carpeta Datos:
c:\MyStudy\students\data
Especificaci
on en el setup:
dictin=students2004.dic
Nombre completo del archivo diccionario: c:\MyStudy\students\data\students2004.dic

9.4.

Crear/actualizar/mostrar archivos Diccionario

La ventana Diccionario para crear, actualizar o mostrar un diccionario de IDAMS, se llama cuando:
usted crea un nuevo archivo Diccionario (el comando Nuevo/IDAMS Dictionary file (archivo Diccionario) de men
u Archivo o el boton Nuevo de la barra de herramientas),
usted abre un archivo Diccionario (con la extensi
on .dic) mostrado en la ventana Aplicacion (haga
doble clic en el nombre del archivo requerido de la lista de Datasets),
usted abre un archivo Diccionario (con cualquier extensi
on) que no est
a en la ventana Aplicacion (el
comando Abrir/Diccionario de men
u Archivo o el boton Abrir de la barra de herramientas).

Esta ventana suministra dos paneles: uno para la definicion de variables (panel Variables) y otro para los
c
odigos y los nombres de c
odigos de la variable en cuestion (panel Codigos). Una lnea azul en la parte
superior del panel, indica el panel activo.
Los encabezamientos de columna en el panel Variables tiene el siguiente significado:
N
umero

N
umero de variable.

Nombre
Loc, Ancho

Nombre de variable.
Posicion inicial y ancho del campo de la variable en el archivo Datos.

Dec

N
umero de cifras decimales; un blanco implica que no hay decimales.

86

Interfaz del Usuario


Tipo

Tipo de variable (N=numerica, A=alfabetica).

Md1
Md2

Primer c
odigo de datos faltantes para variables numericas.
Segundo c
odigo de datos faltantes para variables numericas.

Refe
IdEs

N
umero de referencia.
Identificador del estudio.

Para mayor detalle, ver la secci


on El diccionario IDAMS en el captulo Los datos en IDAMS. N
otese
que con la ventana Diccionario, solo se pueden crear, actualizar, mostrar diccionarios de descripcion de datos
que tengan un registro por caso.
Cambiar la apariencia de los paneles. La apariencia de cada panel se puede cambiar separadamente y
los cambios se aplican exclusivamente al panel activo.
En cada panel hay las siguientes posibilidades de modificacion:
Aumentar el tama
no de la fuente - use el boton Aumentar de la barra de herramientas.
Disminuir el tama
no de la fuente - use el boton Reducir de la barra de herramientas.
Restaurar el tama
no de la fuente por defecto - use el boton 100 % de la barra de herramientas.
Aumentar/Disminuir el ancho de columna - coloque el cursor del rat
on sobre la lnea que separa dos
columnas en el encabezado de columna hasta que le cursor se haya convertido en una barra horizontal
con dos flechas y muevalo a derecha/izquierda teniendo apretado el boton izquierdo del rat
on.
El panel Variables puede modificarse aun mas asi:
Aumentar/Disminuir el alto de filas - coloque el cursor del rat
on sobre la lnea que separa dos filas en
el encabezado de fila hasta que el cursor se haya convertido en una barra horizontal con dos flechas y
muevalo arriba/abajo manteniendo apretado el boton izquierdo del rat
on.
Definir una variable. Coloque el cursor en el panel Variables, llene el n
umero de variable (por lo menos uno
es obligatorio, las siguientes variables se numeraran a
nadiendo el valor 1), nombre (opcional), localizacion
(si no se suministra, se asigna 1 a la primera variable y para las variables siguientes, se calcula la localizacion
sumando el ancho de la variable precedente) y ancho (obligatorio). Otros campos tienen valores por defecto
(que usted puede aceptar o modificar) o son opcionales y se pueden dejar en blanco. Oprima Intro o Tab para
aceptar un valor en un campo y moverse al siguiente, o May
usculas/Tab para moverse al campo anterior.
N
otese que mientras aparezca un lapiz peque
no en el encabezado de fila, esta no se habr
a guardado. Oprima
Intro para aceptar la definicion completa de variables. Un asterisco en el encabezado de fila indica que esta
es la fila siguiente y puede introducir una nueva definicion de variable.
Definir los c
odigos y sus nombres para una variable. Cambiese al panel Codigos y llene los campos
de c
odigos y nombres de c
odigos. Llene el valor del c
odigo, luego oprima Intro o Tab y llene el nombre del
c
odigo, luego Intro o Tab para aceptar la fila y moverse a la siguiente. Una vez que se hayan definido los
c
odigos y sus nombres, regrese al panel de Variables para la definicion de una nueva variable.
Modificar un campo bien en panel Variables o panel Codigos. Haga clic en el campo e introduzca el nuevo
valor (al entrar el primer car
acter del nuevo valor se borra el campo). Si se hace doble clic en el campo su
valor se puede modificar parcialmente. Se puede usar la tecla Esc para recuperar el valor previo.
Las operaciones de edici
on se pueden hacer en una fila o en un bloque de filas. Para marcar una fila,
haga clic en cualquier campo de la misma. Aparece un triangulo en el encabezado de fila y la fila se colorea
con azul oscuro. Para marcar un bloque de filas, coloque el cursor en el encabezado de fila en donde se desea
iniciar la marcacion y haga clic sobre le boton izquierdo del rat
on. La fila se vuelve amarilla, indicando que
est
a activa. Ahora mueva el cursor arriba o abajo hasta la fila en la que desea terminar la marcacion y haga
clic en el boton izquierdo del rat
on mientra oprime la tecla de may
usculas. Las filas marcadas se colorean
con azul oscuro y el color amarillo marca la fila activa.
Puede Cortar, Copiar y Pegar filas marcadas usando los comandos de Edici
on, botones equivalentes de la
barra de herramientas o las teclas de acceso rapido Ctrl/X, Ctrl/C y Ctrl/V respectivamente.
Con el boton derecho del rat
on usted puede Insertar antes, Insertar despues, Suprimir o Borrar la fila activa
(aun cuando se haya marcado un bloque de filas).

9.5 Crear/actualizar/mostrar archivos Datos

87

Detectar errores en un diccionario. Utilize el comando Validez de men


u Verificar. Est
an se
nalados
uno a uno y se pueden corregir una vez se hayan mostrado todos. M
as aun la Interfaz trata de prevenir
que se guarden diccionarios con errores. Tambien, cuando se abre un diccionario con errores, se advierte su
existencia antes de abrir el mismo.

9.5.

Crear/actualizar/mostrar archivos Datos

La ventana Datos se usa para crear, actualizar o mostrar un archivo Datos de IDAMS. N
otese que debe
haberse construido un diccionario de IDAMS que corresponda al archivo Datos y que con la ventana Datos
solo se pueden crear, actualizar o mostrar archivos Datos con un registro por caso. Esta ventana se llama
cuando:
usted crea un nuevo archivo Datos (el comando Nuevo/IDAMS Data file (archivo Datos) de men
u Archivo o el boton Nuevo de la barra de herramientas),
usted abre un archivo Datos (con la extensi
on .dat) mostrado en la ventana Aplicacion (haga doble
clic en el nombre del archivo requerido de la lista de Datasets),
usted abre un archivo Datos (con cualquier extensi
on) que no est
a en la ventana Aplicacion (el comando
Abrir/Datos de men
u Archivo o el boton Abrir de la barra de herramientas).

La ventana se divide en tres paneles: uno muestra los c


odigos y sus nombres de la variable se
nalada (panel
Codigos), el segundo muestra la definicion de las variables (panel Variables) y el tercero provee lugar para
introduccion/modificacion de datos (panel Datos). S
olo se puede editar el panel Datos. Los otros dos paneles
solo muestran la informaci
on relevante. Una lnea azul en la parte superior de cada panel indica cual panel
est
a activa. Los paneles est
an sincronizados, es decir, la selecci
on de un campo de variable en el panel Datos
hace resaltar su correspondiente descripcion y la selecci
on de un campo en el panel Variables muestra el
valor correspondiente a la variable en el caso se
nalado. Para la variable seleccionada, siempre se muestran
los c
odigos y sus nombres, si los hay.
Cambiar la apariencia de los paneles. La apariencia de cada panel se puede cambiar separadamente y
los cambios se aplican exclusivamente al panel activo.
En cada panel hay las siguientes posibilidades de modificacion:

88

Interfaz del Usuario


Aumentar el tama
no de la fuente - use el comando Aumentar de men
u Ver o el boton Aumentar de la
barra de herramientas.
Disminuir el tama
no de la fuente - use el comando Reducir de men
u Ver o el boton Reducir de la barra
de herramientas.
Restaurar el tama
no de la fuente por defecto - use el comando 100 % de men
u Ver o el boton 100 % de
la barra de herramientas.
Aumentar/Disminuir el ancho de columna - coloque el cursor del rat
on sobre la lnea que separa dos
columnas en el encabezado de columna hasta que le cursor se haya convertido en una barra horizontal
con dos flechas y muevalo a derecha/izquierda teniendo apretado el boton izquierdo del rat
on.

El panel Datos puede modificarse aun mas as:


Aumentar/Disminuir el alto de filas - coloque el cursor del rat
on sobre la lnea que separa dos filas en
el encabezado de fila hasta que el cursor se haya convertido en una barra horizontal con dos flechas y
muevalo arriba/abajo manteniendo apretado el boton izquierdo del rat
on.
Colocar columna(s) al comienzo - marque la(s) columna(s) requerida(s) y use el comando Inmovilizar
columnas de men
u Ver (use el comando Liberar de men
u Ver para regresarlas).
Mostrar datos en un panel m
ultiple - use el comando Dividir de men
u Ventana. Se suministra una
cruz para determinar el tama
no de los cuatro paneles. El tama
no se puede cambiar despues usando
la tecnica estandar de Windows. Se muestran todos los datos cuatro veces. La divisi
on horizontal se
puede quitar haciendo doble clic en la lnea horizontal, la divisi
on vertical se puede quitar haciendo
doble clic en la lnea vertical y toda la divisi
on se puede quitar haciendo doble clic en el centro de la
divisi
on.
Introducir un nuevo caso. Haga clic en el primer campo de una fila vaca y comience a teclear los datos.
Oprima Intro o Tab para aceptar un dato para la variable y muevase a la variable siguiente, o May
usculas/Tab
para moverse a la variable anterior. N
otese que mientras aparezca un peque
no lapiz en el encabezado de fila,
el caso no se guarda. Oprimir Intro en la u
ltima variable guarda el caso y mueve el cursor al comienzo de
la fila siguiente. Se puede insertar una fila nueva antes o despues de la fila resaltada (haga clic en el boton
derecho del rat
on), o puede adicionarse la final del archivo (fila con un asterisco en el encabezado de fila).
La entrada de datos se puede facilitar tomando ventaja de dos opciones dadas en el men
u Opciones:
Verifica c
odigos verifica valores de datos durante la entrada de los mismos contra c
odigos definidos en el
diccionario, los solos dados por validos.
Salto autom
atico mueve el cursor autom
aticamente al siguiente campo cuando haya un n
umero suficiente
de dgitos para llenar el campo. Si no se selecciona, debe oprimir Intro o Tab para moverse al campo
siguiente.
Modificar el valor de una variable. Haga clic en el campo de la variable y entre el nuevo valor (la entrada
del primer car
acter del nuevo valor, borra el campo). Se puede usar doble clic en el campo de una variable
para modificar parte del valor. Se puede usar la tecla Esc para recuperar el valor previo.
Copiar el valor de una variable a otro campo. Haga clic en el campo de la variable y copie su contenido
al portapapeles (el comando Copiar de men
u Edici
on, Ctrl/C o Copiar de la barra de herramientas). Despues,
haga clic en otro campo y peque el valor (el comando Pegar de men
u Edici
on, Ctrl/V o Pegar de la barra
de herramientas). El comando Deshacer caso de men
u Edici
on se puede usar para recuperar el valor previo.
Las operaciones de edici
on se pueden hacer sobre una fila o un bloque de filas de la misma manera que
en la ventana del Diccionario. Para marcar una fila, haga clic en cualquier campo de esta fila. Aparece un
triangulo en el encabezado de la fila y la fila se colorea en azul oscuro. Para marcar un bloque de filas, colque
le cursor en el encabezado de la fila en donde quiere comenzar a marcar y haga clic en el boton izquierdo del
rat
on para encenderlo. La fila se torna amarilla, para indicar que est
a activa. Mueva ahora el cursor hacia
arriba o hacia abajo hasta la fila en la cual desea terminar la marcacion y haga clic en el boton izquierdo
del rat
on mientras oprime la tecla de may
usculas. Las filas marcadas se colorean con azul oscuro y el color
amarillo muestra la fila que est
a activa.

9.6 Importaci
on de archivos de datos

89

Las filas marcadas se pueden cortar, copiar o pegar con los comandos bajo Edici
on, con los botones equivalentes de la barra de herramientas o con las teclas de acceso rapido Ctrl/X, Ctrl/C y Ctrl/V respectivamente.
Con el boton derecho del rat
on se puede Insertar antes, Insertar despues, Suprimir o Borrar la fila activa
(aun si est
a marcado un bloque de filas).
Dos comandos para manejo de datos en el men
u Gestion de datos permiten verificacion de los datos
despues de la entrada de los mismos o bien de los datos venidos del exterior, y clasificacion de los datos:
Verificar c
odigos verifica valores de datos de todos los casos en el archivo Datos contra los c
odigos definidos
en el diccionario, los solos dados por validos. Al final de la verificacion, aparece un mensaje que muestra
el n
umero de errores encontrados y se ofrece la posibilidad de corregirlos uno a uno con el cuadro de
dialogo para correccion de datos. Este cuadro suministra el n
umero secuencial de caso, n
umero y
nombre de variable, valor de c
odigo invalido, y una lista de c
odigos validos como est
an definidos en el
diccionario.
Clasificar llama al cuadro de dialogo de la clasificacion para especificar hasta tres variables de clasificacion
y su correspondiente orden de clasificacion de cada una de ellas. Despues de hacer clic en OK, aparece
el archivo clasificado en el panel Datos.
Tambien se pueden clasificar los datos sobre una variable (una columna) con doble clic en el n
umero de
la variable del encabezado del panel de datos. Un doble clic clasifica los casos en orden ascendente. Para
obtener la clasificacion en orden descendiente, repita el doble clic.
Se proponen dos tipos de gr
afico para una variable en el men
u Graficos.
Gr
afico de barras suministra un gr
afico de barras basado en frecuencias o porcentajes de las categoras de
una variable cualitativa. Para variables cuantitativas, el usuario define el n
umero de barras (NB) en dos lados
de la media (M) y un coeficiente (C) para calcular el ancho de las barras (clases). El ancho de las barras
(BW) es igual al valor de la desviaci
on est
andar (STD) multiplicado para el coeficiente (BW=C*STD).
Las barras se construyen usando los valores M-NB*BW, ..., M-2BW, M-BW, M, M+BW, M+2BW, ...,
M+NB*BW. El alto de un ect
angulo= (frecuencia relativa de la clase)/(ancho de la clase). Ademas, para
variables cuantitativas se puede obtener una curva de la distribuci
on normal con la media y desviacion
est
andar calculadas.
Histograma, orientado a variables cuantitativas, suministra un histograma basado en frecuencias o porcentajes con el n
umero de barras especificado por el usuario.
Los graficos para variables cuantitativas contienen tambien estadsticas univariadas para la variable trazada
tales como: media, desviaci
on est
andar, variancia, asimetra y kurtosis. Las variables con puntos decimales se
multiplican por un factor de escala para obtener valores enteros. En este caso, se debe ajustar en consecuencia
los valores de la media, de la desviaci
on est
andar y de la variancia.

9.6.

Importaci
on de archivos de datos

WinIDAMS suministra una herramienta para importar archivos de datos directamente a IDAMS a traves
de la Interfaz del Usuario. Se puede acceder a esta herramienta en la ventana principal de WinIDAMS, en
la ventana Datos y en la ventana Tablas multidimensionales.
Se pueden importar tres tipos de archivos de formato libre:
archivos .txt delimitados con Tab,
archivos .csv separados con punto y coma,
archivos .csv separados con coma.
La informaci
on dada en la primera fila se considera como etiquetas de columnas y se usa como nombres de
variables durante el proceso de construcci
on del diccionario. Entonces, la presencia de etiquetas de columnas
es obligatoria en la primera fila de los archivos de entrada.

90

Interfaz del Usuario

Ademas, el car
acter usado para separar campos se detecta en la primera fila y el car
acter usado en la notaci
on
decimal se detecta en la secunda fila del archivo. Entonces, si una variable tiene valores decimale, la presencia
de estos valores es obligatoria en la secunda fila del archivo.
Durante el proceso de importacion, el contenido de las variables alfabeticas importadas se puede cambiar a
c
odigos numericos, manteniendo los valores alfabeticos como nombres de c
odigos en el diccionario de IDAMS
creado. Comas usadas como separador decimal para variables numericas se convierten en puntos.
La operaci
on de importaci
on de datos se activa con el comando Importar de men
u Archivo, seguido
de la selecci
on del archivo requerido en el cuadro de dialogo est
andar Abrir de archivos. Se muestran juntos
con los valores de todos los campos para los tres primeros casos. Entonces, se puede verificar la lectura de
los datos antes de proceder a la importacion. Despues aparecen dos ventanas llamadas Datos externos y
Definicion de variables, ambas son ventanas de tipo hoja de c
alculo.
La ventana de Datos externos solo muestra el contenido del archivo a importar. No se permiten operaciones de edici
on con excepci
on de copiar una selecci
on al portapapeles.
La ventana de Definici
on de variables sirve para preparar descripcion de variables de IDAMS. Su
contenido inicial viene dado por defecto y sobre la base de los datos importados, pero hay libertad de
cambiarlo y completarlo si es necesario.
Las columnas tienen la siguiente informaci
on:
Descripci
on

Nombre de variable

Tipo

AnchM
ax

Tipo de variable (numerica por defecto). Es el tipo de variable de entrada.


Si una variable de entrada es alfabetica y debe salir como numerica, solicite
recodificacion (ver mas adelante).
Ancho maximo de la variable.

NDec
Md1

N
umero de cifras decimales; blanco implica que no hay cifras decimales.
Primer c
odigo de datos faltantes para variables numericas.

Md2
Recodificaci
on

Segundo c
odigo de datos faltantes para variables numericas.
Solicitud para recodificar una variable alfabetica a valores numericos.

Para modificar la definicion de variables, coloque el cursor dentro de la ventana y despes use las teclas de
navegaci
on o el rat
on para moverse al campo requerido y cambiar su contenido.
Use el comando Dataset de men
u Construir para crear el archivo Diccionario de IDAMS y el archivo Datos.
Ambos estar
an en la carpeta Datos de la aplicacion activa.

9.7.

Exportaci
on de archivos Datos de IDAMS

WinIDAMS tiene tambien una herramienta para exportar datos directamente a traves de la Interfaz del
Usuario. Esto se puede hacer desde la ventana Datos con el comando Exportar de men
u Archivo. El archivo
Datos de IDAMS que aparece en la ventana en que se est
a trabajando, se puede guardar en uno de los tres
tipos de archivos de formato libre:
archivos .txt delimitados por Tab,
archivos .csv separados con punto y coma.
archivos .csv separados con coma.
En la primera fila de los datos exportados, los nombres de variables del diccionario correspondiente, aparecen
como nombres de columnas.
Si existen nombres de c
odigos para una variable, los valores numericos de c
odigos se pueden sustituir opcionalmente por sus correspondientes nombres en el archivo de datos en salida. Ademas, las variables numericas
pueden salir con coma usada como separador decimal.

9.8 Crear/actualizar/mostrar archivos Setup

9.8.

91

Crear/actualizar/mostrar archivos Setup

La ventana Setup para preparar o mostrar un archivo Setup de IDAMS se llama cuando:
usted crea un nuevo archivo Setup (el comando Nuevo/IDAMS Setup file (archivo Setup) de men
u Archivo o el boton Nuevo de la barra de herramientas),
usted abre un archivo Setup (con extensi
on .set) mostrado en la ventana Aplicacion (haga doble clic
en el nombre del archivo requerido en la lista de Setups),
usted abre un archivo Setup (con cualquier extensi
on) que no este en la ventana Aplicacion (el comando
Abrir/Setup de men
u Archivo o el boton Abrir de la barra de herramientas.

La ventana suministra dos paneles: el de arriba es para preparar el archivo mismo de setup (panel Setup) y
el de abajo para mostrar los mensajes de error cuando se verifican proposiciones de filtro y Recode (panel
Mensajes). S
olo se puede editar el panel Setup. N
otese que se muestran los comandos de IDAMS en negrilla
y los nombres de programas en rosado si se han escrito correctamente. Los textos colocados en un comando
$comment se muestran en verde.
Para preparar un nuevo setup usted puede teclear todas las proposiciones o puede usar el prototipo de
setup del programa requerido y modificarlo seg
un sea necesario. Se suministran prototipos de setup para
todos los programas. Se puede acceder a ellos seleccionando el nombre del programa en la lista bajo el boton
Prototipos de la barra de herramientas. Para copiar el prototipo al panel Setup, haga clic en el nombre del
programa requerido. Para los detalles acerca de c
omo preparar archivos Setup, vea el captulo El archivo
Setup de IDAMS y la descripci
on del programa correspondiente.
Se pueden hacer operaciones de edici
on igual que con cualquier editor de textos ASCII, es decir, usted
puede Cortar, Copiar, y Pegar cualquier selecci
on usando los comandos de Edici
on, los botones equivalentes
de la barra de herramientas o las teclas de acceso rapido Ctrl/X, Ctrl/C y Ctrl/V respectivamente.
Dos comandos de verificaci
on de setup en el men
u Verificar permiten la verificacion de conjuntos de
proposiciones de filtro y de Recode.
Sintaxis de Recode activa la verificacion de la sintaxis en las proposiciones de Recode incluidas en el
setup. Todos los errores que se encuentren se reportan en el panel Mensajes con el n
umero del conjunto
de Recode, la lnea con error y el car
acter o caracteres que causan el problema de sintaxis. Haciendo
doble clic sobre la lnea erronea o en el mensaje de error en el panel Mensajes muestra esta lnea en

92

Interfaz del Usuario


el panel Setup con una flecha amarilla. Puede corregir los errores y repetir la verificacion de sintaxis,
antes de pasar a la ejecuci
on del setup.

Sintaxis de filtros activa la verificacion de la sintaxis en las proposiciones de filtro incluidas en el setup.
Todos los errores que se encuentren se reportan en el panel Mensajes con el n
umero de la proposicion de
filtro, la lnea de la proposicion y el car
acter o caracteres que causan el problema de sintaxis. Haciendo
doble clic sobre la lnea erronea o en el mensaje de error en el panel Mensajes muestra esta lnea en el
panel Setup con una flecha amarilla.
N
otese que aunque la mayora de los errores de sintaxis en las proposiciones de filtro y de Recode se pueden
detectar y corregir aqu, IDAMS lleva a cabo otra verificacion sistem
atica de sintaxis durante la ejecuci
on
del setup. Tambien se reportan en los resultados, los errores de ejecuci
on que no se pueden detectar aqu.

9.9.

Ejecuci
on de los setups de IDAMS

Para ejecutar los programas de IDAMS (para los que se han preparado instrucciones y se han guardado en
un archivo Setup), use el comando Seleccionar setup de men
u Ejecutar en cualquier ventana de documento
de WinIDAMS. En el cuadro de dialogo est
andar de Windows, se pide escoger el archivo del cual se deben
tomar las instrucciones para la ejecuci
on.
Si usted est
a preparando sus instrucciones en la ventana Setup, puede ejecutar los programas del setup activo
usando el comando Setup actual de men
u Ejecutar.
El programa o los programas se ejecutaran y los resultados se escribiran en el archivo especificado para PRINT
bajo $FILES (por defecto IDAMS.LST en la carpeta Trabajo que este activa). Al final de la ejecuci
on, se
abrir
a el archivo de resultados en la ventana Resultados.

9.10.

Manejo de los archivos Resultados

La ventana Resultados para acceder, mostrar e imprimir partes seleccionadas de resultados se llama
cuando:
usted abre un archivo Resultados (con extensi
on .lst) mostrado en la ventana Aplicacion (haga doble
clic en el nombre del archivo requerido en la lista de Results),
usted abre un archivo Resultados (con cualquier extensi
on) que no est
a en la ventana Aplicacion (el
comando Abrir/Resultados de men
u Archivo o el boton Abrir de la barra de herramientas),
usted ejecuta el setup de IDAMS; se muestra autom
aticamente el contenido del archivo Resultados.
La tabla de contenido del archivo Resultados, facilita una navegaci
on rapida por los resultados. Puede
acceder al comienzo del resultado de un programa en particular o aun, a una secci
on en particular. Es mas,
el men
u Edici
on suministra acceso a una facilidad de b
usqueda.

9.10 Manejo de los archivos Resultados

93

La ventana est
a dividida en tres paneles: uno muestra la tabla de contenido de resultados (TDC) como una
estructura de
arbol, el segundo muestra el contenido de resultados y el tercero muestra mensajes de errores
y de advertencias incluidos en los resultados.
Por defecto, se retiene la divisi
on en las p
aginas del contenido de resultados hecha por los programas (la
opcion Modo de p
agina en el men
u Ver esta activa). Para hacer mas compacto el contenido de resultados,
desactive esta opci
on. Las lneas en blanco al final de las p
aginas se retiran de todas las p
aginas y los saltos
de p
agina insertados por los programas se reemplazan con la lnea de texto Page break.
Para abrir/cerrar r
apidamente el
arbol TDC se dispone de tres botones en el teclado numerico:
*
+

abre todos los niveles del


arbol bajo el nodo seleccionado
cierra todos los niveles del
arbol bajo el nodo seleccionado
abre un nivel bajo el nodo seleccionado.

Para ver una secci


on en particular, haga doble clic sobre su ttulo en el arbol TDC.
Para localizar un mensaje de error o de advertencia, haga doble clic sobre el texto del mismo.
No se permite modificaci
on del contenido de resultados. Sin embargo, partes seleccionadas (resaltadas o
marcadas en cuadros de selecci
on en el
arbol TDC) o todos los resultados, se pueden copiar al portapapeles
(el comando Copiar de men
u Edici
on, Ctrl/C o boton de Copiar en la barra de herramientas) y pegadas a
cualquier documento con las tecnicas est
andar de Windows.
Se puede imprimir todo el contenido o p
aginas seleccionadas de un archivo Resultados con el comando
Imprimir de men
u Archivo o con el boton Imprimir de la barra de herramientas. N
otese que la impresion se
hace con orientacion horizontal y esta orientacion no se puede cambiar.
El contenido del archivo Resultados tal como se muestra, se puede guardar en formato RTF o en formato
de texto con el comando Guardar como de men
u Archivo. Las lneas en blanco al final se eliminan siempre.
Los saltos de p
agina se manejan de acuerdo con la opcion Modo de p
agina.

94

Interfaz del Usuario

9.11.

Creaci
on/actualizaci
on de archivos en formato de texto y
RTF

WinIDAMS tiene un Editor General que le permite abrir y modificar cualquier tipo de documento en formato
de caracteres. Sin embargo, su funci
on b
asica es suministrar una facilidad para editar archivos Texto y ofrecer
aspectos sofisticados de formato y edici
on. Se debe evitar la manipulaci
on de archivos Diccionario, Datos o
Setup y la manipulaci
on de archivos Matriz debe hacerse cuidadosamente.
La ventana Texto se llama cuando:
usted crea un nuevo archivo Texto (el comando Nuevo/Text file (archivo Texto) o RTF file (archivo
RTF) de men
u Archivo, o el boton Nuevo de la barra de herramientas),
usted abre un archivo Matriz (con extensi
on .mat) mostrado en la ventana Aplicacion (haga doble clic
en el nombre del archivo requerido en la lista de Matrices),
usted abre cualquier archivo de caracteres que no este en la ventana Aplicacion (el comando Abrir/Con
el Editor General de men
u Archivo o el boton Abrir de la barra de herramientas).

El Editor General suministra un n


umero de comandos est
andar de edici
on que son conocidos por los usuarios
de Windows. Se escriben a continuacion pero no se describen en detalle.
Insertar suministra comandos para insertar salto de p
agina y de secci
on, pintura, objeto OLE (vinculacion
e incrustaci
on de objetos), marco y objeto de dibujo.
Los comandos de la Fuente le permiten cambiar la fuente y el color del texto seleccionado y el color del
fondo.
Los comados del P
arrafo le permiten alinear p
arrafos diferentemente, sangrarlos, mostrarlos en doble
espacio, dibujar un borde alrededor y sombrear el fondo.
Tabla permite el acceso a un n
umero de comandos para insertar y manipular tablas.
Ver contiene tres comandos adicionales para mostrar el documento activo en modo de p
agina, mostrar la
regla y el marcador de par
agrafo.
La barra de herramientas de formato le permite escoger rapidamente los comandos de formato usados
con mas frecuencia.

Parte III

Facilidades para el manejo de datos

Captulo 10

Agrupaci
on de datos (AGGREG)
10.1.

Descripci
on general

AGGREG reune registros individuales (casos) en grupos definidos por el usuario y calcula las estadsticas
descriptivas de resumen para variables especificadas en cada grupo. Las estadsticas incluyen sumas, medias,
variancias, desviaciones est
andar, as como valores maximos y mnimos y el conteo de datos no faltantes. Se
crea un dataset IDAMS como salida, es decir, el archivo de datos agrupado (agregado) y descrito por un
diccionario IDAMS; el archivo de datos agrupados, contiene un registro (caso) por grupo con variables que
son el resumen a nivel de grupo de cada una de las variables de entrada seleccionadas.
En el captulo Tablas univariadas y bivariadas de la parte F
ormulas estadsticas y referencias bibliograficas se pueden encontrar f
ormulas para calular media, variancia y desviacion est
andar. Sin embargo, deben
ajustarse ya que los casos no est
an ponderados y el coeficiente N/(N-1) no se usa en el c
alculo de la variancia
y desviacion est
andar de la muestra. N
otese que las estadsticas se seleccionan para el conjunto total de
variables agrupadas. De esta manera, si hay 2 variables agrupadas y tres estadsticas seleccionadas, entonces
habr
a 6 variables calculadas.
AGGREG le permite al usuario cambiar el nivel de agrupaci
on de datos, por ejemplo, de miembros de una
familia a nivel de hogares o de distrito a nivel regional, etc. Por ejemplo, supongamos que un archivo de
datos contiene registros de cada individuo de un hogar y queremos analizar estos datos a nivel de hogares.
AGGREG nos permite agrupar valores de las variables de registros individuales de cada hogar para crear
un archivo de registros a nivel de hogares para analisis posteriores. Para ser mas especficos, si el archivo
de datos a nivel de individuos tiene una variable que nos da el ingreso personal, AGGREG podra crear
registros a nivel de hogares con una variable que describa el ingreso total por hogar.
Agrupamiento de datos. El usuario especifica hasta 20 variables de definicion de grupos (variables de
identificacion) que determinan el nivel de agrupamiento del archivo de salida. Por ejemplo, si se quieren
agrupar datos a nivel de miembros de una familia a nivel de hogares, entonces una variable que identifique
el hogar sera la variable de definicion de grupo. Cada vez que AGGREG lee un registro de entrada, busca
cambios en cualquiera de las variables de identificacion. Cuando se encuentra un cambio, se produce un
registro de salida que contiene estadsticas de resumen, calculadas con las variables agrupadas especificadas
para el grupo de registros que se acaban de procesar.
Inserci
on de constantes dentro de los registros de grupo. Se pueden insertar constantes dentro de
cada registro de grupo con los par
ametros PAD1, ... , PAD5, los cuales especifican las llamadas variables
pad. El valor de una variable pad es una constante.
Transferencia de variables. Se pueden transferir variables a los registros de salida. N
otese que solamente
los valores del primer caso dentro del grupo son transferidos.

98

10.2.

Agrupaci
on de datos (AGGREG)

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. El filtro est
andar est
a disponible para escoger un subconjunto de casos a
partir de los datos de entrada. Con los par
ametros, se especifican las variables de identificacion que definen
los grupos y las variables a ser agrupadas. Las variables de identificacion se incluyen autom
aticamente en el
dataset de salida.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. El valor de cada variable agrupada se compara con ambos c
odigos de
datos faltantes y si se detecta que se trata de un valor faltante, se excluye autom
aticamente de los c
alculos.
Un porcentaje suministrado por el usuario, el punto de corte (ver el par
ametro CUTOFF), determina el
n
umero de datos faltantes permitido antes de producir el valor de resumen como un c
odigo de datos faltantes.
Por ejemplo, supongamos que se quiere calcular la media de una variable agrupada dentro de un grupo y
este contiene 12 registros, 6 de los cuales tienen datos faltantes, es decir, el 50 %. Si el valor de CUTOFF es
75 %, se calcula la media de los 6 datos no faltantes y esta es la salida para el grupo. Si el valor de CUTOFF
es de 25 %, entonces no se calcula la media y se produce como salida el primer c
odigo de datos faltantes.

10.3.

Resultados

Resumen de datos faltantes. (Opcional: ver el par


ametro PRINT). Para cada variable en cada grupo, se
imprime: el n
umero de la variable de entrada, el n
umero de la variable de salida, el n
umero de registros con
datos no faltantes y el porcentaje de registros con datos faltantes.
Resumen de grupos. (Opcional: ver el par
ametro PRINT). El n
umero de registros de entrada para cada
grupo.
Diccionario de entrada. (Opcional: ver el par
ametro PRINT). Registros descriptores de variables y registros C si los hay, solo para las variables usadas en la ejecuci
on.
Diccionario de salida. (Opcional: ver el par
ametro PRINT).
Estadsticas generadas. (Opcional: ver el par
ametro PRINT). Se pueden imprimir todas las variables
calculadas para cada registro agrupado. Tambien se dan el n
umero de variable de la correspondiente variable
agrupada y las variables de identificaci
on.

10.4.

Dataset de salida

El dataset de los datos agrupados en la salida es un archivo Datos descrito por un diccionario IDAMS.
Cada registro contiene valores de las variables de identificacion, de las variables calculadas, de las variables
transferidas y de las constantes pad; se produce un registro para cada grupo.
Orden y numeraci
on de variables. Las variables de salida se encuentran en el mismo orden relativo de
las variables de entrada a partir de las cuales fueron derivadas, sin importar si la variable de entrada se
uso como variable de identificaci
on, variable a ser agrupada o variable a ser transferida. De esta manera, si
se utiliza la primera variable de entrada, la variable o variables que se deriven de ella, seran la primera o
primeras variables de salida. Cada variable de entrada que se use como variable de identificacion o variable
a ser transferida, corresponde a una variable de salida; cada variable agrupada corresponde a 1-7 variables
de salida, seg
un el n
umero de estadsticas de resumen solicitadas (estas variables salen en el orden relativo:
suma, media, variancia, desviaci
on est
andar, conteo, mnimo, maximo). Las variables de salida son siempre
renumeradas, a partir del n
umero suministrado en el par
ametro VSTART. Las constantes pad siempre van
al final.
Nombres de variable. Las variables de salida tienen los mismos nombres de las variables de entrada de
las cuales se derivaron, con la excepci
on de que para las variables agrupadas se codifican los caracteres 23 y
24 del campo del nombre:

10.5 Dataset de entrada


S
M
V
D
CT
MN
MX

=
=
=
=
=
=
=

99

suma
media
variancia
desviaci
on est
andar
conteo
mnimo
maximo.

Las constantes pad, tienen los nombres de variable Pad variable 1, Pad variable 2, etc.
Tipo de variable. Las variables de identificacion y las variables transferidas salen con el mismo tipo de
variable que la de entrada. Las variables calculadas son siempre numericas.
Ancho de campo y n
umero de decimales. El ancho de campo de las variables agrupadas de salida
depende de las estadsticas, el ancho de campo de entrada (FW), el n
umero de cifras decimales de entrada
(ND) y las cifras decimales extra, solicitadas por el usuario en el par
ametro DEC. Los anchos de campo y el
n
umero de cifras decimales, se asignan de la manera mostrada a continuacion, donde FW=ancho del campo
de entrada y ND=n
umero de cifras decimales de entrada para las variables de entrada, y FW=6 y ND=0
para las variables que vienen de Recode.
Estadstica

Ancho de campo

Cifras decimales

SUMA
MEDIA
VARIANCIA

DESVIACION ESTANDAR

MINIMO

MAXIMO
COUNTEO

FW
FW
FW
FW
FW
FW
4

ND
ND + DEC ***
ND + DEC ***
ND + DEC ***
ND
ND
0

*
**
***

+
+
+
+

3*
DEC **
DEC **
DEC **

Si el ancho de campo pasa de 9, se reduce a 9.


Si el ancho de campo pasa de 9, entonces el n
umero de decimales extra se reduce igualmente.
Si el n
umero de decimales pasa de 9, entonces DEC se reduce de la misma manera.

C
odigos de datos faltantes. Los c
odigos de datos faltantes para las variables de identificacion y para las
variables transferidas se toman del diccionario de entrada. El segundo c
odigo de datos faltantes (MD2) es
siempre blancos para variables calculadas. El valor del primer c
odigo de datos faltantes (MD1) se asigna de
la siguiente manera:
Variable de salida
FW de salida <= 7
FW de salida > 7
variable CONTEO

MD1 de salida
9s
-999999
9999

N
umeros de referencia. Las variables calculadas reciben un n
umero de referencia igual al de su variable
de base.
Registros C. Los registros C del diccionario de entrada se transfieren al diccionario de salida para las
variables de identificaci
on y para las variables transferidas.
Nota acerca del c
alculo de las estadsticas. Antes de producir la salida, los valores calculados se
redondean al ancho de campo y al n
umero de cifras decimales calculadas. Si el valor calculado excede a
999999999 o es inferior a -99999999, entonces sale como 999999999.

10.5.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Las variables de definicion de grupo
(identificadoras) y las variables a ser transferidas pueden ser numericas o alfabeticas, aunque las variables
numericas se tratan como cadenas de caracteres, es decir, un valor de 044 es diferente de 44. No pueden
ser variables recodificadas. Las variables a ser agrupadas deben ser numericas y pueden ser variables recodificadas.

100

Agrupaci
on de datos (AGGREG)

El archivo se procesa secuencialmente y se reunen los registros contiguos que tengan el mismo valor para
las variables identificadoras. De esta manera, el archivo de entrada debe clasificarse con las variables identificadoras como llave de clasificacion antes de usar AGGREG. Notar que AGGREG no verifica el orden de
clasificacion de los registros del archivo de entrada.

10.6.

Estructura del setup

$RUN AGGREG
$FILES
Epecificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT

10.7.

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE V1=10,20,30,50 OR V10=90-300

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

REUNION DE DATOS PROFESOR/ESTUDIANTE

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

IDVARS=(V1,V2) STATS=(SUM,VARI) DEC=3 AGGV=(V5-V10,V50-V75) PAD1=80

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de datos no numericos. Ver el captulo El archivo Setup de IDAMS.

10.7 Proposiciones de control del programa

101

MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
IDVARS=(lista de variables)
Hasta 20 n
umeros de variable para definir los grupos. No se permiten variables R.
Sin valor por defecto.
AGGV=(lista de variables)
Variables V o R para ser agrupadas.
Sin valor por defecto.
STATS=(SUM, MEAN, VARIANCE, SD, COUNT, MIN, MAX)
Par
ametros para escoger las estadsticas solicitadas (se debe seleccionar al menos una de: SUM,
MEAN, VARIANCE, SD). Salen para cada grupo y para cada variable AGGV.
SUM
La suma.
MEAN
La media.
VARI
La variancia.
SD
La desviaci
on est
andar.
COUN
El n
umero de casos validos.
MIN
El valor mnimo.
MAX
El valor maximo.
SAMPLE/POPULATION
SAMP
Calcular la variancia y/o la desviacion est
andar con la ecuaci
on de muestra.
POPU
Usar la ecuaci
on de poblacion.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
VSTART=1/n
N
umero de variable para la primera variable en el dataset de salida.
CUTOFF=100/n
Porcentaje de casos con c
odigos MD permitidos antes de producir la salida de un c
odigo MD. Un
valor entero.
DEC=2/n
Para las variables calculadas que involucren media, variancia o desviacion est
andar: n
umero de
cifras decimales adicionales a aquellas de las correspondientes variables de entrada (ver restriccion
7).
TRANSVARS=(lista de variables)
Las variables cuyos valores, tal como aparezcan en el primer caso de cada grupo, se van a
transferir al archivo de salida. No se permiten variables R.
PAD1=constante
PAD2=constante
PAD3=constante
PAD4=constante
PAD5=constante
Se pueden a
nadir hasta 5 constantes al dataset de salida. El n
umero de caracteres dado, determina
el ancho del campo de la constante PAD.

102

Agrupaci
on de datos (AGGREG)
PRINT=(MDTABLES, GROUPS, DATA, CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT)
MDTA
Imprimir una tabla que suministre el porcentaje de datos faltantes encontrado para
cada variable agrupada en cada grupo.
GROU
Imprimir el n
umero de casos por grupo.
DATA
Imprimir los valores de cada variable calculada en cada registro de grupo.
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
NOOU
No imprimir el diccionario de salida.

10.8.

Restricciones

1. M
aximo n
umero de variables a ser agrupadas es 400.
2. M
aximo n
umero de variables de identificacion es 20.
3. M
aximo n
umero de caracteres en las variables de identificacion es 180.
4. M
aximo n
umero de variables a ser transferidas es 100.
5. No se permiten variables recodificadas como IDVARS o TRANSVARS.
6. La misma variable no pueden aparecer en dos listas de variables.

10.9.

Ejemplo

Producir un dataset de salida que contenga un caso agrupado para cada valor u
nico de V5 y V7; las variables
en cada caso van a ser la suma, la media y la desviacion est
andar de 4 variables de entrada y 1 variable
recodificada, agrupadas en los casos que forman el grupo (es decir, con los mismos valores de V5 y V7);
los valores de V10 y de V11 para el primer caso de cada grupo van a transferirse a los registros de salida;
se requiere un listado de los valores producidos para cada caso; en el archivo de salida, las variables se
numeraran a partir del n
umero 1001.
$RUN AGGREG
$FILES
PRINT
= AGGR.LST
DICTIN = IND.DIC
archivo Diccionario de entrada
DATAIN = IND.DAT
archivo Datos de entrada
DICTOUT = AGGR.DIC
archivo Diccionario de salida
DATAOUT = AGGR.DAT
archivo Datos de salida
$RECODE
R100=COUNT(1,V20-V29)
NAME R100INDICE DE SALUD
$SETUP
REUNION DE 4 VARIABLES DE ENTRADA Y UNA VARIABLE RECODIFICADA
IDVARS=(V5,V7) AGGV=(V31,V41-V43,R100) STATS=(SUM, MEAN, SD)
VSTART=1001 PRINT=DATA TRANS=(V10,V11)

Captulo 11

Construcci
on de un dataset IDAMS
(BUILD)
11.1.

Descripci
on general

BUILD toma un archivo de datos primarios, que puede contener varios registros por caso, junto con un
diccionario que describe las variables requeridas y crea un archivo Datos nuevo con un solo registro por caso
que contiene valores solamente para las variables especificadas. Al mismo tiempo, produce un diccionario
IDAMS de salida que describe el archivo Datos con nuevo formato, en otras palabras se crea un dataset
IDAMS.
Ademas de la reconstrucci
on de los datos, BUILD tambien verifica valores no numericos en variables numericas.
Por que usar BUILD? Cualquier programa IDAMS se puede usar sin tener que utilizar BUILD, al preparar
por separado un diccionario IDAMS. Sin embargo, se recomienda usar BUILD como un paso preliminar ya
que:
- verifica la correcta preparacion del diccionario,
- asegura que haya una correspondencia exacta entre el diccionario y los datos,
- asegura que no haya caracteres no numericos inesperados en los datos,
- reduce los datos a la forma de un solo registro compacto por caso,
- recodifica los espacios en blanco con valores especificados por el usuario.
Procesamiento de las variables num
ericas. Cuando BUILD procesa un campo como si tuviera una
variable numerica, verifica que el campo contenga un n
umero reconocible o contenga solamente blancos.
Si se presenta un valor diferente de los anteriores, por ej. 3J, 3-, ++2, etc. se imprime la posicion
secuencial del caso, el n
umero de variable asociado con el campo y el caso de entrada y se usa una cadena
de nueves como el valor de salida.
Las reglas de procesamiento son las siguientes:
Si un campo contiene un n
umero reconocible, el n
umero se edita a una forma est
andar antes de enviarlo
a la salida (ver el captulo Los datos en IDAMS para una descripcion mas detallada).
Si un campo contiene solo blancos, BUILD recodificar
a el valor asign
andole el primero o segundo
c
odigos de datos faltantes, nueves o ceros en el campo de salida o, si no se especifico recodificacion,
indicar
a un error y el campo de salida estar
a en blanco. La columna 64 de los registros T se puede usar
para especificar la recodificacion correspondiente a la variable (ver la secci
on Diccionario de entrada).
Si un campo contiene los blancos a la derecha, por ej. 04 en un campo numerico de tres dgitos o
los blancos entre digitos, por ej. 0 4, se reportar
a como un error y el valor se llenara con dgitos 9.
Si un campo contiene un valor positivo o negativo con el car
acter + o - mal colocado, por ej.
1-23, se reportar
a como un error y el valor se llenara con dgitos 9.

104

Construcci
on de un dataset IDAMS (BUILD)
Si un c
odigo de datos faltantes para una variable tiene un dgito mas que el campo de entrada, el
campo de salida sera un dgito mayor que el campo de entrada. Se puede usar cuando es necesario
aumentar el ancho del campo de salida sin cambiar el ancho del campo de entrada; por ejemplo, si se
han definido los c
odigos 0-9 y blanco para una variable que ocupa una sola columna, el campo blanco
no se podra recodificar con un valor numerico u
nico sin disponer de un c
odigo de salida de 2 dgitos.
Tabla que muestra ejemplos de ediciones hechas con BUILD
y el contenido del campo de salida
para un campo de entrada num
erico de 3 d
gitos
____________________________________________________________________________________
Valor
Nr. MD1
de
dec.
entrada
______ ___ ____
032
32
3 2
32
-03
-3
- 3
3.2
32
.32
3.2
.32
.35
-.3
-.3
-03

A32
3-2

11.2.

0
0
0
0
0
0
0
0
1
1
1
2
1
0
1
1
-

9999

8888

Recodif.
especif.
________
1
0
Ninguna
-

Valor
de
salida
______
0032
032
999
999
-03
-03
-03
003
032
003
032
032
004
-00
-03
-03
8888
000
999
999

Ancho del
campo de
salida
________
4
3
3
3
3
3
3
3
3
3
3
3
3
3
3
3
4
3
3
3
3

Mensaje de error

_______________
blancos intercalados en var...
blancos intercalados en var...
(s
olo si PRINT=RECO)
(s
olo si PRINT=RECO)
blancos en var ...
caracteres malos en var...
caracteres malos en var...

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Este programa no tiene provision para la selecci
on de casos a partir del
archivo de datos de entrada. El filtro est
andar no est
a disponible. Por medio de la descripcion de variables,
se puede seleccionar para los datos de salida cualquier subconjunto de los campos dentro de un caso.
Transformaci
on de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. BUILD no hace distincion entre datos verdaderos y valores de datos
faltantes. Sin embargo, los campos en blanco se pueden recodificar a c
odigos de datos faltantes, ceros o
nueves.

11.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). La columna Brule del listado del diccionario contiene reglas para la recodificacion de campos en blanco, tal como se especifica en la columna 64
del diccionario de entrada. Tener en cuenta que los posibles mensajes de error producidos para las descripciones de las variables, est
an mezclados con el listado del diccionario y no contienen un n
umero de variable.
Si no se imprime el diccionario de entrada, puede ser muy difcil la identificacion de errores.

11.4 Dataset de salida

105

Diccionario de salida. (Opcional: ver el par


ametro PRINT). Los registros descriptores de variables (registros T) se imprimen con o sin registros C, si los hay.
Caractersticas del archivo Datos de salida. Longitud del registro de datos de salida.
Mensajes de la edici
on de datos. Para cada caso que contenga errores se imprime el caso de entrada
(hasta 100 caracteres por lnea) y un registro de los errores en el orden del n
umero de variable.
Mensajes de la recodificaci
on de campos en blanco. (Opcional: ver el par
ametro PRINT). Para cada
caso que contenga campos en blanco recodificados, se imprime un mensaje de la recodificacion junto con el
caso de entrada. Este listado est
a integrado con la impresion de los mensajes de errores en los datos, si se
presentan errores para el caso.

11.4.

Dataset de salida

BUILD crea un archivo Datos y el diccionario IDAMS correspondiente, es decir un dataset IDAMS. Tengase
en cuenta que los registros T producidos por BUILD siempre definen la ubicacion de las variables en terminos
de la posicion inicial y el ancho del campo.
El archivo Datos contiene un registro para cada caso o unidad de analisis. La longitud del registro es la suma
de los anchos de campo de todas las variables de salida y es determinada por el programa BUILD.
Valores de variables num
ericas. Los valores de las variables numericas se editan de acuerdo con una
forma est
andar que se describe en el p
arrafo Procesamiento de las variables numericas arriba.
Valores de variables alfab
eticas. Los valores de las variables alfabeticas no se editan y son los mismos
en la entrada y en la salida.
Ancho de campo. BUILD normalmente asigna como ancho de una variable el n
umero de caracteres del
campo de la variable de entrada correspondiente. Sin embargo, cuando un c
odigo de datos faltantes para
una variable tiene un dgito mas que el campo de entrada, el campo de salida sera un dgito mayor que el
campo de entrada.
Localizaci
on de variable. BUILD asigna los campos de salida seg
un el orden de los n
umeros de las
variables. De acuerdo con esto, si las dos primeras variables tienen anchos de salida de 5 y 3, se asignan las
posiciones 1-5 para la primera variable y 6-8 para la segunda variable, etc.
N
umero de referencia e identificador de estudio. El n
umero de referencia, si no es blanco, e identificador de estudio son los mismos que sus valores de entrada. Si el campo del n
umero de referencia de un
registro T o un registro C es blanco, se llena con el n
umero de la variable.

11.5.

Diccionario de entrada

Describe las variables que se van a seleccionar para la salida. El formato est
a descrito en el captulo Los
datos en IDAMS, la columna 64 del registro T se usa para especificar una regla de recodificacion de campos
en blanco en una variable de la manera siguiente:
blanco
0
1
2
9

no hay recodificacion de campos en blanco,


recodifique campos en blanco a ceros,
recodifique campos en blanco al primer c
odigo de datos faltantes de la variable,
recodifique campos en blanco al segundo c
odigo de datos faltantes de la variable,
recodifique campos en blanco a nueves.

Nota. La ventana Diccionario de la Interfaz del Usuario no permite acceso a la columna 64; entonces, use el
Editor General de WinIDAMS (Archivo/Nuevo/Archivo usando Editor General) o cualquier otro editor de
texto para llenar esta columna.

106

Construcci
on de un dataset IDAMS (BUILD)

11.6.

Datos de entrada

Los datos pueden ser cualquier archivo de registros de longitud fija, con uno o mas registros por caso, siempre
que se tenga exactamente el mismo n
umero de registros para cada caso. El archivo debe estar clasificado
por tipo de registro dentro de cada ID de caso. Los valores para cualquier variable deben localizarse en las
mismas columnas del mismo registro para cada caso.
Si los datos de entrada tienen mas de un registro por caso, debe usarse siempre MERCHECK antes que
BUILD para garantizar que los datos tengan los mismos registros para cada caso.
N
otese que BUILD no acepta notaci
on exponencial en los datos.

11.7.

Estructura del setup

$RUN BUILD
$FILES
Especificaci
on de archivos
$SETUP
1. T
tulo
2. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT

11.8.

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-2, a continuacion.
1. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

ESTUDIO DE CONSTRUCCION DE ARCHIVO A35

2. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

MAXERROR=50

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.

11.9 Ejemplos

107

LRECL=80/n
Longitud de cada registro de los datos de entrada.
(Se usa para verificar si las posiciones de comienzo de las variables en los registros T son validas).
MAXCASES=n
N
umero maximo de casos a usar del archivo de entrada.
Por defecto: se usan todos los casos.
VNUM=CONTIGUOUS/NONCONTIGUOUS
CONT
Verifica que las variables esten numeradas en orden ascendente y consecutivo en el
diccionario de entrada.
NONC
Verifica solamente que las variables esten numeradas en orden ascendente.
MAXERR=10/n
N
umero maximo de casos con errores antes de terminar la ejecuci
on de BUILD.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
PRINT=(RECODES, CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT)
RECO
Imprimir los casos de entrada que tengan uno o mas campos, todos en blanco, que
hayan sido recodificados.
CDIC
Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
NOOU
No imprimir el diccionario de salida.

11.9.

Ejemplos

Ejemplo 1. Construir un dataset IDAMS (archivos Diccionario y Datos); los registros de datos de entrada
tienen una longitud de registro de 80 con 3 registros por caso; las variables tienen una numeraci
on no
contigua en el diccionario de entrada; la variable 2 es el identificador completo (columnas 5-10) mientras
que las variables V3 y V4 contienen las dos partes del identificador (columnas 5-8, 9-10 respectivamente);
los campos en blanco se reemplazaran por el primer c
odigo de datos faltantes de las variables V101, V122,
V168, y con ceros para la variable V169; los blancos en la variable V123 (edad) se trataran como errores.
$RUN BUILD
$FILES
DATAIN = ABCDATA.DAT RECL=80
archivo Datos de entrada
DICTOUT = ABC.DIC
archivo Diccionario de salida
DATAOUT = ABC.DAT
archivo Datos de salida
$SETUP
CONSTRUCCION DE UN DATASET IDAMS
VNUM=NONC MAXERR=200
$DICT
3
1 169
3
T
1 CODIGO CIUDAD
1 1 1 3
T
2 IDENTIFICADOR DEL ENCUE
5 10
T
3 NUMERO DEL HOGAR
5
8
T
4 NUMERO DEL ENCUESTADO
9 10
T 101 POS. DEL ENCUE EN FAMIL
13
0
9
1
T 122 SEXO
225
9
1
T 123 EDAD
48 49
T 168 OCUPACION
358 59
99
98
1
T 169 INGRESO
61 65
99998
0

ID
ID
ID
ID
QS1
QS2
QS2
QS3
QS3

108

Construcci
on de un dataset IDAMS (BUILD)

Ejemplo 2. Verificar la presencia de caracteres no numericos en 4 campos numericos; el archivo Datos de


entrada tiene un registro por caso; los registros se identifican con un campo alfabetico; las 5 variables no se
numeran en forma contigua; como no se necesitan los archivos de salida que BUILD produce normalmente,
se definen como archivos temporales (extension TMP) que IDAMS borra autom
aticamente al final de la
ejecuci
on.
$RUN BUILD
$FILES
DATAIN = NEWDATA.DAT RECL=256
archivo Datos de entrada
DICTOUT = DIC.TMP
archivo temporal Diccionario de salida
DATAOUT = DAT.TMP
archivo temporal Datos de salida
$SETUP
VERIFICACION DE CARACTERES NO NUMERICOS Y CAMPOS EN BLANCO
VNUM=NONC LRECL=256 PRINT=NOOU MAXERR=200
$DICT
3
1 35
1
1
T
1 NOMBRE ENCUESTADO
1 20 1
T 21 EDAD
21
2
T 22 INGRESO
29
6
T 25 NR. SITIOS DE TRABAJO
129
1
T 35 TITULO SCI.
201
1

Captulo 12

Verificaci
on de c
odigos (CHECK)
12.1.

Descripci
on general

CHECK verifica si las variables tienen datos validos y produce un listado con todos los c
odigos invalidos por
identificador de caso y n
umero de variable.
Especificaci
on de c
odigos. Hay dos maneras de especificar los c
odigos de las variables a verificar. Primera,
las proposiciones de control del programa incluyen un conjunto de especificaciones de c
odigos en el cual se
definen las variables y sus c
odigos validos. Segunda, el usuario puede suministrar una lista de variables de la
cual se van a tomar c
odigos validos de los registros C en el diccionario. En cualquier ejecuci
on de CHECK,
el usuario puede aplicar el primer metodo para unas variables y el segundo para otras. Las especificaciones
de c
odigo para variables en el setup tienen prioridad sobre las especificaciones del diccionario.
M
etodo usado para verificar valores de los datos. Los valores de los datos para variables numericas
y alfabeticas se verifican car
acter por c
aracter contra los c
odigos validos especificados. As, si se da una
especificaci
on de c
odigos validos de V2=02,03, un valor de 2 en los datos sera invalido; un blanco a la
izquierda en los datos no se considera igual a cero. Si se especifican valores de c
odigos con menos dgitos que
el ancho de campo de la variable, se suponen ceros a la izquierda. As, si se da la especificaci
on V2=2,3,
donde V2 es una variable de 2 dgitos, los valores validos para la comparaci
on de los datos seran 02,03. De
manera similar, si se suministran -3 y 1 como c
odigos validos para una variable de 3 dgitos, CHECK
editara los c
odigos con -03 y 001 antes de efectuar cualquier comparaci
on de datos con estos valores.
Nota. Si se encuentra un error de sintaxis en una especificaci
on de c
odigos, se verifica el resto de las
especificaciones de c
odigos pero no se procesan los datos.

12.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. El filtro est
andar est
a disponible para seleccionar un subconjunto de casos
del dataset de entrada. El usuario escoge las variables a verificar, especificandolas en una lista de variables
y/o en las especificaciones de c
odigos.
Transformaci
on de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. CHECK no hace distincion entre datos sustantivos y valores de datos
faltantes; todos los datos reciben el mismo tratamiento.

12.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Se imprimen los registros del diccionario
para todas las variables, no solamente para aquellas variables que se van a verificar.

110

Verificaci
on de c
odigos (CHECK)

Documentaci
on de c
odigos inv
alidos. Para cada caso en el que se encuentre una variable con un c
odigo
invalido, CHECK imprime el valor o los valores de la(s) variable(s) de identificacion, las variables con error
y sus valores.

12.4.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. CHECK puede verificar datos validos
en variables numericas y alfabeticas. Si el diccionario contiene registros C, estos pueden usarse para definir
c
odigos validos de las variables.
Para los valores de las variables numericas se supone que se encuentran en la forma que tendran despues
de haber pasado por el programa BUILD. Esta suposicion implica que no hay blancos a la izquierda (fueron
reemplazados por ceros), que un signo negativo, si lo hay, aparece en el extremo izquierdo del campo y que
no aparecen puntos decimales explcitos.

12.5.

Estructura del setup

$RUN CHECK
$FILES
Especificaci
on de archivos
$SETUP
1.
2.
3.
4.

Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de c
odigos (tantas como sean necesarias)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
PRINT

12.6.

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE V10=3

AND

V20=1-9

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

DATOS: DATOS DE TESIS, VERSION 1

12.6 Proposiciones de control del programa

111

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

IDVA=(V1-V4) VARS=(V22-V26,V101-V102)

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
START=1/n
N
umero secuencial del primer caso a ser verificado.
VARS=(lista de variables)
Variables para las cuales se van a tomar codigos validos de los registros C en el diccionario.
MAXERR=100/n
M
aximo n
umero de casos permitidos con c
odigos invalidos; si se excede este n
umero, se termina
la ejecuci
on del programa.
IDVARS=(lista de variables)
Hasta 20 variables cuyos valores se imprimen cuando se encuentra un c
odigo invalido. Estas consistiran normalmente como mnimo, de las variables que identifican un caso pero pueden incluir otras
variables que suministren informacion adicional al usuario. Las variables pueden ser alfabeticas o
numericas.
Sin valor por defecto.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de c
odigos (opcional). Estas especificaciones definen las variables a verificar y sus
valores de c
odigo validos o invalidos.
Ejemplos:
V3=1,3,5-9

(Los datos para la variable 3 pueden tener los c


odigos
1,3,5-9. Cualquier otro c
odigo ser
a inv
alido y ser
a
documentado).

V7,V9,V12-V14= 2,50-75,100

(Los datos para las variables 7,9 y 12 a 14 pueden


tener s
olo los valores 2, 50-75, 100).

V50 <> 75

(Los datos para la variable 50 pueden tener cualquier


valor excepto 75).

Formato general
lista de variables = lista de valores de c
odigo
o
lista de variables <> lista de valores de c
odigo
Reglas de codificaci
on
Cada especificaci
on de c
odigos debe comenzar en una lnea nueva. Para continuar en otra lnea, interrumpa despues de una coma y coloque un gui
on. Se pueden usar todas las lneas de continuacion que
sean necesarias. Pueden aparecer blancos en cualquier lugar de las especificaciones.

112

Verificaci
on de c
odigos (CHECK)
Lista de variables
Cada n
umero de variable debe estar precedido por una letra V.
Las variables se pueden expresar una por una (separadas con una coma), por rangos (separadas
con un gui
on) o una combinaci
on de ambos (V1,V2,V10-V20).
Las variables se pueden definir en cualquier orden.
Todas las variables agrupadas en una expresion deben tener el mismo ancho de campo (por ej. para
V2,V3=10-20 V2 y V3 deben tener ambas el mismo ancho de campo definido en el diccionario).
Las variables a verificar pueden ser numericas o alfabeticas.
V
alido (=) o inv
alido (<>)
Un signo = indica que los valores de c
odigo que siguen son los c
odigos validos para las variables
especificadas. Todos los dem
as c
odigos se documentar
an como errores.
<> (no igual) indica que los c
odigos que siguen son invalidos. Todos los casos que tengan estos
c
odigos para las variables especificadas se documentar
an como errores.
Lista de valores de c
odigo
Los c
odigos se pueden expresar uno por uno (separados con una coma), por rangos (separados
con un gui
on) o una combinaci
on de ambos.
Para variables numericas, no es necesario suministrar ceros a la izquierda (por ej. V1=1-10), pero
recuerde que si se verifican varias variables para c
odigos comunes, todas deben tener definido en
el diccionario el mismo ancho de campo.
Para datos con cifras decimales, no coloque el punto decimal en el valor, pero suministre el valor
de manera que refleje exactamente las cifras decimales implicadas, por ej. el n
umero 2 con un
decimal debe ser dado como 20.
Para valores alfabeticos, no es necesario colocar blancos a la derecha, estos son a
nadidos por el
programa de manera que completen la longitud del ancho de campo de la variable.
Para definir un blanco o para especificar un valor con blancos intercalados, encierre el valor entre
comillas sencillas. (por ej. V10=NEW YORK,WASHINGTON, ).
Los valores de c
odigo se pueden definir en cualquier orden.
Notas.
1) Si se dan dos especificaciones diferentes para la misma variable, solo se utilizara la u
ltima de ellas.
2) Las especificaciones de c
odigos para una variable reemplazan el uso de registros de nombres de
c
odigos del diccionario para las variables especificadas con el par
ametro VARS.

12.7.

Restricciones

1. El maximo n
umero de variables de identificacion es 20.
2. El maximo n
umero de c
odigos distintos que se pueden suministrar en las especificaciones de c
odigo es
4000. Esta restriccion se puede obviar con rangos de c
odigos ya que un rango de c
odigos se cuenta solo
como 2 c
odigos.

12.8.

Ejemplos

Ejemplo 1. Busqueda de c
odigos ilegales en variables cualitativas y valores fuera de rango en variables
cuantitativas; los u
nicos c
odigos validos para las variables V10, V12 y V21 a V25 son 1 a 5 y 9; el c
odigo
9998 es ilegal para la variable V35; los c
odigos 0 y 8 son ilegales para las variables V41, V44 y V46; las
variables V71 a V77 deben tener valores dentro del rango de 0 a 100 o 999; los casos se identifican con las
variables V1, V2 y V4; no se usan los valores de c
odigos del diccionario.

12.8 Ejemplos

113

$RUN CHECK
$FILES
PRINT = CHECK1.LST
DICTIN = STUDY1.DIC
archivo Diccionario de entrada
DATAIN = STUDY1.DAT
archivo Datos de entrada
$SETUP
BUSQUEDA DE CODIGOS ILEGALES Y VALORES FUERA DE RANGO
IDVARS=(V1,V2,V4)
V10,V12,V21-V25=1-5,9
V35<>9998
V41,V44,V46<>0,8
V71-V77=0-100,999
Ejemplo 2. Verificacion de la validez del c
odigo unicamente para un subconjunto de casos (cuando la
variable V21 es igual a 2 o igual a 3 y la variable V25 es igual a 1); los c
odigos validos para algunas variables
se toman de los registros C del diccionario; adicionalmente, se da una especificaci
on valida para la variable
V48; los casos se identifican con la variable V1.
$RUN CHECK
$FILES
DICTIN = STUDY2.DIC
archivo Diccionario de entrada
DATAIN = STUDY2.DAT
archivo Datos de entrada
PRINT = CHECK.PRT
$SETUP
INCLUDE V21=2,3 AND V25=1
BUSQUEDA DE CODIGOS ILEGALES
IDVARS=V1 VARS=(V18-V28,V36-V41)
V48=15-45,99

Captulo 13

Verificaci
on de consistencia
(CONCHECK)
13.1.

Descripci
on general

El uso de CONCHECK junto con las proposiciones de Recode de IDAMS ofrece la capacidad de verificacion de
consistencia la cual permite probar relaciones ilegales entre valores de diferentes variables. Las proposiciones
condicionales incluidas en el setup de CONCHECK se usan para denominar cada una de las verificaciones e
indicar que variables se deben listar ante un error.
La verificacion de consistencia se define por medio de Recode al probar una relacion logica y despues asignar
el valor 1 a una variable R si la condicion no se satisface, por ej. si V3 no puede tomar logicamente el valor
de 9 cuando V2 toma el valor de 3, se puede usar la siguiente proposicion de Recode:
IF V2 EQ 3 AND V3 EQ 9 THEN R100=1 ELSE R100=0
Cuando se detecta una inconsistencia en un caso, se imprimen los identificadores del caso (ID). Ademas se
imprimen tambien los valores de un conjunto de variables definidas con el par
ametro VARS. Este conjunto
de variables se usa para tener una vision general del caso, de manera que se pueda detectar mas facilmente
la raz
on de la inconsistencia y asegurar que la correccion de una inconsistencia no va a producir otra. Para
cada condicion de consistencia que falle se puede imprimir un conjunto separado de variables con el n
umero
y nombre de la condicion; este conjunto consiste normalmente de las variables que se verifican.

13.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. El filtro est
andar est
a disponible para escoger un subconjunto de casos a
verificar. Las variables a imprimir cuando se presenten inconsistencias se especifican con el par
ametro VARS
(para el caso) o CVARS (para una condicion individual).
Transformaci
on de datos. Las proposiciones de Recode se usan para indicar las validaciones de consistencia requeridas.
Tratamiento de datos faltantes. CONCHECK no hace distincion entre datos sustantivos y valores de
datos faltantes; todos los datos reciben el mismo tratamiento.

13.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solo para las variables usadas en la ejecuci
on.

116

Verificaci
on de consistencia (CONCHECK)

Inconsistencias. Para cada caso que presente una inconsistencia se imprime una lnea de identificacion con
el n
umero de secuencia del caso y opcionalmente los valores de los identificadores de caso. A continuacion se
imprimen los valores de las variables especificadas en el par
ametro VARS.
Para cada inconsistencia individual detectada en un caso, se imprimen el n
umero y nombre de la condicion
correspondiente y los valores de las variables especificadas en la proposicion de condicion.
Estadsticas de error. Al final de la ejecuci
on se imprime una tabla de resumen con el n
umero de casos procesados, el n
umero de casos que tienen por lo menos una inconsistencia y, para cada condicion de
consistencia, su n
umero y nombre y el n
umero de casos que no pasaron la prueba.

13.4.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden usar variables numericas o
alfabeticas.

13.5.

Estructura del setup

$RUN CONCHECK
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode que indican las inconsistencias
$SETUP
1.
2.
3.
4.

Filtro (opcional)
T
tulo
Par
ametros
Proposiciones de condici
on

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
PRINT

13.6.

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE V1=1

13.6 Proposiciones de control del programa

117

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

PRUEBA DE INCONSISTENCIAS PARA LA REGION NORTE

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

IDVARS=(V1,V3-V4) MAXERR=50

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MAXERR=999/n
N
umero maximo de inconsistencias a imprimir antes de detener la ejecuci
on de CONCHECK.
IDVARS=(lista de variables)
Hasta 5 variables cuyos valores se imprimiran para identificar casos con inconsistencias.
Por defecto: se imprime el n
umero secuencial de caso.
VARS=(lista de variables)
Variables a imprimir para cualquier caso que tenga por lo menos un error.
FILLCHAR=cadena de caracteres
Hasta 8 caracteres usados para separar variables cuando se imprimen las inconsistencias.
Por defecto: 2 espacios.
PRINT=(CDICT/DICT, VNAMES)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
VNAM
Cuando se imprimen variables para casos inconsistentes, imprimir los primeros 6 caracteres del nombre en vez de los n
umeros de las variables.
4. Proposiciones de condici
on (se debe dar por lo menos una). Se suministra una proposicion de
condicion para cada consistencia a verificar con una referencia a las correspondientes proposiciones
de Recode, un nombre para la prueba y las variables cuyos valores se deben imprimir cuando falle la
prueba.
Las reglas de codificacion son las mismas de los par
ametros. Cada proposicion condicional debe comenzar en una nueva lnea.
Ejemplo:

TEST=R3 CVARS=(V34,V36,V52) CNAME=EDAD, SEXO, ESTADO DE EMBARAZO

TEST=n
umero de variable
Una variable para la cual un valor no igual a cero, indica que una verificacion de consistencia ha
fallado.
Sin valor por defecto.

118

Verificaci
on de consistencia (CONCHECK)
CVARS=(lista de variables)
Lista de variables cuyos valores se deben imprimir cuando se presente esta inconsistencia.
Por defecto: solo se imprimen las variables especificadas en IDVARS y VARS.
CNUM=n
N
umero de condicion.
Por defecto: n
umero secuencial de la condicion.
CNAME=cadena de caracteres
Nombre para esta condicion, hasta 40 caracteres.
Por defecto: no asigna nombre.

13.7.

Restricciones

1. S
olo se imprimen los primeros 4 caracteres de las variables alfabeticas.
2. Los nombres de condicion no pueden tener mas de 40 caracteres de longitud.
3. El n
umero maximo de variables de identificacion es 5.
4. El n
umero maximo de variables a imprimir para cada caso con errores es 20 (lista de variables en
VARS).
5. El n
umero maximo de variables a imprimir para cada condicion es 20 (lista de variables en CVARS).

13.8.

Ejemplos

Ejemplo 1. Verificar la relaci


on entre V6 y V7 y entre V20 y V21; para cada caso con errores se imprimiran
las variables de identificaci
on V2 y V3 junto con los valores de las variables claves V8-V10; se imprimiran
los nombres de las variables.
$RUN CONCHECK
$FILES
PRINT = CONCH1.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$RECODE
R1=0
R2=0
IF V5 INLIST(1-5,8) AND V7 EQ 2 THEN R1=1
IF V20 LE 3 AND V21 EQ 5 OR V20 EQ 8 AND V21 EQ 7 OR V20 EQ V21 THEN R2=1
$SETUP
PRUEBA PARA 2 INCONSISTENCIAS
PRINT=VNAMES IDVARS=(V2,V3) VARS=(V8-V10)
TEST=R1 CNAME=primera inconsistencia CVARS=(V5,V7)
TEST=R2 CNAME=segunda inconsistencia CVARS=(V20,V21)
Ejemplo 2. Verificar 5 condiciones en la parte 2 de un cuestionario; las pruebas se van a numerar a partir
de 201; se van a listar todas las variables de la parte 2 para cada cuestionario con errores, junto con las
variables claves de la parte uno (V5-V10); ademas, se van a imprimir nuevamente ciertas variables usadas
en las pruebas para cada prueba que falle. Tenga en cuenta el uso de la funci
on SELECT de Recode para
iniciar con ceros las correspondientes variables de resultados.

13.8 Ejemplos
$RUN CONCHECK
$FILES
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
PARTE 2 DE LA VERIFICACION DE CONSISTENCIA
MAXERR=400 IDVARS=(V1,V3) VARS=(V5-V10,V200-V231)
TEST=R1 CNUM=201 CVARS=(V203-V205)
TEST=R2 CNUM=202 CVARS=(V203,V210-V212)
TEST=R3 CNUM=203 CVARS=(V214,V215)
TEST=R4 CNUM=204 CVARS=(V222-V226)
TEST=R5 CNUM=205 CVARS=(V229,V230)
$RECODE
R900=1
A
SELECT (FROM=(R1-R5), BY R900) = 0
IF R900 LT 5 THEN R900=R900+1 AND GO TO A
IF V203 IN(1-5,17,20-25) AND V204 EQ 3 OR V205 EQ M THEN R1=1
IF V203 GT 6 AND MDATA(V210,V211,V212) THEN R2=1
IF 2*TRUNC(V214/2) EQ V214 OR V215 EQ 0 THEN R3=1
IF COUNT(1,V222-V226) LT 2 THEN R4=1
IF MDATA(V229) AND NOT MDATA(V230) THEN R5=1

119

Captulo 14

Verificaci
on de intecalaci
on de
registros (MERCHECK)
14.1.

Descripci
on general

El programa MERCHECK detecta y corrige los errores de intercalaci


on de registros (registros faltantes,
duplicacion de registros y registros invalidos) en un archivo con registros m
ultiples por caso. La salida es un
archivo con igual n
umero de registros por caso, rellena los registros faltantes y elimina los registros duplicados
y los registros invalidos. Aunque la concepcion original de este programa se hizo para imagen de tarjeta, se
pueden tener registros hasta de 128 caracteres de longitud. Como los dem
as programas IDAMS suponen que
cada caso en un archivo de datos tiene exactamente el mismo n
umero de registros, el uso de MERCHECK
es un paso esencial de verificacion inicial para todos los archivos que tengan mas de un registro por caso.
Operaci
on del programa. El usuario suministra un conjunto de Descripciones de registros que definen los
tipos de registro permitidos. En el momento de procesar los datos, el programa carga en un area de trabajo
todos los registros de datos consecutivos de entrada que tengan un mismo identificador de caso. Los registros
se comparan, uno a uno, con los tipos de registro definidos y se construye un caso de salida. Los registros
se rellenan, se eliminan, se reordenan, etc. seg
un las necesidades. El caso se lleva al archivo de salida y el
programa regresa para leer el conjunto de registros de entrada para el siguiente caso. Los resultados muestran
las correcciones hechas por el programa a los datos de entrada.
Identificaci
on de casos y de registros. MERCHECK requiere que el identificador de caso este en la
misma posicion para todos los registros. Los campos del identificador de casos pueden estar ubicados entre
columnas no contiguas y puede estar compuesto por cualquier tipo de caracteres. Los tipos de registro se
identifican por un solo campo identificador de registro (de 1-5 columnas) que puede tener cualquier tipo de
car
acter excepto blancos. A continuacion se muestra el bosquejo de un archivo de datos con dos tipos de
registros. Los puntos hacen referencia a campos de datos o campos en blanco.
...SE23..........01...............10......
...SE23..........01...............12......
...SE23..........02...............10......
...SE23..........02...............12......
...SE24..........01...............10......
...SE24..........01...............12......
primer
campo
identificador
de caso

segundo
campo
identificador
de caso

campo
identificador
de registro

En este ejemplo hay dos tipos de registro para cada caso, que se identifican con los n
umeros 10 o 12 en las
columnas 35 y 36. El identificador de caso (ID de caso) est
a compuesto por dos campos no consecutivos en
las columnas 4-7 y 18-19. As SE2301, es un identificador de caso, SE2302 es otro y SE2401 es otro.

122

Verificaci
on de intecalaci
on de registros (MERCHECK)

Eliminaci
on de registros inv
alidos. Se imprime de manera opcional pero no se transmite al archivo de
salida, un registro de datos de entrada conocido como registro extra, el cual contiene un identificador de
registro no definido en las Descripciones de registros. Adicionalmente, hay dos opciones para eliminar otros
tipos de registros invalidos.
Los registros que no tengan una constante especfica, se rechazan. (Ver los par
ametros CONSTANT,
CLOCATION, y MAXNOCONSTANT).
El usuario puede especificar el valor del identificador del primer caso valido. Todos los casos con un
identificador cuyo valor sea menor que el valor especificado, se rechazan. (Ver el par
ametro BEGINID).
Opciones para el manejo de casos con registros faltantes. El usuario debe escoger, con el par
ametro
DELETE, una de las tres formas posibles para el manejo de los casos incompletos.
1. DELETE=ANYMISSING. No se produce caso de salida cuando faltan uno o mas tipos de registro.
2. DELETE=ALLMISSING. Un caso no sale si no se encuentra por lo menos un identificador valido de
registro.
3. DELETE=NEVER. El programa nunca excluye ning
un caso que tenga uno o mas registros faltantes.
En esta alternativa, el programa construye un registro para cada tipo de registro faltante y lo llena
con blancos o con valores suministrados por el usuario. Ver el par
ametro PADCH y el par
ametro
PAD de las Descripciones de registros. La complementacion tiene lugar en columnas diferentes de
las de identificaci
on de campos de caso y de campos de registro. El programa siempre inserta los
identificadores apropiados para casos y registros.
Opciones para el manejo de casos con registros duplicados. Un registro duplicado es aquel que tiene
los mismos identificadores de caso y de registro que otro, sin interesar el contenido de ambos registros. El
usuario especifica cual duplicado debe mantenerse si hay mas de un registro de entrada con los mismos
identificadores de caso y de registro. Por ejemplo, la opcion DUPKEEP=1 hace que el programa guarde el
primer registro y descarte los otros. El caso no se transfiere al archivo de salida si se encuentra un n
umero de
duplicados menor que n (donde DUPKEPP=n), es decir, que para borrar casos con registros duplicados, se
especifica un valor grande para n. Precauci
on: puede suceder que registros con identificadores duplicados no
contengan los mismos datos. Corresponde al usuario decidir la conveniencia de retener o no un determinado
registro.
Opciones para el manejo de registros eliminados. Los registros de datos de entrada que se han
eliminado, es decir, aquellos que no van al archivo de salida, se pueden colocar en otro archivo (ver el
par
ametro WRITE).
Selecci
on de tipos de registro. MERCHECK le permite al usuario subdividir tipos de registros, seleccionados a partir de un archivo de entrada mas amplio. Incluya simplemente solo los identificadores requeridos
en las Descripciones de registros y escoja una opcion apropiada para la impresion de errores (EXTRAS=n o
PRINT=ERRORS, por ejemplo) y un valor razonable para MAXERR. Es esencial minimizar la impresion
de casos con errores ya que casi siempre cada caso con identificadores faltantes en el archivo de entrada,
sera impreso como error debido a registros con identificacion invalida (es decir, aquellos que no se han
especificado en las Descripciones de registros).
Capacidad de comenzar nuevamente. El par
ametro BEGINID se usa para volver a comenzar el programa
MERCHECK cuando la ejecuci
on anterior termino antes de haber procesado todos los datos de entrada.
El usuario debe determinar el identificador del u
ltimo caso procesado y asignar al par
ametro BEGINID ese
valor +1. (Si el programa termina porque se excedio el valor del par
ametro MAXERR, en el listado de salida
aparecer
a el u
ltimo registro leido y el valor asignado al par
ametro BEGINID debera ser el identificador de
caso de ese registro).
Nota. MERCHECK tiene por objeto la verificacion de archivos de datos con m
ultiples registros por caso
y debe haber un identificador de registro en cada registro. Te
oricamente, MERCHECK se podra usar
para eliminar registros duplicados y registros sin alguna constante especfica para archivos con casos de
un solo registro por caso. Sin embargo, esto solo puede hacerse si los registros contienen alguna constante
cuyo valor se pueda asimilar a un identificador de registro. Este tipo de operaci
on se realiza mejor con el
programa SUBSET al usar un filtro que excluya los registros que carezcan de una constante y con la opcion
DUPLICATE=DELETE para eliminar los duplicados. (Ver la documentacion de SUBSET).

14.2 Caractersticas est


andar de IDAMS

14.2.

123

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Con excepcion de las definiciones anteriores, esta opcion no se encuentra
en este programa.
Transformaci
on de datos y datos faltantes. Estas opciones no se aplican en MERCHECK.

14.3.

Resultados

Casos con errores. El listado completo de la documentacion de cada caso con errores tiene tres partes: un
resumen de los errores, registros no transferidos al archivo de salida (registros malos) y los casos transferidos
al archivo de salida (casos buenos) tal como aparecen en este archivo de salida. Ver mas adelante para mayor
informacion sobre estos componentes. Para datos con un gran n
umero de tipos de registros y muchos casos
con errores, el listado de los casos errados puede ser costoso y para algunos jobs innecesario. La cantidad de
listado requerido depende del mayor o menor conocimiento que el usuario tenga acerca de los datos y de su
habilidad para corregir o re-corregir los errores. Por ejemplo, si un usuario espera que se presenten muchos
rellenos (padding), pero ninguna o casi ninguna duplicaci
on de registros o registros invalidos, es suficiente
tener en el papel solo el resumen de los errores y especificar que se almacenen los casos con errores (si los
hay) (ver la opci
on WRITE=BADRECS) y listarlos posteriormente. Se pueden aplicar varios controles a la
cantidad de listado obtenido con los par
ametros PRINT, EXTRAS, DUPS y PADS.
Casos con errores: resumen de errores. El resumen de errores consiste en una identificacion del caso
con errores (conteo de caso o ID de caso) y uno de tres tipos de mensaje referentes a los errores que se
presentaron. El conteo secuencial de los casos no considera los registros o casos eliminados porque ellos
aparecen antes del comienzo del identificador o les falta la constante requerida. El identificador del caso se
toma de los identificadores del campo tal como se haya especificado en el par
ametro IDLOC.
Se reportan tres tipos de errores, a saber:
1. tipo de registro invalido,
2. casos con registros faltantes,
3. casos con registros duplicados.
Casos con errores: registros malos. Se presentan los registros invalidos y los registros duplicados, as como tambien todos los registros de casos que se han rechazado por carencia de registros. Se imprimen en el
orden en que se encuentran en el archivo de entrada.
Casos con errores: registros buenos. Cuando se guarda un caso, despues de haber detectado un error,
los registros que pasan al archivo de salida, incluidos aquellos que se han rellenado, se imprimen.
Registros anteriores a BEGINID. Su impresion es opcional. Ver par
ametro PRINT=LOWID.
Registros sin clasificar. Normalmente se imprimen, sin embargo el listado puede suprimirse. Ver par
ametro
PRINT=NOSORT.
Registros sin constante especificada. Se imprime cualquier registro que carezca de la constante especificada por el usuario en las columnas adecuadas. Este listado se puede suprimir. Ver par
ametro PRINT=NOCONSTANT.
Estadsticas de ejecuci
on. Al final de resultados, se imprimen los totales de registros faltantes, registros
invalidos y registros duplicados asi como tambien, el n
umero total de casos ledos, casos escritos, casos
eliminados y casos con errores.

14.4.

Datos de salida

Los datos de salida van a un archivo con longitud de registro igual a la de los registros de entrada y con el
mismo n
umero de registros por caso. Cada caso tiene cada uno de los tipos de registro especificados en las
descripciones de registros.

124

Verificaci
on de intecalaci
on de registros (MERCHECK)

14.5.

Datos de entrada

Los datos de entrada consisten en un archivo con registros de longitud fija, clasificado normalmente por el
ID del caso y dentro de este, por el identificador de registro. La longitud del registro no puede exceder de
128 caracteres.

14.6.

Estructura del setup

$RUN MERCHECK
$FILES
Especificaci
on de archivos
$SETUP
1. T
tulo
2. Par
ametros
3. Descripciones de registros (tantas como se requieran)
$DATA (condicional)
Datos

Archivos:
FT02
DATAxxxx
DATAyyyy
PRINT

14.7.

registros rechazados (registros de casos malos)


cuando se ha especificado WRITE=BADRECS
datos de entrada (omitir si se usa $DATA)
datos de salida (casos buenos)
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

MERCHECK DE MIS DATOS ESTUDIO 308 SAM 7/18/48

2. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

MAXE=25

RECORDS=8

IDLOC=(1,5)

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para el archivo Datos de entrada.
Por defecto: DATAIN.
MAXCASES=n
N
umero maximo de casos a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MAXERR=10/n
N
umero maximo de casos con errores. Cuando hay casos que tengan (n + 1) errores, termina la
ejecuci
on del programa. Los casos que est
an antes del parametro BEGINID, los casos sin clasificar
y los registros sin constante, no se cuentan como casos con errores. Se consideran casos con error
los que contienen registros invalidos, duplicados o faltantes.

14.7 Proposiciones de control del programa

125

OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para el archivo Datos de salida.
Por defecto: DATAOUT.
RECORDS=2/n
N
umero de registros por caso (tal como se hayan definido en las Descripciones de registros).
IDLOC=(i1,f1, i2,f2, ...)
Columnas inicial y final para identificacion de 1-5 campos de identificacion de caso. Debe suministrarse por lo menos una columna. Si hay mas de un campo de identificacion de caso, entonces
deben especificarse en el orden en el cual los datos est
an clasificados.
Sin valor por defecto.
BEGINID=ID del caso
El caso con el identificador mas bajo a partir del cual el programa comienza el proceso: de 1-40
caracteres encerrados entre comillas sencillas si contiene caracteres no alfanumericos. Si se usan
casos con identificadores de campos m
ultiples, el valor debe ser el resultado de la concatenaci
on
de los identificadores individuales de cada campo clasificados.
Por defecto: blancos.
NOSORT=0/n
N
umero maximo de casos sin clasificar tolerado por el programa. Cuando se presenta un n
umero
de casos sin clasificar igual o mayor que (n+1), la ejecuci
on del programa termina.
DELETE=NEVER/ANYMISSING/ALLMISSING
Especifica bajo que condiciones referentes a registros faltantes, se borra o no se borra un caso.
NEVE
Nunca rechaza un caso por registros faltantes. Si falta uno o todos los registros, el
programa rellena (con blancos o con valores especificados por el usuario), todos los
registros que falten y rechaza cualquier registro con identificador invalido, antes de la
salida del caso.
ANYM
No sale ning
un caso para el cual falten uno o mas registros, es decir que no se graban
casos incompletos.
ALLM
No sale ning
un caso para el cual no haya registros validos, es decir, cuando todos los
registros para un caso tienen valores invalidos de los ID de registro.
PADCH=x
Caracter para usar cuando se rellenan los registros. Los caracteres no alfanumericos deben estar
entre comillas sencillas. Ver tambien Descripciones de registros para mayores detalles sobre la
accion de relleno (padding) de registros.
Por defecto: blancos.
DUPKEEP=1/n
Especifica (para registros duplicados) que se debe guardar el n-esimo duplicado. Si se encuentran
menos duplicados que n, el caso en el cual estos se presentan se elimina (a
un si se especifica
DELETE=NEVER).
WRITE=BADRECS
Crear un archivo de los registros rechazados (casos malos).
CONSTANT=valor
Valor de una constante. Debe ir entre comillas sencillas si contiene caracteres no alfanumericos.
Cualquier registro de datos de entrada sin la constante, se rechaza. La localizacion de la constante
debe ser la misma en todos los registros de entrada, sin importar el tipo de registro.

126

Verificaci
on de intecalaci
on de registros (MERCHECK)
CLOCATION=(i, f)
(Se suministra solo cuando se usa CONSTANT). Localizacion del campo de la constante.
i
Columna inicial para el campo de la constante en cada registro.
f
Columna final para el campo de la constante en cada registro.
MAXNOCONSTANT=0/n
(Se suministra solo cuando se usa CONSTANT). N
umero maximo de registros sin la constante que
son tolerados por el programa. Cuando se encuentran n + 1 registros sin constante, MERCHECK
termina la ejecuci
on.
PRINT=(CONSTANT/NOCONSTANT, SORT/NOSORT, ERRORS/NOERRORS, LOWID,
BADRECS, GOODRECS)
CONS
Imprimir registros sin constante especificada.
NOCO
No imprimir registros sin constante especificada.
SORT
Imprimir mensaje de tres lneas para los casos por fuera del orden de clasificacion.
NOSO
No imprimir casos por fuera del orden de clasificacion.
LOWI
Imprimir todos los registros que tengan un identificador de caso menor de BEGINID.
Las siguientes opciones de impresion, se refieren a los listados de casos con errores (es decir,
registros faltantes, duplicaciones e invalidos).
ERRO
Imprimir resumen de errores para cada caso con un error.
NOER
No imprimir resumen de errores para casos con errores.
BADR
Imprimir registros rechazados (malos) para casos con errores.
GOOD
Imprimir registros aceptados (buenos) para casos con errores.
EXTRAS=0/n
DUPS=0/n
PADS=0/n
Si un caso tiene un n
umero de registros invalidos (extra/duplicados/con relleno) inferior a n y no
otros errores, no se imprime. As, un caso que tenga solamente 2 registros invalidos y no le falten
registros o no tenga registros duplicados, no se imprime si se asigna EXTRAS=3; pero, por otra
parte, se imprime de acuerdo con la especificaci
on en PRINT si le falta 1 registro.
Por defecto: se imprimen todos los casos con errores, de acuerdo con las especificaciones de PRINT.

3. Descripciones de registros (obligatoria: una por cada tipo de registro que se seleccione como salida).
Las reglas de codificacion son las mismas de los par
ametros. Cada descripcion de registro debe comenzar
en una nueva lnea.
Ejemplo:

RECID=21
RIDLOC=1
RECID=3
RIDLOC=2
PAD=43599999998889999999881119

RECID=xxxxx
Un c
odigo de tipo de registro, de 1-5 caracteres no blancos. Debe encerrarse entre comillas sencillas
si contiene caracteres en min
usculas.
Sin valor por defecto.
RIDLOC=i
Columna inicial para el identificador de campo.
Sin valor por defecto.
PAD=xxx....
Valores a usar cuando se rellena un registro de este tipo. La cadena de valores debe estar entre
comillas sencillas cuando contenga caracteres no alfanumericos. El primer car
acter se colocar
a en
la columna 1 del registro rellenado de salida, etc. Para pasar a la lnea siguiente, coloque un gui
on.
Si la longitud de la cadena es menor que la longitud de registro, entonces el resto se rellena hacia
la derecha con el PADCH especificado en la proposicion del par
ametro.
Por defecto: se usa PADCH para toda la cadena.
Nota: los valores correctos de los identificadores de caso y registro, se insertan autom
aticamente
en las posiciones correctas, en el registro que se ha rellenado.

14.8 Restricciones

14.8.

127

Restricciones

1. La longitud maxima del registro de entrada es 128.


2. El n
umero maximo de registros de salida por caso es 50.
3. El programa reserva un espacio de trabajo para un maximo de 60 registros con valor igual del identificador de caso. En esta cuenta se incluyen los registros v
alidos, duplicados, invalidos y registros
rellenados por el programa. MERCHECK termina la ejecuci
on cuando en el area de trabajo hay mas
de 60 registros con un identificador de caso igual.
4. La longitud maxima combinada de los identificadores de campo dentro de un caso en particular, es de
40 caracteres.
5. La longitud maxima de un campo identificador de registro es de 5 caracteres consecutivos no blancos.
6. La longitud maxima de una constante para verificacion es de 12 caracteres.
7. El n
umero maximo de campos identificadores de caso es 5.

14.9.

Ejemplos

Ejemplo 1. Verificar la intercalaci


on de tres registros por caso, los cuales tienen tipos de registro 1, 2 y 3
respectivamente; los registros faltantes se rellenan: registros 1 y 2 se rellenan con blancos y el registro 3 se
rellena con una copia de los valores dados en el par
ametro PAD; los casos con registros no validos (cuando
todos los registros de un caso tienen tipos de registro invalidos), se escriben en el archivo BAD; los registros
que presenten un maximo de cuatro registros duplicados, tambien se escriben en el archivo BAD (si un caso
tiene 5 o mas duplicados de un tipo de registro en particular, entonces se guarda como un caso bueno usando
el quinto duplicado y eliminando los otros).
$RUN MERCHECK
$FILES
PRINT
= MERCH1.LST
FT02
= \DEMO\BAD.DAT
archivo de registros malos de salida
DATAIN = \DEMO\DATA1.DAT
archivo Datos de entrada
DATAOUT = \DEMO\DATA2.DAT
archivo Datos de salida (s
olo con casos buenos)
$SETUP
VERIFICACION DE INTERCALACION DE DATOS
IDLO=(1,3,5,6,10,10) RECO=3 DELE=ALLM DUPK=5 WRITE=BADRECS MAXE=200
RECID=1 RIDLOC=12
RECID=2 RIDLOC=12
RECID=3 RIDLOC=12
PAD=99999999999399999999999999999999999999999999999999999999999999999999999999999999
Ejemplo 2. Verificar los datos, borrando casos con registros faltantes y eliminando casos que no pertenecen
al estudio; el archivo Datos contiene dos registros por caso; se guardan los casos con registros duplicados
(se desechan todos, excepto el primero de una serie de registros duplicados); hay un tipo de registro TT en
las columnas 4 y 5 de un registro y un tipo AB en las columnas 7 y 8 del otro registro; el identificador del
estudio, HST, debe aparecer en las columnas 124-126 de cada registro.

128

Verificaci
on de intecalaci
on de registros (MERCHECK)
$RUN MERCHECK
$FILES
FT02
= BAD.DAT
archivo de registros malos de salida
DATAIN = DATA.DAT RECL=126
archivo Datos de entrada
DATAOUT = GOOD.DAT
archivo Datos de salida (s
olo con casos buenos)
$SETUP
VERIFICACION DE INTERCALACION DE DATOS
IDLO=(1,3) RECO=2 WRITE=BADRECS MAXE=20 CONS=HST CLOC=(124,126)
RECID=TT RIDLOC=4
RECID=AB RIDLOC=7

Captulo 15

Correcci
on de datos (CORRECT)
15.1.

Descripci
on general

CORRECT ofrece la facilidad de corregir la informacion contenida en un dataset IDAMS. Se pueden corregir
valores de las variables individuales en casos especificados o eliminar casos en forma total.
CORRECT sirve para corregir errores en variables individuales de casos especficos que hayan sido detectados por BUILD, CHECK o CONCHECK. La preparacion de instrucciones de actualizacion es facil. Las
verificaciones se llevan a cabo de manera que exista compatibilidad entre los datos y la correccion y se
imprime una buena documentacion en la cual se describen todas las correcciones hechas.
Operaci
on del programa. CORRECT lee primero el diccionario y almacena la informaci
on acerca de
todas las variables del dataset. A continuacion se procesan las instrucciones de correccion. Despues de leer
una instrucci
on, CORRECT lee el archivo Datos y copia los casos hasta identificar el caso especificado en la
instruccion. CORRECT ejecuta la instruccion, bien sea, imprimiendo el caso o revisando los valores de las
variables seleccionadas y llevando el caso al archivo de salida o elimin
andolo del mismo, seg
un lo apropiado.
Cuando se han agotado todas las instrucciones, los casos restantes, si los hay, se copian al archivo de salida
y la ejecuci
on termina en forma normal. Si hay errores en el orden de clasificacion de las instrucciones de
correccion o en el orden de clasificacion de los casos, y tambien, si hay errores de sintaxis en las instrucciones
de correccion, CORRECT informa de la situaci
on en el listado de salida y pasa a la instruccion siguiente.
Correcci
on de variables. El usuario especifica la identificacion del caso seguida de los n
umeros de variables
que se van a corregir, junto con sus nuevos valores. Se pueden corregir las variables numericas (enteras o
decimales) y alfabeticas.
Correcci
on de variables de identificaci
on de casos. Si se va a corregir un campo de identificacion, se
afectara, normalmente, el orden de clasificacion y por lo tanto debe usarse el par
ametro CKSORT=NO. Si
la variable de identificaci
on contiene caracteres no-numericos erroneos, entonces se encierra su valor entre
comillas sencillas en la instrucci
on de correccion.
Eliminaci
on de casos. El usuario puede eliminar un caso del archivo Datos mediante la especificaci
on de
la informaci
on de identificaci
on del caso y la palabra DELETE.
Listado de casos. El usuario puede escoger un caso en particular para imprimirlo con la especificaci
on de
la identificaci
on del caso y la palabra LIST.

15.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Se puede escoger un subconjunto de casos para procesar y llevar a la
salida mediante la inclusi
on de un filtro est
andar. La selecci
on de variables es inapropiada.
Transformaci
on de datos. Las proposiciones de Recode no se pueden usar.

130

Correcci
on de datos (CORRECT)

Tratamiento de datos faltantes. CORRECT no hace distincion entre datos verdaderos y valores de datos
faltantes; el concepto no aplica a la operaci
on del programa.

15.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Se imprimen los registros del diccionario
para todas las variables, no solamente aquellos que corresponden a las que se van a corregir.
Listado de las instrucciones de correcci
on. Siempre se imprimen las instrucciones de correccion. El
programa tambien imprime, en forma opcional, con cada correccion: (1) registros de datos de entrada, (2)
registros eliminados, o (3) registros corregidos (ver el par
ametro PRINT).

15.4.

Dataset de salida

Siempre sale una copia del diccionario. Si no se necesita, la definicion de archivo DICTOUT puede omitirse.
Los datos se copian siempre al archivo de salida, a
un si no hay correcciones o eliminaciones.

15.5.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario de IDAMS. Normalmente, CORRECT espera que
los casos vengan clasificados en orden ascendente por las variables de identificacion de caso. Sin embargo,
el usuario puede indicar (con el par
ametro CKSORT) que los casos no se encuentran en orden ascendente.
Esta opcion debe usarse con precauci
on: el orden de las instrucciones de correccion debe ser exactamente el
mismo orden de los datos en el archivo.

15.6.

Estructura del setup

$RUN CORRECT
$FILES
Especificaci
on de archivos
$SETUP
1.
2.
3.
4.

Filtro (opcional)
T
tulo
Par
ametros
Instrucciones de correcci
on (tantas como sean necesarias)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)

15.7 Proposiciones de control del programa

15.7.

131

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE V1=10,20,30 AND V12=1,3,7

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

CORRECCION DE CODIGOS ALFA EN LA ELECCION DE 2001

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

PRINT=CORRECTIONS, IDVARS=V4

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada. Si MAXC=0, en todas
las instrucciones de correccion se verifican los errores de sint
axis pero no se procesan los datos.
Por defecto: se usan todos los casos.
IDVARS=(lista de variables)
Hasta 5 n
umeros de variable para los campos de identificaci
on de caso. Si se especifica mas de un
identificador de campo, los n
umeros de variables deben suministrarse en orden de clasificacion de
mayor a menor.
Sin valor por defecto.
CKSORT=YES/NO
Indica si se debe verificar la clasificacion del orden ascendente secuencial de los campos de identificaci
on. La ejecuci
on termina si se detecta un caso fuera de orden.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
PRINT=(DELETIONS, CORRECTIONS, CDICT/DICT)
DELE
Listar los casos para los cuales se especifico una instruccion de eliminacion en las
instrucciones de correci
on.
CORR
Listar los casos corregidos.
CDIC
Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Instrucciones de correcci
on. Estas proposiciones indican cual de las opciones de listar, eliminar o
corregir se van a aplicar y para cuales casos.
Ejemplos:
ID=1026,V5=9,V6=22
ID=PEDRO PEREZ,DELETE
ID=091,3,LIST
ID=023,16,V8=DON_T,V9=TEACH|RES

(Para el caso con identificador "1026", cambie


el valor de V5 a 9 y el valor de V6 a 22).
(Elimine el caso con identificador "PEDRO PEREZ"
del archivo de salida).
(Listar el caso con identificador "091", "3").
(Cambiar el valor de V8 a DONT y de V9 a TEACH,RES).

132

Correcci
on de datos (CORRECT)
Reglas de codificaci
on
Cada instrucci
on de correccion debe comenzar en una lnea nueva. Para seguir a otra lnea, interrumpa
despues de la coma al final de una correccion completa de variable y coloque un gui
on. Se pueden usar
tantas lneas de continuacion como sean necesarias. Pueden aparecer blancos en cualquier lugar de las
instrucciones.
Los casos y las instrucciones de correccion deben estar clasificados exactamente en el mismo orden
relativo seg
un los identificadores.
Valores de identificaci
on de caso
El caso a corregir se identifica con la palabra clave ID= seguida del valor o valores de la variable
o variables de identificaci
on.
La lista de valores en la instrucci
on no va entre parentesis.
Cada valor, incluido el u
ltimo, debe estar seguido de una coma y el orden de los valores debe
corresponder al orden de las variables en la lista de variables de identificacion especificadas con
el par
ametro IDVARS.
El n
umero de dgitos o de caracteres en un valor debe ser igual al ancho de la variable como se
haya establecido en el diccionario, es decir, puede ser necesario incluir los ceros a la izquierda.
Valores que contengan caracteres no numericos deben encerrarse entre comillas sencillas, por ej.
ID=9, PAM.
Tipo de instrucci
on
La identificaci
on de caso est
a seguida de la palabra LIST, de la palabra DELETE o de una cadena
de correccion de variables.
Correcciones de variables
Una correccion de variable consiste en un n
umero de variable precedido de una V y seguido de
un = y del valor correcto, por ej. V3=4.
Correcciones de variable para diferentes variables en el mismo caso se separan con comas.
Valores de correccion para variables numericas pueden especificarse sin ceros a la izquierda.
Si la variable incluye cifras decimales, se puede colocar el punto decimal pero este no se escribe en
el archivo de salida. Los dgitos se alinean de acuerdo con el n
umero de cifras decimales indicado
en el diccionario y se redondean los dgitos decimales en exceso.
Si el valor contiene caracteres no numericos, este debe encerrarse entre comillas sencillas. Una
coma intercalada debe representarse como una barra vertical y una comilla sencilla intercalada
debe representarse como un gui
on de subrayado; el programa convertira la barra vertical y el
subrayado a la coma y a la comilla sencilla respectivamente, por ej. v8=Don t).
Los valores de correccion para valores alfabeticos deben encajar con el ancho de la variable. Si
el valor de correccion contiene blancos o caracteres en min
usculas, este debe encerrarse entre
comillas sencilas.

15.8.

Restricci
on

El n
umero maximo de variables identificadoras de caso es 5.

15.9.

Ejemplo

Correcci
on de un archivo Datos; se van a corregir variables numericas y alfabeticas y se van a eliminar dos
casos; los casos se identifican con las variables V1, V2 y V5; no se cambia el diccionario y por lo tanto, no
se requiere diccionario de salida.

15.9 Ejemplo
$RUN CORRECT
$FILES
PRINT
= CORRECT1.LST
DICTIN = DATA1.DIC
archivo Diccionario de entrada
DATAIN = DATA1.DAT
archivo Datos de entrada
DICTOUT = DATA2.DIC
archivo Diccionario de salida (igual a entrada)
DATAOUT = DATA2.DAT
archivo Datos de salida (corregido)
$SETUP
CORRECCION DE UN ARCHIVO DE DATOS
IDVARS=(V1,V2,V5)
ID=311,01,21,V12=JUAN MOLINA
ID=311,05,41,DELETE
ID=557,11,32,V58=199,V76=2,V90=155
ID=559,11,35,V12=AGATA CHRISTI,V13=F
ID=657,31,11,V58=100,V77=4,V90=105,V36=999999,V37=999999,V38=999999, V41=98,V44=99
ID=711,15,11,DELETE

133

Captulo 16

Importaci
on/exportaci
on de datos
(IMPEX)
16.1.

Descripci
on general

El programa IMPEX hace importacion y exportacion de datos en formato libre o formato DIF, e importacion
y exportacion de matrices en formato libre. En un archivo de formato libre los campos pueden separarse con
un car
acter de tabulaci
on, un blanco, la coma, punto y coma o con otro car
acter dado por el usuario. El
car
acter usado en notaci
on decimal puede ser el punto o la coma. Un archivo Datos importado/exportado
puede contener n
umeros y nombres de variable como nombrestas de columnas. Un archivo Matriz importado/exportado puede contener n
umeros de variable/valores de c
odigo y nombres de variable/nombres de
c
odigo como nombres de columnas/filas.
Importaci
on de datos. El programa crea un nuevo dataset de IDAMS a partir de un archivo de datos
ASCII existente en formato libre o formato DIF (un formato para intercambio de datos desarrollado por
Software Art ProductsCorp.) y a partir de un diccionario IDAMS. El diccionario de entrada es para definir
c
omo se van a transferir los campos del archivo Datos de entrada al dataset IDAMS de salida.
Exportaci
on de datos. El programa crea un nuevo archivo de datos ASCII que contiene variables de un
dataset existente de IDAMS y variables nuevas definidas con proposiciones Recode de IDAMS. El archivo
exportado puede ser de formato libre o formato DIF.
Importaci
on de matrices. El programa crea un archivo Matriz de IDAMS a partir de un archivo ASCII
en formato libre que contenga un triangulo inferior de una matriz cuadrada o una matriz rectangular.
Exportaci
on de matrices. El programa crea un archivo ASCII que contiene todas las matrices almacenadas en un archivo Matriz de IDAMS. Para exportar matrices solo se dispone del formato libre.

16.2.

Caratersticas est
andar de IDAMS

Selecci
on de casos y variables. El filtro est
andar est
a disponible para seleccionar un subconjunto de casos
de los datos de entrada cuando se solicita exportar datos. Tambien en exportacion de datos, la selecci
on de
variables se hace con el parametro OUTVARS.
Transformaci
on de datos. Si se exportan datos, se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. No se verifican datos faltantes a excepcion de la verificaci
on que se hace
con Recode en la exportacion datos. En la importacion de datos, los campos vacos (campos vacios entre
delimitadores consecutivos) se reemplazan con el primer codigo de datos faltantes o con un campo de nueves
si no se ha definido el primer c
odigo de datos faltantes.

136

16.3.

Importaci
on/exportaci
on de datos (IMPEX)

Resultados

Importaci
on de datos
Diccionario de entrada. (Opcional: ver el par
ametro PRINT). Los registros descriptores de variable y
registros C, si los hay, para todas las variables incluidas en el diccionario de entrada.
Nombres y c
odigos de columnas de entrada. (Opcional: ver los par
ametros PRINT y EXPORT/IMPORT).
Se imprimen los nombres y los c
odigos de columnas (sin formato) tal como se leen del archivo de entrada.
Datos de entrada. (Opcional: ver el par
ametro PRINT). Se imprimen sin formato para todos los casos las
lneas de datos de entrada, tal como se leen del archivo de entrada.
Diccionario de salida. (Opcional: ver el par
ametro PRINT).
Datos de salida. (Opcional: ver el par
ametro PRINT). Se dan los valores para todos los casos y todas las
variables, 10 valores por lnea, en el mismo orden de las lneas de datos de entrada.

Exportaci
on de datos
Diccionario de entrada. (Opcional: ver el par
ametro PRINT). Los registros descriptores de variable y
registros C, si los hay, solo para variables usadas en la ejecuci
on.
Datos de salida. (Opcional: ver el par
ametro PRINT). Se dan los valores de las variables V o R para todos
los casos, 10 valores por lnea. Para variables alfabeticas solo se imprimen los primeros 10 caracteres.

Importaci
on de matrices
Matriz de entrada. (Opcional: ver el par
ametro PRINT). Se imprime la matriz que se encuentra en el
archivo ASCII de entrada, con o sin nombres y c
odigos de columnas.

Exportaci
on de matrices
Matrices de entrada. (Opcional: ver el par
ametro PRINT). Se imprimen las matrices que se encuentran
en el archivo Matriz de IDAMS de entrada, con o sin registros descriptores de variable o de nombres de
c
odigo.

16.4.

Archivos de salida

Importaci
on
La salida es un dataset IDAMS o una matriz IDAMS segun se haya solicitado una importacion de datos o
de matriz.
En el caso de un dataset IDAMS, los valores de las variables numericas se editan de acuerdo con las reglas
de IDAMS (ver el captulo Los datos en IDAMS).
Campos numericos vacos (es decir, cadenas vacas entre caracteres delimitadores) en un formato libre se
reemplazan con el primer c
odigo de datos faltantes o con nueves si el primer c
odigo de datos faltantes no
est
a definido.

Exportaci
on
La salida es un archivo ASCII cuyo contenido vara de acuerdo con los requerimientos de exportacion.
Datos en formato DIF. Este es un archivo con secciones Header (encabezamiento) y Data (datos). Los
VECTORS corresponden a variables IDAMS y los TUPLES a los casos. Adicionalmente a los tems requeridos
de encabezamiento, se usa LABEL (un tem est
andar opcional) para exportar nombres de variables. En la
secci
on DATA, el indicador de valor V se usa siempre para valores numericos. Se usa punto decimal o
coma en la notaci
on decimal cuando el n
umero de decimales definido en el diccionario es mayor que cero.
Datos en formato libre. Este es un archivo en el cual los valores de variables se separan con un delimitador
(ver los par
ametros WITH y DELCHAR) y los casos se separan, adicionalmente, con retornos de carro mas
caracteres de alimentacion de lnea. Para valores numericos, se incluye un punto decimal o una coma (ver el
par
ametro DECIMALS) si el n
umero de decimales definido en el diccionario es mayor que cero. Los valores

16.5 Archivos de entrada

137

de variables alfabeticas pueden estar entre comillas sencillas o comillas dobles, o sin encerrar entre caracteres
especiales (ver el par
ametro STRINGS).
Matriz en formato libre. El formato de las matrices producidas por IMPEX es el mismo que el formato
requerido para matrices importadas (ver Importacion de matrices en la secci
on Archivos de entrada mas
atr
as). La u
nica diferencia es que se insertan caracteres adicionales de separacion para asegurar la posicion
correcta de los nombre de filas y columnas en un paquete de hoja electronica.

16.5.

Archivos de entrada

Importaci
on de datos
Para importar datos, la entrada es:
un archivo ASCII con un arreglo de datos en formato libre en el cual los campos est
an separados con un
delimitador y un diccionario IDAMS el cual define como transferir datos a un dataset IDAMS (deben
describirse todos los campos en el diccionario de entrada);
un archivo de datos en formato DIF, y tambien un diccionario IDAMS.
Los archivos de entrada tambien pueden tener informacion de diccionario. Para archivos de formato libre esto
significa que los nombres y c
odigos de columna (los cuales corresponden a nombres de variable y n
umeros
de variable) se suministran con el arreglo de datos como primeras filas del arreglo. Los nombres y c
odigos
son ambos opcionales. Si se suministran, los nombres de columna reemplazan a los nombres de variable del
diccionario de entrada y se insertan en el diccionario de salida. Pueden encerrarse entre caracteres especiales
(ver el par
ametro STRINGS). Los c
odigos de columna solo se usan para verificar contra los n
umeros de
variable del diccionario de entrada. Para archivos de formato DIF, los nombres de columna aparecen como
tems LABEL en la secci
on de Header (encabezamiento). Los c
odigos de columna pueden estar presentes
como primera fila en el arreglo de datos.

Importaci
on de matrices
Para importacion de matrices, la entrada es siempre un archivo ASCII en formato libre en el cual los valores
numericos/cadenas de caracteres se separan con un delimitador. Campos vacos (es decir, cadenas vacas
entre caracteres delimitadores) se saltan. Cada archivo puede tener una sola matriz para importar.
El archivo Matriz de entrada puede opcionalmente suministrar informacion del diccionario consistente en
una serie de cadenas para nombrar columnas/filas de la matriz y los valores correspondientes de c
odigo. Si
se suministran, deben seguir la sint
axis dada mas adelante (la cual es diferente para matrices rectangulares
y cuadradas).
Matriz rectangular
Esta es un archivo ASCII que contiene un arreglo rectangular de valores en formato libre; puede incluir
informacion del diccionario.
Ejemplo.
Salario promedio; Grupo de edad; Sexo;
Hombre; Mujer;
1;2;
20 - 30;1;600;530;
31 - 40;2;650;564;
41 - 60;3;723;618;
Formato.
1. Las primeras tres cadenas contienen: (1) una descripcion del contenido de la matriz, (2) el ttulo de
fila (nombre de variable de fila) y (3) el ttulo de columna (nombre de variable de columna).
(Opcional).
2. Nombres de columna. (Opcional: un nombre para una columna de valores en el arreglo).

138

Importaci
on/exportaci
on de datos (IMPEX)

3. Codigos de columna (Opcional: un c


odigo para una columna de valores en el arreglo).
4. El arreglo de valores. (Puede contenir opcionalmente un nombre y un c
odigo de fila antes de cada fila
de valores).
Nota. Si los nombres de fila y columna, y c
odigos no est
an presentes, se generan autom
aticamente para la
matriz IDAMS de salida (nombres como R-#0001, R-#0002, ... C-#0001, C-#0002, ... y c
odigos desde 1
hasta el n
umero de filas y columnas respectivamente).
Matriz cuadrada
Esta es un archivo ASCII que contiene un triangulo inferior izquierdo de una matriz triangular inferior (sin
los elementos de la diagonal) y opcionalmente vectores de medias y desviaciones est
andar despues de la
matriz como una serie de datos en formato libre.
Ejemplo.
;;Paris;Londres;Bruselas;Madrid; ...
;;1;2;3;4; ...
Paris;1;
Londres;2;0.55;
Bruselas;3;0.45;0.35;
Madrid;4;1.45;2.35;1.15;
.
.
.
Formato.
1. Nombres de columna (nombres de variable). (Opcional: tantos nombres como columnas/filas de
valores en el arreglo).
2. Codigos de columna (n
umeros de variable). (Opcional: tantos c
odigos como columnas/filas de valores
en el arreglo).
3. El arreglo de valores. (Puede contenir opcionalmente un nombre y c
odigo de fila antes de cada fila de
valores).
4. Un vector de medias. (Opcional).
5. Un vector de desviaciones est
andar. (Opcional).
Nota. Si los nombres o c
odigos no est
an presentes, se generan autom
aticamente para la matriz IDAMS de
salida (nombres como V-#0001, V-#0002, ... y c
odigos desde 1 hasta el n
umero de filas/columnas respectivamente).

Exportaci
on de datos y matrices
Seg
un se vaya a exportar datos o una matriz, la entrada es un archivo Datos descrito por un diccionario
IDAMS (se pueden usar variables numericas y alfabeticas) o un archivo Matriz IDAMS cuadrada o rectangular.

16.6 Estructura del setup

16.6.

139

Estructura del setup

$RUN IMPEX
$FILES
Especificaci
on de archivos
$RECODE (opcional con exportaci
on de datos; no disponible otramente)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT

16.7.

diccionario de entrada para exportar/importar datos


(omitir si se usa $DICT)
datos/matriz de entrada (omitir si se usa $DATA)
diccionario de salida para importar datos
datos/matriz de salida
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on si se ha especificado
exportacion de datos.
Ejemplo:

EXCLUDE V19=2-3

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

EXPORTACION DE INDICADORES DE DESARROLLO SOCIAL

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

EXPORT=(DATA,NAMES) FORMAT=DELIMITED WITH=SPACE

IMPORT=(DATA/MATRIX, NAMES, CODES)


DATA
Se solicita importar datos.
MATR
Se solicita importar matriz.
NAME
Se incluyen nombres de variable en el archivo Datos a importar. Se incluyen nombres
de variable/de c
odigo en el archivo Matriz a importar.
CODE
Se incluyen n
umeros de variable en el archivo Datos a importar. Se incluyen n
umeros
de variable/valores de c
odigo en el archivo Matriz a importar.

140

Importaci
on/exportaci
on de datos (IMPEX)
EXPORT=(DATA/MATRIX, NAMES, CODES)
DATA
Se solicita exportar datos.
MATR
Se solicita exportar matriz.
NAME
Se exportan nombres de variable en el archivo Datos de salida. Se exportan nombres
de variable/de c
odigo en el archivo Matriz de salida.
CODE
Se exportan n
umeros de variable en el archivo Datos de salida. Se exportan n
umeros
de variable/valores de c
odigo en el archivo Matriz de salida.
Nota. Sin valor por defecto. Se debe especificar IMPORT o EXPORT (no ambos).
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para el(los) archivo(s) de entrada:
archivo Datos o Matriz para importar (ddname por defecto: DATAIN),
archivos Diccionario y Datos para exportar (ddnames por defecto: DICTIN, DATAIN),
archivo Matriz IDAMS para exportar (ddname por defecto: DATAIN).
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos a exportar o importar y los valores con amplitud insuficiente de campo en salida. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
S
olo se aplica si se ha especificado importacion/exportacion de datos.
N
umero maximo de casos (despues de filtrar) a usar del archivo Datos de entrada.
Por defecto: se usan todos los casos.
MAXERR=0/n
N
umero maximo de errores amplitud insuficiente de campo permitido antes de detener la ejecucion. Estos errores se presentan cuando el valor de una variable es muy grande para caber en
el campo asignado, por ej. un valor de 250 cuando se ha especificado un ancho de campo de 2.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para el(los) archivo(s) de salida:
archivos Diccionario y Datos obtenidos por importacion (ddnames por defecto: DICTOUT, DATAOUT),
archivo Matriz IDAMS obtenido por importacion (ddname por defecto: DATAOUT),
archivo Datos o archivo Matriz exportado (ddname por defecto: DATAOUT).
OUTVARS=(lista de variables)
Se aplica solo si se ha especificado exportacion de datos.
Las variables V y R que se van a exportar. El orden de las variables en la lista no es significativo
ya que salen en orden numerico ascendente. Todos los n
umeros de las variables V y R deben ser
u
nicos.
Sin valor por defecto.
MATSIZE=(n,m)
Se aplica solo si se ha especificado importacion de matriz.
N
umero de filas y columnas de la matriz a importar. El programa supone una matriz rectangular
si han especificado ambos y una matriz cuadrada simetrica si uno de ellos se ha omitido.
n
N
umero de filas.
m
N
umero de columnas.
Sin valor por defecto.

16.7 Proposiciones de control del programa

141

FORMAT=DELIMITED/DIF
Especifica el formato de los datos/la matriz de entrada para importacion o el formato de los
datos/la(s) matriz(ces) de salida para exportacion.
DELI
Los datos/la(s) matriz(ces) se esperan en formato libre, en el cual los campos est
an
separados por un delimitador (ver adelante).
DIF
Los datos se esperan en formato DIF.
Nota: el formato DIF est
a disponible solo para exportar o importar datos.
WITH=SPACE/TABULATOR/COMMA/SEMICOLON/USER
(Condicional: ver FORMAT=DELIMITED).
Especifica el car
acter delimitador para separar campos de archivos en formato libre.
SPAC
Un car
acter en blanco (codigo ASCII: 32).
TABU
Un car
acter de tabulaci
on (codigo ASCII: 9).
COMM La coma , (codigo ASCII: 44).
SEMI
El punto y coma ; (codigo ASCII: 59).
USER
Un car
acter especificado por el usuario (ver el par
ametro DELCHAR mas adelante).
Nota: cuando se importan/exportan archivos DIF, siempre se usa COMMA como car
acter delimitador, independientemente del que se haya seleccionado.
DELCHAR=x
(Condicional: ver el par
ametro WITH=USER atr
as).
Define el car
acter usado para separar campos de archivos en formato libre.
Valor por defecto: blancos.
DECIMALS=POINT/COMMA
Define el car
acter usado en notaci
on decimal.
POIN
El punto . (codigo ASCII: 46).
COMM La coma , (codigo ASCII: 44).
STRINGS=PRIME/QUOTE/NONE
Define el car
acter para encerrar cadenas de caracteres.
PRIM
Comillas sencillas.
QUOT
Comillas dobles.
NONE
No se usa un car
acter especial.
Nota: en importacion/exportacion de archivos DIF, siempre se usa QUOTE, independientemente
de lo que se haya seleccionado.
NDEC=2/n
N
umero de cifras decimales a retener en exportacion.
PRINT=(DICT/CDICT/NODICT, DATA)
DICT
Imprimir diccionario sin registros C.
CDIC
Imprimir diccionario con registros C, si los hay.
DATA
Imprimir los datos/la(s) matriz(ces).
Nota:
a) Las opciones de impresion del diccionario controlan la impresion del diccionario de salida y de
entrada.
b) La opci
on de impresion de datos controla la impresion de datos de salida si se est
a exportando
un archivo Datos; controla la impresion de datos la salida y la entrada si se est
a importando un
archivo Datos (nunca se imprime la entrada si se importa un archivo de formato DIF).
c) Para matrices, la matriz de entrada se imprime si se ha especificado imprimir datos.

142

Importaci
on/exportaci
on de datos (IMPEX)

16.8.

Restricciones

1. El n
umero maximo de variables R que se pueden exportar es 250.
2. El n
umero maximo de variables que se pueden usar en una ejecuci
on (incluidas las variables usadas
solamente en proposiciones de Recode) es 500.
3. El n
umero maximo de filas de matriz es 100.
4. El n
umero maximo de columnas de matriz es 100.
5. El n
umero maximo de casillas de matriz es 1000.

16.9.

Ejemplos

Ejemplo 1. Variables escogidas del dataset de entrada se transfieren al archivo de salida junto con las dos
nuevas variables; los datos salen en formato libre y sus valores se separan con punto y coma; se usa coma
en la notaci
on decimal y los valores alfabeticos se encierran entre comillas dobles; los nombres y n
umeros de
variable se incluyen en el archivo de salida.
$RUN IMPEX
$FILES
PRINT
= EXPDAT.LST
DICTIN = OLD.DIC
archivo Diccionario de entrada
DATAIN = OLD.DAT
archivo Datos de entrada
DATAOUT = EXPORTED.DAT
archivo Datos exportado
$SETUP
EXPORTACION DE DATOS IDAMS DE FORMATO FIJO A DATOS DE FORMATO LIBRE
EXPORT=(DATA,NAMES,CODES) BADD=MD1 MAXERR=20 OUTVARS=(V1-V20,V33,V45-V50,R105,R122) FORMAT=DELIM WITH=SEMI DECIM=COMMA STRINGS=QUOTE
$RECODE
R105=BRAC(V5,15-25=1,<36=2,<46=3,<56=4,<66=5,<90=6,ELSE=9)
MDCODES R105(9)
NAME R105GRUPOS DE EDAD
IF MDATA(V22) THEN R122=99.9 ELSE R122=V22/3
MDCODES R122(99.9)
NAME R122ARTICULOS POR A~
NO
Ejemplo 2. Se importan datos en formato DIF a IDAMS; nombres y c
odigos de columna se incluyen en el
archivo de entrada y se usa la coma para notaci
on decimal.
$RUN IMPEX
$FILES
PRINT
= IMPDAT.LST
DICTIN = IDA.DIC

archivo Diccionario que describe


los datos a importar
archivo Datos a importar
archivo Diccionario de salida
archivo Datos de salida

DATAIN = IMPORTED.DAT
DICTOUT = IDAFORM.DIC
DATAOUT = IDAFORM.DAT
$SETUP
IMPORTACION DE DATOS EN FORMATO DIF A DATASET IDAMS DE FORMATO FIJO
IMPORT=(DATA,NAMES,CODES) BADD=MD1 MAXERR=20 FORMAT=DIF DECIM=COMMA

16.9 Ejemplos

143

Ejemplo 3. Se exporta un conjunto de matrices rectangulares creadas con el programa TABLES; los campos
se separan con punto y coma y la coma se usa para notaci
on decimal; los nombres y c
odigos de fila y columna
se incluyen en el archivo de la matriz de salida; se imprimen las matrices de entrada.
$RUN IMPEX
$FILES
PRINT
= EXPMAT.LST
DATAIN = TABLES.MAT
archivo con las matrices rectangulares
DATAOUT = EXPORTED.MAT
archivo con las matrices exportadas
$SETUP
EXPORTACION DE MAT RECTANG DE IDAMS EN FORMATO FIJO A MAT DE FORMATO LIBRE
EXPORT=(MATRIX,NAMES,CODES) PRINT=DATA
FORMAT=DELIM WITH=SEMI DECIM=COMMA
STRINGS=QUOTE
Ejemplo 4. Importacion de una matriz cuadrada que contiene medidas de distancia para 10 objetos numerados de 1 a 10; solo se incluyen valores enteros y se separan con el signo % ; los codigos de fila/columna
as como los vectores de medias y desviaciones est
andar se incluyen en el archivo de la matriz.
$RUN IMPEX
$FILES
PRINT
= IMPMAT.LST
DATAOUT = IMPORTED.MAT
archivo con la matriz importada
$SETUP
IMPORTACION DE UNA MAT EN FORMATO LIBRE A MAT CUADRADA IDAMS DE FORMATO FIJO
IMPORT=(MATRIX,CODES) MATSIZE=10
FORMAT=DELIM WITH=USER DELCH=%
$DATA
$PRINT
%
1%
2%
3%
4%
5%
6%
7%
8%
9% 10%
1%
2%38%
3%72%25%
4%24%53%17%
5%64%26%76%18%
6%48%25%63%15%61%
7%12%50%7%42%8%8%
8%19%7%13%4%14%1%15%
9%29%37%34%21%24%35%3%5%
10%32%57%29%45%26%28%74%24%61%
%46%15%7%7119%74%38%9%19%34%256%
%9%11%84%8971%23%28%12%20%35%843%

Captulo 17

Listado de datasets (LIST)


17.1.

Descripci
on general

LIST se usa para imprimir los datos de un archivo, las variables recodificadas e informacion del diccionario
IDAMS asociado. Se pueden seleccionar variables especficas para ser impresas o se pueden listar todos los
datos y/o el diccionario.
Cada registro de un archivo Datos es una flujo continuo de valores. Cuando se imprime tal como es, resulta
difcil distinguir los valores de variables adyacentes. LIST elimina esta inconveniencia porque ofrece un
formato de impresion de datos que separa los valores de las variables.
Se puede imprimir un diccionario IDAMS sin su correspondiente archivo Datos mediante el suministro de
un archivo ficticio (es decir, un archivo vaco o nulo), al definir el archivo Datos.

17.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Los casos se pueden seleccionar con un filtro o con la opcion de saltar
casos (SKIP). La opci
on de saltar, si se usa, especifica que se imprime el primer caso y despues cada n-esimo
caso. Si se especifica un filtro, la opci
on de saltar se aplica a los casos que han pasado por el filtro. De los
casos seleccionados, se imprimen los valores de los datos para todas las variables descritas en el diccionario
o para un subconjunto si se ha especificado el par
ametro VARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. Los valores de datos faltantes se imprimen tal como se presentan, sin
causar accion especial.

17.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variable y registros
C, si los hay, solamente para variables utilizadas en la ejecuci
on. Si se escogen para imprimir todas las
variables, entonces se imprime el diccionario completo en orden secuencial.
Datos. Las variables numericas se imprimen con el punto decimal explcito, si lo hay, y sin ceros a la
izquierda. Si un valor desborda el ancho de campo, este se imprime como una cadena de asteriscos. Los datos
malos reemplazados por c
odigos de datos faltantes por defecto se imprimen como blancos. Se imprimen los
valores de una variable en una columna que se extiende con el n
umero de p
aginas necesarias para abarcar
todos los casos escogidos para imprimir. El siguiente es un bosquejo en bloque del formato de impresion:

146

Listado de datasets (LIST)


v

xxx
xxx
xxx
xxx
.
.

xxxx
xxxx
xxxx
xxxx
.
.

x
x
x
x
.
.

xxxxxxxx
xxxxxxxx
xxxxxxxx
xxxxxxxx
.
.

Los encabezamientos v de las columnas representan los n


umeros de las variables y las x representan los
valores de las variables. Si el usuario pide mas variables de las que caben en una fila (127 caracteres), LIST
har
a un n
umero de pasadas al archivo de datos e imprimira tantas variables como pueda cada vez. Por
ejemplo, si se van a imprimir 50 variables, LIST lee los datos, escribe todos los valores, digamos para las
primeras 10 variables. Despues lee nuevamente los datos y escribe, digamos para las siguientes 12 variables
y as sucesivamente. El n
umero de variables impresas en cada pasada, depende de los anchos de campo de
las variables que se van a imprimir y es calculado autom
aticamente por LIST.
Secuencia e identificaci
on de casos. Existen opciones para imprimir un n
umero secuencial de caso y/o de
los valores de las variables de identificaci
on en cada caso (ver par
ametros PRINT e IDVARS). Se imprimen
como las primeras columnas.
Variables de Recode. Se imprimen con 11 dgitos incluidos un punto decimal explcito y dos cifras decimales.

17.4.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Si solo se necesita un listado del
diccionario, el archivo Datos se especifica como NUL.

17.5.

Estructura del setup

$RUN LIST
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)

17.6 Proposiciones de control del programa

17.6.

147

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE V5=100-199

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

LISTADO DEL ESTUDIO: 113A

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

VARS=(V3,V10-V25) IDVARS=V1

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos a imprimir.
Por defecto: se imprimen todos los casos.
SKIP=n
Se imprime cada caso n-esimo (o cada caso n-esimo que pase por el filtro), comenzando por el
primer caso. El u
ltimo caso siempre se imprime a no ser que la opcion MAXCASES lo prohiba.
Por defecto: se imprimen todos los casos (o todos los casos que pasen por el filtro).
VARS=(lista de variables)
Imprimir los datos de las variables especificadas. Los valores de variables se imprimen en el orden
en que aparecen en esta lista.
Por defecto: se imprimen todas las variables del diccionario.
IDVARS=(lista de variables)
Se imprimen los valores de la(s) variable(s) especificada(s) para identificar cada caso.
SPACE=3/n
N
umero de espacios entre columnas. El valor maximo es SPACE=8.
PRINT=(CDICT/DICT, SEQNUM, LONG/SHORT, SINGLE/DOUBLE)
CDIC
Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
DICT
Imprimir el diccionario de entrada sin registros C.
SEQN
Imprimir un n
umero secuencial para cada caso que se imprima. N
otese que los casos
se numeran despues de pasar por el filtro.
LONG
Asume 127 caracteres por lnea de impresion.
SHOR
Asume 70 caracteres por lnea de impresion.
SING
Espacio sencillo entre lneas.
DOUB
Doble espacio entre lneas.

17.7.

Restricci
on

La suma de los anchos de campo de las variables que se van a imprimir, incluidos las variables identificadoras
de caso, debe ser menor o igual a 10,000 caracteres.

148

Listado de datasets (LIST)

17.8.

Ejemplos

Ejemplo 1. Listar 50 variables, incluida una variable de recodificaci


on; todos los casos se imprimiran con
sus variables de identificaci
on (V1, V2 y V4); se imprimira el diccionario pero sin registros C.
$RUN LIST
$FILES
PRINT = LIST1.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$RECODE
R6=BRAC(V6,0-50=1,51-99=2)
$SETUP
LISTADO DE 50 VARIABLES CON 3 VARIABLES ID CON CADA GRUPO
IDVA=(V1,V2,V4) VARS=(V3-V49,V59,V52,R6) PRIN=DICT
Ejemplo 2. Imprimir un diccionario completo con registros C, sin imprimir los datos.
$RUN LIST
$FILES
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = NUL
$SETUP
LISTADO COMPLETO DE UN DICCIONARIO
PRIN=CDICT
Ejemplo 3. Verificacion de una recodificacion mediante el listado de valores de variables de entrada y de
variables recodificadas para 10 casos.
$RUN LIST
$FILES
DICTIN = A.DIC
archivo Diccionario de entrada
DATAIN = A.DAT
archivo Datos de entrada
$RECODE
R101=COUNT(1,V40-V49)
IF MDATA(V9,V10) THEN R102=99 ELSE R102=V9+V10
R103=BRAC(V16,15-24=1,25-34=2,35-54=3,ELSE=9)
$SETUP
VERIFICACION DE LOS VALORES DE TRES VARIABLES RECODIFICADAS
MAXCASES=10 SKIP=10 SPACE=1 VARS=(V40-V49,R101,V9,V10,R102,V16,R103)

Captulo 18

Intercalaci
on de datasets (MERGE)
18.1.

Descripci
on general

MERGE intercala variables que vienen de casos en un dataset IDAMS, con variables que vienen de un
segundo dataset, emparejando los casos con una(s) variable(s) comun(es) de emparejamiento. Los casos en
los dos datasets no tienen que ser identicos; esto es, todos los casos presentes en un dataset, no tienen que
estar en el otro. El archivo Datos de salida est
a compuesto de registros que tienen variables especificadas
por el usuario de cada uno de los dos datasets de entrada, junto con su correspondiente diccionario IDAMS.
Con el objeto de distinguir los dos datasets de entrada, uno se llama dataset A y el otro dataset B en
la documentacion del programa.
Combinaci
on de datasets con colecciones id
enticas de casos. Un ejemplo de uso del programa es
la combinaci
on de los datos de la primera y subsiguiente series de entrevistas con la misma colecci
on de
encuestados.
Combinaci
on de datasets con recolecciones diferentes de casos. Cuando hay mas de una serie de
entrevistas en una encuesta, algunos encuestados pueden retirarse y otros incluirse. El programa permite
estas discrepancias entre datasets y se le puede solicitar, por ejemplo, que produzca registros de salida para
todos los encuestados, incluidos aquellos entrevistados en una sola serie. En este ejemplo, los valores de las
variables para una serie en la cual un encuestado no fue entrevistado, saldr
an como datos faltantes.
Combinaci
on de datasets con diferentes niveles de datos. Tambien se usa MERGE para combinar
dos datasets diferentes, uno de los cuales contiene datos mas agregados que el otro. Por ejemplo, los datos
de hogares se pueden a
nadir a registros individuales de miembros de familia.

18.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Se puede especificar un filtro para uno o para los dos datasets de entrada.
La u
nica diferencia en el formato del filtro es que debe estar precedido de una A: o de una B: en las
columnas 1-2, para indicar el dataset al cual se aplica el filtro.
Las variables de salida seleccionadas o todas las variables de salida de cada dataset de entrada se pueden
incluir en el dataset de salida. Estas variables de salida se especifican en una lista de variables que tiene el
formato usual, excepto que las variables se denotan con una A o una B (en vez de V) para indicar
el dataset de entrada en el cual se encuentran. Por ejemplo, A1, B5, A3-A45 selecciona las variables V1,
V3-V45 del dataset A y la variable V5 del dataset B. Ver la descripcion de variables de salida en la secci
on
Proposiciones de control del programa.
Transformaci
on de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. Para las opciones de salida MATCH=UNION, MATCH=A y MATCH=B,
se usan los c
odigos de datos faltantes como valores para las variables de salida que no est
an disponibles para
un caso particular. Ver el par
agrafo Manejo de casos que aparecen en un dataset de entrada solamente en
la secci
on que describe el dataset de salida mas adelante. Los c
odigos de datos faltantes se obtienen de los

150

Intercalaci
on de datasets (MERGE)

diccionarios de los datasets A y B. El usuario indica para cada dataset si se usa el primero o segundo c
odigo
de datos faltantes, y esto para todas las variables de este dataset (ver los par
ametros APAD y BPAD). Si
una variable no tiene un c
odigo de datos faltantes apropiado en el diccionario, se usan espacios en blanco en
el dataset de salida.
Los datos faltantes nunca salen como el valor de una variable de salida que sea tambien una variable de
emparejamiento, por que una variable de emparejamiento siempre est
a disponible en el dataset que contiene
el caso. Por ejemplo, si se selecciona MATCH=UNION, supongamos que las variables A1 y B3 se han
seleccionado como las variables de emparejamiento y que solo A1 se imprimi
o como variable de salida (A1 y
B3 no se imprimen ambas ya que presumiblemente, tienen el mismo valor): entonces, si falt
o un caso en el
dataset A, el valor de la variable de salida A1 sera el valor de la variable B3.

18.3.

Resultados

N
umeros de variable anteriores (de entrada) versus n
umeros de variable nuevos (de salida).
(Opcional: ver el par
ametro PRINT). Una carta que contiene los n
umeros de las variables de entrada y los
n
umeros de referencia y los n
umeros correspondientes de las variables de salida y n
umeros de referencia.
Diccionario de salida. (Opcional: ver el par
ametro PRINT).
Documentaci
on de casos sin emparejar en cualquiera de los datasets A o B. Hay varias maneras
de documentar los casos sin emparejar, es decir, casos que aparecen solo en un dataset (ver el par
ametro
PRINT).
Se pueden imprimir los valores de las variables de emparejamiento:
- cuando las variables de salida de cualquiera de los datasets se rellenan con datos faltantes,
- cuando se eliminan casos del dataset A,
- cuando se eliminan casos del dataset B.
Se pueden imprimir los valores de las variables del dataset A cuando un caso del dataset A no encaja
con ning
un caso del dataset B. Las variables se imprimen en el orden especificado para el dataset en
la lista de variables de salida, seguida de la lista de variables de emparejamiento que tampoco son
variables de salida.
Se pueden imprimir los valores de las variables del dataset B cuando un caso del dataset B no encaja
con ning
un caso del dataset A. Las variables se imprimen en el orden especificado para el dataset en
la lista de variables de salida, seguida de la lista de variables de emparejamiento que tampoco son
variables de salida.
Conteo de casos. El programa imprime el n
umero de casos existentes en los datasets A y B, el n
umero de
casos en el dataset A y que no est
an en el dataset B, el n
umero de casos en el dataset B y que no est
an en
el dataset A y el n
umero total de casos escritos en la salida.

18.4.

Dataset de salida

La salida es un nuevo archivo Datos y un diccionario IDAMS correspondiente.


Cada registro de datos contiene el valor de las variables de salida para emparejar casos de los datasets A y
B. N
otese que una variable de emparejamiento no se produce autom
aticamente: el usuario debe incluir la(s)
variable(s) de emparejamiento a partir de uno de los datasets en la lista de variables de salida para asignar
al registro de salida un identificador de caso.
Manejo de casos que aparecen solamente en un solo dataset de entrada. Hay cuatro acciones
posibles:
1. MATCH=INTERSECTION. Los casos que aparecen en un solo dataset de entrada no se incluyen en
el dataset de salida. (Si los datasets A y B se consideran como conjuntos de casos, la salida es la
interseccion de los conjuntos A y B).

18.4 Dataset de salida

151

2. MATCH=UNION. Cualquier caso que aparezca en cualquiera de los datasets de entrada se incluye en
el dataset de salida. A las variables del dataset de entrada que no contengan el caso se les asignan
valores de datos faltantes en el dataset de salida. (La salida es la union de los conjuntos A y B).
3. MATCH=A. Cualquier caso que aparezca en el dataset A, se incluye en el dataset de salida, mientras
que un caso que solo aparece en el dataset B, no se incluye. Si un caso solo se encuentra en el dataset
A, a las variables del dataset B se les asignan valores de datos faltantes en el dataset de salida para
ese caso. (La salida es el conjunto A).
4. MATCH=B. Tiene la misma accion que la opcion 3, pero el dataset B define cuales casos se incluyen
en el dataset de salida. (La salida es el conjunto B).
Manejo de casos duplicados. Cuando uno de los dos datasets de entrada contiene mas de un caso con el
mismo valor en la variable o variables de emparejamiento, se dice que el dataset contiene casos duplicados.
Normalmente (es decir, cuando no se especifica el par
ametro DUPBFILE) el programa imprime un mensaje
que se
nala la presencia de duplicados y luego los trata cada uno como un caso diferente. Los casos escritos
en el dataset de salida dependeran de la opcion escogida en MATCH. El cuadro siguiente muestra c
omo
funciona esto.
Intercalaci
on de archivos con duplicados (sin especificar DUPBFILE)
Entrada

A
ID
01
01
02

|
|
N1 |
|
EVA |
ANA |
CORA |
|

Salida

|
|
ID N2
|
|
01 ADAN |
02 PEDRO |
03 JORGE |
|

MATCH = UNION |
|
ID
N1
N2 |
|
01 EVA ADAN |
01 ANA ____ |
02 CORA PEDRO |
03 ____ JORGE |

MATCH = A
ID
01
01
02

|
|
N1
N2
|
|
EVA ADAN |
ANA ____ |
CORA PEDRO |
|

MATCH = B
ID
01
02
03

|
|
N1
N2
|
|
EVA ADAN |
CORA PEDRO |
____ JORGE |
|

MATCH =INTER
ID

N1

N2

01 EVA ADAN
02 CORA PEDRO

Sin embargo, los duplicados se pueden interpretar y manejar de una manera diferente cuando uno de los dos
datasets contiene casos en un nivel de analisis mas bajo que el otro. Por ejemplo, un dataset contiene datos de
hogares y el segundo contiene datos de miembros de hogares. En este caso, las variables de emparejamiento
especificadas para cada dataset seran la identificacion de los hogares. As, naturalmente se presentar
an
duplicados en el dataset de miembros de hogares, ya que la mayora de hogares tienen mas de un miembro.
Al especificar el par
ametro DUPBFILE, no se imprime mensaje de presencia de duplicados y se construyen
casos para cada caso duplicado en el dataset B con las variables del caso de emparejamiento del dataset
A, copiadas en cada caso construido. El siguiente cuadro muestra un ejemplo de este procedimiento.
Intercalaci
on de archivos a diferentes niveles (se especifico DUPBFILE)
Entrada
A

|
|
ID N1 |
|
01 ALVA |
03 MORA |
04 RIZO |
|
|
|
|

|
|
ID N2
|
|
01 ANA
|
01 EVA
|
01 PEDRO |
02 CORA |
02 ADAN |
03 JORGE |
|

Salida
MATCH = UNION |
|
ID
N1 N2
|
|
01 ALVA ANA
|
01 ALVA EVA
|
01 ALVA PEDRO |
02 ____ CORA |
02 ____ ADAN |
03 MORA JORGE |
04 RIZO _____ |

MATCH = A

|
|
ID N1
N2
|
|
01 ALVA ANA
|
01 ALVA EVA
|
01 ALVA PEDRO |
03 MORA JORGE |
04 RIZO ____ |
|
|

MATCH = B

|
|
ID N1
N2
|
|
01 ALVA ANA
|
01 ALVA EVA
|
01 ALVA PEDRO |
02 ____ CORA |
02 ____ ADAN |
03 MORA JORGE |
|

MATCH = INTER
ID N1

N2

01
01
01
03

ANA
EVA
PEDRO
JORGE

ALVA
ALVA
ALVA
MORA

Orden y numeraci
on de variables. La salida de variables se lleva acabo en el orden en el que aparecen
en la lista de variables de salida y siempre se renumeran a partir del valor dado en el par
ametro VSTART.

152

Intercalaci
on de datasets (MERGE)

As, una lista de variables de salida tal como A1-A5, B6, A7-A25,B100 crea un dataset con variables de
V1 a V26 si VSTART=1. Los n
umeros de referencia de variables, si los hay, se transfieren sin modificar al
diccionario de salida.
Localizaci
on de variables. MERGE asigna la localizacion de variables a partir de la primera variable de
salida y luego contin
ua en orden a traves de la lista de variables de salida.

18.5.

Dataset de entrada

MERGE necesita dos archivos de datos de entrada, cada uno de ellos descrito por un diccionario IDAMS.
Las variables de emparejamiento pueden ser alfabeticas o numericas. Las variables de emparejamiento correspondientes que vienen de los datasets A y B, deben tener el mismo ancho de campo.
Las variables de salida pueden ser alfabeticas o numericas.
Cada archivo de datos de entrada debe estar clasificado en orden ascendente por las variables de emparejamiento, antes de usar MERGE.

18.6.

Estructura del setup

$RUN MERGE
$FILES
Especificaci
on de archivos
$SETUP
1.
2.
3.
4.
5.

Filtro(s) (opcional)
T
tulo
Par
ametros
Especificaci
on de variables de emparejamiento
Variables de salida

$DICT (condicional)
Diccionario (ver Nota m
as adelante)
$DATA (condicional)
Datos (ver Nota m
as adelante)

Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
DICTzzzz
DATAzzzz
PRINT

diccionario de entrada del dataset A (omitir


datos de entrada del dataset A (omitir si se
diccionario de entrada del dataset B (omitir
datos de entrada del dataset B (omitir si se
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)

si se usa $DICT)
usa $DATA)
si se usa $DICT)
usa $DATA)

Nota. En el setup, se puede introducir uno de los datasets de entrada A o B, pero no ambos. Sin embargo,
los registros que siguen a continuacion de $DICT y $DATA se copian en los archivos definidos por DICTIN
y DATAIN respectivamente. Entonces, si el dataset A se coloca en el setup, el dataset A estar
a definido por
DICTIN y DATAIN y se debe especificar el par
ametro INAFILE=IN. De la misma manera, si el dataset B
va en el setup, se debe especificar el par
ametro INBFILE=IN.

18.7 Proposiciones de control del programa

18.7.

153

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro(s) (opcional). Selecciona un subconjunto de casos de los datasets A y/o B para usar en la
ejecuci
on. N
otese que cada proposicion de filtro debe estar precedida por A: o B: en las columnas
1 y 2 para indicar a cual dataset se va a aplicar el filtro.
Ejemplo:

A: INCLUDE V1=10,20,30
B: INCLUDE V1=10,20,30

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

INTERCALACION DE DATOS DE MAESTROS Y ESTUDIANTES

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

MATCH=INTE PRINT=(A,B)

INAFILE=INA/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos A de entrada.
Por defecto: DICTINA, DATAINA.
INBFILE=INB/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos B de entrada.
Por defecto: DICTINB, DATAINB.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo A de entrada.
Por defecto: se usan todos los casos.
MATCH=INTERSECTION/UNION/A/B
INTE
Llevar a la salida solo los casos que aparezcan en ambos datasets A y B.
UNIO
Llevar a la salida los casos que aparezcan en uno de los dos o en ambos datasets A y
B, rellenando las variables con datos faltantes cuando sea necesario.
A
Llevar a la salida solo los casos que aparezcan en el dataset A, rellenando las variables
que vienen del dataset B con datos faltantes cuando sea necesario.
B
Llevar a la salida solo los casos que aparezcan en el dataset B, rellenando las variables
que vienen del dataset A con datos faltantes cuando sea necesario.
Sin valor por defecto.
DUPBFILE
Un caso en el dataset A puede emparejarse con uno o mas casos (es decir, duplicados) del dataset
B. Para cada emparejamiento, se crea un registro de salida, dependiendo del par
ametro MATCH.
Nota: el dataset con los duplicados esperados debe definirse como el dataset B.
Por defecto: los casos duplicados en cualquiera de los datasets seran anotados en los resultados y
entonces seran tratados como casos diferentes seg
un la especificaci
on en el par
ametro MATCH.
OUTFILE=OUT/zzzz
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
VSTART=1/n
N
umero de variable para la primera variable en el dataset de salida.

154

Intercalaci
on de datasets (MERGE)
APAD=MD1/MD2
Cuando se rellenan las variables de A con datos faltantes:
MD1
Llevar a la salida el primer c
odigo de datos faltantes.
MD2
Llevar a la salida el segundo c
odigo de datos faltantes.
BPAD=MD1/MD2
Cuando se rellenan las variables de B con datos faltantes:
MD1
Llevar a la salida el primer c
odigo de datos faltantes.
MD2
Llevar a la salida el segundo c
odigo de datos faltantes.
PRINT=(PAD/NOPAD, ADELETE/NOADELETE, BDELETE/NOBDELETE, VARNOS,
A, B, OUTDICT/OUTCDICT/NOOUTDICT)
PAD
Imprimir los valores de las variables de emparejamiento cuando se rellenen cualesquiera
variables de los datasets A o B con c
odigos de datos faltantes.
ADEL
Imprimir los valores de la variable de emparejamiento para el dataset A cada vez que
no se incluya un caso del dataset A en el archivo de datos de salida.
BDEL
Imprimir los valores de la variable de emparejamiento para el dataset B cada vez que
no se incluya un caso del dataset B en el archivo de datos de salida.
VARN
Imprimir un listado con los n
umeros de las variables de los datasets de entrada y sus
correspondientes n
umeros de variable en el dataset de salida.
A
Imprimir todos los valores de las variables de emparejamiento y de salida para los casos
que aparezcan solamente en el dataset A, esten o no esten incluidas en el dataset de
salida.
B
Imprimir todos los valores de las variables de emparejamiento y de salida para los casos
que aparezcan solamente en el dataset B, esten o no esten incluidas en el dataset de
salida.
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
NOOU
No imprimir el diccionario de salida.

4. Especificaci
on de variables de emparejamiento (mandatorio). Esta proposicion define las variables de los datasets A y B que se van a comparar para emparejar los casos. N
otese que cada archivo
Datos de entrada debe estar clasificado, con la(s) variable(s) de emparejamiento como llaves de clasificacion antes de usar MERGE.
Ejemplo:

A1=B3, A5=B1

Lo cual significa que para emparejar un caso del dataset A con un caso del dataset B, el valor de la
variable V1 del dataset A, debe ser igual al valor de la variable V3 del dataset B y similarmente para
las variables V5 y V1.
Formato general
An=Bm, Aq=Br, ...
Reglas de codificaci
on
El ancho de campo de las dos variables que se van a comparar debe ser identico. La comparaci
on
se hace car
acter por car
acter, no numericamente. As, 0.9 no es equivalente a 009, ni 9
es igual a 09. Si el ancho de campo no es el mismo, use el programa TRANS para cambiar el
ancho de una de las variables antes de usar MERGE.
Cada par de variables de emparejamiento est
a separado con una coma.
Puede haber blancos en cualquier parte de la proposicion.
Para continuar en otra lnea, termine la informacion en una coma y coloque un gui
on para indicar
continuacion.
5. Variables de salida (mandatorio). Definen cuales variables de cada uno de los datasets de entrada
se van a transferir a la salida y cual es su orden de salida.

18.8 Restricciones
Ejemplo:

155
A1, B2, A5-A10, B5, B7-B10

Lo que significa que el dataset de salida contendra la variable V1 del dataset A, seguida por la variable
V2 del dataset B, seguida por las variables V5 hasta V10 del dataset A, etc. en ese orden.
Reglas de codificaci
on
Las reglas de codificacion son las mismas que las de la especificaci
on de variables con el par
ametro
VARS, excepto que se usan las letras A y B en vez de la letra V. Cada n
umero de variable del
dataset A est
a precedido de una A y cada n
umero de variable del dataset B est
a precedido de
una B.
Las variables duplicadas en la lista, se cuentan como variables separadas.

18.8.

Restricciones

1. El n
umero maximo de variables de emparejamiento de cada dataset es 20.
2. Las variables de emparejamiento deben ser del mismo tipo y ancho de campo en cada dataset.
3. La longitud total maxima del conjunto de variables de emparejamiento de cada dataset es 200 caracteres.

18.9.

Ejemplos

Ejemplo 1. Combinaci
on de registros de dos datasets con el mismo n
umero de casos; en ambos datasets,
los casos se identifican con las variables 1 y 3; todas las variables se seleccionan de cada uno de los datasets
de entrada.
$RUN MERGE
$FILES
DICTOUT = AB.DIC
archivo Diccionario de salida
DATAOUT = AB.DAT
archivo Datos de salida
DICTINA = A.DIC
archivo Diccionario de entrada del dataset A
DATAINA = A.DAT
archivo Datos de entrada del dataset A
DICTINB = B.DIC
archivo Diccionario de entrada del dataset B
DATAINB = B.DAT
archivo Datos de entrada del dataset B
$SETUP
COMBINACION DE REGISTROS DE 2 DATASETS CON EL MISMO NUMERO DE CASOS
MATCH=UNION
A1=B1,A3=B3
A1-A112,B201-B401
Ejemplo 2. Combinaci
on de datasets con n
umero de casos diferentes; solo los casos con registros en ambos
datasets se llevan a la salida; los casos se identifican con las variables 2 y 4 en el primer dataset y con
las variables 105 y 107 respectivamente en el segundo dataset; las variables en el dataset de salida seran
renumeradas a partir del n
umero 201 y se pide un listado de referencias; solo se tomaran las variables
seleccionadas de cada dataset de entrada.
$RUN MERGE
$FILES
los mismos del ejemplo 1
$SETUP
COMBINACION DE REGISTROS DE 2 DATASETS CON DIFERENTE NUMERO DE CASOS
MATCH=INTE VSTA=201 PRIN=VARNOS
A2=B105,A4=B107
B105,B107,A36-A42,B120,B131

156

Intercalaci
on de datasets (MERGE)

Ejemplo 3. Combinaci
on de datasets con datos de niveles diferentes; los casos del dataset A se combinan
con un subconjunto de casos del dataset B; un caso del dataset A puede aparearse con uno o mas casos
del dataset B; los casos del dataset A que no se emparejen con un caso del subconjunto del dataset B se
descartan y no se imprimen.
$RUN MERGE
$FILES
los mismos del ejemplo 1
$SETUP
B: INCLUDE V18=2 AND V21=3
COMBINACION DE 2 DATASETS CON DIFERENTES NIVELES DE DATOS
MATCH=B DUPB
A1=B15
B15,A2,A6-A12,B20-B31,B40
Ejemplo 4. Se va a calcular el ingreso por hogar a partir de un dataset de miembros de hogares y luego
intercalarlo con los registros individuales de los miembros; se usa primero AGGREG para sumar los ingresos
(V6) de los individuos en los hogares; V3 es la variable que identifica cada hogar; el dataset de salida de
AGGREG (definido por DICTAGG y DATAAGG) contendra 2 variables, el identificador de hogar (V1) y
el ingreso por hogar (V2); este dataset se usa en seguida como el dataset A de MERGE para sumar el
ingreso por hogar apropiado (variable A2) al registro original de cada individuo (variables B1-B46).
$RUN AGGREG
$FILES
PRINT
= MERGE4.LST
DICTIN = INDIV.DIC
archivo Diccionario de entrada
DATAIN = INDIV.DAT
archivo Datos de entrada
DICTAGG = AGGDIC.TMP
archivo temporal Diccionario de salida de AGGREG
DATAAGG = AGGDAT.TMP
archivo temporal Datos de salida de AGGREG
DICTOUT = INDIV2.DIC
archivo Diccionario de salida de MERGE
DATAOUT = INDIV2.DAT
archivo Datos de salida de MERGE
$SETUP
SUMA DE LOS INGRESOS
IDVARS=V3 AGGV=V6 STATS=SUM OUTF=AGG
$RUN MERGE
$SETUP
FUSION DEL INGRESO POR HOGAR CON LOS REGISTROS INDIVIDUALES
INAFILE=AGG INBFILE=IN DUPB MATCH=B
A1=B3
B1-B46,A2
N
otese que una vez que se han hecho las asignaciones de datasets bajo $FILES, no es necesario repetirlas si
se vuelven a usar en pasos siguientes.

Captulo 19

Clasificaci
on e intercalaci
on de
archivos (SORMER)
19.1.

Descripci
on general

SORMER le permite al usuario ejecutar Clasificar/Intercalar de una manera mas conveniente ya que permite,
mediante el uso de los formatos de los par
ametros de IDAMS, especificar la informacion de los campos de
control para clasificacion o intercalaci
on. Si el archivo Datos est
a descrito por un diccionario IDAMS, entonces
se puede enviar a la salida una copia del diccionario correspondiente a los datos clasificados y los campos
de clasificacion se especifican con las variables apropiadas; en caso contrario, se especifican a traves de su
localizacion.
Orden de clasificaci
on. El usuario debe especificar si los datos se van a clasificar/intercalar en orden
ascendente o descendente.

19.2.

Caractersticas est
andar de IDAMS

SORMER es un programa utilitario y no contiene ninguna de las caractersticas est


andar de IDAMS.

19.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, para las variables claves de classificaccion.
Resultados de Clasificar/Intercalar. N
umero de registros clasificados/intercalados.

19.4.

Diccionario de salida

Una copia del diccionario de entrada que corresponde al archivo Datos de salida.

19.5.

Datos de salida

La salida es un archivo con los mismos atributos del archivo o archivos de entrada cuyos registros est
an
clasificados seg
un el orden solicitado.

158

Clasificaci
on e intercalaci
on de archivos (SORMER)

19.6.

Diccionario de entrada

Si los campos de clasificacion se especifican con n


umeros de variable, entonces se debe entrar un diccionario
IDAMS con registros T, como mnimo para estas variables. S
olo se permiten diccionarios que describan un
registro por caso.

19.7.

Datos de entrada

Para clasificar, se lee un solo archivo Datos el cual contiene uno o mas campos (o variables) cuyos valores
definen el orden de clasificacion deseado.
Para intercalar, la entrada consiste de 2-16 archivos Datos, cada uno con el mismo formato de registro,
es decir, la misma longitud de registro y los campos que definen el orden de clasificacion en las mismas
posiciones. Cada archivo debe haberse clasificado previamente con los campos de control de intercalaci
on,
antes de pasar a intercalar los archivos.

19.8.

Estructura del setup

$RUN SORMER
$FILES
Especificaci
on de archivos
$SETUP
1. T
tulo
2. Par
ametros
$DICT (condicional)
Diccionario para las variables de los campos de clasificaci
on/intercalaci
on

Archivos para clasificar:


DICTxxxx
diccionario IDAMS para las variables de los campos de clasificaci
on
(omitir si se usa $DICT)
SORTIN
datos de entrada
DICTyyyy
diccionario de salida
SORTOUT
datos de salida
Archivos para intercalar:
DICTxxxx
diccionario IDAMS para las variables de los campos de intercalaci
on
(omitir si se usa $DICT)
SORTIN01
1er archivo de datos
SORTIN02
2do archivo de datos
.
.
DICTyyyy
diccionario de salida
SORTOUT
datos de salida
PRINT

resultados (por defecto IDAMS.LST)

Nota. Cuando se solicita la ejecuci


on de SORMER mas de una vez en un archivo Setup, las definiciones
para el archivo de entrada en la ejecuci
on subsiguiente, solamente modifican pero no reemplazan las definiciones del archivo de entrada especificadas previamente, por ej. si SORTIN01, SORTIN02 y SORTIN03 se
especifican para la primera ejecuci
on y SORTIN01 y SORTIN02 se especifican para la segunda ejecuci
on en
el mismo setup, los nuevos SORTIN01 y SORTIN02, as como el antiguo SORTIN03 se tomaran para
la intercalaci
on.

19.9 Proposiciones de control del programa

19.9.

159

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-2, a continuacion.
1. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

CLASIFICACION ONDA UNO

2. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

KEYVARS=(V2,V3)

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para el archivo Diccionario de entrada.
Por defecto: DICTIN.
OUTFILE=yyyy
Un sufijo de ddname de 1-4 caracteres para el archivo Diccionario de salida.
Debe especificarse para obtener en la salida una copia del diccionario de entrada.
SORT/MERGE
SORT
Se clasifican los datos de entrada.
MERG
Se intercalan dos o mas archivos de datos.
ORDER=A/D
A
Clasificaci
on ascendente sobre los campos de clasificacion.
D
Clasificaci
on descendente.
KEYVARS=(lista de variables)
Lista de las variables que se van a usar como campos de clasificacion (se debe suministrar el
diccionario IDAMS).
Nota: el archivo Datos debe tener solo un registro por caso para seleccionar esta opcion. Si hay
mas de un registro por caso, usar KEYLOC.
KEYLOC=(I1,F1, I2,F2, ...)
In
Localizacion del comienzo del n-esimo campo de clasificacion.
Fn
Localizacion del final del n-esimo campo de clasificaci
on. Debe especificarse a
un si tiene
el mismo valor de la posicion de comienzo de campo.
Nota. Sin valor por defecto. Se debe especificar uno de los dos par
ametros KEYVARS o bien KEYLOC,
pero no ambos.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables de clasificacion con registros C,
si los hay.
DICT
Imprimir el diccionario de entrada sin los registros C.

19.10.

Restricciones

1. Se pueden intercalar hasta 16 archivos como maximo.


2. Se puede especificar un maximo de 12 campos de control o variables para clasificar/intercalar.
3. El n
umero maximo de registros depende del espacio de disco disponible para el archivo de salida y
para los archivos de trabajo SORTWK01, 02, 03, 04, 05. Estos archivos de trabajo pueden asignarse a
un disco diferente al disco por defecto si es necesario.

160

Clasificaci
on e intercalaci
on de archivos (SORMER)

19.11.

Ejemplos

Ejemplo 1. Intercalar tres archivos con igual formato, clasificados previamente; cada archivo est
a descrito
por el mismo diccionario IDAMS; los casos se clasifican en orden ascendente sobre tres variables: V1, V2 y
V4.
$RUN SORMER
$FILES
PRINT
= SORT1.LST
DICTIN
= \SURV\DICT.DIC
archivo
SORTIN01 = DATA1.DAT
archivo
SORTIN02 = DATA2.DAT
archivo
SORTIN03 = DATA3.DAT
archivo
DICTOUT = \SURV\DATA123.DIC
archivo
SORTOUT = \SURV\DATA123.DAT
archivo
$SETUP
INTERCALAR DE TRES ARCHIVOS DE DATOS: DATA1
MERG KEYVARS=(V1,V2,V4) OUTF=OUT

Diccionario de entrada
Datos 1 de entrada
Datos 2 de entrada
Datos 3 de entrada
Diccionario de salida
Datos de salida
DATA2 Y DATA3

Ejemplo 2. Clasificar un archivo de datos en orden descendente sobre dos campos: el primer campo tiene
4 caracteres de longitud y comienza en la columna 12; el segundo campo tiene una longitud de 2 caracteres
y comienza en la columna 3; no se usa diccionario.
$RUN SORMER
$FILES
SORTIN = RAW.DAT
archivo Datos de entrada
SORTOUT = SORT.DAT
archivo Datos de salida
$SETUP
CLASIFICACION DE UN ARCHIVO DE DATOS SIN USAR DICCIONARIO
KEYLOC=(12,15,3,4) ORDER=D

Captulo 20

Subdivisi
on de datasets (SUBSET)
20.1.

Descripci
on general

SUBSET divide en subconjuntos un archivo Datos y su diccionario IDAMS correspondiente por caso y/o
variable, o copia los archivos completos.
Verificaci
on del orden de clasificaci
on. El programa tiene una opcion para verificar que los casos se
encuentren clasificados en orden ascendente, basado en una lista de variables de clasificacion (ver el par
ametro
SORTVARS). Los casos adyacentes con identificacion duplicada no se consideran fuera de orden. Sin embargo
hay una opci
on para eliminar las duplicaciones de cualquier caso.

20.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. La subdivisi
on de un caso en subconjuntos se lleva a cabo con un filtro
que selecciona un conjunto particular de casos del dataset de entrada. La selecci
on de variables se hace al
definir un conjunto de variables de entrada que se van a transferir al dataset de salida. Las variables pueden
salir en cualquier orden y pueden ser transferidas mas de una vez, si los n
umeros de variable de salida son
renumerados.
Transformaci
on de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. SUBSET no hace distincion entre datos sustantivos y valores de datos
faltantes; todos los datos reciben el mismo tratamiento.

20.3.

Resultados

Diccionario de salida. (Opcional: ver el par


ametro PRINT).
Estadsticas de subdivisi
on. La longitud del registro de salida, el n
umero de registros del diccionario de
salida y el n
umero de registros de datos de salida.
N
umeros de variable anteriores (de entrada) versus n
umeros de variable nuevos (de salida).
(Opcional: ver el par
ametro PRINT). Se imprime una cartilla que contiene los n
umeros de variable de entrada
y n
umeros de referencia y los correspondientes n
umeros de variable de salida y n
umeros de referencia.
Notificaci
on de casos duplicados. (Condicional: si se verifica el orden de clasificacion del archivo, todos
los casos duplicados se documentan, no importa si se ha especificado el par
ametro DUPL=DELE). Para
cada identificaci
on de caso que aparezca mas de una vez en los datos, se imprime el n
umero de duplicados,
el n
umero secuencial y la identificaci
on del caso. Ademas, el programa imprime el n
umero de registros de
datos de entrada y el n
umero de registros de datos de entrada eliminados.

162

Subdivisi
on de datasets (SUBSET)

20.4.

Dataset de salida

El archivo Datos de salida y su diccionario IDAMS correspondiente se construyen a partir del subconjunto
de casos y/o variables, especificado por el usuario a partir del archivo de entrada. Cuando se copian todas
las variables, es decir, cuando no se ha especificado OUTVARS, la estructura de los registros de salida es
identica a la de los registros de entrada y el diccionario de salida sera una copia exacta del diccionario de
entrada. De lo contrario, la informaci
on del diccionario para las variables en el archivo de salida se asigna
de la manera siguiente:
Orden y numeraci
on de variables. Si se ha especificado VSTART, la salida de variables se lleva acabo
en el orden en el que aparecen en la lista OUTVARS y siempre se renumeran a partir del valor dado en el
par
ametro VSTART. Si no se ha especificado VSTART, el programa no cambia los n
umeros de variable y
las variables salen en orden ascendente de los n
umeros.
Localizaci
on de variables. La localizacion de variables se asigna de forma contigua de acuerdo con el
orden de las variables en la lista OUTVARS (si se ha especificado VSTART) o en el orden de los n
umeros
de variable despues de clasificar (si no se ha especificado VSTART).
Tipo de variable, ancho y n
umero de decimales son los mismos que sus valores de entrada.
N
umero de referencia. Los mismos que sus valores de entrada o modificados de acuerdo con el par
ametro
REFNO.
Registros C. Los registros C del diccionario de entrada se transfieren al diccionario de salida.

20.5.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden usar variables numericas o
alfabeticas.

20.6.

Estructura del setup

$RUN SUBSET
$FILES
Especificaci
on de archivos
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)

20.7 Proposiciones de control del programa

20.7.

163

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE V1=10,20,30 AND V2=1,5,7

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

SUBDIVISION DE LA ELECCION DE 1968, V1-V50

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

SORT=(V1,V2), DUPLICATE=DELETE

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
SORTVARS=(lista de variables)
Si se va a verificar el orden de clasificacion del archivo, se especifican hasta 20 variables que definen
la secuencia de clasificacion en orden de mayor a menor. Los duplicados se consideran en orden
ascendente.
DUPLICATE=KEEP/DELETE
Eliminacion de casos duplicados (solo se aplica cuando se especifica SORT).
KEEP
Lleva a la salida todos casos duplicados que se presenten.
DELE
Lleva a la salida solo el primer caso de los casos duplicados y escribe mensaje para los
duplicados.
OUTVARS=(lista de variables)
Suministre esta lista solo si va a salir un subconjunto de variables del dataset de entrada. Si no
se ha seleccionado VSTART, la lista de variables no puede contener duplicados. De lo contrario,
las variables pueden estar en cualquier orden y repetirse seg
un se necesite.
Por defecto: se llevan a la salida todas las variables.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
VSTART=n
Las variables se numerar
an secuencialmente a partir de n en el dataset de salida.
Por defecto: se retienen los n
umeros de variable de entrada.
REFNO=OLDREF/VARNO
OLDR
Retiene los n
umeros de referencia en los registros T y C tal como est
an en el dataset
de entrada.
VARN
Actualiza el campo del n
umero de referencia en los registros C y T para que encaje
con el n
umero de variable de salida.

164

Subdivisi
on de datasets (SUBSET)
PRINT=(OUTDICT/OUTCDICT/NOOUTDICT, VARNOS)
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
VARN
Imprimir una lista con los n
umeros de variables anteriores y nuevos y con los n
umeros
de referencia.

20.8.

Restricciones

1. El maximo n
umero de variables de clasificacion es 20.
2. El ancho de los campos combinados de las variables usadas para la clasificacion, no puede exceder de
200 caracteres.

20.9.

Ejemplos

Ejemplo 1. Construccion de un subconjunto de casos para variables seleccionadas; las variables se renumerar
an a partir de 1 y se imprimira una tabla que muestre la numeraci
on anterior de las variables y la nueva
numeraci
on asignada.
$RUN SUBSET
$FILES
PRINT
= SUBS1.LST
DICTIN = ABC.DIC
archivo
DATAIN = ABC.DAT
archivo
DICTOUT = SUBS.DIC
archivo
DATAOUT = SUBS.DAT
archivo
$SETUP
INCLUDE V5=2,4,5 AND V6=2301
SUBDIVISION DE CASOS Y VARIABLES
PRINT=VARNOS VSTART=1 OUTVARS=(V1-V5,V18,V43-V57,V114,V116)

Diccionario de entrada
Datos de entrada
Diccionario de salida
Datos de salida

Ejemplo 2. Uso del programa SUBSET para verificar casos duplicados; los casos se identifican con las
variables de las columnas 1-3 y 7-8; hay un registro por caso; no se necesita dataset de salida y no se guarda.
$RUN SUBSET
$FILES
DATAIN = DEMOG.DAT
$SETUP
CHEQUEO DE CASOS DUPLICADOS
SORT=(V2,V4) PRIN=NOOUTDICT
$DICT
$PRINT
3
2
4
1
1
T
2 PRIMERA VAR ID DE CASO
T
4 SEGUNDA VAR ID DE CASO

archivo Datos de entrada

1
7

3
2

Captulo 21

Transformaci
on de datos (TRANS)
21.1.

Descripci
on general

El programa TRANS crea un nuevo dataset IDAMS que contiene variables de un dataset existente y nuevas
variables definidas por las proposiciones de Recode. Es la manera de salvar variables recodificadas.
TRANS tiene una opci
on de impresion y as puede usarse para probar proposiciones de Recode sobre un
n
umero peque
no de casos antes de ejecutar un programa de analisis o antes de guardar el archivo completo.

21.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. El filtro est
andar est
a disponible para seleccionar un subconjunto de los
casos del archivo Datos de entrada. La selecci
on de variables se lleva a cabo con el par
ametro OUTVARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. Los c
odigos de datos faltantes apropiados se escriben en el diccionario
de salida; estos se copian normalmente del diccionario de entrada pero pueden tambien ser obviados o
suministrados para variables de salida a traves de la proposicion Recode MDCODES. No se hace verificacion
de datos faltantes sobre valores de datos, excepto a traves del uso de proposiciones de Recode.

21.3.

Resultados

Diccionario de salida. (Opcional: ver el par


ametro PRINT).
Datos de salida. (Opcional: ver el par
ametro PRINT). Se dan los valores de todos los casos para cada
variable V o R, 10 variables por lnea. Para variables alfabeticas solo se imprimen los primeros 10 caracteres.

21.4.

Dataset de salida

La salida es un dataset IDAMS que contiene solo aquellas variables (V y R) especificadas en el par
ametro
OUTVARS. La informaci
on del diccionario para las variables en el archivo de salida se asigna de la manera
siguiente:
Orden y numeraci
on de variables. Si se ha especificado VSTART, la salida de variables se lleva acabo
en el orden en el que aparecen en la lista OUTVARS y siempre se renumeran a partir del valor dado en el
par
ametro VSTART. Si no se ha especificado VSTART, el programa no cambia los n
umeros de variable y
las variables salen en orden ascendente de los n
umeros.

166

Transformaci
on de datos (TRANS)

Nombre de variable y c
odigos de datos faltantes. Se toman del diccionario de entrada (solo variables
V) o de las proposiciones de Recode NAME y MDCODES, si las hay.
Localizaci
on de variable. La localizacion de variables se asigna de forma contigua de acuerdo con el orden
de las variables en la lista OUTVARS (si se ha especificado VSTART) o en el orden de los n
umeros de
variable despues de clasificar (si no se ha especificado VSTART).
Tipo de variable, ancho y n
umero de decimales.
Variables V: tipo, ancho de campo y n
umero de decimales son los mismos que sus valores de entrada.
Variables R: el tipo para variables R es siempre numerico; el ancho y n
umero de decimales se asignan de
acuerdo con los valores especificados para los par
ametros WIDTH (por defecto 9) y DEC (por defecto
0), o de acuerdo con los valores especificados para variables individuales con las especificaciones de
diccionario.
N
umero de referencia e identificador de estudio. El n
umero de referencia y el identificador de estudio
para una variable V son sus mismos valores de entrada. Para las variables R el identificador de estudio es
siempre REC.
Registros C. No se pueden crear registros C para variables R. Los registros C (si los hay) para todas las
variables V se copian al diccionario de salida. N
otese que si una variable V es codificada nuevamente durante
una ejecuci
on de TRANS, los registros C que salen no se pueden aplicar mas a la nueva versi
on de la variable.

21.5.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden usar variables numericas o
alfabeticas.

21.6.

Estructura del setup

$RUN TRANS
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.

Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de diccionario (opcional)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)

21.7 Proposiciones de control del programa

21.7.

167

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

EXCLUDE V19=2-3

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

CONSTRUCCION DE INDICADORES DE VIOLENCIA

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

VSTART=1, WIDTH=2, OUTVARS=(V2-V5,R7)

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos en entrada y los valores con amplitud insuficiente de
campo en salida. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MAXERR=0/n
M
aximo n
umero de errores insufficient-field width (amplitud insuficiente de campo) permitido antes de detener la ejecuci
on. Estos errores se presentan cuando el valor de una variable es
demasiado grande para caber dentro del campo asignado, por ej. un valor de 250 cuando se ha
especificado WIDTH=2. Ver el captulo Los datos en IDAMS.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
OUTVARS=(lista de variables)
Las variables V o R que ir
an a la salida. El orden de las variables en la lista es siginificativo solo
si se ha especificado el par
ametro VSTART. Si no se especifica VSTART todos los n
umeros de
variables V o R deben ser u
nicos.
Sin valor por defecto.
VSTART=n
Las variables se numerar
an secuencialmente a partir de n en el dataset de salida.
Por defecto: se retienen los n
umeros de variable de entrada.
WIDTH=9/n
Valor por defecto del ancho de campo de la variable de salida a usar para las variables R. Este
valor por defecto se puede reemplazar para variables especficas con la especificaci
on de diccionario
WIDTH. Para cambiar el ancho de campo de una variable numerica V, se crea una variable R
equivalente (ver Ejemplo 1).
DEC=0/n
N
umero de cifras decimales a retener para variables R.

168

Transformaci
on de datos (TRANS)

PRINT=(OUTDICT/OUTCDICT/NOOUTDICT, DATA)
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
DATA
Imprimir los valores de las variables de salida.
4. Especificaciones de diccionario (opcional). Para cualquier conjunto particular de variables, se puede
especificar el ancho de campo y el n
umero de cifras decimales. Estas especificaciones obviar
an los valores
colocados por los par
ametros principales WIDTH y DEC. N
otese que los c
odigos de datos faltantes y los
nombres de variables se asignan con las proposiciones de Recode MDCODES y NAME respectivamente.
Advertencia: la proposicion MDCODES retiene solo 2 cifras decimales para variables R y redondea los
valores apropiadamente.
Las reglas de codificacion son las mismas de los par
ametros. Cada especificaci
on de diccionario debe
comenzar en una lnea nueva.
Ejemplos:

VARS=R4, WIDTH=4, DEC=1


VARS=R8, WIDTH=2
VARS=(R100-R109), WIDTH=1

VARS=(lista de variables)
La lista de variables a la cual aplican los par
ametros WIDTH y DEC.
WIDTH=n
Ancho de campo para las variables de salida.
Por defecto: valor dado para el par
ametro WIDTH.
DEC=n
N
umero de cifras decimales.
Por defecto: valor dado para el par
ametro DEC.

21.8.

Restricciones

1. El maximo n
umero de variables R que puede salir es 250.
2. El maximo n
umero de variables que pueden ser usadas en la ejecuci
on (incluidas las variables usadas
solo en las proposiciones Recode) es 500.
3. El maximo n
umero de especificaciones de diccionario es 200.

21.9.

Ejemplos

Ejemplo 1. Las variables seleccionadas del dataset de entrada se transfieren al archivo de salida junto con
las dos nuevas variables; no se cambian los n
umeros de variable; el ancho de campo de la variable de entrada
V20 se cambia a 4.
$RUN TRANS
$FILES
PRINT
= TRANS1.LST
DICTIN = OLD.DIC
archivo Diccionario de entrada
DATAIN = OLD.DAT
archivo Datos de entrada
DICTOUT = NEW.DIC
archivo Diccionario de salida
DATAOUT = NEW.DAT
archivo Datos de salida
$SETUP
CONSTRUCCION DE DOS NUEVAS VARIABLES
PRINT=NOOUTDICT OUTVARS=(V1-V19,R20,V33,V45-V50,R105,R122)
VARS=R105,WIDTH=1
VARS=R122,WIDTH=3,DEC=1

21.9 Ejemplos

169

VARS=R20,WIDTH=4
$RECODE
R20=V20
NAME R20VARIABLE 20
R105=BRAC(V5,15-25=1,<36=2,<46=3,<56=4,<66=5,<90=6,ELSE=9)
MDCODES R105(9)
NAME R105GRUPOS DE EDAD
IF MDATA(V22) THEN R122=99.9 ELSE R122=V22/3
MDCODES R122(99.9)
NAME R122NR. ARTICULOS POR ANO
Ejemplo 2. Este ejemplo ilustra el uso de TRANS para verificar proposiciones de Recode; se listan los
valores de los datos para las variables identificadoras (V1, V2), las variables usadas en Recode y las variables
de resultado para los primeros 30 casos; no se requiere el dataset de salida y no se define.
$RUN TRANS
$FILES
PRINT = TRANS2.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
VERIFICACION DE RECODE
WIDTH=2 PRINT=(DATA,NOOUTDICT) MAXCASES=30 OUTVARS=(V1-V2,V71-V74,V118,V12,V13,R901-R903)
$RECODE
R901=BRAC(V118,1-16=2,17=1,18-23=3,24=1,25-35=3,36=1,37=2,ELSE=9)
IF NOT MDATA(V12,V13) THEN R902=TRUNC(V12/V13) ELSE R902=99
R903=COUNT(1,V71-V74)
Ejemplo 3. Creaci
on de un archivo de prueba con una muestra aleatoria de 1/20 del archivo Datos; no se
necesita salvar el diccionario de salida ya que sera identico al de entrada.
$RUN TRANS
$FILES
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
DATAOUT = TESTDATA
archivo Datos de salida
$SETUP
CREA ARCHIVO PRUEBA CON TODAS VARIABLES MUESTRA DE CASOS 1/20
PRINT=NOOUTDICT OUTVARS=(V1-V505)
$RECODE
IF RAND(0,20) NE 1 THEN REJECT

Parte IV

Facilidades para an
alisis de datos

Captulo 22

An
alisis de conglomerados
(CLUSFIND)
22.1.

Descripci
on general

CLUSFIND hace analisis de conglomerados mediante la separation de un conjunto de objetos (casos o


variables) en un conjunto de conglomerados seg
un se determina por uno de seis algoritmos: dos algoritmos
basados en repartici
on alrededor de medoides, uno basado en conglomeracion difusa y tres basados en
conglomeracion jer
arquica.

22.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Si entran datos primarios, se puede utilizar el filtro est
andar para escoger
un subconjunto de casos de los datos de entrada. Las variables para analisis se espcifican en el par
ametro
VARS.
Transformaci
on de datos. Si entran datos primarios, se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. No se aplica el uso de variables de ponderaci
on.
Tratamiento de datos faltantes. Si entran datos primarios, el par
ametro MDVALUES est
a disponible
para indicar cuales valores de datos faltantes, si los hay, se usaran para verificar datos faltantes. Los casos en
los cuales hay datos faltantes para todas las variables se eliminan autom
aticamente. Si no, datos faltantes se
eliminan por pares. Si los datos est
an estandarizados, el promedio y la desviacion media absoluta se calculan
usando solo valores validos. Cuando se calculan las distancias, solo se consideran en la suma aquellas variables
para las cuales hay valores validos presentes para ambos objetos.
Si entra una matriz, el par
ametro MDMATRIX est
a disponible para indicar que valor se va a usar para
verificar elementos invalidos en la matriz.

22.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Datos de entrada despu
es de la estandarizaci
on. (Opcional: ver el par
ametro PRINT). Los valores
estandarizados para todos los casos para cada variable V o R usada en el analisis, precedidos de el promedio
y la desviaci
on absoluta media para estas variables.
Matriz de disimilitudes. (Opcional: ver el par
ametro PRINT). El triangulo inferior izquierdo de la matriz,
tal como se leyo o fue calculado por el programa.

174

An
alisis de conglomerados (CLUSFIND)

Resultados del an
alisis PAM. Para cada n
umero de conglomerados en turno (desde CMIN a CMAX)
se imprime lo siguiente:
n
umero de objetos representativos (conglomerados) y la distancia final promedio,
para cada conglomerado: identificador del objeto representativo, n
umero de objetos y la lista de objetos
que pertenecen a ese conglomerado,
coordenandas de los medoides (valores de la variables de an
alisis para cada objeto repersentativo; solo
para el dataset de entrada),
vector de conglomeracion (un vector de n
umeros que corresponde a los objetos e indica a que conglomerado pertenece cada objeto) y caracteristicas de conglomeracion,
representacion gr
afica de los resultados, es decir, un gr
afico de silueta para cada conglomerado (opcional
- ver el par
ametro PRINT).
Resultados del an
alisis FANNY. Para cada n
umero de conglomerados en turno (desde CMIN a CMAX)
se imprime lo siguiente:
n
umero de conglomerados,
valor de la funci
on objetivo en cada iteraci
on,
para cada objeto, su identificador y el coeficiente de pertenencia para cada conglomerado,
coeficiente de partici
on de Dunn y su versi
on normalizada,
conglomeracion dura mas cercana, es decir, n
umero de objetos y la lista de objetos que pertenecen a
cada conglomerado,
vector de conglomeracion,
representacion gr
afica de los resultados, es decir, un gr
afico de silueta para cada conglomerado (opcional
- ver el par
ametro PRINT).
Resultados del an
alisis CLARA. Para el n
umero de conglomerados ensayados se imprime lo siguiente:
lista de objetos seleccionados en la muestra retenida,
vector de conglomeracion,
para cada conglomerado: identificador del objeto representativo, n
umero de objetos y la lista de objetos
que pertenecen a ese conglomerado,
distancia promedio y distancia maxima a cada medoide,
representacion gr
afica de los resultados, es decir, un gr
afico de silueta para cada conglomerado (opcional
- ver el par
ametro PRINT).
Resultados del an
alisis AGNES contiene lo siguiente:
ordenamiento final de los objetos (identificados por su identificador) y disimilitudes entre ellos,
representacion gr
afica de los resultados, es decir, un gr
afico de bandera de disimilitudes (opcional ver el par
ametro PRINT).
Resultados del an
alisis DIANA contiene lo siguiente:
ordenamiento final de los objetos (identificados por su identificador) y diametros de los conglomerados,
representacion gr
afica de los resultados, es decir, un gr
afico de bandera de disimilitudes (opcional ver el par
ametro PRINT).
Resultados del an
alisis MONA contiene lo siguiente:
huella de las separaciones (opcional - ver el par
ametro PRINT) para cada paso, con el conglomerado
a separar, la lista de objetos (identificados por su valor de la variable identificadora) en cada uno de
los dos subconjuntos y la variable usada para la separacion,
el ordenamiento final de objetos,
representacion gr
afica de los resultados, es decir, un gr
afico de separacion con la lista de objetos en
cada conglomerado y la variable usada para la separacion (opcional - ver el par
ametro PRINT).

22.4.

Dataset de entrada

El dataset de entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas
para analisis deben ser numericas; pueden ser enteras o con cifras decimales. La variable identificadora de
caso puede ser alfabetica. Las variables usadas en los analisis PAM, CLARA, FANNY, AGNES o DIANA
deben tener escala de intervalo. Las variables usadas en el analisis MONA deben ser binarias (con valores 0
o 1). N
otese que CLUSFIND usa como maximo 8 caracteres del nombre de la variable como se suministra
en el diccionario.

22.5 Matriz de entrada

22.5.

175

Matriz de entrada

Esta es una matriz cuadrada de IDAMS. Ver el captulo Los datos en IDAMS. Puede contener medidas
de similitudes, disimilitudes o coeficientes de correlacion. N
otese que CLUSFIND usa maximo 8 caracteres
del nombre del objeto como se suministra en los registros de identificacion de variables.

22.6.

Estructura del setup

$RUN CLUSFIND
$FILES
Especificaci
on de archivos
$RECODE (opcional con entrada de datos primarios;
no disponible con entrada matricial)
Proposiciones de Recode
$SETUP
1. Filtro (opcional, s
olo para entrada de datos primarios)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario para la entrada de datos primarios
$DATA (condicional)
Datos para la entrada de datos primarios
$MATRIX (condicional)
Matriz para la entrada de la matriz

Archivos:
FT09
DICTxxxx
DATAxxxx
PRINT

22.7.

matriz de entrada
(si no se usa $MATRIX y se usa entrada matricial)
diccionario de entrada (si $DICT no se usa y INPUT=RAWDATA)
datos de entrada (si $DATA no se usa y INPUT=RAWDATA)
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on. Disponible solamente
con datos primarios de entrada.
Ejemplo:

INCLUDE V8=5-10

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

PARTICION CON CONGLOMERACION DIFUSA

176

An
alisis de conglomerados (CLUSFIND)

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

ANALYSIS=PAM VARS=(V7-V12)

INPUT=RAWDATA/SIMILARITIES/DISSIMILARITIES/CORRELATIONS
RAWD
En entrada: un archivo Datos descrito por un diccionario IDAMS.
SIMI
En entrada: medidas de similitudes en la forma de una matriz cuadrada IDAMS.
DISS
En entrada: medidas de disimilitudes en la forma de una matriz cuadrada IDAMS.
CORR
En entrada: coeficientes de correlaci
on en la forma de una matriz cuadrada IDAMS.
Par
ametros s
olo para entrada de datos primarios
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=100/n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Su valor depende de la memoria disponible.
n=0
No ejecuta, solo verifica los par
ametros.
0<n<=100 Ejecuci
on normal.
n>100
S
olo permite ANALYSIS=CLARA.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
STANDARDIZE
Estandarizar las variables antes de calcular las disimilitudes.
DTYPE=EUCLIDEAN/CITY
Tipo de distancia utilizado para calcular las disimilitudes.
EUCL
Distancia euclideana.
CITY
Distancia en cuadra urbana (city block).
IDVAR=n
umero de variable
Variable que se imprime como identificadora de caso. S
olo se usan tres caracteres en el listado.
As, las variables enteras deben tener valores menores que 1000. S
olo se imprimen los tres primeros
caracteres de una variable alfabetica.
Sin valor por defecto.
PRINT=(CDICT/DICT, STAND)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
STAN
Imprimir los datos de entrada despues de la estandarizacion.
Par
ametros s
olo para entrada matricial
DISSIMILARITIES=ABSOLUTE/SIGN
Para INPUT=CORR, especifica c
omo se debe calcular la matriz de disimilitudes.
ABSO
Considerar valores absolutos de coeficientes de correlaci
on como medida de similitud.
SIGN
Usar coeficientes de correlaci
on con sus signos.

22.8 Restricciones

177

MDMATRIX=n
Tratar los elementos de la matriz iguales a n como datos faltantes.
Por defecto: todos los valores son validos.
PRINT=MATRIX
Imprimir la martiz de entrada.
Par
ametros para ambos tipos de entrada
VARS=(lista de variables)
Variables a usar en este analisis.
Sin valor por defecto.
ANALYSIS=PAM/FANNY/CLARA/AGNES/DIANA/MONA
Especifica el tipo de analisis a hacer.
PAM
Reparticion alrededor de medoides.
FANN
Conglomeraci
on difusa.
CLAR
Reparticion alrededor de medoides (igual a PAM), pero para datasets de al menos
100 casos. CLUSFIND har
a un muestreo de los casos y escogera la mejor muestra
representativa. Se extraen cinco muestras de 40+2*CMAX casos (ver el par
ametro
CMAX mas adelante).
S
olo para entrada de datos primarios.
AGNE
Conglomerati
on jerarquica acumulativa.
DIAN
Conglomerati
on jerarquica divisiva.
MONA
Conglomeraci
on monotetica de datos con variables binarias. Requiere al menos tres
variables.
S
olo para entrada de datos primarios.
Sin valor por defecto.
CMIN=2/n
Para PAM y FANNY. N
umero mnimo de conglomerados a ensayar.
CMAX=n
Para PAM y FANNY, n
umero maximo de conglomerados a ensayar.
Para CLARA, n
umero exacto de conglomerados ensayar.
Por defecto: el mayor de 20 y el valor especificado en CMIN.
PRINT=(DISSIMILARITIES, GRAPH, TRACE, VNAMES)
DISS
Imprimir la matriz de disimilitudes.
GRAP
Imprimir la representacion grafica de los resultados.
TRAC
Imprimir cada paso de la separacion binaria cuando se especifica MONA.
VNAM
Para entrada matricial, imprimir los primeros 3 o 8 caracteres de nombres en vez de
los n
umeros de las variables como identificador del objecto.

22.8.

Restricciones

1. El n
umero maximo de casos que se pueden usar en un analisis (excepto CLARA) es 100.
2. El n
umero mnimo de casos requerido para analisis CLARA) es 100.
3. El n
umero maximo de objetos en una matriz de entrada es 100.
4. S
olo los tres caracteres de una variable alfabetica se usan en el listado.

178

An
alisis de conglomerados (CLUSFIND)

22.9.

Ejemplos

Ejemplo 1. Conglomerar los primeros 100 casos en 5 grupos usando 6 variables cuantitativas V11-V16; se
estandarizan los valores de las variables y se usa la distancia euclideana en los c
alculos; la conglomeracion se
hace con la repartici
on alrededor de los medoides; se solicita imprimir graficos; los casos se identifican con
la variable V2.
$RUN CLUSFIND
$FILES
PRINT
= CLUS1.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
ANALISIS PAM CON DATOS PRIMARIOS COMO ENTRADA
BADD=MD1 VARS=(V11-V16) STAND IDVAR=V2 CMIN=5 CMAX=5 PRINT=GRAP
Ejemplo 2. Conglomerado jer
arquico aglomerativo de 30 pueblos; la matriz de entrada contiene distancias
entre los pueblos y los pueblos se numeran de 1 a 30; se solicita imprimir graficos; los nombres de pueblo se
usan en el listado.
$RUN CLUSFIND
$FILES
PRINT
= CLUS2.LST
FT09
= TOWNS.MAT
archivo Matriz de entrada
$SETUP
ANALISIS AGNES CON LA MATRIZ DE DISTANCIAS COMO ENTRADA
$COMMENT
LAS DISTANCIAS ACTUALES SE DIVIDIERON POR 10.000 PARA
$COMMENT
ESTAR EN EL INTERVALO 0-1
INPUT=DISS VARS=(V1-V30) ANAL=AGNES PRINT=(GRAP,VNAMES)

Captulo 23

An
alisis de configuraci
on (CONFIG)
23.1.

Descripci
on general

CONFIG hace analisis de configuracion espacial sencilla, sobre datos de entrada en la forma de una matriz
rectangular de IDAMS (tal como se produce, por ejemplo en MDSCAL). Tiene la capacidad de centrar,
normalizar, rotar, trasladar dimensiones, calcular distancias entre puntos y calcular productos escalares.
Cada fila de una matriz de configuracion suministra las coordenadas de un punto de la configuracion. As,
el n
umero de filas es igual al n
umero de puntos (variables), mientras que el n
umero de columnas es igual al
n
umero de dimensiones.
CONFIG puede proveer resultados que le permiten al usuario comparar de manera mas facil, configuraciones
las cuales originalmente tenan orientaciones dismiles. Puede tambien usarse para hacer analisis adicionales
sobre una configuracion. La rotacion, por ejemplo, puede hacer una configuracion mas facilmente interpretada.

23.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. No se aplica la selecci
on de un subconjunto de casos y no hay filtro
disponible. Tampoco hay una opci
on de CONFIG que permita subdividir la configuracion de entrada. Existe
en CONFIG una opci
on para seleccionar una matriz de un archivo que tenga m
ultiples matrices (ver el
par
ametro DSEQ).
Transformaci
on de datos. No se aplica el uso de las proposiciones de Recode con CONFIG.
Ponderaci
on de datos. No se aplica el uso de variables de ponderaci
on.
Tratamiento de datos faltantes. CONFIG no reconoce datos faltantes en la configuracion de entrada. Normalmente, esto no presenta ning
un problema, ya que las configuraciones se presentan usualmente
completas.

23.3.

Resultados

Diccionario de la matriz de entrada. (Condicional: solo si la matriz de entrada tena diccionario. Ver
par
ametro MATRIX). Los registros de variables del diccionario de entrada con los n
umeros correspondientes
usados en los gr
aficos (etiquetas de gr
aficos).
Configuraci
on de entrada. Una copia impresa de la configuracion de entrada.
Configuraci
on centrada. (Opcional: ver el par
ametro PRINT). Si se especifica PRINT=ALL o PRINT=CENT
y la configuracion de entrada ya est
a centrada, se imprime el mensaje Configuracion de entrada est
a centrada.

180

An
alisis de configuraci
on (CONFIG)

Configuraci
on normalizada. (Opcional: ver el par
ametro PRINT). Si se especifica PRINT=ALL o
PRINT=NORM y la configuracion de entrada ya est
a normalizada, se imprime el mensaje Configuracion
de entrada est
a normalizada.
Soluci
on en ejes principales. (Opcional: ver el par
ametro PRINT). Las filas de la matriz son los puntos
y las columnas son los ejes principales. Los elementos de la matriz son las proyecciones de los puntos sobre
los ejes.
Productos escalares. (Opcional: ver el par
ametro PRINT). Se imprime la mitad inferior izquierda de la
matriz simetrica. Cada elemento de la matriz es el producto escalar de un par de puntos (variables).
Distancias entre puntos. (Opcional: ver el par
ametro PRINT). Se imprime la mitad inferior izquierda
de la matriz simetrica. Cada elemento de la matriz es la distancia entre un par de puntos (variables). La
diagonal, siempre en ceros, se imprime.
Configuraci
on(es) transformada(s). (Opcional: ver el par
ametro de especificaci
on de transformaci
on
PRINT). La configuracion transformada se imprime despues de la rotacion/traslacion.
Gr
afico de la(s) configuraci
on(es) transformada(s). (Opcional: ver el par
ametro de especificaci
on
de transformaci
on PRINT). Se dibuja la configuracion transformada en dos ejes a la vez despues de la
rotacion/traslacion. Se numeran los puntos.
Historia de la rotaci
on varimax. (Opcional: ver el par
ametro PRINT). Se imprime un vector que
contiene la variancia de la matriz de configuracion antes de cada ciclo de iteraci
on. En seguida se imprime
la matriz de configuracion despues de la rotacion para maximizar el criterio normal de varimax. Tendr
a el
mismo n
umero de filas y columnas de la matriz de configuracion de entrada.
Configuraci
on clasificada. (Opcional: ver el par
ametro PRINT). Se imprime horizontalmente a traves de
la p
agina cada columna de la matriz de configuracion, despues de haber sido clasificada.
Gr
aficos de vectores. (Opcional: ver el par
ametro PRINT). Se dibuja la configuracion final en dos ejes a
la vez. Los puntos se numeran con las etiquetas de los graficos de las variables tal como se imprimi
o con el
diccionario de la configuracion de entrada.

23.4.

Matriz de configuraci
on de salida

La configuracion final se puede escribir en un archivo (ver el par


ametro WRITE). Sale como una matriz
rectangular de IDAMS. Ver el captulo Los datos en IDAMS para una descripcion de las matrices de
IDAMS. Los registros de identificaci
on de variables se imprimen solo si tales registros se han incluido en el
archivo de la configuracion de entrada (ver el par
ametro MATRIX). El formato de los elementos de la matriz
es 10F7.3. Los registros que contienen los elementos de la matriz se identifican con CFG en las columnas
73-75 y un n
umero secuencial en las columnas 76-80. Las dimensiones de la matriz son las mismas de la
matriz de entrada.

23.5.

Matriz de distancias de salida

La matriz de distancias entre puntos se puede escribir en un archivo (ver el par


ametro WRITE). Sale en la
forma de una matriz cuadrada de IDAMS, con registros ficticios suministrados para la media y la desviacion
est
andar esperadas en este tipo de matriz. Los registros de identificacion de variables se producen solo si
estos se incluyeron en el archivo de la configuracion de entrada (ver el par
ametro MATRIX). El formato de
los elementos de la matriz es 10F7.3. Los registros que contienen los elementos de la matriz se identifican
con CFG en las columnas 73-75 y un n
umero secuencial en las columnas 76-80.

23.6.

Matriz de configuraci
on de entrada

La matriz de entrada debe estar en la forma de una matriz rectangular de IDAMS, con o sin registros de
identificacion de variables (ver el par
ametro MATRIX). Ver el captulo Los datos en IDAMS para una
descripcion del formato.

23.7 Estructura del setup

181

Las matrices de configuracion obtenidas con el programa MDSCAL, pueden entrar directamente a CONFIG.
La matriz de entrada de n(filas) por m(columnas), debe tener las coordenadas de n puntos para m dimensiones. No puede haber datos faltantes en la matriz de entrada.
En un archivo leido por CONFIG, puede haber mas de una configuracion. La configuracion a analizar se
escoge con el par
ametro DSEQ.

23.7.

Estructura del setup

$RUN CONFIG
$FILES
Especificaci
on de archivos
$SETUP
1. T
tulo
2. Par
ametros
3. Especificaciones de transformaci
on (opcionales)
$MATRIX (condicional)
Matriz

Archivos:
FT02
FT09
PRINT

23.8.

configuraci
on de salida y/o matriz de distancias
configuraci
on de entrada (omitir si se usa $MATRIX)
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

EJECUCION DE CONFIG DESPUES DE MDSCAL

2. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

PRINT=(CENT,SORT,DIST) TRANS

MATRIX=STANDARD/NONSTANDARD
STAN
Se incluyen los registros de identificacion de variables en la matriz de entrada.
NONS
No se incluyen los registros de identificacion de variables en la matriz de entrada.
DSEQ=1/n
El n
umero secuencial en el archivo de entrada de la configuracion que se analiza.
WRITE=(CONFIG,DISTANCES)
CONF
Llevar la configuracion final a un archivo.
DIST
Llevar a un archivo la matriz de distancias entre puntos.

182

An
alisis de configuraci
on (CONFIG)
TRANSFORM
Se suministraran especificaciones de transformaci
on.
PRINT=(CENTER, NORMALIZE, PRINAXIS, SCALARS, DISTANCES, VARIMAX, SORTED,
PLOT, ALL)
CENT
Mover el origen al centroide del espacio.
NORM
Alterar el tama
no del espacio de manera que al sumar las cargas al cuadrado, esta
suma sea igual al n
umero de variables.
PRIN
B
usqueda de solucion en ejes principales.
SCAL
Matriz de productos escalares.
DIST
Matriz de distancias entre puntos.
VARI
Rotaci
on (despues de transformaci
on, si la hay) ortogonal (varimax).
SORT
Configuraci
on clasificada (despues de transformaci
on, si la hay).
PLOT
Graficar la configuracion final.
ALL
Imprimir CENT, NORM, PRIN, SCAL, DIST, VARI, SORT, PLOT.
Por defecto: la configuracion de entrada se imprime.
Nota. Las opciones de analisis se llevan a cabo sobre los datos de la configuracion de entrada en la
secuencia especificada arriba, sin importar el orden en el cual se hayan especificado con el par
ametro
PRINT. Transformaciones, si las hay, se llevan a cabo antes de la rotacion ortogonal de la configuracion.
Despues de cada operaci
on, se imprimen los resultados. Los efectos de las opciones de analisis son
acumulativos. Si la configuracion final se grafica y/o se almacena, esto se hace despues de haber hecho
todos los analisis.

3. Especificaciones de transformaci
on. (Condicional: si se ha especificado TRANSFORM, usar los
par
ametros como se explica a continuacion). Se pueden especificar tantas transformaciones como se
desee; cada una debe comenzar en una nueva lnea.
Si el usuario especifica el
angulo de rotacion (DEGREES) y dos dimensiones (DIMENSION), entonces
se hace una rotacion. Si se especifica una constante (ADD) y una dimensi
on (DIMENSION), se hace
una traslaci
on.
Ejemplo:

DEGR=45, DIME=(5,8) PRINT=PLOT

PRINT=(CONFIG, PLOT)
CONF
Imprimir la configuracion rotada o trasladada (autom
atico para configuraciones con 2
dimensiones y para la configuracion final).
PLOT
Graficar la configuracion rotada o trasladada.
Nota: no habr
an resultados para la transformaci
on si no se especifica PRINT. Debe especificarse
para cada transformaci
on.
Par
ametros de rotaci
on
DIMENSION=(n, m)
Las dos dimensiones a rotar (s
olo rotacion pareada).
DEGREES=n
Angulo de rotacion en grados (s
olo rotacion ortogonal).
Par
ametros de traslaci
on
DIMENSION=n
La dimensi
on a trasladar.
ADD=n
Valor a sumar a cada coordenada en la dimensi
on especificada (puede ser negativo y tener cifras
decimales).

23.9 Restricci
on

23.9.

183

Restricci
on

El tama
no maximo de la matriz de configuracion de entrada es de 60 filas por 10 columnas.

23.10.

Ejemplos

Ejemplo 1. Rotaci
on y transformaci
on de una matriz de configuracion creada previamente por el programa
MDSCAL; la configuracion final se escribe en un archivo y se grafica; se rotan las dimensiones 1 y 2 por un
angulo de 60 grados; la dimensi
on 1 se transformara sumando 6.
$RUN CONFIG
$FILES
PRINT = CONF1.LST
FT02
= CONFIG.MAT
archivo para la matriz de configuraci
on de salida
FT09
= MDS.MAT
matriz de configuraci
on de entrada
$SETUP
ANALISIS DE CONFIGURACION
PRINT=(PLOT,VARI) TRAN WRITE=CONF
DEGR=60 DIME=(1,2) PRINT=PLOT
ADD=6 DIME=1 PRINT=PLOT
Ejemplo 2. C
alculo de la matriz de productos escalares y la matriz de distancias entre puntos para la cuarta
configuracion en el archivo de entrada; no se requieren graficos.
$RUN CONFIG
$FILES
PRINT = CONF2.LST
FT02
= SCAL.MAT
FT09
= MDS.MAT
$SETUP
ANALISIS DE CONFIGURACION
PRINT=(SCAL,DIST) DSEQ=4

archivo de salida para la matriz de productos


escalares y la matriz de distancias entre puntos
matriz de configuraci
on de entrada

Captulo 24

An
alisis discriminatorio (DISCRAN)
24.1.

Descripci
on general

La tarea del analisis discriminatorio es hallar la mejor o las mejores funciones de discriminacion lineal de un
conjunto de variables que reproduzca o reproduzcan, hasta donde sea posible, un agrupamiento a priori
de los casos considerados.
En este programa se usa un procedimiento por pasos, es decir, en cada paso la variable mas poderosa entra a
la funci
on discriminatoria. La funci
on criterio para la selecci
on de la variable siguiente, depende del n
umero
de grupos especificados (el n
umero de grupos vara entre 2 y 20). En el caso de dos grupos se usa la distancia
de Mahalanobis. Cuando el n
umero de grupos es mayor que dos, entonces el criterio para la selecci
on de
variables es la huella de un producto entre la matriz de covariancia de las variables involucradas y la matriz
de covariancia interclase en una paso en particular. Esto es una generalizaci
on de la distancia de Mahalanobis
definida para dos grupos.
Ademas de ejecutar los pasos principales de analisis discriminatorio sobre una muestra b
asica, hay dos
posibilidades opcionales: verificacion del poder de la funci
on o funciones discriminatorias con la ayuda de
una muestra de prueba, para la cual se conoce la asignacion de casos a grupos (como en la muestra
b
asica) pero los cuales no se usaron en el analisis, y clasificacion de los casos con la ayuda de funcion(es)
discriminatoria(s) suministrada(s) por el analisis en una muestra an
onima en la cual se desconoce, o por
lo menos no se usa la asignacion de casos a grupos.

24.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. El filtro est
andar est
a disponible para escoger un subconjunto de casos
de los datos de entrada. Es posible hacer una subdivisi
on adicional con el uso de las variables de muestra y
de grupo. Las variables de analisis se escogen con el par
ametro VARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para un
caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Los casos con datos faltantes en
la variable de muestra, la variable de grupo y/o las variables de analisis, se pueden excluir del analisis de
manera opcional.

186

An
alisis discriminatorio (DISCRAN)

24.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solo para las variables usadas en la ejecuci
on.
N
umero de casos en las muestras. El n
umero de casos en las muestras b
asica, de prueba y anonima de
acuerdo con los par
ametros de definicion de la muestra.
N
umero revisado de casos en las muestras. El n
umero de casos en las muestras b
asica, de prueba
y anonima de acuerdo con los par
ametros de definicion de la muestra y del grupo. N
otese que las cifras
revisadas pueden ser menores que las no revisadas para la muestra b
asica y la muestra de prueba si los
grupos definidos no cubren completamente las muestras.
Muestra b
asica. (Opcional: ver el par
ametro PRINT). Se imprimen por grupos, las variables de identificacion y de analisis de los casos en la muestra b
asica, los grupos se separan unos de otros con una lnea de
asteriscos.
Muestra de prueba. Igual a la muestra b
asica.
Muestra an
onima. Igual a la muestra b
asica pero no hay grupos.
Estadsticas univariadas. El programa imprime las medias y desviaciones est
andar grupales, as como la
media total para cada variable usada en el analisis.
Resultados del procedimiento por pasos (para cada paso)
N
umero del paso. El n
umero secuencial del paso.
Variables ingresadas. La lista de variables retenidas en este paso.
Funci
on discriminatoria lineal. (Condicional: solo si se especifican 2 grupos). El termino constante y los
coeficientes de la funci
on discriminatoria lineal correspondientes a las variables que ya han entrado.
Tabla de clasificaci
on para la muestra b
asica. Una tabla bivariada de frecuencias que muestra la redistribuci
on de casos entre los grupos originales y los grupos en los cuales se los ha colocado seg
un la funci
on
discriminatoria, seguida del porcentaje de casos clasificados correctamente.
Tabla de clasificaci
on para la muestra de prueba. Igual a la muestra b
asica.
Lista de asignaci
on de casos. (Opcional: ver el par
ametro PRINT). Se imprimen los casos de las tres
muestras con identificaci
on de caso, colocacion de caso y valor de la funci
on discriminatoria (para 2 grupos)
o distancias a cada grupo (para mas de 2 grupos).
Resultados del an
alisis factorial discriminatorio. (Condicional: solo si se han especificado mas de 2
grupos). Poder discriminatorio general y poder discriminatorio de los primeros tres factores, seguidos de
los valores de los factores discriminatorios para las medias de grupos. Adicionalmente, se suministra una
representacion grafica de casos y medias en el espacio de los dos primeros factores.

24.4.

Dataset de salida

Se puede pedir un dataset para la u


ltima asignacion de grupos a los casos. Sale en la forma de un archivo
Datos descrito por un diccionario IDAMS (ver el par
ametro WRITE y el captulo Los datos en IDAMS).
Contiene en orden siguiente:
-

las variables transferidas,


el c
odigo del grupo original renumerado por DISCRAN (Original group),
el c
odigo del grupo asignado a los casos al final (Assigned group),
el tipo de la muestra (Sample type - 1=muestra b
asica, 2=muestra de prueba, 3=muestra anonima) y,
para analisis con mas de 2 grupos, valores de los dos primeros factores discriminatorios
(Factor-1, Factor-2).

Las variables se numeran desde uno.


El c
odigo del grupo original contiene el primer c
odigo de datos faltantes (999.9999) para los casos en la

24.5 Dataset de entrada

187

muestra anonima; los factores contienen el primer c


odigo de datos faltantes (999.9999) para los casos en la
muestra de prueba y la muestra anonima.
Nota: la variable especificada en IDVAR no sale de manera autom
atia y entonces debe ser incluida en la
lista de variables para ser transferidas.

24.5.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden especificar tres tipos de
muestra en el archivo de entrada:
- muestra b
asica,
- muestra de prueba,
- muestra anonima.
El analisis se basa en la muestra b
asica. La muestra de prueba se usa para probar la(s) funci
on(es) discriminatoria(s), los casos en la muestra anonima simplemente se clasifican con las funciones discriminatorias.
Las muestras se definen con una variable de muestra. La muestra b
asica no debe estar vaca. Los grupos
que se van a separar con la funci
on discriminatoria deben definirse con una variable de grupo. Esta variable
define una clasificacion a priori de la muestra b
asica y de la muestra de prueba de los casos.
Todas las variables usadas para analisis deben ser numericas; pueden tener cifras enteras o decimales. La
variable identificadora del caso y las variables para ser transferidas pueden ser alfabeticas.

24.6.

Estructura del setup

$RUN DISCRAN
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
diccionario de salida si se especifica WRITE=DATA
datos de salida si se especifica WRITE=DATA
resultados (por defecto IDAMS.LST)

188

An
alisis discriminatorio (DISCRAN)

24.7.

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE V3=6 OR V11=99

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

ANALISIS DISCRIMINATORIO DE UNA ENCUESTA AGRICOLA

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

MDHA=SAMPVAR IDVAR=V4
VARS=(V12-V15)

SAVAR=R5

BASA=(1,5)

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
VARS=(lista de variables)
Lista de las variables V o R a usar en el analisis.
Sin valor por defecto.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
MDHANDLING=(SAMPVAR, GROUPVAR, ANALVARS)
Seleccion del tratamiento de datos faltantes.
SAMP
Se excluyen del analisis los casos que tengan datos faltantes en la variable de muestra.
GROU
Se excluyen del analisis los casos que tengan datos faltantes en la variable de grupo de
las muestras b
asica y de prueba.
ANAL
Se excluyen del analisis los casos con datos faltantes en las variables de analisis.
Por defecto: se incluyen los casos con datos faltantes.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on si se van a ponderar los datos.
IDVAR=n
umero de variable
Variable de identificaci
on de caso para el listado de datos y/o de asigancion de casos.
Por defecto: se utiliza DISC como un identificador para todos los casos.
STEPMAX=n
M
aximo n
umero de pasos a ejecutar. Debe ser menor o igual al n
umero de variables de analisis.
Por defecto: n
umero de variables de analisis.

24.7 Proposiciones de control del programa

189

MEMORY=20000/n
Memoria necesaria para ejecuci
on del programa.
WRITE=DATA
Crear un dataset IDAMS que contenga las variables transferidas, las variables de asignacion de
grupo, el tipo de muestra y los valores de factores discriminatorios, si los hay.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
TRANSVARS=(variable list)
Variables (hasta 99) para ser transferidas al dataset de salida.
PRINT=(CDICT/DICT, OUTCDICT/OUTDICT, DATA, GROUP)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTC
Imprimir el diccionario de salida con registros C si los hay.
OUTD
Imprimir el diccionario de salida sin registros C.
DATA
Imprimir los datos con asignacion original de casos por grupos.
GROU
Imprimir para cada caso, la asignacion de grupo basada en la funci
on discriminatoria.
Especificaci
on de muestra
Estos par
ametros son opcionales. Si no se especifican, se toman todos los casos del archivo de entrada
como muestra b
asica. Las muestras de prueba y anonima, si existen, se deben definir siempre en forma
explcita. La interseccion pareada de las muestras debe estar vaca. Sin embargo, las muestras no
necesitan cubrir todo el archivo de entrada. Se puede usar un solo valor o un rango de valores para
escoger los casos que pertenecen a la muestra correspondiente:
m1 = valor de la variable de muestra
o
m1 <= valor de la variable de muestra < m2
donde m1 y m2 pueden ser valores enteros o decimales.
SAVAR=n
umero de variable
La variable usada para la definicion de la muestra. Se pueden usar variables V o variables R.
BASA=(m1, m2)
Condicional: define la muestra b
asica. Se debe suministrar si se especifica SAVAR.
TESA=(m1, m2)
Condicional y opcional: si se especifica SAVAR. Define la muestra de prueba.
ANSA=(m1, m2)
Condicional y opcional: si se especifica SAVAR. Define la muestra anonima.
Clasificaci
on de la muestra b
asica
Estos par
ametros definen los grupos a priori usados en el procedimiento de analisis discriminatorio. Todos los grupos se deben definir explcitamente y su interseccion pareada debe estar vaca. Sin embargo,
no necesitan cubrir toda la muestra b
asica.
GRVAR=n
umero de variable
La variable usada para la definicion de grupos. Se pueden usar variables V o R.
Sin valor por defecto.

190

An
alisis discriminatorio (DISCRAN)

GR01=(m1, m2)
Define el primer grupo en la muestra b
asica.
GR02=(m1, m2)
Define el segundo grupo en la muestra b
asica.
GRnn=(m1, m2)
Define el n-esimo grupo en la muestra b
asica (nn <= 20).
Nota. Por lo menos, se deben especificar dos grupos.

24.8.

Restricciones

1. N
umero maximo de grupos a priori es 20.
2. La misma variable no se puede usar dos veces.
3. El tama
no maximo de campo para la variable identificadora de caso es 4.
4. N
umero maximo de variables a ser transferidas as 99.
5. No se pueden transferir variables R.
6. Si una variable a ser transferida es alfabetica con ancho > 4, solo se usan los primeros cuatro caracteres.

24.9.

Ejemplos

Ejemplo 1. Analisis discriminatorio de todos los casos juntos; los casos se identifican con la variable V1;
se solicitan 5 pasos de analisis; los grupos a priori se definen con la variable V111 que incluye las categoras
1-6.
$RUN DISCRAN
$FILES
PRINT = DISC1.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
ANALISIS CANONICO DE DISCRIMINACION LINEAL
PRINT=(DATA,GROUP) IDVAR=V1 STEP=5 VARS=(V101-V105) GVAR=V111 GR01=(1,3) GR02=(3,5) GR03=(5,7)
Ejemplo 2. Repetir el analisis descrito en el Ejemplo 1, con el subconjunto de encuestados que tienen el
valor 1 en la variable V5 y probar los resultados con los encuestados que tienen valor 2 en la variable V5.
$RUN DISCRAN
$FILES
los mismos del ejemplo 1
$SETUP
ANALISIS DE DISCRIMINACION LINEAL USANDO MUESTRAS BASICA Y DE PRUEBA
PRINT=(DATA,GROUP) IDVAR=V1 STEP=5 VARS=(V101-V105) SAVAR=V5 BASA=1 TESA=2 GVAR=V111 GR01=(1,3) GR02=(3,5) GR03=(5,7)

Captulo 25

Funciones de distribuci
on y de Lorenz
(QUANTILE)
25.1.

Descripci
on general

QUANTILE genera funciones de distribuci


on, funciones de Lorenz y coeficientes de Gini para variables
individuales y hace la prueba de Kolmogorov-Smirnov entre dos variables o entre dos muestras.

25.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Se puede usar el filtro est
andar para escoger un subconjunto de casos de
los datos de entrada. Ademas, se puede hacer cada analisis sobre un conjunto adicional mediante el uso de
un par
ametro de filtro. Las variables a analizar se especifican con el par
ametro VAR.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable de ponderaci
on para ponderar los datos; esta variable
de ponderaci
on puede tener valores enteros hasta el valor maximo asignable de 32,767. N
otese que los valores
decimales se redondean al entero mas proximo. Cuando el valor de una variable de ponderaci
on para un caso
es cero, negativo, faltante, no numerico o excede el maximo, entonces el caso se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Los casos con un dato faltante en
una variable de analisis se eliminan de ese analisis.

25.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Resultados para cada an
alisis.
Funci
on de distribuci
on: mnimo, maximo, puntos de separacion en el subintervalo.
Funci
on de Lorenz (opcional): mnimo, maximo, puntos de separacion en el subintervalo y coeficiente
de Gini.
Curva de Lorenz (opcional): dibujada por deciles.
Estadsticas de prueba de Kolmogorov-Smirnov (opcional).

192

Funciones de distribuci
on y de Lorenz (QUANTILE)

25.4.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables referidas (excepto
del filtro principal) deben ser numericas; pueden tener valores enteros o decimales.

25.5.

Estructura del setup

$RUN QUANTILE
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
6.

Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de subconjuntos (opcional)
QUANTILE
Especificaciones de an
alisis (tantas como sean necesarias)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
PRINT

25.6.

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3 y 6 a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE

V5=1

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

CONSTRUCCION DE DECILES

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

MDVAL=MD1, PRINT=DICT

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.

25.6 Proposiciones de control del programa

193

BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS. Los casos con datos faltantes se eliminan del analisis.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de subconjuntos (opcional). Estas proposiciones permiten escoger un subconjunto
de casos para un analisis en particular.
Ejemplo:

MUJERES

INCLUDE V6=2

Reglas de codificaci
on
Prototipo: nombre

proposicion

nombre
Nombre del subconjunto. 1-8 caracteres alfanumericos comenzando con una letra. Este nombre
debe coincidir exactamente con el nombre usado en las especificaciones de analisis subsecuentes.
Blancos intercalados no se permiten. Se recomienda que todos los nombres se justifiquen a la
izquierda.
proposicion
Definici
on del subconjunto que siga la sint
axis del filtro est
andar de IDAMS.
5. QUANTILE. La palabra QUANTILE en esta lnea, se
nala que siguen especificaciones de analisis.
Debe incluirse (con el objeto de separar las especificaciones de subconjunto de las especificaciones de
analisis) y solo debe aparecer una vez.
6. Especificaciones de an
alisis. Las reglas de codificacion son las mismas de los par
ametros. Cada
especificaci
on de analisis debe comenzar en una nueva lnea.
Ejemplos: VAR=R10
VAR=V25
VAR=V25

N=5
N=10
N=10

PRINT=CLORENZ
FILTER=MALE
FILTER=FEMALE

ANALID=M
KS=M

VAR=n
umero de variable
Variable a ser analizada.
Sin valor por defecto.
WEIGHT=n
umero de variable
El n
umero de la variable de ponderaci
on, si se van a ponderar los datos. En la prueba de
Kolmogorov-Smirnov no se pueden ponderar los datos.
N=20/n
N
umero de subintervalos. Si n<2 o n>100, se imprime un mensaje de advertencia y se usa 20
como valor por defecto.

194

Funciones de distribuci
on y de Lorenz (QUANTILE)
FILTER=xxxxxxxx
S
olo se usan en este analisis los casos que satisfagan la condicion definida en la especificaci
on de
subconjunto denominada xxxxxxxx. Si el nombre contiene caracteres no alfanumericos, debe estar
encerrado entre comillas sencillas. Se deben usar letras may
usculas para hacer encajar el nombre
del subconjunto el cual se convierte autom
aticamente a may
usculas.
ANALID=nombre
Un nombre para este analisis de manera que pueda ser referencia para una prueba de KolmogorovSmirnov. Si el nombre contiene caracteres no alfanumericos, debe estar encerrado entre comillas
sencillas.
KS=nombre
Es el nombre asignado a un analisis anterior, con el par
ametro ANALID y define la variable y/o
la muestra con la cual se va a comparar este analisis usando la prueba de Kolmogorov-Smirnov.
Si el nombre contiene caracteres no alfanumericos, debe estar encerrado entre comillas sencillas.
PRINT=(FLORENZ, CLORENZ)
FLOR
Imprimir la funci
on de Lorenz y los coeficientes de Gini.
CLOR
Imprimir la curva de Lorenz, dibujada en deciles. (Se imprime la funci
on de Lorenz
tambien).
Nota: si se ha especificado KS, se ignora el par
ametro PRINT.

25.7.

Restricciones

1. El n
umero maximo de variables usadas (variables de analisis + la variable de ponderaci
on + variables
en filtros locales) es 50.
2. El n
umero maximo de casos que se pueden analizar es 5000.
3. N
umero mnimo de subintervalos es 2; maximo es 100.
4. El n
umero maximo de especificaciones de subconjuntos es 25.
5. Si se usa la prueba de Kolmogorov-Smirnov, el n
umero maximo de casos que se pueden analizar es
2500.
6. La funci
on de Lorenz y la prueba de Kolmogorov-Smirnov no se pueden solicitar para el mismo analisis.
7. Los valores de los puntos de separacion siempre se imprimen con tres cifras decimales. Las variables
con mas de tres decimales se truncan a tres cuando se imprimen.

25.8.

Ejemplo

Generacion de funci
on de distribuci
on, funci
on de Lorenz y coeficientes de Gini para la variable V67; se hacen
analisis separados en todos los datos y despues en dos subconjuntos; se hace la prueba de Kolmogorov-Smirnov
para probar la diferencia de distribuciones de la variable V67 en los dos subconjuntos de datos.
$RUN QUANTILE
$FILES
PRINT = QUANT.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
COMPARACION DE DISTRIBUCION DE EDADES PARA HOMBRES Y MUJERES
*
(valores por defecto para todos los par
ametros)
FEMALE
INCLUDE V12=1
MALE
INCLUDE V12=2
QUANTILE

25.8 Ejemplo
VAR=V67
VAR=V67
VAR=V67
VAR=V67

195
N=15
N=15
N=15
N=15

PRINT=(FLOR,CLOR)
PRINT=(FLOR,CLOR) FILT=FEMALE
PRINT=(FLOR,CLOR) FILT=MALE
FILT=MALE

ANALID=F
KS=F

Captulo 26

An
alisis factorial (FACTOR)
26.1.

Descripci
on general

FACTOR cubre una serie de analisis factoriales de componentes principales y analisis de correspondencias
que tengan especificaciones comunes. Da la posibilidad de ejecutar, con una sola lectura de datos, los analisis
factoriales de correspondencias, de productos escalares, de productos escalares normados, de covariancias y
de correlaciones.
Para cada analisis, el programa construye una matriz que representa las relaciones entre las variables y calcula
sus valores propios y sus vectores propios. Despues calcula los factores de caso y variable que dan, para
cada caso y variable, su ordenada, su calidad de representacion y su contribucion a los factores. Tambien
se puede imprimir una representacion gr
afica de los factores con opciones ordinarias o simplicio-factoriales.
Los casos/variables activos (principales) son los casos/variables sobre cuya base se ejecuta el procedimiento de descomposicion factorial, es decir, se usan en la computacion de la matriz de relaciones. Tambien
se puede buscar una representacion de otros casos/variables en el espacio factorial, que corresponde a las
variables activas. Tales casos/variables (al no tener influencia en los factores) se llaman casos/variables
pasivos (suplementarions).
Se habla acerca de la representaci
on ordinaria (de casos/variables) si los valores (puntajes de factores)
que vienen directamente del analisis, se usan en la representacion grafica. Sin embargo, para una comprension mejor de la relaci
on entre casos y variables, es posible otra representacion simult
aneamente, la
representaci
on simplicio-factorial.

26.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Se puede usar el filtro est
andar para la selecci
on de un subconjunto de
casos de los datos de entrada. Las variables se escogen con los par
ametros PVARS y SVARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para un
caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Hay dos maneras de manipular los
datos faltantes:
se excluyen los casos con datos faltantes en las variables activas, en cambio, los datos faltantes en las
variables pasivas se tratan como datos validos,
se excluyen del analisis, los casos con datos faltantes en variables activas y/o pasivas.

198

26.3.

An
alisis factorial (FACTOR)

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Estadsticas univariadas. (Opcional: ver el par
ametro PRINT). N
umero de variable, nombre de variable, nuevo n
umero de variable (renumerada a partir de 1), valores mnimos y maximos, media, desviacion
est
andar, coeficiente de variaci
on, suma, variancia, asimetra, kurtosis y n
umero ponderado de casos validos para cada variable. N
otese que la desviacion est
andar y la variancia se estiman a partir de los datos
ponderados.
Datos de entrada. (Opcional: ver el par
ametro PRINT). Grupos de 16 variables, que tienen en cada fila: el
n
umero correspondiente de casos, el total para variables activas y los valores de todas las variables, precedidos
del total de las columnas (calculado solamente para los casos activos). Los valores se imprimen con el punto
decimal explcito y con una cifra decimal. Si se requieren mas de 7 caracteres para imprimir un valor, este
se reemplaza por asteriscos.
Matriz de relaciones (matriz n
ucleo). (Opcional: ver el par
ametro PRINT). La matriz (despues de
multiplicar por 10 a la n-esima potencia como se indica en la lnea delente de la matriz), el valor de la huella
y la tabla de valores propios y vectores propios.
Histograma de valores propios. El histograma de porcentajes y porcentajes acumulativos de la contribuci
on de cada valor propio a la inercia total. Los guiones en el histograma muestran el criterio de Kaiser para
el analisis de correlaci
on.
Diccionarios de los archivos Datos de salida. (Opcional: ver el par
ametro PRINT). El diccionario
correspondiente a los factores de caso seguido del de los factores de variable.
Tabla(s) de factores. Seg
un la opci
on u opciones escogidas, se tiene: una tabla (para factores de caso o
de variable), o dos tablas (para factores de caso y variable, en ese orden). Seg
un la opcion de impresion
escogida, estas tablas solo contienen los casos (variables) activos, solamente los casos (variables) pasivos, o
ambos.
Tabla de factores de caso. Suministra, lnea por lnea:
valor del identificador de caso,
informacion relevante a todos los factores juntos, es decir, la calidad de la representacion del caso en
el espacio definido por los factores, la ponderaci
on del caso y la inercia del caso,
informacion para cada factor a su turno, es decir, la ordenada del caso, el coseno cuadrado del angulo
entre el caso y el factor y la contribuci
on del caso al factor.
Tabla de factores de variable. Suministra, lnea por lnea, la misma informacion para las variables.
Gr
aficos de puntos. (Opcional: ver el par
ametro PLOTS). La primera lnea da el n
umero del factor
representado en el eje horizontal con su valor propio y su rango de valores mnimos-maximos. La segunda
lnea da la misma informaci
on, concerniente al eje vertical. Junto con el ttulo de la ejecuci
on, se da el n
umero
de casos/variables (es decir puntos) representados. A la derecha de cada grafico se imprime:
n
umero de puntos que no se pueden imprimir para esa ordenada (puntos traslapados),
n
umero de puntos que no fue posible representar,
n
umero de p
agina.
Factores rotados. (Opcional: ver el par
ametro ROTATION). Se imprime la variancia calculada para cada
matriz de factores en cada iteraci
on de la rotacion (con el metodo VARIMAX), seguida de las comunalidades
de las variables antes y despues de la rotacion, y se termina con la tabla de factores rotados.
Mensaje de terminaci
on. Al final de cada analisis, se imprime un mensaje de terminaci
on con el tipo de
analisis hecho.

26.4.

Dataset(s) de salida

Se pueden construir, opcionalmente, dos archivos Datos cada uno con su diccionario IDAMS asociado. En
el dataset de factores de caso, los registros corresponden a los casos (activos y pasivos), las columnas
corresponden a las variables (incluidos el identificador de casos y las variables transferidas) y a los factores.

26.5 Dataset de entrada

199

En el dataset de factores de variable, los registros corresponden a las variables de analisis y las columnas
contienen las identificaciones de variables (n
umeros originales de variables) y factores.
Las variables de salida se numeran secuencialmente a partir de 1 y tienen las caractersticas siguientes:
Variable identificadora de casos y variables transferidas: las variables V tienen las mismas caractersticas que su equivalente de entrada, las variables de Recode salen con WIDTH=9 y DEC=2.
Variables calculadas de factores:
Nombre
Ancho de campo
Nr. de decimales
MD1 et MD2

26.5.

especificado por FNAME


7
5
9999999

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para analisis
deben ser numericas; pueden tener valores enteros o decimales. Deben ser dicotomizadas o medidas en
una escala de intervalo. La variable de identificacion de caso y las variables a ser transferidas pueden ser
alfabeticas. Hay dos clases de variables de analisis, activas y pasivas. Adicionalmente, debe existir una variable
que identifique el caso. Se pueden escoger otras variables para ser transferidas al archivo de salida de factores
de caso. Se pueden especificar uno o mas casos al final del archivo de entrada como casos pasivos.
Para analisis de correspondencias, son adecuados dos tipos de datos: a) variables dicotomicas de un archivo
Datos primarios o b) una tabla de contingencia descrita por un diccionario y entrada como un dataset.

26.6.

Estructura del setup

$RUN FACTOR
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.

Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de gr
aficos definidos por el usuario (condicional)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
DICTzzzz
DATAzzzz
PRINT

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
diccionario de salida para factores de caso
datos de salida para factores de caso
diccionario de salida para factores de variable
datos de salida para factores de variable
resultados (por defecto IDAMS.LST)

200

An
alisis factorial (FACTOR)

26.7.

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

EXCLUDE V10=99 OR V11=99

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los listados.
Ejemplo:

ENCUESTA AGRICOLA 1984

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

ANAL=(CRSP,SSPRO) TRANS=(V16,V20) IDVAR=V1 PVARS=(V31-V35)

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
MDHANDLING=PRINCIPAL/ALL
PRIN
Se excluyen del analisis, los casos con datos faltantes en las variables activas y se
incluyen los casos pasivos que tengan datos faltantes. Los factores de variables pasivas
se basan solo en datos validos.
ALL
Se excluyen todos los casos con datos faltantes.
ANALYSIS=(CRSP/NOCRSP, SSPRO, NSSPRO, COVA, CORR)
Seleccion del analisis.
CRSP
Analisis factorial de correspondencias.
SSPR
Analisis factorial de productos escalares.
NSSP
Analisis factorial de productos escalares normados.
COVA
Analisis factorial de covariancias.
CORR
Analisis factorial de correlaciones.
PVARS=(lista de variables)
Lista de variables V o R a usar como variables activas (principales).
Sin valor por defecto.
SVARS=(lista de variables)
Lista de variables V o R a usar como variables pasivas (suplementarias).
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on si se van a ponderar los datos.

26.7 Proposiciones de control del programa

201

NSCASES=0/n
N
umero de casos pasivos. Nota: estos casos no se incluyen en el c
alculo de las estadsticas, matriz
y factores; son los u
ltimos n del archivo Datos.
IDVAR=n
umero de variable
Variable de identificaci
on de caso usada para identificar puntos en los graficos y para identificar
casos en el archivo de salida.
Sin valor por defecto.
KAISER/NFACT=n/VMIN=n
Criterio para determinar el n
umero de factores.
KAIS
Criterio de Kaiser - n
umero de races mayor de 1.
NFAC
N
umero de factores deseado.
VMIN
El porcentaje mnimo de variancia a ser explicado por los factores tomados todos
juntos. No debe teclearse el decimal, por ej. VMIN=95.
ROTATION=KAISER/UDEF/NOROTATION
Especifica rotacion VARIMAX de factores de variable. S
olo analisis de correlaciones.
KAIS
El n
umero de factores a rotar se define de acuerdo con el criterio de KAISER.
UDEF
El numero de factores a rotar lo especifica el usuario (ver el par
ametro NROT).
NROT=1/n
N
umero de factores a rotar (si se especifica ROTATION=UDEF).
WRITE=(OBSERV, VARS)
Controla la salida de archivos de factores de caso y variable. Si se solicita mas de un analisis
con el par
ametro ANALYSIS, estos archivos seran para el primer analisis especificado.
OBSE
Crear un archivo que contenga factores de caso.
VARS
Crear un archivo que contenga factores de variable.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos para los factores de
caso.
Por defecto: DICTOUT, DATAOUT.
OUTVFILE=OUTV/zzzz
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos para los factores de
variable.
Por defecto: DICTOUTV, DATAOUTV.
TRANSVARS=(lista de variables)
Variables a transferir (hasta 99) al archivo de salida de factores de caso.
FNAME=uuuu
Una cadena de 1-4 caracteres usada como prefijo para nombres de variables de factores en los diccionarios de salida. Debe encerrarse entre comillas sencillas si contiene caracteres no-alfanumericos.
Los factores tienen los nombres uuuuFACT0001, uuuuFACT0002, etc.
Por defecto: espacio en blanco.
PLOTS=STANDARD/USER/NOPLOTS
Controla la representacion gr
afica de los resultados.
STAN
Se imprimen gr
aficos est
andar para pares de factores 1-2, 1-3, 2-3 con las opciones
PAGES=1, OVLP=LIST, NCHA=4, REPR=COOR, VARPL=(PRIN,SUPP).
USER
Se desean gr
aficos definidos por el usuario (ver par
ametros de control para graficos
definidos por el usuario, mas adelante).

202

An
alisis factorial (FACTOR)
PRINT=(CDICT/DICT, OUTCDICTS/OUTDICTS, STATS, DATA, MATRIX,
VFPRINC/NOVFPRINC, VFSUPPL, OFPRINC, OFSUPPL)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTC
Imprimir diccionarios de salida con registros C, si los hay.
OUTD
Imprimir diccionarios de salida sin registros C.
STAT
Imprimir las estadsticas de variables activas y pasivas.
DATA
Imprimir los datos de entrada.
MATR
Imprimir matriz de relaciones (n
ucleo) y vectores propios.
VFPR
Imprimir factores de variable para las variables activas.
VFSU
Imprimir factores de variable para variables pasivas.
OFPR
Imprimir factores de caso para los casos activos.
OFSU
Imprimir factores de caso para los casos pasivos.

4. Especificaciones de gr
aficos definidos por el usuario. (Condicional: si PLOT=USER se especifica
como par
ametro). Repetir para cada gr
afico bi-dimensional a imprimir. Las reglas de codificacion son
las mismas de los par
ametros. Cada especificaci
on de grafico debe comenzar en una lnea nueva.
Ejemplo:

X=3

Y=10

X=n
umero de factor
N
umero del factor a representar en el eje horizontal.
Y=n
umero de factor
N
umero del factor a representar en el eje vertical (ver tambien el par
ametro FORMAT=STANDARD).
ANSP=ALL/CRSP/SSPRO/NSSPRO/COVA/CORR
Especifica los analisis para los cuales se van a imprimir los graficos.
ALL
Graficos para todos los analisis especificados en el par
ametro ANALYSIS.
Para el resto, se imprime un gr
afico para un solo analisis (las palabras clave tienen el mismo
significado que para el par
ametro ANALYSIS). Estas opciones implican un solo grafico.
OBSPLOT=(PRINCIPAL, SUPPL)
Seleccion de casos a representar en el grafico o graficos.
PRIN
Representar casos activos.
SUPP
Representar casos pasivos.
VARPLOT=(PRINCIPAL/NOPRINCIPAL, SUPPL)
Seleccion de variables a representar en el grafico o graficos.
PRIN
Representar variables activas.
SUPP
Representar variables pasivas.
REPRESENT=COORD/BASVEC/NORMBV
Seleccion de representacion simult
anea de puntos (casos/variables).
COOR
Coordenadas como se indican en la tabla de factores.
BASV
Representar vectores b
asicos.
NORM
Representar vectores b
asicos con norma especial para la representacion simpliciofactorial.
OVLP=FIRST/LIST/DEN
Opcion concerniente a la representacion de puntos traslapados.
FIRS
Imprimir el n
umero de la variable/identificacion de casos solo del primer punto.
LIST
Dar una lista vertical de los puntos que tengan la misma abscisa en el grafico, hasta
hallar otro punto (entonces se pierden los n
umeros de variable y/o los identificadores
de caso).

26.8 Restricciones
DEN

203
Imprimir la densidad (n
umero de puntos traslapados). Imprimir para un punto .,
para dos puntos (traslapados) :, para tres puntos 3, etc, para 9 puntos 9, para
mas de 9 puntos *. Se debe especificar NCHAR=2 si se selecciona esta opcion.

NCHAR=4/n
N
umero de dgitos/caracteres usados para la identificacion de variables/casos en el grafico o
gr
aficos (1 a 4 caracteres).
PAGES=1/n
N
umero de p
aginas por gr
afico.
FORMAT=STANDARD/NONSTANDARD
Define el tama
no del marco del grafico.
STAN
Usar un marco de 21 x 30 centmetros para el grafico que muestra el factor con rango
mas amplio en el eje horizontal y usa diferentes escalas para los dos ejes.
NONS
El marco no se estandariza en el sentido indicado en la opcion anterior. El tama
no del
gr
afico se define con PAGES=n y los ejes son X e Y.

26.8.

Restricciones

1. N
umero maximo de variables de analisis es 80.
2. Se debe especificar una y solo una variable de identificacion.
3. N
umero maximo de variables a ser transferidas es 99.
4. N
umero maximo de variables de entrada incluidas aquellas usadas en proposiciones de filtro y de Recode
es 100.
5. N
umero maximo de gr
aficos definidos por el usuario es 24.
6. Si la variable de identificaci
on o una variable a ser transferida es alfabetica con ancho > 4, solo se usan
los primeros cuatro caracteres.
7. Los par
ametros deben cumplir las siguientes especificaciones:
max(D1,D2,D3) < 5000
donde
D1 = NPV * NPV + 10 * NV
D2 = NV * (NF + 6) + NPV * NIF
D3 = NV + NF + NIF + 3 * NP
y NV, NPV, NF, NIF, NP denominan el n
umero total de variables de analisis, n
umero de variables
activas, n
umero de factores a calcular, n
umero de factores a ignorar y n
umero maximo de puntos a
representar en gr
aficos, respectivamente.

26.9.

Ejemplos

Ejemplo 1. Analisis factorial de correlaciones; el analisis se basa en 20 variables y se solicitan 7 factores; el


n
umero de factores a rotar se define de acuerdo con el criterio de Kaiser; se imprimiran las estadsticas, matriz
de correlaci
on, los valores propios, seguidos de factores de variables y graficos est
andar; no se almacenar
an
los factores en un archivo.

204

An
alisis factorial (FACTOR)
$RUN FACTOR
$FILES
PRINT = FACT1.LST
DICTIN = A.DIC
archivo Diccionario de entrada
DATAIN = A.DAT
archivo Datos de entrada
$SETUP
ANALISIS FACTORIAL DE CORRELACIONES
ANAL=(NOCR,CORR) ROTA=KAISER NFACT=7 IDVAR=V1 PRINT=(STATS,MATRIX) PVARS=(V12-V16,V101-V115)

Ejemplo 2. Analisis factorial de productos escalares basado en 10 variables; se representar


an en graficos 2
variables pasivas V5 y V7; los gr
aficos seran definidos por el usuario ya que solo se requiere el primero de
los puntos traslapados; se utilizara el criterio de Kaiser para determinar el n
umero de factores y el n
umero
de factores a rotar; los factores de caso y de variable se llevaran a archivos de salida.
$RUN FACTOR
$FILES
DICTIN
= A.DIC
archivo Diccionario de entrada
DATAIN
= A.DAT
archivo Datos de entrada
DICTOUT = CASEF.DIC
archivo Diccionario de factores de caso
DATAOUT = CASEF.DAT
archivo Datos de factores de caso
DICTOUTV = VARF.DIC
archivo Diccionario de factores de variable
DATAOUTV = VARF.DAT
archivo Datos de factores de variable
$SETUP
ANALISIS FACTORIAL DE PRODUCTOS ESCALARES
ANAL=(NOCRSP,SSPR) IDVAR=V1 WRITE=(OBSERV,VARS) PRINT=STATS PLOT=USER
PVARS=(V112-V116,V201-V205) SVARS=(V5,V7)
X=1 Y=2 VARP=(PRINCIPAL,SUPPL)
X=1 Y=3 VARP=(PRINCIPAL,SUPPL)
X=2 Y=3 VARP=(PRINCIPAL,SUPPL)

Ejemplo 3. Analisis de correspondencias sobre una tabla de contingencia descrita por un diccionario y
entrada como un dataset en un archivo Setup a ejecutar; el n
umero de factores se define de acuerdo con
el criterio de Kaiser; se imprimiran la matriz de relaciones seguida de factores de variables y de casos; los
gr
aficos seran definidos por el usuario ya que se pide una projeccion de casos.
$RUN FACTOR
$FILES
PRINT = FACT3.LST
$SETUP
ANALISIS DE CORRESPONDENCIAS SOBRE UNA TABLA DE CONTINGENCIA
BADD=MD1 IDVAR=V8 PLOTS=USER PRINT=(MATRIX,OFPRINC) PVARS=(V31-V33)
$DICT
3
8 33
1
1
T
8 Grado cient
fico
1
20
C
8
81
Professor
C
8
82
Ass.Prof.
C
8
83
Doctor
C
8
84
Ma^
trise
C
8
85
Licencia
C
8
86
Otro
T 31 Jefe
4
20
T 32 Cient
fico
7
20
T 33 T
ecnico
10
20
$DATA
81 5 0 0
82 1 3 0
83 0 17 01
84 0 28 04
85 0 0 01
86 0 0 17

Captulo 27

Regresi
on lineal (REGRESSN)
27.1.

Descripci
on general

REGRESSN suministra una capacidad general para regresion m


ultiple, dise
nada para analisis de regresion
lineal est
andar o por pasos. Se pueden hacer varios analisis de regresion, con par
ametros y variables diferentes
en una misma ejecuci
on.
T
ermino constante. Si los datos de entrada son datos primarios, el usuario puede solicitar que las
ecuaci
ones no tengan termino constante (ver el par
ametro de regresion CONSTANT=0). En este caso se
analiza una matriz basada en la matriz de productos cruzados en vez de una matriz de correlaci
on. Esto
cambia la pendiente de la lnea ajustada y puede afectar sustancialmente los resultados. En la regresion por
pasos, las variables pueden entrar a la ecuaci
on en un orden diferente al que se hubiese requerido en caso de
estimar un termino constante. Si la entrada es una matriz de correlaci
on, la ecuaci
on de regresion contiene
siempre un termino constante.
Uso de variables categ
oricas como variables independientes. Existe una opcion para crear un
conjunto de variables ficticias (dicot
omicas) a partir de variables categoricas especficadas (ver el par
ametro
CATE). Estas se pueden utilizar como variables independientes en el analisis de regresion.
Cociente F para introducir una variable en la ecuaci
on. En la regresion por pasos, se adicionan a su
turno, variables a la ecuaci
on de regresion hasta que la ecuaci
on sea satisfactoria. En cada paso, se selecciona
la variable que tenga la correlaci
on parcial mas alta con la variable dependiente. Se calcula entonces un
valor parcial de la prueba F para la variable y este valor se compara con un valor crtico suministrado por el
usuario. Tan pronto como la F parcial para la proxima variable que va entrar sea menor que el valor crtico,
se termina el analisis.
Cociente F para retirar una variable de la ecuaci
on. Una variable que puede haber sido la mejor
variable individual para entrar en una etapa inicial de un analisis de regresion por pasos, en una etapa
posterior, puede no ser la mejor debido a la relacion actual con otras variables en la regresion. Para detectar
esto, el valor parcial F de cada variable en la regresion en cada paso del c
alculo, es calculado y comparado
con un valor crtico suministrado por el usuario. Cualquier variable cuyo valor parcial F se presente por
debajo del valor crtico, se retira del modelo.
Regresi
on por pasos. Si se pide regresion por pasos, el programa determina que variables o cuales conjuntos
de variables ficticias dentro del conjunto especificado de variables independientes se van a usar en la regresion
y en que orden se van a introducir, se comienza con las variables forzadas y se contin
ua con las dem
as variables
y los conjuntos de variables ficticias, una a una. Despues de cada paso, el algoritmo escoge entre las variable
predictoras restantes, la variable o el conjunto de variables ficticias que produzcan la reduccion mas grande
en la variancia residual (no explicada) de la variable dependiente, a menos de que su contribucion al cociente
F total para la regresion permanezca por debajo de un umbral especificado. Igualmente, el algoritmo eval
ua
despues de cada paso, si la contribuci
on de alguna variable o de alg
un conjunto de variables ficticias ya
incluidas, se presentan o no se presentan por debajo de un umbral especificado, caso en el cual se elimina de
la regresion.
Regresi
on descendente por pasos. Igual que en la regresion por pasos, excepto que el algoritmo comienza
con todas las variables independientes y luego elimina variables y conjuntos de variables ficticias por pasos.

206

Regresi
on lineal (REGRESSN)

En cada paso el algoritmo selecciona a partir de las variables predictoras que quedan, la variable o el
conjunto de variables ficticias que produzcan la reduccion mas baja en la variancia explicada de la variable
dependiente, a menos que esta exceda un umbral especificado. Igualmente, el algoritmo eval
ua en cada paso
si la contribucion de alguna variable o conjunto de variables ficticias previamente suprimidas de la regresion,
se ha elevado por encima de un umbral especificado, caso en el cual, se vuelve a incluir en la regresion.
Generaci
on de un dataset de residuos. Con datos primarios como entrada, se pueden calcular residuos
y llevarlos como un archivo Datos de salida descrito por un diccionario IDAMS. Ver la secci
on Datasets
de residuos de salida para detalles del contenido. N
otese que para cada ecuaci
on, se genera un dataset
de residuos separado. Tambien, como REGRESSN no tiene la capacidad de transferir variables de interes
especfico en un analisis de residuos a partir de los datos primarios de entrada al dataset de residuos, puede
ser necesario usar el programa MERGE para crear el dataset que contenga todas las variables deseadas.
Una variable de identificaci
on de caso (ID) del dataset de entrada se lleva al dataset de residuos para hacer
posible el encaje.
Generaci
on de una matriz de correlaci
on. Si entran datos primarios, el programa calcula coeficientes
de correlaci
on que pueden salir en el formato de una matriz cuadrada de IDAMS y ser usados para analisis
posteriores. Las correlaciones de REGRESSN incluyen todas las variables de todas las ecuaciones de regresion
y se basan en casos con datos validos en todas las variables de la matriz. De esta manera, las correlaciones
seran generalmente diferentes de las correlaciones obtenidas con el programa PEARSON cuando se ejecuta
con la opocion MDHANDLING=PAIR. Cuando la eliminacion de datos faltantes en REGRESSN deja un
tama
no de muestra aceptablemente grande, REGRESSN es una alternativa de PEARSON para generar
matrices de correlaci
on (ver par
agrafo Tratamiento de datos faltantes).

27.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Si entran datos primarios, se puede usar el filtro est
andar para escoger un
subconjunto de casos a partir de los datos de entrada. Si se utiliza una matriz de correlaci
on como entrada
al programa, no se puede usar la selecci
on de casos. Las variables para la ecuaci
on de regresion se especifican
en los par
ametros DEPVAR y VARS.
Transformaci
on de datos. Si entran datos primarios, se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Si entran datos primarios, se puede usar una variable para ponderar los datos de
entrada; esta variable de ponderaci
on puede tener cifras enteras o decimales. El programa forzar
a la suma
de las ponderaciones para que sea igual al n
umero de casos de entrada. Cuando el valor de la variable de
ponderaci
on para un caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite;
se imprime el n
umero de casos as tratados.
Tratamiento de datos faltantes.
1. Entrada. Si entran datos primarios, el par
ametro MDVALUES est
a disponible para indicar cuales
valores de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Los casos en los cuales
haya datos faltantes para cualquier variable de regresion en cualquier analisis se eliminan (eliminacion
de datos faltantes por casos). Una opci
on (ver par
ametro MDHANDLING) permite al usuario especificar el maximo n
umero de casos con datos faltantes que puede tolerarse antes de terminar la ejecuci
on.
Advertencia: si se llevan a cabo analisis m
ultiples en una ejecuci
on de REGRESSN, se calcula una sola
matriz de correlaci
on para todas las variables utilizadas en los diferentes analisis. Por causa del metodo
de eliminacion de casos con datos faltantes por casos, el n
umero de casos usado y por lo tanto las
estadsticas de regresion producidas pueden ser diferentes si los analisis se llevan a cabo separadamente.
Si entra una matriz, los casos con datos faltantes se han debido acomodar al crear la matriz. Si una
celda de la matriz de entrada tiene un c
odigo de dato faltante (es decir, 99.999) cualquier analisis que
involucre dicha celda, se omite.
2. Residuos de salida. Si se piden residuos, se calculan para todos los casos que pasen el filtro (opcional)
valores predichos y residuos. Si un caso tiene datos faltantes en cualquiera de las variables requeridas
para estos c
alculos, se generan c
odigos de datos faltantes en la salida.
3. Matriz de correlaci
on de salida. El algoritmo de REGRESSN para el manejo de datos faltantes en
la entrada de datos primarios no puede resultar en valores de datos faltantes en la matriz de correlaci
on.

27.3 Resultados

27.3.

207

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Estadsticas univariadas. (Solo datos primarios). Se imprime la suma, el promedio, la desviacion est
andar,
el coeficiente de variaci
on, el valor maximo y el valor mnimo para todas las variables dependientes e independientes utilizadas.
Matriz de sumas totales de cuadrados y productos cruzados. (Solo datos primarios. Opcional: ver
el par
ametro PRINT).
Matriz de sumas de cuadrados residuales y productos cruzados. (Solo datos primarios. Opcional:
ver el par
ametro PRINT).
Matriz de correlaci
on total. (Opcional: ver el par
ametro PRINT).
Matriz de correlaci
on parcial. (Opcional para cada regresion: ver el par
ametro de regresion PARTIALS).
El elemento ij-esimo es la correlaci
on parcial entre la variable i y la variable j, manteniendo constantes las
variables especificadas en la lista de variables de PARTIALS.
Matriz inversa. (Opcional para cada regresion: ver el par
ametro PRINT).
Estadsticas de resumen del an
alisis. Las siguientes estadsticas se imprimen para cada regresion o para
cada paso de un regresion por pasos:
error est
andar de estimaci
on,
cociente F,
coeficiente de correlaci
on m
ultiple (ajustado y no ajustado),
fracci
on de variancia explicada (ajustada y no ajustada),
determinante de la matriz de correlaci
on,
grados de libertad de residuos,
termino constante.
Estadisticas de an
alisis para predictores. Las siguientes estadsticas se imprimen para cada regresion
o para cada paso de un regresion por pasos:
coeficiente B (coeficiente de regresion parcial no estandarizado),
error est
andar (sigma) de B,
coeficiente beta (coeficiente de regresion parcial estandarizado),
error est
andar (sigma) de beta,
R cuadrada parcial y marginal,
cociente t,
cociente de covariancia,
valores de la R cuadrada marginal para todos los predictores y cocientes t para todos conjuntos de las
variables ficticias (para la regresion por pasos).
Diccionario de residuos de salida. (Para entrada de datos primarios solamente. Opcional: ver el par
ametro
de regresion WRITE).
Datos de residuos de salida. (Para entrada de datos primarios solamente. Opcional: ver el par
ametro de
regresion PRINT). Si hay menos de 1000 casos, los valores calculados, los valores observados y los residuos
(diferencias) se pueden listar en orden ascendente por el valor del residuo. Se puede listar cualquier n
umero
de casos en el orden secuencial de entrada de los mismos. La estadstica de Durbin-Watson para la asociaci
on
de residuos se imprime para los residuos impresos en el orden secuencial de los casos.

27.4.

Matriz de correlaci
on de salida

Se puede producir la matriz de correlaci


on calculada (ver el par
ametro WRITE). Se escribe en la forma
de una matriz cuadrada de IDAMS (ver el captulo Los datos en IDAMS). El formato es 6F11.7 para
las correlaciones y 4E15.7 para las medias y desviaciones est
andar. Ademas, en las columnas 73-80 de los
registros se escriben ttulos para la informacion as:

208

Regresi
on lineal (REGRESSN)

registro descriptor de matriz


registros de correlaci
on
registros de media
registros de desviaci
on est
andar

N=nnnnn
REG xxx
MEAN xxx
SDEV xxx

(nnnnn es el tama
no de la muestra de REGRESSN. Las xxx corresponden a un n
umero secuencial que
comienza con 1 para el primer registro de correlaci
on y se incrementa de uno en uno para cada registro
sucesivo hasta el u
ltimo registro de desviaci
on est
andar).
Los elementos de la matriz son r de Pearson. Estas r, as como las medias y las desviaciones est
andar se
basan en casos que tienen datos validos en todas las variables especificadas en cualquiera de las listas de
variables de regresion. Las correlaciones son para todos los pares de variables de toda la lista de variables de
analisis, tomadas a la vez.

27.5.

Dataset de residuos de salida

Se puede pedir un dataset de residuos para cada analisis (ver el par


ametro de regresion WRITE). Este tiene
la forma de un archivo Datos descrito por un diccionario IDAMS. Contiene cuatro o cinco variables por caso,
seg
un los datos sean o no sean ponderados: una variable de identificacion (ID), una variable dependiente,
una variable dependiente predicha (calculada), un residuo y una ponderaci
on, si la hay. El archivo de salida
de los residuos tiene el mismo orden de los casos de entrada. Las caracetrsticas del archivo son:
N
umero de
variable
(identificador)
(variable dependiente)
(variable predicha)
(residuo)
(ponderaci
on - si hay)
*
**
***

1
2
3
4
5

Nombre
igual a entrada
igual a entrada
Predicted value
Residual
igual a entrada

Ancho de
campo

N
umero de
decimales

Codigo
MD1

*
*
7
7
*

0
**
***
***
**

igual a entrada
igual a entrada
9999999
9999999
igual a entrada

transferido del diccionario de entrada para variables V o 7 para variables R


transferido del diccionario de entrada para variables V o 2 para variables R
6 + Nr. de decimales para la variable dependiente menos el ancho de la variable dependiente; si
esta es negativa, entonces este valor es cero.

Si el valor calculado o el residuo exceden el ancho de campo asignado, se reemplazan por c


odigo MD1.

27.6.

Dataset de entrada

El dataset de entrada de datos primarios es un archivo Datos descrito por un diccionario IDAMS. Todas
las variables usadas para analisis deben ser numericas; pueden ser enteras o con decimales. La variable
identificadora de casos puede ser alfabetica.

27.7.

Matriz de correlaci
on de entrada

Es una matriz cuadrada de IDAMS. Una matriz de correlaci


on generada por PEARSON o por una ejecuci
on
anterior de REGRESSN resulta apta como matriz de entrada a REGRESSN.
El diccionario de la matriz de entrada debe contener n
umeros y nombres de variables. La matriz debe contener
correlaciones, medias y desviaciones est
andar. Se usan ambas, las medias y las desviaciones est
andar.

27.8 Estructura del setup

27.8.

209

Estructura del setup

$RUN REGRESSN
$FILES
Especificaci
on de archivos
$RECODE (opcional con datos primarios como entrada;
no se usa con entrada matricial)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.

Filtro (opcional)
T
tulo
Par
ametros
Definici
on de variables ficticias (condicional)
Especificaciones de regresi
on (tantas como sean necesarios)

$DICT (condicional)
Diccionario para entrada de datos primarios
$DATA (condicional)
Datos primarios de entrada
$MATRIX (condicional)
Matriz de correlaci
on de entrada

Archivos:
FT02
FT09
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT

27.9.

matriz de correlaci
on de salida
matriz de correlaci
on de entrada
(si no se usa $MATRIX e INPUT=MATRIX)
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de residuos de salida ) un conjunto por cada
datos de residuos de salida
) archivo de residuos
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3 y 5, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on. Disponible solo con
datos primarios de entrada.
Ejemplo:

INCLUDE

V3=5

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

ANALISIS DE REGRESION

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

IDVAR=V1

MDHANDLING=100

210

Regresi
on lineal (REGRESSN)
INPUT=RAWDATA/MATRIX
RAWD
Los datos de entrada vienen en la forma de un archivo Datos descrito por un diccionario
IDAMS.
MATR
Los datos de entrada son coeficientes de correlaci
on en la forma de una matriz cuadrada
de IDAMS.
Par
ametros s
olo para datos primarios de entrada
INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
MDHANDLING=0/n
N
umero de casos con datos faltantes admitido antes de terminar. Un caso se considera faltante si
este contene datos faltantes en cualquiera de las variables de las ecuaciones de regresion.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
CATE
Se especifica CATE si se suministra una definicion de variables ficticias.
IDVAR=n
umero de variable
Variable que se lleva a la salida o se imprime como identificadora de casos si se han solicitado
dataset de residuos. La variable de identificacion no se debe incluir en ninguna lista de variables.
WRITE=MATRIX
Escribir la matriz de correlaci
on calculada a partir de los datos primarios de entrada en un archivo
de salida.
PRINT=(CDICT/DICT, XMOM, XPRODUCTS, MATRIX)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
XMOM Imprimir la matriz de sumas residuales de cuadrados y productos cruzados.
XPRO
Imprimir la matriz de sumas totales de cuadrados y de productos cruzados.
MATR
Imprimir la matriz de correlaci
on.
Par
ametros para entrada de la matriz de correlaci
on
CASES=n
Haga CASES igual al n
umero de casos usados para la creacion de la matriz de entrada. Este
n
umero se utiliza en el c
alculo del nivel F.
No admite valor por defecto; debe suministrarse cuando entra la matriz de correlaci
on.
PRINT=MATRIX
Imprimir la matriz de correlaci
on.

27.9 Proposiciones de control del programa

211

4. Definici
on de variables ficticias (condicional: si se ha especificado CATE como un par
ametro). El
programa REGRESSN puede transformar una variable categorica en un conjunto de variables ficticias.
Para tener un tratamiento de variables como categoricas, el usuario debe: a) incluir el par
ametro
CATE en la lista de par
ametros y b) especificar cuales variables se van a considerar como categoricas
y los c
odigos a usar. Cada variable categorica a transformar est
a seguida de los c
odigos a usar entre
parentesis cuadrados. Para cada variable, los c
odigos no listados se excluyen de la construcci
on. Nota:
la lista de c
odigos no debe ser exahustiva, es decir, no se deben imprimir todos los c
odigos existentes
o de lo contrario, resultara una matriz singular.
Ejemplo:

V100(5,6,1), V101(1-6)

Los c
odigos 5, 6 y 1 de la variable 100 se representar
an en la regresion como variables ficticias,
as como tambien los c
odigos 1 a 6 de la variable 101.
Una variable especificada en la definicion de variables ficticias, cuando se use en listas de variables
predictoras (VARS), variables parciales (PARTIALS) o variables forzadas (FORCE) para regresion
por pasos, se referir
an al conjunto de variables ficticias creado a partir de esa variable. En regresiones
por pasos, los c
odigos de esa variable entraran o se excluiran ambos a la vez, las R cuadradas marginales
y los cocientes-F se calculan para todos los c
odigos de las variables conjuntamente as como para los
c
odigos individualmente. Una variable usada en la definicion de variables ficticias no se puede usar
como variable dependiente.
5. Especificaciones de regresi
on. Las reglas de codificacion son las mismas de los par
ametros. Cada
conjunto de par
ametros de regresion debe comenzar en una nueva lnea.
Ejemplo:

DEPV=V5

METH=STEP

FORCE=(V7) VARS=(V7,V16,V22,V37-V47,R14)

METHOD=STANDARD/STEPWISE/DESCENDING
STAN
Se hace regresion est
andar.
STEP
Se hace regresion por pasos.
DESC
Se hace una regresion descendente por pasos.
DEPVAR=n
umero de variable
N
umero de la variable dependiente.
Sin valor por defecto.
VARS=(lista de variables)
Las variables independientes que se van a usar en el analisis.
Sin valor por defecto.
PARTIALS=(lista de variables)
Calcular e imprimir una matriz de correlaci
on parcial con las variables eliminadas de la lista de
variables independientes.
Por defecto: no hay parciales.
FORCE=(lista de variables)
Forzar las variables listadas a entrar en la regresion por pasos (METHOD=STEP) o a permanecer
en la regresion descendente por pasos (METHOD=DESC).
Por defecto: no hay forzamiento.
FINRATIO=.001/n
El valor del cociente F por debajo del cual una variable no entra al procedimiento por pasos; este
es el cociente F para entrar. Debe darse el punto decimal.
FOUTRATIO=0.0/n
El valor del cociente F por encima del cual una variable se debe mantener para permanecer en el
procedimiento por pasos; este es el cociente F para retirar. Debe darse el punto decimal.

212

Regresi
on lineal (REGRESSN)
CONSTANT=0
S
olo para la entrada de datos primarios.
El termino constante debe ser igual a cero y no se estimara termino constante.
Por defecto: se calcula un termino constante.
WRITE=RESIDUALS
Los residuos se escriben en un dataset IDAMS.
OUTFILE=OUT/yyyy
Se aplica solamente cuando se ha especificado WRITE=RESI.
Un sufijo de ddname de 1-4 caracteres para los archivos del diccionario y de los datos de residuos
de salida. Si se llevan los residuos al archivo de salida para mas de un analisis, el nombre por
defecto OUT, solo puede utilizarse una sola vez.
PRINT=(STEP, RESIDUALS, ERESIDUALS, INVERSE)
STEP
Se aplica solamente a una regresion por pasos: imprimir R cuadradas marginales para
todos los predictores en cada paso.
RESI
Imprimir los residuos en el orden de los casos de entrada y la estadstica de DurbinWatson.
ERES
Imprimir los residuos, excepto para datos faltantes, en orden de magnitud del error,
siempre que haya menos de 1000 casos.
INVE
Imprimir la matriz de correlaci
on inversa.

27.10.

Restricciones

1. Con datos primarios como entrada, puede haber hasta 99 o 100 variables distintas, (dependiendo de si
hay o no hay una variable de ponderaci
on) para utilizar en una sola ecuaci
on de regresion; el n
umero
total de variables en todo el analisis, incluidas las variables de Recode, la variable de ponderaci
on y la
variable de identificaci
on, no puede ser mayor de 200.
2. Cuando la entrada es una matriz, esta puede ser de 200 x 200 y se pueden usar hasta 100 variables en
una sola ecuaci
on de regresion.
3. FINRATIO debe ser mayor o igual a FOUTRATIO.
4. Los residuos se pueden listar en orden ascendente por valor de residuo si hay menos de 1000 casos.
5. Una variable especificada en la definicion de variables ficticias, no puede usarse como variable dependiente.
6. M
aximo se pueden definir 12 variables ficticias a partir de una variable categorica.
7. Si la variable de identificaci
on es alfabetica con ancho > 4, solo se usan los primeros cuatro caracteres.

27.11.

Ejemplos

Ejemplo 1. Regresi
on est
andar con cinco variables independientes con una matriz de correlaci
on IDAMS
como entrada.
$RUN REGRESSN
$FILES
FT09 = A.MAT
archivo Matriz de entrada
SETUP
REGRESION ESTANDAR - USA MATRIZ DE ENTRADA
INPUT=MATR CASES=1460
DEPV=V116 VARS=(V18,V36,V55-V57)

27.11 Ejemplos

213

Ejemplo 2. Regresi
on est
andar con seis variables independientes y dos variables cada una con 3 categoras
transformadas a 6 variables ficticias; se usan datos primarios de entrada; se van a calcular residuos y se
escriben en un dataset de salida (los casos se identifican con la variable V2).
$RUN REGRESSN
$FILES
PRINT
= REGR2.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
DICTOUT = RESID.DIC
archivo Diccionario de los residuos
DATAOUT = RESID.DAT
archivo Datos para residuos
$SETUP
REGRESION ESTANDAR - USA DATOS PRIMARIOS DE ENTRADA Y ESCRIBE RESIDUOS
MDHANDLING=50 IDVAR=V2 CATE
V5(1,5,6),V6(1-3)
DEPV=V116 WRITE=RESI VARS=(V5,V6,V8,V13,V75-V78)
Ejemplo 3. Dos regresiones: una est
andar y una por pasos con datos primarios como entrada.
$RUN REGRESSN
$FILES
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
DOS REGRESIONES
PRINT=(XMOM,XPROD)
DEPV=V10 VARS=(V101-V104,V35) PRINT=INVERSE
DEPV=V11 METHOD=STEP PRINT=STEP VARS=(V1,V3,V15-V18,V23-V29)
Ejemplo 4. Regresi
on en dos etapas; la primera usa las variables V2 - V6 para estimar los valores de la
variable dependiente V122; en la segunda etapa, dos variables adicionales V12, V23 se usan para estimar los
valores predichos de V122, es decir V122 sin los efectos de V2 - V6.
En la primera regresion, los valores predichos para la variable dependiente (V122) se calculan y se escriben
en el archivo de residuos (OUTB) como la variable V3. Despues se usa el programa MERGE para intercalar
esta variable con las variables del archivo original que se necesitan en la segunda etapa. El dataset de salida
de MERGE (un archivo temporal y por lo tanto no es necesario definirlo) tendra cinco variables de la lista
de construcci
on, numeradas V1 a V5, donde A12 y A23 (para usar como predictores de la segunda etapa) se
convierten en V2 y V3, A122, la variable dependiente original, se convierte en V4 y B3, la variable que da
los valores predichos de V122, se convierte en V5. Este archivo de salida se utiliza entonces como entrada de
la segunda etapa.
$RUN REGRESSN
$FILES
PRINT
= REGR4.LST
DICTIN
= STUDY.DIC
archivo Diccionario de entrada
DATAIN
= STUDY.DAT
archivo Datos de entrada
DICTOUTB = RESID.DIC
archivo Diccionario de los residuos
DATAOUTB = RESID.DAT
archivo Datos para residuos
$SETUP
REGRESION EN DOS ETAPAS - PRIMERA ETAPA
MDHANDLING=100 IDVAR=V1
DEPV=V122 WRITE=RESI OUTF=OUTB VARS=(V2-V6)
$RUN MERGE
$SETUP
INTERCALACION DE LOS VALORES PREDICHOS (V3 EN ARCH.DE RES.) EN ARCH DE DATOS
MATCH=INTE INAF=IN INBF=OUTB
A1=B1
A1,A12,A23,A122,B3

214

Regresi
on lineal (REGRESSN)
$RUN REGRESSN
$SETUP
REGRESION EN ETAPAS - SEGUNDA ETAPA
MDHANDLING=100 INFI=OUT
DEPV=V5 VARS=(V2,V3)

Captulo 28

Escalamiento multidimensional
(MDSCAL)
28.1.

Descripci
on general

MDSCAL es un programa del escalamiento multidimensional no metrico para el analisis de similitudes. El


programa, el cual opera sobre una matriz de medidas de similitud o disimilitud, est
a dise
nado para encontrar,
en cada dimensi
on especificada, la mejor representacion geometrica de los datos en el espacio.
El uso del escalamiento multidimensional no metrico, es parecido al del analisis factorial: por ej. se pueden
puntualizar conglomerados de variables, se puede descubrir el n
umero de dimensiones de los datos y algunas
veces se pueden interpretar las dimensiones. Se puede usar el programa CONFIG para hacer analisis sobre
una configuracion de salida de MDSCAL.
Configuraci
on de entrada. Para comenzar los c
alculos, se usa normalmente, una configuracion inicial
creada internamente, en forma arbitraria. Sin embargo, el usuario puede suministrar una configuracion inicial.
Hay varias razones para suministrar una configuracion inicial. El usuario puede tener motivos teoricos para
comenzar con una cierta configuracion; se puede desear hacer iteraciones adicionales sobre una configuracion
que no se encuentra suficientemente cerca a la mejor; o, para ahorrar tiempo de computacion, se puede desear
suministrar una configuracion de dimensiones mas elevadas como punto de partida para una configuracion
de mas baja dimensi
on.
Algoritmo de escalamiento. El programa comienza con una configuracion inicial, generada arbitrariamente o suministrada por el usuario, e itera (usando un procedimiento del tipo descenso mas inclinado)
sobre sucesivas configuraciones de ensayo, cada vez compara el orden de rango de las diferencias entre puntos
en la configuracion de ensayo con el orden de rango de la medida correspondiente en los datos. Una medida
de calidad de ajuste (coeficiente de esfuerzo) se calcula despues de cada iteraci
on y la configuracion se
arregla nuevamente para mejorar el ajuste a los datos, hasta que, idealmente, el orden de rango entre las
distancias entre puntos es perfectamente monot
onico con el orden de rango de disimilitudes dado por los
datos; en este caso, el esfuerzo sera cero. En la practica, los c
alculos de escalamiento (en cualquier n
umero
de dimensiones) se detienen porque el esfuerzo alcanz
o un valor suficientemente peque
no (STRMIN), el factor de escala (magnitud) del gradiente, alcanz
o un valor suficientemente peque
no (SRGFMN), el esfuerzo
ha mejorado demasiado lentamente (SRATIO), o se alcanz
o un n
umero de iteraciones definido previamente
(ITERATIONS). El programa se detiene con cualquiera de estas condiciones que se presente primero. El
mismo procedimiento se repite para la dimensi
on mas baja que sigue, utiliza como configuracion inicial los
resultados anteriores, hasta alcanzar un n
umero mnimo de dimensiones especificado. Durante los c
alculos, el
coseno del angulo entre gradientes sucesivos, juega un papel importante de varias maneras; opcionalmente,
se pueden especificar dos par
ametros internos de ponderaci
on (ver par
ametros COSAVW y ACSAVW).
N
umero de dimensiones y m
etrica. Se pueden obtener soluciones en 2 a 10 dimensiones. El usuario
controla el n
umero de dimensiones de las configuraciones obtenidas, a partir de la especificaci
on del n
umero
maximo y mnimo de dimensiones deseadas y la diferencia de dimensiones de las soluciones sucesivas producidas (ver par
ametros DMAX, DMIN, y DDIF). El usuario tambien especifica, con el par
ametro R, si la
metrica de distancia debe ser euclideana (R=2), que es el caso usual, o alguna otra metrica r de Minkowski.

216

Escalamiento multidimensional (MDSCAL)

Esfuerzo. El esfuerzo es una medida de la bondad del ajuste de la configuracion a los datos. El usuario
puede escoger entre dos f
ormulas para calcular el coeficiente de esfuerzo: el esfuerzo se estandariza por la
suma de las distancias cuadradas desde la media (SQDIST) o bien, el esfuerzo se estandariza por la suma de
las desviaciones cuadradas desde la media (SQDEV). En muchas situaciones, las configuraciones obtenidas
por las dos formulas no son sustancialmente diferentes. En la formula 2, se obtienen valores mas altos del
esfuerzo para el mismo grado de ajuste.
Ataduras en los coeficientes de entrada. Hay dos metodos alternos para el manejo de ataduras entre los
datos de entrada; las distancias correspondientes puede requerirse que sean iguales (TIES=EQUAL) o puede
permitirse diferir (TIES=DIFFER). Cuando hay pocas ataduras, es muy poca la diferencia entre las dos
alternativas. Cuando hay gran n
umero de ataduras, hay diferencia y se hace necesario considerar el contexto
para hacer la selecci
on.

28.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. El filtrado de casos debe hacerse en el momento de creacion de la matriz,
no en MDSCAL. El par
ametro VARS permite que los c
alculos se hagan sobre subconjuntos de la matriz y
no sobre toda la matriz.
Transformaci
on de datos. No se aplica el uso de las proposiciones de Recode con MDSCAL. La transformaci
on de los datos debe hacerse al crear la matriz.
Ponderaci
on de datos. La ponderaci
on en el sentido usual (ponderar casos para corregir diferentes tasas
de muestreo o diferentes niveles de agregacion) debe hacerse antes de usar MDSCAL; tales ponderaciones
deben ser incorporadas como datos en la matriz de entrada. Hay una opcion de ponderaci
on de naturaleza
muy diferente en MDSCAL (ver el par
ametro INPUT=WEIGHTS). Se puede usar para asignar ponderaci
on
a las celdas de las matriz de entrada; el usuario suministra una matriz de valores que se van a usar como
coeficientes de ponderaci
on para los elementos correspondientes en la matriz de entrada.
Tratamiento de datos faltantes. Los datos faltantes de casos individuales se deben tener en cuenta en el
momento de formaci
on de la matriz, no en MDSCAL. Si despues de haber creado la matriz, falta una entrada
de la misma, es decir, contiene un c
odigo de dato faltante, existe la posibilidad de procesarlo en MDSCAL.
La opcion de recorte de MDSCAL (ver el par
ametro CUTOFF) se puede usar para excluir del analisis los
valores de datos faltantes si estos son menores que valores de datos validos. MDSCAL no tiene la opcion de
reconocer c
odigos de datos faltantes que sean n
umeros grandes (tales como 99.999, que es el c
odigo de datos
faltantes emitido por PEARSON). Si existen c
odigos de datos faltantes grandes, estos deberan editarse a
n
umeros peque
nos. Si una variable en particular, tiene muchos valores faltantes de entrada, posiblemente
debera ser excluida del analisis.

28.3.

Resultados

Matriz de entrada. (Opcional: ver el par


ametro PRINT).
Ponderaciones de entrada. (Opcional: ver el par
ametro PRINT).
Configuraci
on de entrada. Si se da una configuracion inicial, esta siempre se imprime.
Historia de los c
alculos. Para cada solucion, el programa imprime una historia completa de los c
alculos,
reporta el esfuerzo y sus par
ametros auxiliares para cada iteraci
on:
Iteracion
Stress
SRAT
SRATAV
CAGRGL
COSAV
ACSAV
SFGR
STEP

el n
umero de la iteraci
on
el valor actual del esfuerzo
el valor actual del cociente de esfuerzo
el promedio actual del cociente de esfuerzo (es un promedio ponderado exponencial)
el coseno del
angulo entre el gradiente actual y el gradiente previo
el promedio del coseno del
angulo entre gradientes sucesivos (un promedio ponderado)
el promedio del valor absoluto del coseno del angulo entre gradientes sucesivos
(un promedio ponderado)
la longitud (m
as apropiadamente, el factor de escala) del gradiente
el tama
no del paso.

28.4 Matriz de configuraci


on de salida

217

Motivo para terminar. Cuando se termina el c


alculo, se indican los motivos con uno de los siguientes
mensajes: Se logr
o el mnimo, N
umero maximo de iteraciones usado, Se alcanz
o esfuerzo satisfactorio,
o Se alcanz
o esfuerzo cero.
Configuraci
on final. Para cada solucion, se imprimen las coordenadas cartesianas de la configuracion final.
Configuraci
on clasificada. (Opcional: ver el par
ametro PRINT). Para cada solucion, las proyecciones de
puntos de la configuracion final se clasifican ascendentemente por separado en cada dimensi
on y se imprimen.
Resumen. Para cada solucion, los datos originales se ordenan y se imprimen junto con sus distancias finales
correspondientes (DIST) y las distancias hipoteticas requeridas para un ajuste monot
onico perfecto (DHAT).

28.4.

Matriz de configuraci
on de salida

Cuando se ha calculado la configuracion final para cada n


umero de dimensiones, se puede obtener como una
matriz rectangular IDAMS. La configuracion es centrada y normalizada. Las filas representan variables y
las columnas dimensiones. Los elementos de la matriz se escriben en formato 10F7.3. Se generan registros
de diccionario. Esta matriz puede ser una configuracion inicial para otra ejecuci
on de MDSCAL, o tambien
puede ser capturada por otro programa, tal como CONFIG, para otros analisis.

28.5.

Matriz de datos de entrada

La entrada usual a MDSCAL es una matriz cuadrada IDAMS (ver el captulo Los datos en IDAMS).
Esta matriz es la mitad superior derecha sin diagonal y se define con el par
ametro INPUT=STANDARD.
TABLES y PEARSON generan matrices que son aptas para entrar a MDSCAL. La media y la desviacion
est
andar no se usan, pero se deben suministrar registros ficticios apropiados. MDSCAL acepta matrices
en otros formatos adicionalmente al triangulo superior derecho sin diagonal. Sin embargo, tales matrices
deben tener la porci
on del diccionario de una matriz cuadrada IDAMS y deben tener registros al final, que
contengan la pseudo-media y la pseudo-desviacion est
andar.
Los siguientes par
ametros de entrada, indican el formato exacto de la matriz de entrada:
STAN
STAN, DIAG
LOWER, DIAG
LOWER
SQUARE

triangulo superior derecho, sin diagonal


triangulo superior derecho, con diagonal
triangulo inferior izquierdo, con diagonal
triangulo inferior izquierdo, sin diagonal
toda la matriz cuadrada con diagonal.

Las medidas contenidas en la matriz de datos pueden ser de similitud (tales como correlaciones) o de disimilitud. Aunque la entrada a MDSCAL, es normalmente, una matriz de coeficientes de correlaci
on (por ej.
una matriz de gamas o una matriz de r de Pearson), la matriz de entrada puede contener cualquier medida
que tenga sentido como medida de proximidad. Como el escalamiento no metrico hace uso solamente de la
ordinalidad de los datos, no se requiere suponer nada acerca de las propiedades cuantitativas o numericas
de los mismos. Al final debe haber el doble de variables que dimensiones.

28.6.

Matriz de ponderaciones de entrada

Si se suministra una matriz de ponderaciones, debe tener exactamente el mismo formato de la matriz de datos.
El par
ametro INPUT=(STAN/LOWE/SQUA,DIAG) se aplica a la matriz de ponderaciones, tanto como a
la matriz de datos. El diccionario para la matriz de ponderaciones debe ser el mismo de la matriz de datos.
No se utilizan medias ni desviaciones est
andar, pero se deben suministrar las lneas ficticias correspondientes.
Esta matriz contiene valores en correspondencia uno a uno con la matriz de datos, los cuales se usaran como
ponderaciones para los datos. Estos valores se usan conjuntamente con el valor del par
ametro CUTOFF al
aplicarlos a los datos. Si un dato es mayor que el valor correspondiente del par
ametro CUTOFF, pero su
ponderaci
on correspondiente es menor o igual a cero, entonces se se
nala una condicion de error. Similarmente,
si el dato es menor o igual al valor del par
ametro CUTOFF y su ponderaci
on correspondiente es mayor de

218

Escalamiento multidimensional (MDSCAL)

cero, se genera una condicion de error. Si se presenta una de estas inconsistencias, la ejecuci
on termina.

28.7.

Matriz de configuraci
on de entrada

La configuracion de entrada debe estar en el formato de una matriz rectangular de IDAMS. Ver el captulo
Los datos en IDAMS.
Suministra una configuracion inicial, a partir de la cual se llevan a cabo los c
alculos. Las filas deben representar las variables y las columnas las dimensiones. Usualmente es producida por una ejecuci
on previa de
MDSCAL y se pueda continuar una ejecuci
on anterior, en el punto en el cual esta quedo.
La matriz debe tener tantas dimensiones como hayan sido dadas para el par
ametro DMAX.
Nota: si se especifica una lista de variables (VARS), MDSCAL usa las primeras n filas de la configuracion
de entrada, donde n es el n
umero de variables del subconjunto, sin verificar los numeros de variable.

28.8.

Estructura del setup

$RUN MDSCAL
$FILES
Especificaci
on de archivos
$SETUP
1. T
tulo
2. Par
ametros
$MATRIX (condicional)
Matriz de datos
Matriz de ponderaciones
Matriz de configuraci
on inicial
(Nota: no es necesario incluir todas las matrices aqu
; sin embargo, si
se incluyen m
as matrices,
estas deben estar en el orden arriba indicado).
Archivos:
FT02
FT03
FT05
FT08
PRINT

28.9.

matriz de configuraci
on de salida
matriz de ponderaciones de entrada, si se ha especificado INPUT=WEIGHTS
(omitir si se usa $MATRIX)
configuraci
on inicial de entrada, si se ha especificado INPUT=CONFIG
(omitir se usa $MATRIX)
matriz de datos de entrada (omitir si se usa $MATRIX)
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-2, a continuacion.
1. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

CORRIDA DE MDSCAL CON EL ARCHIVO X4952

2. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

DMAX=5

ITER=75

WRITE=CONFIG

28.9 Proposiciones de control del programa

219

INPUT=(STANDARD/LOWER/SQUARE, DIAGONAL, WEIGHTS, CONFIG)


STAN
La entrada es una matriz cuadrada IDAMS, sin diagonal, mitad superior derecha.
LOWE
La matriz de entrada es la mitad inferior izquierda de la matriz.
SQUA
La matriz de entrada es una matriz cuadrada completa.
DIAG
La matriz de entrada tiene los elementos de la diagonal.
WEIG
Se suministra una matriz de ponderaciones.
CONF
Se suministra la matriz de configuracion inicial.
VARS=(lista de variables)
Lista de variables de la matriz sobrer la cual se va a hacer el analisis.
Por defecto: se usa toda la matriz de entrada.
FILE=(DATA, WEIGHTS, CONFIG)
DATA
La matriz de datos de entrada est
a en un archivo.
WEIG
La matriz de ponderaciones est
a en un archivo.
CONF
La matriz de configuracion de entrada est
a en un archivo.
Por defecto: se supone que todas las matrices se encuentran despues de un comando $MATRIX
en el orden: datos, ponderaciones, configuracion.
COEFF=SIMILARITIES/DISSIMILARITIES
SIMI
Coeficientes grandes en la matriz de datos indican que los puntos son similares o est
an
cerca unos de otros.
DISS
Coeficientes grandes indican que los puntos no son similares o est
an lejos unos de otros.
DMAX=2/n
El maximo de la dimensi
on: el escalamiento comienza con el espacio de maxima dimensi
on.
DMIN=2/n
El mnimo de la dimensi
on: el escalamiento contin
ua hasta que alcance o pase de la dimensi
on
mnima.
DDIF=1/n
Diferencia de dimensi
on: el escalamiento se lleva a cabo desde la dimensi
on maxima hasta la
mnima, con pasos del tama
no de la diferencia de dimensi
on.
R=2.0/n
Indica cual es la metrica r de Minkowski a usar. Se puede utilizar cualquier valor >= 1.0.
R=1.0
Metrica de cuadra urbana (city block).
R=2.0
Distancia euclideana ordinaria.
CUTOFF=0.0/n
Se descartan los valores de datos iguales o menores a n. Si los valores legtimos de los coeficientes
de entrada se encuentran en el rango -1.0 a 1.0, se debe usar CUTOFF=-1.01.
TIES=DIFFER/EQUAL
DIFF
Las distancias desiguales que correspondan a valores iguales en los datos, no contribuyen al coeficiente de esfuerzo y no se intenta igualarlas.
EQUA
Las distancias desiguales que correspondan a valores iguales en los datos, s contribuyen
al coeficiente de esfuerzo y s se hace el intento de igualarlas.
ITERATIONS=50/n
N
umero maximo de iteraciones a hacer para un n
umero dado de dimensiones. Este maximo es
una precauci
on de seguridad para controlar el tiempo de ejecuci
on.
STRMIN=.01/n
Esfuerzo mnimo. El escalamiento se detiene cuando se alcanza el valor de esfuerzo mnimo.

220

Escalamiento multidimensional (MDSCAL)

SFGRMN=0.0/n
El valor mnimo de factor de escala de gradiente. El proceso de escalamiento se detiene cuando se
alcanza el valor mnimo de la magnitud del gradiente.
SRATIO=.999/n
El cociente de esfuerzo. El proceso de escalamiento se detiene si el cociente de esfuerzo entre dos
pasos consecutivos alcanza n.
ACSAVW=.66/n
El factor de ponderaci
on para el promedio del valor absoluto del coseno del angulo entre dos
gradientes sucesivos.
COSAVW=.66/n
El factor de ponderaci
on del promedio del coseno del angulo entre dos gradientes sucesivos.
STRESS=SQDIST/SQDEV
SQDI
Calcular el esfuerzo utilizando la estandarizacion por la suma de las distancias cuadradas.
SQDE
Calcular el esfuerzo utilizando la estandarizacion por la suma de las desviaciones
cuadradas desde la media.
WRITE=CONFIG
Guardar en un archivo la configuracion final de cada solucion.
PRINT=(MATRIX, SORTCONF, LONG/SHORT)
MATR
Imprimir la matriz de entrada y la matriz de ponderaciones, si la hay.
SORT
Clasificar cada dimensi
on de la configuracion final e imprimirla.
LONG
Imprimir las matrices en lneas largas.
SHOR
Imprimir las matrices en lneas cortas.

28.10.

Restricciones

1. La capacidad del programa es de 1800 puntos (por ej. 1800 elementos de la matriz de similitud o
disimilitud). Esto es equivalente a una matriz triangular de 60x60 o a una matriz cuadrada de 42x42.
2. Las variables se pueden escalar hasta 10 dimensiones.
3. La matriz de configuracion inicial puede tener un maximo de 60 filas y 10 columnas.

28.11.

Ejemplo

Generacion de una matriz de configuracion de salida; la matriz de entrada de datos es una matriz est
andar
de IDAMS en un archivo; no hay matriz de entrada de ponderaciones ni matriz de configuracion de entrada;
se solicitan 20 iteraciones; se hace el analisis sobre un subconjunto de variables.
$RUN MDSCAL
$FILES
FT02 = MDS.MAT
archivo Matriz de configuraci
on de salida
FT08 = ABC.COR
archivo Matriz de datos de entrada
$SETUP
ESCALAMIENTO MULTIDIMENSIONAL
ITER=20 WRITE=CONFIG FILE=DATA VARS=(V18-V36)

Captulo 29

An
alisis de clasificaci
on m
ultiple
(MCA)
29.1.

Descripci
on general

MCA examina las relaciones entre varias variables de predicci


on y una sola variable dependiente y determina
los efectos de cada predictor antes y despues de los ajustes para sus intercorrelaciones con otros predictores
dentro del analisis. Tambien produce informacion acerca de las relaciones bivariadas y multivariadas entre
los predictores y la variable dependiente. La tecnica MCA se puede considerar equivalente a un analisis de
regresion m
ultiple con variables ficticias. Sin embargo, a menudo MCA resulta mas conveniente para usar e
interpretar. MCA tiene tambien la posibilidad de hacer an
alisis de variancia de una entrada.
MCA asume que los efectos de los predictores son aditivos, es decir que no hay interacciones entre los
predictores. Est
a dise
nado para usar con variables predictoras las cuales se miden en escalas nominales,
ordinales y de intervalos. Acepta un n
umero desigual de casos en las celdas construidas por clasificacion
cruzada de los predictores.
Como alternativa al uso de MCA, se tiene REGRESSN y ONEWAY. REGRESSN suministra una capacidad
de tipo general de regresion m
ultiple. ONEWAY hace un analisis de variancia de una entrada. La ventaja
de MCA sobre REGRESSN consiste en aceptar variables predictoras en una forma tan debil como escalas
nominales y no supone una relaci
on lineal en la regresion. Las ventajas sobre ONEWAY son que en MCA
el c
odigo maximo para una variable de control en un analisis de una entrada es 2999 (en lugar de 99 en
ONEWAY).
Generaci
on de un dataset de residuos. Se pueden calcular residuos y llevarlos como un archivo de
datos de salida descrito por un diccionario IDAMS. Ver la secci
on Dataset(s) de residuos de salida para
detalles del contenido. Esta opci
on no se puede usar cuando se tiene solo un predictor.
Procedimientos iterativos. MCA utiliza un algoritmo de iteraci
on para aproximar los coeficientes que
constituyen las soluciones del conjunto de ecuaciones normales. El algoritmo de iteraci
on se detiene cuando
los coeficientes generados tienen la exactitud suficiente. Esto involucra la definicion de una tolerancia y la
especificaci
on de una prueba para determinar cuando se ha satisfecho esta tolerancia (ver par
ametros de
analisis CRITERION y TEST). Hay cuatro pruebas de convergencia. Si los coeficientes no convergen dentro
de los lmites impuestos por el usuario, el programa imprime los resultados de la u
ltima iteraci
on. El n
umero
de iteraciones u
tiles depende, en alguna forma, del n
umero de predictores usados en el analisis y de la fracci
on
especificada de tolerancia. Cuando hay menos de 10 predictores, se ha encontrado que resulta conveniente
especificar 10 como el n
umero de maximo de iteraciones.
Detecci
on y tratamiento de interacciones. El programa asume que el fenomeno que se va estudiar se
puede entender en terminos de un modelo aditivo.
Si sobre bases a priori, se sospecha que algunas variables en particular presentan interacciones entre ellas,
MCA se puede usar para determinar la extensi
on de estas interacciones as. Si se especifica un predictor, MCA
hace analisis de variancia de una entrada. Este analisis puede ayudar a determinar y eliminar interacciones
entre predictores. El procedimiento completo es el siguiente (ver tambien Ejemplo 3):

222

An
alisis de clasificaci
on m
ultiple (MCA)

1. Determinar un conjunto de predictores de los cuales se sospecha que tendran interacciones.


2. Formar una sola variable de combinaci
on con estos predictores y la proposicion COMBINE de
Recode.
3. Ejecutar un analisis de MCA con los predictores sospechosos para obtener una R cuadrada ajustada.
4. Ejecutar un analisis de MCA con la variable de combinaci
on como control en un analisis de variancia
de una entrada para obtener eta cuadrada ajustada, la cual sera mayor o igual a la R cuadrada ajustada.
5. Use la diferencia, eta cuadrada ajustada menos R cuadrada ajustada (la fracci
on de la variancia explicada que se pierde debido a la suposicion de aditividad), como gua para determinar si se justifica el
uso de una variable de combinaci
on a cambio de los predictores originales.
La prueba para interacci
on debe basarse en la misma muestra de la ejecuci
on normal de MCA. Si se detectan
interacciones, entonces debe usarse la variable de combinaci
on como variable de predicci
on en lugar de las
variables individuales que interact
uan.

29.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Los casos se pueden excluir del analisis en la ejecuci
on de MCA con una
proposicion de filtro est
andar. En el analisis de clasificacion m
ultiple, se excluyen casos por haber excedido el
c
odigo maximo de predictor. (Nota: si en una ejecuci
on, una variable de predicci
on tiene un c
odigo fuera del
rango 0-31, el caso con este valor se elimina de todos los analisis). Para un analisis en particular, se pueden
excluir casos adicionales, debido a las condiciones siguientes:
Un caso (referido como excentrico) tiene un valor de la variable dependiente que es mayor que un
n
umero especificado de desviaciones est
andar de la media de la variable dependiente. Ver los par
ametros
de analisis OUTDISTANCE y OUTLIERS.
Un caso tiene una variable dependiente que es mayor que un valor maximo especificado. Ver par
ametro
de analisis DEPVAR.
Un caso tiene datos faltantes para la variable dependiente o la variable de ponderaci
on. Ver Tratamiento de datos faltantes y Ponderaci
on de datos mas adelante.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para
un caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el
n
umero de casos as tratados. Cuando se usan datos ponderados, las pruebas de significaci
on estadstica
deben interpretarse con precauci
on.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Los casos con datos faltantes en
la variable dependiente siempre se excluyen. Los casos con datos faltantes en las variables de predicci
on se
pueden excluir de todos los analisis con un filtro. (El uso de filtro para excluir casos con datos faltantes de
las variables predictoras en la clasificacion m
ultiple, solamente se necesita si los c
odigos de datos faltantes
se encuentran dentro del rango 0-31; si el valor de alg
un predictor est
a por fuera de este rango, un caso se
excluye autom
aticamente de todos los analisis en la ejecuci
on).

29.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Tabla de frecuencias ponderadas. (Opcional: ver el par
ametro PRINT). Se imprime una matriz N x M
para cada par de predictores donde N=codigo maximo de predictor de fila y N=codigo maximo de predictor
de columna. El n
umero total de tablas es P(P-1)/2 donde P es el n
umero de predictores.

29.3 Resultados

223

Coeficientes para cada iteraci


on. (Opcional: ver el par
ametro de analisis PRINT). Coeficientes para
cada clase para cada predictor.
Estadsticas de la variable dependiente. Para la variable dependiente (Y):
gran media, desviaci
on est
andar y coeficiente de variaci
on,
suma de Y y suma de Y cuadrada,
sumas de cuadrados total, explicada y residual,
n
umero de casos usados en el analisis y suma de ponderaciones.
Estadsticas de predictores para an
alisis de clasificaci
on m
ultiple.
Para cada categora de cada predictor:
c
odigo de categora (clase) y nombre, si existe en el diccionario,
n
umero de casos con datos validos (en forma primaria, ponderada y porcentaje),
media (no ajustada y ajustada), desviacion est
andar y coeficiente de variacion de la variable dependiente,
desviaci
on no ajustada de la media de la categora a partir de la gran media y coeficiente de ajuste.
Para cada variable predictora:
eta y eta cuadrada (no ajustada y ajustada),
beta y beta cuadrada,
sumas de cuadrados no ajustadas y ajustadas.
Estadsticas de an
alisis para an
alisis de clasificaci
on m
ultiple. Para todos los predictores combinados:
R cuadrada m
ultiple (no ajustada y ajustada),
coeficiente de ajuste para grados de libertad,
R m
ultiple (ajustada),
lista de betas en orden descendente de sus valores.
Estadsticas de an
alisis de variancia de una entrada.
Para cada categora del predictor:
c
odigo de categora (clase) y nombre, si existe en el diccionario,
n
umero de casos con datos validos (en forma primaria, ponderada y porcentaje),
media, desviaci
on est
andar y coeficiente de variacion de la variable dependiente,
suma y porcentaje de valores de la variable dependiente,
suma de valores cuadrados de la variable dependiente.
Para la variable predictora:
eta y eta cuadrada (no ajustada y ajustada),
coeficiente de ajuste para grados de libertad,
sumas de cuadrados total, entre medias y dentro de grupos,
valor F (se imprimen grados de libertad).
Residuos. (Opcional: ver el par
ametro PRINT). Se imprimen para cada caso, en el orden del archivo
de entrada: la variable de identificaci
on, el valor observado, el valor predicho, el residuo y la variable de
ponderaci
on si se ha usado.
Estadsticas de resumen para los residuos. Si se solicitan residuos, el programa imprime el n
umero de
casos, la suma de ponderaciones, media, variancia, asimetra y kurtosis de la variable de residuo.

224

29.4.

An
alisis de clasificaci
on m
ultiple (MCA)

Dataset(s) de residuos de salida

Para cada analisis se puede, opcionalmente, llevar los residuos a un archivo de salida, descrito por un
diccionario IDAMS. (Ver el par
ametro de analisis WRITE=RESIDUALS). Se graba un registro por cada caso
que haya pasado por el filtro contenido una variable de identificacion, un valor observado, un valor calculado,
un residuo para la variable dependiente y la variable de ponderaci
on si se ha usado. Las caractersticas del
dataset son las siguientes:
N
umero de
variable
(identificador)
(variable dependiente)
(variable predicha)
(residuo)
(ponderaci
on - si hay)
*
**
***

1
2
3
4
5

Nombre
igual a entrada
igual a entrada
Predicted value
Residual
igual a entrada

Ancho de
campo

N
umero de
decimales

Codigos
MD

*
*
7
7
*

0
**
***
***
**

igual a entrada
igual a entrada
9999999
9999999
igual a entrada

transferido del diccionario de entrada para variables V o 7 para variables R


transferido del diccionario de entrada para variables V o 2 para variables R
6 + Nr. de decimales para la variable dependiente menos el ancho de la variable dependiente; si
esta es negativa, entonces este valor es cero.

Si faltan el valor observado o el valor de la variable de ponderaci


on, o si el caso se excluy
o por la verificacion
de c
odigo maximo o por criterio de dato excentico, se graba un registro residual de todas las variables con
c
odigo MD1 (con excepci
on de la variable de identificacion).

29.5.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para analisis
deben ser numericas; pueden tener valores enteros o decimales, excepto los predictores que deben tener valor
entero, entre 0 y 31 para clasificacion m
ultiple y hasta 2999 para el analisis de variancia de una entrada. La
variable identificadora de caso puede ser alfabetica.
Para un analisis con MCA se requiere un gran n
umero de casos; una regla practica es que el n
umero total de
categoras (es decir la suma de categoras sobre todos los predictores) no debe exceder el 10 % del tama
no
de la muestra).
La variable dependiente debe medirse en una escala de intervalo o ser una dicotoma, y no debe presentar
mala asimetra. Las variables predictoras en MCA deben estar categorizadas, preferiblemente no mas de
6 categoras. Aunque MCA est
a dise
nado para manejar predictores correlacionados, no debe haber dos
predictores tan fuertemente correlacionados que presenten una superposicion perfecta entre cualesquiera
de sus categoras. (Si hay una superposicion perfecta, se hace necesaria una recodificacion para combinar
categoras o un filtrado para retirar casos viciados).

29.6 Estructura del setup

29.6.

225

Estructura del setup

$RUN MCA
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.

Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de an
alisis (tantas como sean necesarias)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT

29.7.

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
diccionario de residuos de salida ) un conjunto por cada
datos de residuos de salida
) archivo de residuos requerido
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE V6=2-6

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

EJECUCION DE PRUEBA PARA MCA

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.

226

An
alisis de clasificaci
on m
ultiple (MCA)
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.

4. Especificaciones de an
alisis. Las reglas de codificacion son las mismas que las de los par
ametros.
Cada especificaci
on de analisis debe comenzar en una lnea nueva.
Ejemplo:

PRINT=TABLES, DEPVAR=(V35,98), ITER=100, CONV=(V4-V8)

DEPVAR=(n
umero de variable, codmax)
N
umero de variable y c
odigo maximo para la variable dependiente.
Sin valor por defecto; siempre se debe especificar el n
umero de variable.
El valor por defecto para el maximo c
odigo es 9999999.
CONVARS=(lista de variables)
Variables que se van a usar como predictores. Si solo se especifica una variable, entonces se ejecuta
un analisis de variancia de una entrada.
Sin valor por defecto.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes de la variable dependiente se van a verificar. Ver el captulo El
archivo Setup de IDAMS.
Nota: nunca se verifican datos faltantes para las variables de predicci
on.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
ITERATIONS=25/n
N
umero maximo de iteraciones. Rango 1-99999.
TEST=PCTMEAN/CUTOFF/PCTRATIO/NONE
Prueba de convergencia deseada.
PCTM
Prueba si el cambio en los coeficientes de una iteraci
on a otra, se encuentra por debajo
de la fracci
on especificada de la gran media.
CUTO
Prueba si el cambio en los coeficientes de una iteraci
on a otra, es menor que un valor
especificado.
PCTR
Prueba si el cambio en los coeficientes de una iteraci
on a otra, es menor que una fracci
on
especificada de la relaci
on de la desviacion est
andar de la variable dependiente a su
media.
NONE
El programa itera hasta exceder el maximo n
umero de iteraciones especificado.
CRITERION=.005/n
Dar un valor numerico que es la tolerancia de la convergencia de la prueba escogida. Rango 0.0 a
1.0 (se debe dar el punto decimal).
OUTLIERS=INCLUDE/EXCLUDE
INCL
Se incluyen en el analisis y se contar
an, los casos con valores excentricos de la variable
dependiente.
EXCL
Los casos con valores excentricos de la variable dependiente, se excluyen del analisis.

29.8 Restricciones

227

OUTDISTANCE=5/n
N
umero de desviaciones est
andar, tomadas desde la gran media, para definir cuando un valor de
la variable dependiente se considera excentrico.
WRITE=RESIDUALS
Escribir los residuos en un dataset IDAMS; aplicar el modelo MCA, solo al subconjunto de los
casos que pasan los criterios de datos faltantes, c
odigo maximo y valores excentricos. Los casos a
los cuales el modelo MCA no se aplica, se incluyen en el dataset de residuos con todos sus valores
(excepto el valor de la variable de identificacion) marcados MD1.
No se pueden obtener residuos si solo se ha especificado una variable de predicci
on.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
Nota: si mas de un analisis solicita llevar residuos al archivo, los ddnames por defecto DICTOUT
y DATAOUT solo se pueden usar para uno.
IDVAR=n
umero de variable
N
umero de una variable de identificacion para ser incluida en el dataset de residuos.
Por defecto: se crea una variable cuyos valores son n
umeros que indican la posicion secuencial del
caso en el archivo de residuos.
PRINT=(TABLES, HISTORY, RESIDUALS)
TABL
Imprimir la tabulaci
on cruzada por pares de predictores.
HIST
Imprimir los coeficientes de todas las iteraciones. Si no se ha seleccionado la opcion
HIST y la iteraci
on converge, solo se imprimen los coeficientes finales; si la iteraci
on
no converge, se imprimen los coeficientes de las dos u
ltimas iteraciones.
RESI
Imprimir los residuos en el mismo orden secuencial de los casos de entrada.

29.8.

Restricciones

1. N
umero maximo de variables de entrada, incluidas las variables de proposiciones Recode es 200.
2. El n
umero maximo de variables predictoras (de control) por analisis es 50.
3. No es posible usar el n
umero maximo de predictores, cada uno de ellos con el n
umero maximo de
categoras en un analisis. Si un problema excede la capacidad de memoria, se imprime un mensaje de
error y el programa pasa al siguiente analisis.
4. M
aximo n
umero de analisis por ejecuci
on es 50.
5. Las variables predictoras para el analisis de clasificacion m
ultiple deben estar categorizadas, preferiblemente con 6 o menos categoras. Las categoras deben tener c
odigos enteros en el rango 0-31. Los
casos con cualquier otro valor seran excluidos del analisis.
6. La variable predictora en el analisis de variancia de una entrada debe estar codificada dentro del rango
0-2999. Los casos con otros valores, se excluyen del analisis.
7. Si una variable predictora tiene cifras decimales, solo se usa la parte entera.
8. Si la variable de identificaci
on es alfabetica con ancho > 4, solo se usan los primeros cuatro caracteres.

29.9.

Ejemplos

Ejemplo 1. Analisis de clasificacion m


ultiple con cuatro variables de control (predictores): V7, V9, V12,
V13 y la variable dependiente V100; se har
an analisis separados en todo el dataset y en dos subconjuntos de
casos.

228

An
alisis de clasificaci
on m
ultiple (MCA)
$RUN MCA
$FILES
PRINT = MCA1.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
TODOS LOS ENCUESTADOS JUNTOS
*
(valores por defecto para todos los par
ametros)
DEPV=V100 CONV=(V7,V9,V12-V13)
$RUN MCA
$SETUP
INCLUDE V4=21,31-39
SOLO CIENTIFICOS
*
(valores por defecto para todos los par
ametros)
DEPV=V100 CONV=(V7,V9,V12-V13)
$RUN MCA
$SETUP
INCLUDE V4=41-49
SOLO TECNICOS
*
(valores por defecto para todos los par
ametros)
DEPV=V100 CONV=(V7,V9,V12-V13)

Ejemplo 2. Analisis de clasificacion m


ultiple con la variable dependiente V201 y tres variables de predicci
on
V101, V102, V107; los datos se van a ponderar con la variable V6; se producira un dataset de residuos en el
cual los casos se identificaran con la variable V2; se excluiran los casos con valores extremos de la variable
dependiente (casos excentricos que esten a mas de cuatro desviaciones est
andar desde la gran media). Los
residuos para los primeros 20 casos se imprimiran con el programa LIST.
$RUN MCA
$FILES
PRINT
= MCA2.LST
DICTIN = LAB.DIC
archivo Diccionario de entrada
DATAIN = LAB.DAT
archivo Datos de entrada
DICTOUT = LABRES.DIC
archivo Diccionario de residuos
DATAOUT = LABRES.DAT
archivo Datos de residuos
$SETUP
ANALISIS DE CLASIFICACION MULTIPLE - RESIDUOS VAN A UN ARCHIVO DE SALIDA
*
(valores por defecto para todos los par
ametros)
DEPV=V201 OUTL=EXCL OUTD=4 IDVA=V2 WRITE=RESI CONV=(V101,V102,V107) WEIGHT=V6
$RUN LIST
$SETUP
LISTADO DEL PRINCIPIO DEL ARCHIVO DE RESIDUOS
MAXCASES=20 INFILE=OUT
Ejemplo 3. Para una variable dependiente V52, se van a verificar las interacciones entre tres variables (V7,
V9, V12). V7 se codifica 1,2,9, V9 se codifica 1,3,5,9 y V12 se codifica 0,1,9 donde los dgitos 9 significan
valores de datos faltantes. Se construye, con Recode, una sola variable de combinaci
on. Esto implica la
recodificacion de cada variable a un conjunto de c
odigos contiguos que comienza desde cero y luego se usa
la funci
on COMBINE para producir un c
odigo u
nico para cada combinaci
on posible de c
odigos de las tres
variables separadas. Se ejecuta MCA con las tres variables separadas como predictores y se lleva a cabo un
analisis de variancia de una entrada, con la variable de combinaci
on como variable de control. Se excluyen
los casos con datos faltantes en los predictores. Los casos con valores mayores de 90000 en la variable
dependiente, tambien se excluyen.

29.9 Ejemplos
$RUN MCA
$FILES
DICTIN = CON.DIC
archivo Diccionario de entrada
DATAIN = CON.DAT
archivo Datos de entrada
$SETUP
EXCLUDE V7=9 OR V9=9 OR V12=9
VERIFICACION DE INTERACCIONES
BADD=SKIP
DEPV=(V52,90000) CONVARS=(V7,V9,V12)
DEPV=(V52,90000) CONVARS=R1
$RECODE
R7=V7-1
R9=BRAC(V9,1=0,3=1,5=2)
R1=COMBINE R7(2),R9(3),V12(2)

229

Captulo 30

An
alisis multivariado de variancia
(MANOVA)
30.1.

Descripci
on general

MANOVA hace analisis de variancia y covariancia univariado y multivariado, usando un modelo lineal
general. Se pueden usar hasta ocho factores (variables independientes). Si se especifica mas de una variable
dependiente, se hacen analisis univariados y multivariados. El programa acepta n
umeros iguales y desiguales
de casos en las celdas.
MANOVA es el u
nico programa de IDAMS para analisis multivariado de variancia. Se recomienda ONEWAY
para el analisis univariado de variancia. MCA maneja problemas univariados de m
ultiples factores. No tiene
limitaciones con relaci
on a celdas vacas, acepta mas de ocho predictores y permite mas de 80 celdas. Sin
embargo, el modelo b
asico de analisis de MCA es diferente del de MANOVA. Una diferencia importante es
que MCA no es sensible a los efectos de interacci
on.
Modelo jer
arquico de regresi
on. MANOVA usa aproximacion de la regresion al analisis de variancia.
De manera mas particular, el programa emplea un modelo jer
arquico. Hay una consecuencia importante
para el usuario: si una ejecuci
on de MANOVA involucra mas de una variable de factor y hay un n
umero
desproporcionado de casos en las celdas construidas por la clasificacion cruzada de los factores, entonces
se debe considerar el orden en el cual est
an especificadas las variables de factores. La desproporcion de los
n
umeros de casos en las subclases confunde los efectos principales y el investigador debe escoger el orden en
el cual se deben eliminar los efectos de confusi
on. Al usar MANOVA, esto se logra con el orden en el que se
especifican las variables de factor: cuando se usa orden est
andar, las primeras variables especificadas tienen
los efectos de las variables retiradas mas tarde, es decir, el primer efecto listado se probar
a con todos los
otros efectos principales eliminados. La regla general es que cada prueba elimina los efectos listados antes
en las especificaciones de nombre de prueba e ignora los efectos listados despues. Para un analisis est
andar
de dos entradas, el termino de interacci
on no se afecta con el orden de las variables de factor; de forma
general, para un analisis est
andar de n entradas, el termino de la n-esima interacci
on y solo ese termino, no
es afectado. El problema existe para ambos analisis, unvariado y multivariado.
Opci
on de contraste. Hay dos opciones disponibles para definir los contrastes (ver el par
ametro de factor
CONTRAST). Los contrastes nominales se generan por defecto; son las desviaciones acostumbradas de las
medias de fila y columna de la gran media y la generalizaci
on de las mismas para los contrastes de interacci
on.
El programa tambien puede generar contrastes de Helmert.
Aumento de la suma de cuadrados dentro de las celdas. Es posible aumentar la suma de cuadrados
dentro de las celdas (termino de error) usando los estimativos ortogonales (ver el par
ametro AUGMENT).
Esto permite usar el programa para cuadrados Latinos y para reunir los terminos de interacci
on con errores.
Reordenamiento y/o reuni
on de estimativos ortogonales. El programa tiene un ordenamiento convencional de estimativos de efectos ortogonales para uso est
andar (media, C, B, A, BxC, AxC, AxB, AxBxC
en dise
no con tres factores). Sin embargo los estimativos ortogonales se pueden disponer en otro orden (ver
el par
ametro REORDER). M
as a
un, es posible reunir varios estimativos ortogonales tales como terminos de
interacci
on para pruebas simult
aneas o fragmentar el c
umulo de estimativos ortogonales para un efecto dado

232

An
alisis multivariado de variancia (MANOVA)

en varios c
umulos mas peque
nos para hacer pruebas por separado (ver el par
ametro de nombre de prueba
DEGFR).

30.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. El filtro est
andar est
a disponible para escoger casos para ejecuci
on. Las
variables dependientes se escogen con el par
ametro DEPVARS y las covariadas con el par
ametro COVARS.
Las variables de factor se especifican con proposiciones especiales de factor.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode. N
otese que solamente se aceptan
valores enteros (positivos y negativos) para las variables usadas como factor.
Ponderaci
on de datos. No se aplica el uso de variables de ponderaci
on.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar datos faltantes. Se excluyen los casos con c
odigos de
datos faltantes en cualquiera de las variables de entrada (dependientes, covariadas, o de factor). Esto puede
resultar en muchos casos excluidos y constituye un problema potencial que debe considerarse cuando se
planee el analisis.

30.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables usadas en la ejecuci
on.
Medias de celda y enes (N). Para cada celda, se imprime N y la media para cada variable dependiente y
cada variable covariada. Las medias no se ajustan para ninguna variable covariada. Las celdas se etiquetan
consecutivamente comenzando con 1 1 (para un dise
no con 2 factores) sin importar los c
odigos actuales
de las variables de factor. Al indexar las celdas, los ndices del u
ltimo factor son los menores (de mas rapido
movimiento).
Basa de dise
no. Es la matriz de dise
no generada por el programa. Las ecuaciones de efectos est
an en
las columnas comenzando con el efecto de la media en la columna 1. Si se ha especificado REORDER, se
imprime la matriz despues del reordenamiento.
Intercorrelaciones entre los coeficientes de las ecuaciones normales.
Matriz de correlaci
on de errores. En un analisis multivariado de variancia, el termino de error es una
matriz variancia-covariancia. Este es el termino de error reducido a una matriz de correlaci
on (antes de
ajustar para las variables covariadas, si las hay).
Componentes principales de la matriz de correlaci
on de errores. Las componentes est
an en las
columnas. Son las componentes del termino de error del analisis (antes de ajustar para las variables covariadas, si las hay).
Matriz de dispersi
on de errores y errores est
andar de estimaci
on. Es el termino de error del analisis,
una matriz de variancia-covariancia. La matriz se ajusta para variables covariadas, si las hay. Cada elemento
de la diagonal de la matriz es exactamente el que aparecera en una tabla de analisis convencional de variancia
como el error interno cuadratico medio de la variable. Los grados de libertad se ajustan para aumento si
se solicita. Los errores est
andar de estimaci
on corresponden a las races cuadradas de los elementos de la
diagonal de la matriz.
Para an
alisis con variables covariadas
Matriz de dispersi
on de errores ajustada a las correlaciones. Es el termino del error, una matriz de
variancia-covariancia reducida a una matriz de correlaci
on, despues de ajustarla para variables covariadas.
Resumen del an
alisis de regresi
on.
Componentes principales de la matriz de correlaci
on de errores despu
es de ajustes de covariadas. Las componentes est
an en las columnas. Son las componentes del termino de error del analisis despues

30.4 Dataset de entrada

233

del ajuste para las variables covariadas.


Para an
alisis univariado
Una tabla anova. Grados de libertad, suma de cuadrados, medias cuadraticas y cocientes F.
Para an
alisis multivariado
Se imprimen los siguientes items para cada efecto. Se hacen ajustes para las variables covariadas, si las hay.
El orden de los efectos es exactamente opuesto al orden de las especificaciones de nombre de prueba.
Cociente F para el criterio de raz
on de semejanza. Se usa aproximacion de Rao. Es una prueba
multivariada del significado del efecto global para todas las variables dependientes simult
aneamente.
Variancias can
onicas de las componentes principales de la hip
otesis. Son las races o valores propios
de la matriz de hip
otesis.
Coeficientes de las componentes principales de la hip
otesis. Son las correlaciones entre las variables
y las componentes de la matriz de hip
otesis. El n
umero de componentes diferentes de cero para cualquier
efecto sera el mnimo de los grados de libertad y del n
umero de variables dependientes.
Puntajes de contraste de componentes para efectos estimados. Son los puntajes de la hipotesis de
contrastes usados en el dise
no. Son analogos a las medias de columna en un analisis univariado de variancia
y se pueden usar de la misma manera para ubicar variables y contrastes que producen desviaciones inusuales
de la hipotesis nula.
Pruebas acumulativas de Bartlett sobre las races. Es una prueba aproximada para las races restantes
despues de eliminar la primera, la segunda, la tercera, etc.
Cocientes F para pruebas univariadas. Son exactamente los cocientes F que se obtendran en un analisis
convencional de variancia.

30.4.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables deben ser numericas.
Las variables dependientes y covariadas deben medirse en escala de intervalo o deben ser una dicotoma. Las
variables de factor pueden ser nominales, ordinales o intervalos pero deben tener valores enteros; se usan
para designar la celda apropiada del caso.

234

An
alisis multivariado de variancia (MANOVA)

30.5.

Estructura del setup

$RUN MANOVA
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.

Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de factores
(tantas como sean necesarias; al menos se debe suministrar un factor)
5. Especificaciones de nombre de prueba
(tantas como sean necesarias;
al menos se debe suministrar un nombre de prueba)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
PRINT

30.6.

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-5, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE V2=1-4 AND V15=2

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

ANALISIS DE EDAD Y SALARIO CON SEXO Y PROFESION COMO FACTORES

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

DEPVARS=(V5,V8) COVA=(V101,V102)

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.

30.6 Proposiciones de control del programa

235

MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
DEPVARS=(lista de variables)
Una lista de variables a usar como variables dependientes
Sin valor por defecto.
COVARS=(lista de variables)
Una lista de variables para usar como covariadas.
AUGMENT=(m,n)
Para construir el termino de error, la suma interna de cuadrados se aumentar
a por las columnas
m, m+1, m+2,...,n de la matriz ortogonal de estimativos.
Por defecto: la suma interna de cuadrados se usara como termino de error.
REORDER=(lista de valores)
Reordena los estimativos ortogonales de acuerdo con la lista (ver par
agrafo Reordenamiento
y/o reuni
on de estimativos ortogonales atr
as). N
otese que si se solicita el reordenamiento de
estimativos, el orden de las especificaciones de nombre de prueba debe corresponder al nuevo
orden.
Ejemplo: el orden convencional de un dise
no de tres factores se puede cambiar por el orden: media,
A, B, C, AxB, AxC, BxC, AxBxC usando REORDER=(1,4,3,2,7,6,5,8).
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de factores (al menos se debe suministrar un factor). Se pueden especificar hasta
8 factores. Las reglas de codificacion son las mismas de los par
ametros. Cada especificaci
on de factor
debe comenzar en una nueva lnea.
Ejemplo:

FACTOR=(V3,1,2)

FACTOR=(n
umero de variable, lista de valores de c
odigo)
Variable a usar como factor, seguida por los valores de c
odigo que se deben usar para designar la
celda apropiada para el caso.
CONTRAST=NOMINAL/HELMERT
Especifica el tipo de contraste a usar en los c
alculos.
NOMI
Contrastes nominales. Medias de efectos desviadas de la gran media, i.e. M(1)-GM,
M(2)-GM, etc.
HELM
Contrastes de Helmer. Media de efecto desviada de la suma de medias desde 1 hasta
r, donde est
an involucrados r niveles.
5. Especificaciones de nombre de prueba (al menos se debe suministrar un nombre de prueba).
Estas especificaciones identifican las pruebas que se deben realizar. Deben estar en el orden correcto.
Ordinariamente, habr
a una especificaci
on para la gran media seguida de una especificaci
on de nombre
para cada efecto principal y una especificaci
on de nombre para cada interacci
on posible. Si se reordenan
los par
ametros de dise
no o se reagrupan los grados de libertad (ver los par
ametros REORDER y
DEGFR), las proposiciones de nombre de prueba deben hacerse de acuerdo con las modificaciones. Las

236

An
alisis multivariado de variancia (MANOVA)
reglas de codificacion son las mismas de los par
ametros. Cada especificaci
on de nombre de prueba debe
comenzar en una nueva lnea.
Ejemplo:

TESTNAME=gran media

TESTNAME=nombre de la prueba
Un nombre que tenga hasta 12 caracteres para la prueba que se va a realizar. Las comillas son
mandatorias si el nombre tiene caracteres no alfanumericos.
DEGFR=n
La agrupaci
on natural de grados de libertad (o de ecuaciones de par
ametros de hipotesis) se
presenta cuando se usa el orden convencional de pruebas estadsticas. DEGFR se usa solamente
para cambiar la agrupaci
on; por ejemplo, cuando se quieren reunir varios terminos de interacci
on
y probarlos simult
aneamente o para separar los grados de libertad de alg
un efecto en dos a mas
partes. Cuando se usa el par
ametro DEGFR, aseg
urese de usarlo en todos las proposiciones de
nombre de prueba, incluido un grado de libertad para la gran media.
Por defecto: se usa el agrupamiento natural de grados de libertad.

30.7.

Restricciones

1. El maximo n
umero de variables dependientes es 19.
2. El maximo n
umero de covariadas es 20.
3. El maximo n
umero de especificaciones de factor es 8.
4. El maximo n
umero de valores de c
odigo en una especificaci
on de factor es 10.
5. El maximo n
umero de celdas es 80.
6. Celdas con cero frecuencias, o solamente con un caso o con m
ultiples casos identicos a veces causan
problemas; la ejecuci
on puede terminar prematuramente o puede llegar hasta el final pero produce
cocientes F y otras estadsticas invalidas.

30.8.

Ejemplos

Ejemplo 1. Analisis univariado de variancia (V10 es la variables dependiente) con dos factores representados
con A con c
odigos 1,2,3 y B con c
odigos 21 y 31; se usaran contrastes normales en los c
alculos y se har
an
pruebas en el orden convencional.
$RUN MANOVA
$FILES
PRINT
= MANOVA1.LST
DICTIN = CM-NEW.DIC
DATAIN = CM-NEW.DAT
$SETUP
ANALISIS UNIVARIADO DE VARIANCIA
DEPVARS=v10
FACTOR=(V3,1,2,3)
FACTOR=(V8,21,31)
TESTNAME=gran media
TESTNAME=B
TESTNAME=A
TESTNAME=AB

archivo Diccionario de entrada


archivo Datos de entrada

Ejemplo 2. Analisis multivariado de variancia (V11-V14 son variables dependientes) con dos factores (sexo
codificado 1,2 y edad codificada 1,2,3); se usaran contrastes nominales en los c
alculos y se har
an pruebas
en un orden convencional.

30.8 Ejemplos

237

$RUN MANOVA
$FILES
los mismos del ejemplo 1
$SETUP
ANALISIS MULTIVARIADO DE VARIANCIA
DEPVARS=(v11-v14)
FACTOR=(V2,1,2)
FACTOR=(V5,1,2,3)
TESTNAME=gran media
TESTNAME=edad
TESTNAME=sexo
TESTNAME=sexo & edad
Ejemplo 3. Analisis multivariado de variancia (V11-V14 son variables dependientes) con tres factores (A
codificado 1,2, B codificado 1,2,3, C codificado 1,2,3,4); se usaran contrastes nominales en los c
alculos y se
har
an pruebas en orden modificado (media, A, B, AxB, C, AxC, BxC, AxBxC).
$RUN MANOVA
$FILES
los mismos del ejemplo 1
$SETUP
ANALISIS MULTIVARIADO DE VARIANCIA - PRUEBAS EN ORDEN MODIFICADO
DEPVARS=(v11-v14) REORDER=(1,4,3,7,2,6,5,8)
FACTOR=(V2,1,2)
FACTOR=(V5,1,2,3)
FACTOR=(V8,1,2,3,4)
TESTNAME=media
TESTNAME=A
TESTNAME=B
TESTNAME=AxB
TESTNAME=C
TESTNAME=AxC
TESTNAME=BxC
TESTNAME=AxBxC

Captulo 31

An
alisis de variancia de una entrada
(ONEWAY)
31.1.

Descripci
on general

ONEWAY es un programa para hacer analisis de variancia de una entrada. Se puede producir en una sola
ejecuci
on, un n
umero ilimitado de tablas, con parejas de variables dependientes e independientes. Cada
analisis puede hacerse con todos los casos o con un subconjunto de los mismos, tomado del archivo Datos; la
selecci
on de casos para un analisis, es independiente de la selecci
on para otros analisis. El termino variable
de control usado en ONEWAY es equivalente al termino variable independiente, predictor, o en la
terminologa del analisis de variancia, variable de tratamiento.
Una alternativa del programa ONEWAYE es el programa MCA cuando se ha especificado solo un predictor.
Este programa permite un c
odigo maximo de 2999 para la variable de control, mientras que ONEWAY
est
a limitado a un maximo de 99.

31.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Se puede utilizar el filtro est
andar para escoger un subconjunto de casos
del archivo de entrada. Este filtro afecta todos los analisis de una ejecuci
on. Adicionalmente, hay dos filtros
locales para una selecci
on independiente de subconjuntos de casos de datos para cada analisis. Si se usan
dos filtros locales, un caso debe satisfacerlos a los dos para ser incluido en el analisis. Las variables para
cada analisis se seleccionan con los par
ametros de tablas DEPVARS y CONVARS. Se produce una tabla
por separado para cada variable de la lista DEPVARS con cada variable de la lista CONVARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para un
caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Los casos con datos faltantes en la
variable dependiente, siempre se excluyen del analisis. Los casos con datos faltantes en la variable de control,
se pueden excluir opcionalmente (ver el par
ametro de tabla MDHANDLING).

31.3.

Resultados

Especificaciones de tabla. Se imprime una lista de especificaciones de tabla con una tabla de contenido
de los resultados.

240

An
alisis de variancia de una entrada (ONEWAY)

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Estadsticas descriptivas dentro de las categoras de la variable de control. Se imprimen estadsticas
intermedias en forma de tabla para cada c
odigo de la variable de control, con:
n
umero de casos validos (N) y suma de ponderaciones (redondeadas al entero mas cercano),
suma de ponderaciones como porcentaje de la suma total,
media, desviaci
on est
andar, coeficiente de variacion, suma y suma de cuadrados de la variable dependiente,
suma de la variable dependiente como un porcentaje de la suma total.
Se imprime una fila de totales para la tabla, con las sumas de todas las categoras de la variable de control
(excepto categoras con cero grados de libertad, las cuales se excluyen de los totales).
Estadsticas del an
alisis de variancia. Las categoras de la variable de control que tengan cero grados
de libertad, no se incluyen en el c
alculo de estas estadsticas. Para cada tabla, se imprimen las siguientes
estadsticas:
suma total de cuadrados de la variable dependiente,
eta y eta cuadrada (no ajustada y ajustada),
la suma de cuadrados entre grupos (suma de cuadrados entre medias) y la suma de cuadrados dentro
de grupos,
el cociente F (s
olo se imprime si los datos no son ponderados).

31.4.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables analizadas deben
ser numericas; pueden tener valores decimales o enteros.
Una variable dependiente debe medirse en una escala de intervalos o debe ser una dicotoma. Una variable de
control puede ser nominal, ordinal o de intervalo pero debe tener valores en el rango 0-99. Si, para cualquier
caso, la variable de control para un analisis, tiene un valor que excede este rango, el caso se elimina del
analisis; no se imprime ning
un mensaje al respecto. Si el valor de la variable de control tiene decimales, solo
se usa la parte entera (por ej. 1.1 y 1.6 se colocan ambas en el grupo 1); no se imprime ning
un mensaje al
respecto.

31.5 Estructura del setup

31.5.

241

Estructura del setup

$RUN ONEWAY
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.

Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de tablas (tantas como sean necesarias)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
PRINT

31.6.

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

EXCLUDE V3=9

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

DATOS DE EFECTOS DE ENTRENAMIENTO SOBRE JUGADORES DE FUTBOL

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.

242

An
alisis de variancia de una entrada (ONEWAY)

PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.

4. Especificaciones de tablas. Las reglas de codificacion son las mismas de los par
ametros. Cada
especificaci
on de tabla debe comenzar en una nueva lnea.
Ejemplos:

CONV=V6 DEPV=V26 WEIG=V3 F1=(V14,2,7) F2=(V13,1,1)


CONV=V5 DEPV=(V27-V29,V80)

DEPVARS=(lista de variables)
Una lista de variables a usar como variables dependientes
CONVARS=(lista de variables)
Una lista de variables a usar como variables de control.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en este conjunto de
tablas. Ver el captulo El archivo Setup de IDAMS.
MDHANDLING=DELETE/KEEP
DELE
Eliminar casos con datos faltantes en la variable de control.
KEEP
Incluir casos con datos faltantes en la variable de control.
Nota: los casos con datos faltantes en la variable dependiente, siempre se excluyen.
F1=(n
umero de variable, c
odigo mnimo valido, c
odigo maximo valido)
F1 se refiere a la primera variable de filtro que se usa para crear un subconjunto de los datos. El
n
umero de variable debe ser el n
umero de la variable de filtro; los casos para los cuales, el valor
de esta variable se encuentre en el rango mnimo-maximo, entran en la tabla. El valor mnimo
puede ser un entero negativo. El maximo debe ser menor que 99,999. Las cifras decimales deben
entrar en donde sea necesario.
F2=(n
umero de variable, c
odigo mnimo valido, c
odigo maximo valido)
F2 se refiere a la segunda variable de filtro. Si se especifica un segundo filtro, un caso debe satisfacer
los requisitos de ambos filtros para entrar en la tabla.

31.7.

Restricciones

1. El n
umero maximo de variables de control es 99. El n
umero maximo de variables dependientes es 99.
El n
umero total de variables a las cuales se puede acceder es 204, incluidas las variables usadas en
Recode.
2. ONEWAY usa variables de control dentro del rango 0-99. Si para cualquier caso, la variable de control
de un cierto analisis, se encuentra fuera de este rango, el caso se elimina de la tabla.
3. La maxima suma de ponderaciones es alrededor de 2,000,000,000.
4. El cociente F se imprime solo para datos sin ponderaci
on.

31.8 Ejemplos

31.8.

243

Ejemplos

Ejemplo 1. Tres analisis de variancia de una entrada, con V201 como variable de control y V204 como
variable dependiente; primero para todo el archivo, segundo para un subconjunto de casos con valores 1-3
para la variable V5 y tercero para un subconjunto de casos con valores 4-7 para la variable V5.
$RUN ONEWAY
$FILES
PRINT = ONEW1.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
ANALISIS DE VARIANCIA DE UNA ENTRADA DESCRITO SEPARADAMENTE
*
(valores por defecto para todos los par
ametros)
CONV=V201 DEPV=V204
CONV=V201 DEPV=V204 F1=(V5,1,3)
CONV=V201 DEPV=V204 F1=(V5,4,7)
Ejemplo 2. Generaci
on de un analisis de variancia de una entrada, para todas las combinaciones de las
variables de control V101, V102, V105 y V110, y las variables dependientes V17 a V21; los datos son
ponderados con la variable V3.
$RUN ONEWAY
$FILES
los mismos del ejemplo 1
$SETUP
GENERACION MASIVA DE ANALISIS DE VARIANCIA DE UNA ENTRADA
*
(valores por defecto para todos los par
ametros)
CONV=(V101,V102,V105,V110) DEPV=(V17-V21) WEIGHT=V3

Captulo 32

Puntajes basados en el orden parcial


de casos (POSCOR)
32.1.

Descripci
on general

POSCOR calcula puntajes (escala ordinal), con un procedimiento basado en la posicion jerarquica de los
elementos de un conjunto parcialmente ordenado de acuerdo con un n
umero de propiedades (o caractersticas). Los puntajes, calculados separadamente para cada elemento del conjunto, se llevan a un archivo de
salida descrito por un diccionario IDAMS. Este dataset se puede utilizar despues, como entrada para otros
programas.
Al utilizar el par
ametro ORDER, se pueden calcular : (1) cuatro tipos de puntajes donde los c
alculos se
basan en la proporci
on de casos dominados por el caso examinado, (2) los otros cuatro donde los c
alculos se
basan en la proporci
on de casos que dominan al caso examinado. El rango de los puntajes se determina con
el par
ametro SCALE. S
olo se pueden esperar puntajes con sentido, cuando el n
umero de casos involucrados
es mucho mas grande que el n
umero de variables especificadas.
En aplicaciones con variables de importancia no uniforme, se puede definir una lista de prioridades con el
par
ametro de analisis LEVEL en el ordenamiento parcial. Si las variables con prioridad mas alta determinan
sin ambig
uedad la relaci
on entre dos casos, entonces no se consideran las variables con prioridades mas bajas.
En el caso especial en el cual solo se utiliza una variable de analisis, los valores transformados corresponden
a sus probabilidades (ver las opciones ORDER=ASEA/DEEA/ASCA/DESA).
En un analisis, se puede examinar una serie de conjuntos mutuamente excluyentes con la facilidad de subconjunto. En esta oportunidad, se calculan las variables de puntaje dentro de cada subconjunto de casos.

32.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Se puede utilizar el filtro est
andar para la selecci
on de casos en una
ejecuci
on. Tambien existe la opci
on de obtener subconjuntos de casos en cada analisis. Las variables que
se van a transferir al archivo de salida se escogen con el par
ametro TRANSVARS. Las variables para cada
analisis, se eligen con las especificaciones de analisis.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode. N
otese que el programa solo utiliza
la parte entera de las variables recodificadas, es decir, las variables recodificadas se redondean al entero mas
proximo.
Ponderaci
on de datos. No se aplica el uso de variables de ponderaci
on.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores de
datos faltantes, si los hay, se usaran para verificar los datos faltantes. El par
ametro MDHANDLING indica
si variables o casos con datos faltantes se deben excluir de un analisis.

246

Puntajes basados en el orden parcial de casos (POSCOR)

32.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Diccionario de salida. (Opcional: ver el par
ametro PRINT).

32.4.

Dataset de salida

El archivo de salida contiene los puntajes calculados junto con las variables transferidas, y opcionalmente,
las variables de analisis para cada caso usado en el analisis (es decir, todos los casos que pasan el filtro y no
excluidos con el uso de la opci
on de datos faltantes. Tambien se produce un diccionario asociado IDAMS de
salida.
Las variables de salida tienen las caractersticas descritas abajo, se numeran secuencialmente a partir de 1 y
en el orden siguiente:
Variables de an
alisis y de subconjunto (condicional: solo si AUTR=YES). Las variables V tienen las
mismas caractersticas que sus equivalentes de entrada. Las variables de Recode salen con WIDTH=7
y DEC=0.
Variable identificadora de casos y variables transferidas. Las variables V tienen las mismas caractersticas que su equivalente de entrada. Las variables de Recode salen con WIDTH=7 y DEC=0.
Variables calculadas de puntajes.
Para ORDER=ASEA/DEEA/ASCA/DESA, una variable para cada analisis con:
nombre
ancho de campo
n
umero de decimales
MD1
MD2

especificado
especificado
0
especificado
especificado

por ANAME
por FSIZE

(por defecto: blanco)


(por defecto: 5)

por OMD1
por OMD2

(por defecto: 99999)


(por defecto: 99999)

Para ORDER=ASER/DESR/ASCR/DEER, dos variables para cada analisis con nombres especificados por los par
ametros ANAME y DNAME respectivamente y otras caractersticas tales como las
mencionadas anteriormente.
Nota. Si un analisis se repite para varios subconjuntos de casos mutuamente excluyentes, la variable de
puntaje se calcula para los casos en cada subconjunto a su vez. Si un caso no se encuentra en uno de los
subconjuntos definidos para el analisis, entonces sus valores de la(s) variable(s) de puntaje se colocan en el
valor del c
odigo MD1.

32.5.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Por las variables del analisis solo se
usan n
umeros enteros. Notar que los valores decimales se redondean al entero mas proximo. La variable de
identificacion de casos y las variables a ser transferidas pueden ser alfabeticas.

32.6 Estructura del setup

32.6.

247

Estructura del setup

$RUN POSCOR
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
6.

Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de subconjuntos (opcional)
POSCOR
Especificaciones de an
alisis (tantas como sean necesarias)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT

32.7.

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
diccionario de salida
datos de salida
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3 y 6 a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE V2=1-4

AND V15=2

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

ESCALAMIENTO DE LAS VARIABLES RU DE ENTRADA

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

MDHAND=CASES TRAN=V5

IDVAR=R6

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.

248

Puntajes basados en el orden parcial de casos (POSCOR)

MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
MDHANDLING=VARS/CASES
Tratamiento de datos faltantes.
VARS
Se excluyen de la comparaci
on las variables con valores de datos faltantes.
CASE
Se excluyen del analisis los casos con valores de datos faltantes.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
IDVAR=n
umero de variable
Variable a ser transferida al dataset de salida para la identificacion de casos.
Sin valor por defecto.
TRANSVARS=(lista de variables)
Se pueden transferir variables adicionales (hasta 99) al dataset de salida. Esta lista no puede
incluir variables de analisis o variables utilizadas en las especificaciones de subconjuntos. Estas se
transfieren autom
aticamente con el par
ametro AUTR.
AUTR=YES/NO
YES
Se transfieren al dataset de salida en forma autom
atica, las variables de analisis y las
variables utilizadas en la especificaci
on de subconjuntos.
NO
No se transfieren las variables de analisis ni las de subconjuntos.
FSIZE=5/n
Ancho de campo de las variables (puntajes) calculadas.
SCALE=100/n
Valor (factor de escala) que especifica el rango (0 - n) de los puntajes calculados.
OMD1=99999/n
Valor del primer c
odigo de datos faltantes para las variables (puntajes) calculadas.
OMD2=99999/n
Valor del segundo c
odigo de datos faltantes para las variables (puntajes) calculadas.
PRINT=(CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTD
Imprimir el diccionario de salida sin registros C.
OUTC
Imprimir el diccionario de salida con registros C, si los hay.
NOOU
No imprimir el diccionario de salida.
4. Especificaciones de subconjuntos (opcional). Aqu se especifican subconjuntos de casos mutuamente excluyentes para un analisis en particular.
Ejemplo:

EDAD

INCLUDE V5=15-20,21-45,46-64

32.7 Proposiciones de control del programa

249

Reglas de codificaci
on
Prototipo: nombre

proposicion

nombre
Nombre del subconjunto. 1-8 caracteres alfanumericos comenzando con una letra. Este nombre
debe coincidir exactamente con el nombre usado en las especificaciones de analisis subsecuentes.
Blancos intercalados no se permiten. Se recomienda que todos los nombres se justifiquen a la
izquierda.
proposicion
Definici
on del subconjunto.
Comenzar con la palabra INCLUDE.
Especificar el n
umero de variable (variable V o R) sobre la cual se basan los subconjuntos
(no se permiten variables alfabeticas).
Especificar valores y/o rangos de valores separados por comas. Cada valor o rango define
un subconjunto. Las comas separan los subconjuntos. Los rangos negativos deben estar en
secuencia numerica, por ej. -4 - -2 (para -4 a -2); -2 - 5 (para -2 a +5). Los subconjuntos
deben ser mutuamente excluyentes (es decir, los mismos valores no pueden aparecer en dos
rangos). En el ejemplo anterior, se definen 3 subconjuntos basados en el valor de V5 para la
especificaci
on del subconjunto EDAD.
Colocar un gui
on al final de una lnea para continuar en la lnea siguiente.
5. POSCOR. La palabra POSCOR en esta lnea, indica que a continuacion vienen especificaciones de
analisis. Debe incluirse (para separar las especificaciones de subconjuntos de las de analisis) y solo debe
aparecer una vez.
6. Especificaciones de an
alisis. Las reglas de codificacion son las mismas de los par
ametros. Cada
especificaci
on de analisis debe comenzar en una nueva lnea.
Ejemplo:

ORDER=ASER ANAME=MSDCORE DNAME=DOWNSCORE VARS=(V3-V6) LEVELS=(1,1,2,2)

VARS=(lista de variables)
Las variable V y/o R a usar en el analisis.
Sin valor por defecto.
ORDER=ASEA/DEEA/ASCA/DESA/ASER/DESR/ASCR/DEER
Especifica el tipo de puntaje a calcular.
El puntaje se basa en:
ASEA
DEEA
ASCA
DESA

ASER/DESR
ASER
DESR

casos mejores o iguales/dominantes


casos peores o iguales/dominados
casos definitivamente mejores/dominantes definitivamente
casos definitivamente peores/dominados definitivamente
con relaci
on al n
umero total de casos

casos mejores o iguales/dominantes


casos definitivamente peores/dominados definitivamente
con relaci
on al n
umero de casos comparables

ASCR/DEER
ASCR
casos definitivamente mejores/dominantes definitivamente
DEER
casos peores o iguales/dominados
con relaci
on al n
umero de casos comparables
Nota. En los dos u
ltimos casos, los puntajes se calculan con cualquier selecci
on. La suma de ellos es
igual al valor especificado en el par
ametro SCALE.

250

Puntajes basados en el orden parcial de casos (POSCOR)


SUBSET=xxxxxxxx
Especifica el nombre de la especificaci
on de subconjunto a usar, si lo hay. Si el nombre contiene caracteres no alfanumericos, debe encerrarse entre comillas sencillas. Se deben usar letras
may
usculas para hacer encajar el nombre en la especificacion de subconjuntos el cual se convierte
autom
aticamente a may
usculas.
LEVELS=(1, 1,..., 1) / (N1,N2,N3,...,Nk)
k es el n
umero de variables utilizadas en la lista de variables de analisis. Ni define el orden de
prioridad de la variable i-esima de la lista de variables involucradas en el ordenamiento parcial.
Un valor mas alto implica una prioridad mas baja. Los valores de prioridad deben especificarse en
la misma secuencia de las correspondientes variables en la lista de variables de analisis. El valor
de 1 por defecto, implica que todas las variables tienen la misma prioridad.
ANAME=nombre
Un nombre del puntaje ascendente, que contenga hasta 24 caracteres. Las comillas sencillas son
obligatorias si el nombre contiene caracteres no alfanumericos.
Por defecto: blancos.
DNAME=nombre
Un nombre del puntaje descendente, que contenga hasta 24 caracteres. Las comillas sencillas son
obligatorias si el nombre contiene caracteres no alfanumericos.
Por defecto: blancos.

32.8.

Restricciones

1. El valor de las variables de analisis debe estar en el rango -32,767 a +32,767.


2. En el par
ametro LEVEL, los componentes de la lista de prioridades deben ser enteros positivos dentro
del rango 1 a 32,767.
3. N
umero maximo de analisis es 10.
4. N
umero maximo de variables a ser transferidas es 99.
5. Una variable se puede utilizar solamente una vez, as sea una variable identificadora, en una lista de
analisis o en una lista de transferencia. Si se necesita usar la misma variable dos veces, entonces debe
recodificarse previamente para obtener una copia de la misma variable con un n
umero diferente de
variable (de resultado).
6. El n
umero maximo de variables utilizadas en analisis, en las especificaciones de subconjuntos y en la
lista de transferencia es 100 (incluye variables V y R).
7. El n
umero maximo de especificaciones de subconjunto es 10.
8. Si la variable de identificaci
on o una variable a ser transferida es alfabetica con ancho > 4, solo se usan
los primeros cuatro caracteres.
9. Aunque no hay lmite para el n
umero de casos procesados, n
otese que el tiempo usado para ejecuci
on
crece como una funci
on cuadratica del n
umero de casos analizados.

32.9.

Ejemplos

Ejemplo 1. Calculo de dos puntajes con las mismas variables V10, V12, V35 a V40; el primer puntaje
se calculara para todo el archivo, el segundo puntaje sera calculado separadamente para tres subconjuntos
(para valores 1, 2 y 3 de la variable V7); los casos con datos faltantes se excluyen del analisis; ambos puntajes
se basan en los casos dominados estrictamente con relacion al n
umero de casos comparables; los casos se
identifican con las variables V2 y V4, las cuales se transferir
an al archivo de salida. N
otese que Recode se
utiliza para hacer una copia de las variables ya que una restriccion del programa significa que una variable
puede usarse una vez solamente.

32.9 Ejemplos

251

$RUN POSCOR
$FILES
PRINT
= POSCOR1.LST
DICTIN = PREF.DIC
archivo Diccionario de entrada
DATAIN = PREF.DAT
archivo Datos de entrada
DICTOUT = SCORES.DIC
archivo Diccionario de salida
DATAOUT = SCORES.DAT
archivo Datos de salida
$SETUP
CALCULO DE DOS PUNTAJES
MDHAND=CASES IDVAR=V2 TRANSVARS=V4
TYPE
INCLUDE V7=1,2,3
POSCOR
ORDER=DESR ANAME=PUNTAJE CREC. GLOBAL DNAME=PUNTAJE DECR. GLOBAL VARS=(V10,V12,V35-V40)
ORDER=DESR ANAME=PUNTAJE AJUSTADO CREC. DNAME=PUNTAJE AJUSTADO DECR.
SUBS=TYPE VARS=(R10,R12,R35-R40)
$RECODE
R10=V10
R12=V12
R35=V35
R36=V36
R37=V37
R38=V38
R39=V39
R40=V40
Ejemplo 2. C
alculo de tres puntajes basados en casos dominantes con relacion al n
umero total de casos;
las variables de analisis no se transferir
an al dataset de salida; las variables con datos faltantes se excluyen
de la comparaci
on; las variables para identificacion de casos V1 y V5, se transfieren al dataset de salida.
$RUN POSCOR
$FILES
los mismos del ejemplo 1
$SETUP
CALCULO DE TRES PUNTAJES
AUTR=NO IDVAR=V1 TRANSVARS=V5
POSCOR
ORDER=ASEA ANAME=PUNT.1
CREC
ORDER=ASEA ANAME=PUNT.2
CREC
ORDER=ASEA ANAME=PUNT.3
CREC

VARS=(V11,V17,V55-V60)
VARS=(V108-V110,V114,V116,V118,V120)
VARS=(V22,V33,V101-V105)

Captulo 33

Correlaci
on de Pearson (PEARSON)
33.1.

Descripci
on general

PEARSON calcula e imprime matrices de coeficientes de correlaci


on r de Pearson y covariancias para todos
los pares de variables en una lista (opci
on de matriz cuadrada) o para cada pareja de variables formada al
tomar una variable de cada dos listas de variables (opcion de matriz rectangular).
Se puede especificar la eliminacion de datos faltantes por pares o por casos.
PEARSON se puede utilizar tambien para obtener una matriz de correlaci
on, la cual puede ser posteriormente
leida por los programas REGRESSN o MDSCAL. Aunque REGRESSN puede calcular su propia matriz de
correlaci
on, su opci
on de manejo de datos faltantes solo puede eliminar por casos. En contraste, PEARSON
puede generar una matriz con el uso de un algoritmo de eliminacion por pares para datos faltantes.

33.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Se puede utilizar el filtro est
andar para la selecci
on de un subconjunto
de casos de los datos de entrada. Las variables para las cuales se desea la correlaci
on se especifican con los
par
ametros ROWVARS y COLVARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para un
caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores de
datos faltantes, si los hay, se usaran para verificar los datos faltantes. Se calculan las estadsticas univariadas
para cada variable a partir de los casos que tengan datos validos (no faltantes) para la variable.
Datos faltantes: eliminaci
on por pares. Las estadsticas por pares y el coeficiente de correlaci
on, se
pueden calcular de los casos que tengan datos validos para ambas variables (MDHANDLING=PAIR). As,
un caso se puede utilizar en los c
alculos para algunos pares de variables y no usarse para otros. Este metodo
de manejo de datos faltantes se llama algoritmo de eliminacion por pares. Nota: si hay datos faltantes, se
pueden calcular coeficientes de correlaci
on individuales para diferentes subconjuntos de datos. Si hay muchos
datos faltantes, se pueden presentar inconsistencias internas en la matriz de correlaci
on, las cuales pueden
causar dificultades en analisis multivariados posteriores.

254

Correlaci
on de Pearson (PEARSON)

Datos faltantes: eliminaci


on por casos. El programa puede tambien recibir la instruccion (MDHANDLING=CASE) para calcular estadsticas pareadas y correlaciones a partir de los casos que tengan datos
validos en todas las variables de la lista de variables. De esta manera, un caso se usa en el c
alculo para
todos los pares de variables o no se usa. Este metodo de manejar los datos faltantes se llama algoritmo de
eliminacion por casos (tambien se encuentra en el programa REGRESSN) y solo se aplica a la opcion de
matriz cuadrada.

33.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Opci
on de matriz cuadrada
Estadsticas pareadas. (Opcional: ver el par
ametro PRINT). Para cada par de variables de la lista, se
imprime la siguiente informaci
on:
n
umero de casos validos (o suma ponderada de casos),
media y desviaci
on est
andar de la variable X,
media y desviaci
on est
andar de la variable Y,
prueba T para el coeficiente de correlaci
on,
coeficiente de correlaci
on.
Estadsticas univariadas. Para cada variable de la lista, se imprime la siguiente informacion:
n
umero de casos validos y suma de ponderaciones,
suma de puntajes y suma de puntajes cuadrados,
media y desviaci
on est
andar.
Coeficientes de regresi
on para puntajes primarios. (Opcional: ver el par
ametro PRINT). Para cada
par de variables x, y se imprimen los coeficientes de regresion a y c y los terminos constantes b y d de las
ecuaciones de regresion x=ay+b y y=cx+d.
Matriz de correlaci
on. (Opcional: ver el par
ametro PRINT). Se imprime el triangulo inferior izquierdo
de la matriz.
Matriz de productos cruzados. (Opcional: ver el par
ametro PRINT). Se imprime el triangulo inferior
izquierdo de la matriz.
Matriz de covariancia. (Opcional: ver el par
ametro PRINT). Se imprime el triangulo inferior izquierdo
de la matriz con su diagonal.
En cada una de las tablas anteriores, se imprime por p
agina, un maximo de 11 columnas y 27 filas.
Opci
on de matriz rectangular
Tabla de frecuencias de variables. N
umero de casos validos para cada par de variables.
Tabla de valores de la media para las variables de columnas. Se calculan y se imprimen las medias
para cada variable de columna en los casos que son validos, a su turno, para cada variable de fila.
Tabla de desviaciones est
andar para variables de columnas. Igual que para las medias.
Matriz de correlaci
on. (Opcional: ver el par
ametro PRINT). Coeficientes de correlaci
on para todos los
pares de variables.
Matriz de covariancia. (Opcional: ver el par
ametro PRINT). Covariancias para todos los pares de variables.
En cada una de las tablas anteriores, se imprime por p
agina, un maximo de 8 columnas y 50 filas.
Nota: si un par de variables no tiene casos validos, se escribe 0.0 para la media, desviacion est
andar, correlacion y covariancia.

33.4 Matrices de salida

33.4.

255

Matrices de salida

Matriz de correlaci
on
Cuando se especifica el par
ametro WRITE=CORR, se produce la matriz de correlaci
on, en la forma est
andar
de una matriz cuadrada IDAMS. El formato de las correlaciones es 8F9.6; el formato para la media y la
desviacion est
andar es 5E14.7. Las columnas 73-80, se utilizan para identificar los registros.
La matriz contiene correlaciones, medias y desviaciones est
andar. Las medias y las desviaciones est
andar
est
an sin parear. Los registros de diccionario que produce PEARSON, tienen n
umeros y nombres de variable
del diccionario de entrada y/o de proposiciones de Recode. El orden de las variables lo determina el orden
de las mismas en la lista.
PEARSON puede generar correlaciones iguales a 99.999901, y medias y desviaciones est
andar iguales a 0.0
cuando los valores calculados carezcan de sentido. Razones tpicas de esto pueden ser por ejemplo, que se
hayan eliminado todos los casos debido a datos faltantes o una de las variables tuvo un valor constante.
N
otese que MDSCAL no acepta estos valores faltantes y REGRESSN s.
Matriz de covariancia
Cuando se especifica el par
ametro WRITE=COVA, se produce la matriz de covariancia, sin la diagonal, en
la forma de una matriz cuadrada est
andar de IDAMS.

33.5.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del analisis deben
ser numericas; pueden tener valores enteros o decimales.

33.6.

Estructura del setup

$RUN PEARSON
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
FT02
DICTxxxx
DATAxxxx
PRINT

matrices de salida si se especifica el par


ametro WRITE
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)

256

Correlaci
on de Pearson (PEARSON)

33.7.

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE V2=11-15,60 OR

V3=9

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

PRIMERA CORRIDA DE PEARSON - ABRIL 27

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

WRITE=CORR,

PRINT=(CORR,COVA) ROWV=(V1,V3-V6,R47,V25)

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MATRIX=SQUARE/RECTANGULAR
SQUA
Calcular coeficientes de correlaci
on de Pearson para todos los pares de variables de la
lista en ROWV.
RECT
Calcular los coeficientes de correlaci
on de Pearson para cada par de variables formado
al tomar una variable de cada una de las dos listas en ROWV y COLV.
ROWVARS=(lista de variables)
Una lista de variables V o R a correlacionar (MATRIX=SQUARE) o la lista de variables de fila
(MATRIX=RECTANGULAR).
Sin valor por defecto.
COLVARS=(lista de variables)
(Solo MATRIX=RECTANGULAR).
Una lista de variables V o R a usar como variables de columna. Se escriben 8 columnas por
p
agina; si las listas de variables de columna o de fila tienen menos de 8 variables, es preferible
(para facilidad de lectura del listado) tener la lista corta como la lista de variables de columna.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
MDHANDLING=PAIR/CASE
Metodo para el manejo de datos faltantes.
PAIR
Eliminacion por pares.
CASE
Eliminacion por casos (no disponible con MATRIX=RECTANG).
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.

33.8 Restricciones

257

WRITE=(CORR, COVA)
S
olo MATRIX=SQUARE.
CORR
Escribir en un archivo de salida, la matriz de correlaci
on con medias y desviaciones
est
andar.
COVA
Escribir en un archivo de salida, la matriz de covariancia con medias y desviaciones
est
andar.
PRINT=(CDICT/DICT, CORR/NOCORR, COVA, PAIR, REGR, XPRODUCTS)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
CORR
Imprimir la matriz de correlaci
on.
COVA
Imprimir la matriz de covariancia.
PAIR
Imprimir estadsticas pareadas (solo MATRIX=SQUARE).
REGR
Imprimir los coeficientes de regresion (solo MATRIX=SQUARE).
XPRO
Imprimir la matriz de productos cruzados (solo MATRIX=SQUARE).

33.8.

Restricciones

Cuando se especifica MATRIX=SQUARE


1. El n
umero maximo de variables permitido en una ejecuci
on es 200. Este lmite incluye todas las variables
de analisis y variables usadas en proposiciones Recode.
2. Los n
umeros de las variables recodificadas no pueden exceder de 999 si se especifica el par
ametro
WRITE. (Salen como n
umeros negativos en la parte descriptiva de la matriz, la cual solo tiene cuatro
columnas reservadas para el n
umero de variable, por ej. R862 saldra como -862).
Cuando se especifica MATRIX=RECTANGULAR
1. El n
umero maximo de variables en la lista para filas o columnas es 100.
2. El maximo total variables de filas, columnas, variables usadas en Recode y variable de ponderaci
on es
136.

33.9.

Ejemplos

Ejemplo 1. C
alculo de una matriz cuadrada de coeficientes de correlaci
on de Pearson, con eliminacion de
casos con datos faltantes por pares; la matriz se escribira en un archivo de salida y se imprimira.
$RUN PEARSON
$FILES
PRINT = PEARS1.LST
FT02
= BIRDCOR.MAT
archivo Matriz de salida
DICTIN = BIRD.DIC
archivo Diccionario de entrada
DATAIN = BIRD.DAT
archivo Datos de entrada
$SETUP
MATRIZ DE COEFICIENTES DE CORRELACION
PRINT=(PAIR,REGR,CORR) WRITE=CORR ROWV=(V18-V21,V36,V55-V61)

258

Correlaci
on de Pearson (PEARSON)

Ejemplo 2. Calculo de coeficientes de correlaci


on de Pearson para las variables V10-V20, con las variables
V5-V6.
$RUN PEARSON
$FILES
DICTIN = BIRD.DIC
archivo Diccionario de entrada
DATAIN = BIRD.DAT
archivo Datos de entrada
$SETUP
COEFICIENTES DE CORRELACION
MATRIX=RECT ROWV=(V10-V20) COLV=(V5-V6)

Captulo 34

Ordenamiento de alternativas
(RANK)
34.1.

Descripci
on general

RANK ofrece un ordenamiento razonable de alternativas, utilizando datos preferenciales como entrada y
tres procedimientos de categorizaci
on, uno basado en la l
ogica clasica (el metodo ELECTRE) y otros dos
basados en logica difusa. Los dos metodos se diferencian esencialmente en la manera de construir las matrices
relacionales. Con rangos difusos, los datos determinan completamente el resultado mientras que con el
ordenamiento por el metodo cl
asico, el usuario, basado en los conceptos de la logica clasica, tiene la posibilidad
de controlar el c
alculo de las relaciones que est
an por encima de las alternativas.
El m
etodo ELECTRE (l
ogica cl
asica) implementado en RANK, en un primer paso, utiliza los datos
preferenciales de entrada para calcular una matriz final que expresa la opinion total colectiva acerca de
la dominancia entre las alternativas, la estructura de relacion no corresponde necesariamente a un ordenamiento lineal o parcial. La relaci
on de dominancia para cada par de alternativas se controla por las
condiciones de concordancia y discordancia establecidas por el usuario. Se pueden obtener diferentes
relaciones estructurales a partir de los mismos datos al cambiar los par
ametros de analisis. En el segundo
paso, el procedimiento busca una secuencia de capas (o n
ucleos) de alternativas no dominadas. El primer
n
ucleo consiste en las alternativas de mas alto rango en todo el conjunto considerado. Debe notarse que en
ciertos casos puede que no existan mas n
ucleos, debido a bucles dentro de la relacion. Esto puede ser verdad
a
un en el nivel mas alto.
El primer m
etodo difuso (capas no dominadas) se desarroll
o originalmente para resolver problemas
de toma de decisiones con informaci
on difusa. Este metodo permite encontrar una secuencia de n
ucleos de
alternativas no dominados dentro de una estructura de preferencia difusa, la cual no representa necesariamente un orden (total) lineal. Los n
ucleos subsiguientes son aquellos grupos de alternativas que tengan el
rango mas alto dentro las alternativas que no pertenezcan a los n
ucleos previos de nivel mas alto. El primer
n
ucleo comprende las alternativas de rango mas alto dentro todo el conjunto considerado.
El segundo m
etodo difuso (rangos) trata de encontar la credibilidad de frases como la j-esima alternativa est
a exactamente en la posicion p-esima dentro el orden por rangos. Los resultados son claros en el caso
de una relaci
on lineal (total) en los datos; de lo contrario, se debe tener cuidado al interpretar los resultados. El proceso de optimizacion, desarrollado para manejar el caso general (normalizado o no-normalizado),
permite al usuario decidir si debe normalizar o no la matriz relacional difusa antes del proceso de rangos
(ver opcion NORM). Despues de la normalizaci
on se necesita un proceso cuidadoso de interpretaci
on de los
resultados. Usualmente datos incompletos resultan en una matriz relacional no-normalizada, especialmente
cuando se usa DATA=RAWC y el n
umero seleccionado de alternativas en respuestas individuales es mas
peque
no que el n
umero de alternativas posibles. Aunque una matriz no-normalizada produce resultados en
los cuales el nivel de incertidumbre es mas alto, puede suministrar un cuadro mas realista acerca de la
relacion latente que determina los datos; en verdad la normalizaci
on se puede interpretar como una clase de
extrapolaci
on.

260

Ordenamiento de alternativas (RANK)

Se pueden especificar dos tipos de relaci


on individual preferencial (estricta o debil), en caso de que
los datos que representen una selecci
on de alternativas y en caso de que los datos representen alternativas
por rangos.
1. Datos que representan una selecci
on de alternativas.
Preferencia estricta: se considera que cada alternativa seleccionada tiene un u
nico rango (diferente) y a las no seleccionadas se les asigna el mismo rango mas bajo.
Preferencia d
ebil: se considera que todas las alternativas seleccionadas tienen un mismo rango
com
un, el cual es mas alto que el rango de las no seleccionadas.
2. Datos que representan una ordenaci
on de alternativas por rango.
Preferencia estricta: se considera que todas las alternativas con rangos tienen diferentes
valores y las relaciones entre las alternativas del mismo rango se excluyen de los c
alculos de la
relacion de preferencia global entre las alternativas.
Preferencia d
ebil: en los c
alculos se tienen en cuenta las alternativas con el mismo rango.

34.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Se puede usar el filtro est
andar para escoger un subconjunto de casos de
los datos de entrada y se usa el par
ametro VARS para seleccionar las variables.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode. N
otese que el programa solo utiliza
la parte entera de las variables recodificadas, es decir que estas variables se redondean al entero mas proximo.
Ponderaci
on de datos. Los datos se pueden ponderar con valores enteros. N
otese que los valores ponderados
se redondean al entero mas proximo. Cuando el valor de la variable de ponderaci
on para un caso es cero,
negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero de casos
as tratados.
Tratamiento de datos faltantes. Se puede usar el par
ametro MDVALUES para indicar cuales valores de
datos faltantes se van a usar para la verificacion de los datos faltantes. Para DATA=RAWC, las variables
con datos faltantes se saltan; para DATA=RANKS, los valores faltantes se sustituyen con el rango mas bajo.

34.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Datos inv
alidos. Mensajes acerca de los datos incorrectos (rechazados).
M
etodos basados en la l
ogica difusa (METHOD=NOND/RANKS)
Matriz de relaciones. Se imprime por filas una matriz cuadrada que representa la relacion difusa. Si las
filas tienen mas de 10 elementos, se contin
ua en la(s) lnea(s) siguiente(s).
Descripci
on de las relaciones. Despues de imprimir el tipo de relacion, se imprimen tres medidas que
caracterizan de manera concisa la relaci
on, a saber: ndice de coherencia absoluta, ndice de intensidad e
ndice de dominacion absoluta.
Resultados del an
alisis. Los resultados se presentan de manera diferente para cada metodo.
Para METHOD=NOND los n
ucleos se imprimen secuencialmente a partir del rango mas alto y para cada
uno de ellos se suministra la siguiente informacion:
su n
umero secuencial con nivel de certeza,
los c
odigos y los nombres de alternativas o los n
umeros y nombres de variables (hasta 8 caracteres),
los valores de la funci
on de pertenencia de las alternativas, indicando que tan fuertemente est
an ligadas
al n
ucleo; los valores de pertenencia de alternativas que pertenecen a n
ucleos anteriores se sustituyen
por asteriscos,

34.4 Dataset de entrada

261

lista de alternativas que pertenecen al n


ucleo con el valor de pertenencia mas alto (alternativas con
mayor credibilidad).
Para METHOD=RANKS se imprime primero la matriz relacional normalizada si se solicito antes la normalizaci
on. Despues se imprimen los resultados, de dos maneras para una interepretacion mas facil.
1. Se imprimen secuencialmente todas las alternativas con la siguiente informacion para cada una:
c
odigo y nombre de la alternativa o n
umero y nombre de variable,
los valores de la funci
on de pertenencia de la alternativa, indicando que tan fuertemente est
a conectada con cada rango,
la lista del rango o de los rangos de mayor credibilidad para esta alternativa.
2. Se imprimen todos los rangos secuencialmente con la siguiente informacion para cada uno:
n
umero de rango,
c
odigos y nombres de las alternativas o n
umeros y nombres de variables,
los valores de la funci
on de pertenencia de la alternativas, indicando que tan fuertemente est
an
conectadas con ese rango,
la lista de la(s) alternativa(s) de mayor credibilidad para ese rango.
M
etodo basado en la l
ogica cl
asica (METHOD=CLAS)
Resultado del an
alisis. Se imprimen, para cada estructura relacional de dominancia final que resulta
de un analisis, las diferencias de rangos y las proporciones mnimo/maximo de poblacion especificadas por
el usuario, seguidas de la lista de n
ucleos sucesivos no-dominados (identificados por su n
umero secuencial)
con las alternativas que les pertenecen.
Nota. Las alternativas se titulan con los 8 primeros caracteres del nombre de la variable para DATA=RANKS
o con los 8 caracteres del nombre de c
odigo (si hay registros C en el diccionario) para DATA=RAWC.

34.4.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del analisis deben
tener valores enteros positivos. N
otese que las variables con valores decimales, se redondean al entero mas
proximo.
Las preferencias se pueden presentar de dos maneras en los datos. En la siguiente ilustraci
on se muestra
como hacerlo.
Supongamos que se han recolectado datos acerca de las preferencias de los empleados sobre varios factores
relacionados con su trabajo:
Oficina individual
Salario alto
Vacaciones largas
Supervision mnima
Compatibilidad entre colegas
Las dos maneras de representar esto en un cuestionario son:
1. DATA=RAWC
En este caso, los factores se codifican (1 a 5) y se solicita al encuestado se
nalarlos en el orden de su
preferencia. Las variables en los datos representaran los rangos:
V6 Factor m
as importante
V7 Segundo factor m
as importante
.
.
V10 Factor menos importante

262

Ordenamiento de alternativas (RANK)


y los c
odigos asignados a cada una de estas variables por un encuestado representaran los factores
(1=oficina individual, 2=salario alto, etc.).
No es necesario escoger todos los factores posibles, se podrian pedir por ejemplo, los tres mas importantes, especificando solo esas variables de la lista de variables: V6, V7, V8. El n
umero de factores
diferentes usados se especifica con el par
ametro NALT.

2. DATA=RANKS
Aqu, cada factor aparece en el cuestionario como una variable:
V13 Oficina individual
V14 Salario alto
.
.
V17 Compatibilidad entre colegas
y al encuestado se le invita a asignar un rango a cada uno, en el cual 1 se da al factor mas importante,
2 al siguiente, etc. Aqu las variables representan los factores y sus valores representan los rangos. A
cada variable se le debe asignar un rango y todos los factores entran siempre al analisis. Los rangos
deben codificarse de 1 a n donde n es el n
umero de variables que se consideran.
Notas
1. Si DATA=RANKS, el c
odigo 0 y todos los c
odigos mayores que n, en donde n es el n
umero de variables
(n
umero de alternativas), se tratan como datos faltantes y se les asigna el rango mas bajo.
2. Si DATA=RAWC, los primeros NALT codigos diferentes encontrados durante la lectura de los datos
(excluido 0), se usan como c
odigos validos. Otros c
odigos hallados posteriormente en los datos, se toman
como c
odigos ilegales. El cero siempre se trata como un c
odigo ilegal. Si el n
umero de alternativas
escogidas por los encuestados es menor que NALT, entonces aparecen las alternativas no seleccionadas
en el listado con valores de c
odigo cero y nombre de c
odigo vaco.

34.5.

Estructuda del setup

$RUN RANK
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.

Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de an
alisis (tantas como sean necesarias)
(s
olo para l
ogica cl
asica)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
PRINT

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)

34.6 Proposiciones de control del programa

34.6.

263

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE

V2=11

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

PRIMERA EJECUCION DE RANK

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

DATA=RANKS

PREF=STRICT MDVALUES=NONE VARS=(V11-V13)

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
Para DATA=RAWC, las variables con datos faltantes no se incluyen en el ordenamiento.
Para DATA=RANKS, los datos faltantes se recodifican al rango mas bajo.
VARS=(lista de variables)
Una lista de variables V y/o R a usar en el procedimento de rangos.
Sin valor por defecto.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
METHOD=(CLASSICAL/NOCLASSICAL, NONDOMINATED, RANKS)
Especifica el metodo a usar en el analisis.
CLAS
Metodo de logica clasica (ELECTRE).
NOND
Metodo difuso 1, llamado capas no dominadas.
RANK
Metodo difuso 2, llamado rangos.
DATA=RAWC/RANKS
Tipo de datos.
RAWC
Las variables corresponden a los rangos (la primera variable de la lista tiene el primero
rango, la segunda el segundo, etc.), y su valor es el n
umero del c
odigo de la alternativa
seleccionada.
RANK
Las variables representan las alternativas, sus valores son los rangos de las alternativas
correspondientes.

264

Ordenamiento de alternativas (RANK)


PREF=STRICT/WEAK
Determina el tipo de relaci
on de preferencia a usar en el an
alisis.
STRI
Se usa una relaci
on de preferencia estricta.
WEAK Se usa una relaci
on de preferencia debil.
NALT=5/n
(DATA=RAWC solamente). El n
umero total de alternativas para ordenar.
Nota: si DATA=RANKS, el n
umero de alternativas se coloca autom
aticamente como el n
umero
de variables de analisis.
NORMALIZE=NO/YES
(METHOD=RANKS solamente).
NO
No normalizar.
YES
Se hace la normalizaci
on de la matriz relacional antes de calcular el valor de la funci
on
de pertenencia de las alternativas.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.

4. Especificaciones de an
alisis (condicional: solo en el caso de la logica clasica). Las reglas de codificacion son las mismas de los par
ametros. Cada especificaci
on de analisis debe comenzar en una nueva
lnea.
Ejemplo:

PCON=66

DDIS=4

PDIS=20

DCON=1/n
Diferencia de rangos que controla la concordancia en opiniones individuales (casos). Debe ser un
entero dentro del rango 0 a NALT-1.
PCON=51/n
Mnima proporci
on de concordancia individual expresada como un porcentaje y requerida en la
opinion colectiva. Debe ser un entero dentro del rango 0 a 99. El valor por defecto significa que
por lo menos, se necesita un acuerdo del 51 % para tener una concordancia colectiva.
DDIS=2/n
Diferencia de rangos que controla la discordancia en las opiniones individuales (casos). Debe ser
un entero dentro del rango 0 a NALT-1.
PDIS=10/n
M
axima proporci
on de discordancia individual, expresada como un porcentaje, tolerada en la
opinion colectiva. Debe ser un entero en el rango 0 a 100. El valor por defecto significa que no se
tolera una discordancia individual mayor del 10 %.

34.7.

Restricciones

1. El n
umero maximo de variables permitidas en una ejecuci
on es 200, incluidas las variables de Recode
y las variables de ponderaci
on.
2. El n
umero maximo de variables de analisis es 60.

34.8 Ejemplos

34.8.

265

Ejemplos

Ejemplo 1. Determinaci
on de un ordenamiento de alternativas, usando datos recolectados en forma de
rangos de alternativas; hay diez alternativas, se asume una relacion de preferencia debil y se har
a una
analisis con el metodo de rangos.
$RUN RANK
$FILES
PRINT = RANK1.LST
DICTIN = PREF.DIC
archivo Diccionario de entrada
DATAIN = PREF.DAT
archivo Datos de entrada
$SETUP
ORDENAMIENTO DE ALTERNATIVAS : METODO DE RANGOS
DATA=RANKS PREF=WEAK METH=(NOCL,RANKS) VARS=(V21-V30)
Ejemplo 2. Determinaci
on de un ordenamiento de alternativas, con datos recolectados en forma de una
selecci
on por prioridades; se escogen tres alternativas entre 20 y el orden de las variables determina la
prioridad de la selecci
on; se supone preferencia estricta; se solicitan los dos metodos de analisis difuso.
$RUN RANK
$FILES
los mismos del ejemplo 1
$SETUP
ORDENAMIENTO DE ALTERNATIVAS POR RANGOS : DOS METODOS DIFUSOS
NALT=20 METH=(NOCL,NOND,RANKS) VARS=(V101-V103)
Ejemplo 3. Determinaci
on de un ordenamiento de alternativas, usando datos recolectados en forma de una
selecci
on por prioridades; se escogen 4 alternativas entre 15 y el orden de las variables no determina la prioridad de la selecci
on (preferencia debil); se har
an cuatro analisis de logica clasica manteniendo siempre igual
a 1 las diferencias de rangos, pero aumentando la proporcion de discordancia y disminuyendo la proporcion
de concordancia.
$RUN RANK
$FILES
los mismos del ejemplo 1
$SETUP
ORDENAMIENTO DE ALTERNATIVAS : LOGICA CLASICA
PREF=WEAK NALT=15 METH=CLAS VARS=(V21,V23,V25,V27)
PCON=75 DDIS=1 PDIS=5
PCON=66 DDIS=1 PDIS=10
PCON=51 DDIS=1 PDIS=15
PCON=40 DDIS=1 PDIS=20

Captulo 35

Diagramas de dispersi
on (SCAT)
35.1.

Descripci
on general

SCAT es un programa de analisis bivariado que produce diagramas de dispersi


on, estadsticas univariadas
y bivariadas. Los diagramas de dispersi
on se trazan en un sistema de coordenadas rectangulares; para cada
combinaci
on de valores coordenados que aparece en los datos, se muestra la frecuencia con la cual se presenta.
SCAT es u
til para mostrar relaciones bivariadas cuando el n
umero de valores de diferentes variables es grande
y el n
umero de casos que contenga uno de estos valores es peque
no. Si una variable toma relativamente pocos
valores dentro de un n
umero grande de casos, el programa TABLES es mas adecuado.
Formato del gr
afico. Cada gr
afico se define separadamente con la especificaci
on de las dos variables que
se van a usar (llamadas variables X y Y). Las escalas de los ejes se ajustan separadamente para cada grafico
y as permitir el trazado de variables que difieran radicalmente en escala sin perdida de resolucion grafica.
Normalmente, el programa dibuja la variable con el rango mas amplio (antes de modificar la escala) en el eje
horizontal. Sin embargo, el usuario puede solicitar que la variable X se dibuje siempre en el eje horizontal.
Si las frecuencias son inferiores a 10, estas se llevan al grafico. Para frecuencias en el rango 10-65, se usan
las letras del alfabeto. Si la frecuencia de un punto es mayor de 65, se coloca un asterisco en el diagrama.
Este esquema de codificacion, es parte de los resultados para facilidad de referencia.
Estadsticas. Se imprimen para cada variable accedida, incluidos el filtro y la variable de ponderaci
on, si
los hay: la media, la desviaci
on est
andar, el valor maximo y el valor mnimo. Para cada grafico el programa
tambien imprime la media, desviaci
on est
andar, conteo de casos y rango de las dos variables, el coeficiente
de correlaci
on r de Pearson, la constante y el coeficiente no estandarizado de regresion para predecir Y a
partir de X.

35.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Se puede usar el filtro est
andar para escoger un subconjunto de casos de
los datos de entrada. Ademas, se puede especificar un rango de variables y una variable de filtro en el grafico
para restringir los casos incluidos en un grafico en particular. Las variables para dibujar, se especifican por
parejas con los par
ametros de gr
afico.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode. N
otese que para las variables R
el programa utiliza el n
umero de cifras decimales dado en el par
ametro NDEC.
Ponderaci
on de datos. Se puede especificar una variable de ponderaci
on para cada grafico. Las variables
V y R con decimales se multiplican por un factor de escala para obtener valores enteros. Ver la secci
on
Dataset de entrada abajo.
Cuando el valor de la variable de ponderaci
on para un caso es cero, negativo, dato faltante o no numerico,
entonces el caso siempre se omite; se imprime el n
umero de casos as tratados.

268

Diagramas de dispersi
on (SCAT)

Tratamiento de datos faltantes. El par


ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Las estadsticas univariadas que
aparecen al comienzo de los resultados, inmediatamente despues del diccionario, se basan en todos los casos
que tienen datos validos en cada variable considerada por separado. Para los graficos en s, el programa
elimina los casos que tengan datos faltantes en una o las dos variables en un grafico dado. La eliminacion
por pares tambien afecta las estadsticas bivariadas que se imprimen en la parte superior de cada grafico.

35.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Estadsticas univariadas. Las siguientes estadsticas se imprimen para cada variable referida, incluidas
las variables de filtro de gr
afico y de ponderaci
on: valores maximo y mnimo, media y desviacion est
andar,
y n
umero de casos con valores de datos validos.
Clave del esquema de codificaci
on de gr
aficos. Una tabla que muestra la correspondencia entre las
frecuencias actuales y los c
odigos usados en los graficos.
Gr
aficos y estadsticas. Para cada gr
afico requerido, se imprime un diagrama de dispersi
on de 8 1/2
x 12. En la parte superior del diagrama se imprimen los valores de las estadsticas univariadas (medias,
desviaciones est
andar) y bivariadas (r de Pearson, constante de regresion A y coeficiente de regresion no
estandarizada B.

35.4.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del analisis y del
filtro de grafico deben ser numericas; enteras o decimales. Las variables con decimales se multiplican por
un factor de escala para obtener valores enteros. Este factor se calcula como 10n donde n es el n
umero de
decimales del diccionario para las variables V y del par
ametro NDEC para las variables R, y aparece en los
resultados para cada variable.

35.5 Estructura del setup

35.5.

269

Estructura del setup

$RUN SCAT
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.

Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de gr
aficos (tantas como sean necesarias)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
PRINT

35.6.

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-4, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE

V21=6

AND

V37=5

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

ESTUDIO 600, JULIO 16, 1999, EDAD POR PESO POR SUBMUESTRA

3. Par
ametros (mandatorio). Para seleccionar opciones del programa. Los nuevos par
ametros son precedidos por un asterisco.
Ejemplo:

BADD=MD2

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.

270

Diagramas de dispersi
on (SCAT)

MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
* NDEC=0/n
N
umero de decimales (m
aximo 4) a conservar para las variables R.
PRINT=CDICT/DICT
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
4. Especificaciones de gr
aficos. Un conjunto para cada grafico. Las reglas de codificacion son las
mismas de los par
ametros. Cada especificaci
on de grafico debe empezar en una lnea nueva.
Ejemplo:

X=V3

Y=R17

FILTER=(V3,1,1)

X=n
umero de variable
N
umero de la variable X.
Y=n
umero de variable
N
umero de la variable Y.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on si se van a ponderar los datos.
FILTER=(n
umero de variable, c
odigo mnimo valido, c
odigo maximo valido)
Filtro de gr
afico. S
olo aquellos casos en los cuales el valor de la variable de filtro es mayor o
igual al codigo mnimo y menor o igual al c
odigo maximo, se incluyen en el grafico. Por ejemplo,
para especificar que solo los casos con c
odigos 0-40 en la variable 6 se van a incluir, se especifica:
FILTER=(V6,0,40).
HORIZAXIS=MAXRANGE/X
MAXR
Dibujar la variable con el rango mas alto en el eje horizontal.
X
Dibujar siempre la variable X en el eje horizontal.

35.7.

Restricciones

1. El n
umero maximo de variables por ejecuci
on es 50. Este maximo incluye todo: variables X y Y,
variables de filtro de gr
afico, variables de ponderaci
on y variables usadas en proposiciones de Recode.
2. No hay lmite al n
umero de gr
aficos pero SCAT produce solo 5 graficos por cada pasada de los datos
de entrada.

35.8 Ejemplo

35.8.

271

Ejemplo

Generacion de dos gr
aficos (ponderados con la variable V100 y sin ponderar) repetidos para tres diferentes
grupos de datos.
$RUN SCAT
$FILES
PRINT = SCAT1.LST
DICTIN = MY.DIC
archivo Diccionario de entrada
DATAIN = MY.DAT
archivo Datos de entrada
$SETUP
GENERACION DE DOS DIAGRAMAS
*
(valores por defecto para todos los par
ametros)
X=V21 Y=V3 FILTER=(V5,1,2)
X=V21 Y=V3 FILTER=(V5,1,2) WEIGHT=V100
X=V21 Y=V3 FILTER=(V5,3,3)
X=V21 Y=V3 FILTER=(V5,3,3) WEIGHT=V100
X=V21 Y=V3 FILTER=(V5,4,7)
X=V21 Y=V3 FILTER=(V5,4,7) WEIGHT=V100

Captulo 36

B
usqueda de estructura (SEARCH)
36.1.

Descripci
on general

SEARCH es un procedimiento de segmentacion binaria usado para desarrollar un modelo predictivo para
la(s) variable(s) dependiente(s). Busca en un conjunto de variables predictoras aquellas que mas aumenten
la habilidad del investigador para explicar la variancia o la distribuci
on de una variable dependiente. La
pregunta: cual separacion dicot
omica sobre la cual una variable individual de predicci
on nos dar
a una
maxima mejora en nuestra habilidad para predecir valores de la variable dependiente?, inmersa en un
esquema iteractivo, es la base para el algoritmo de este programa.
SEARCH divide la muestra, a traves de una serie de separaciones binarias, en series de subgrupos mutuamente
excluyentes. Los subgrupos escogen de manera que, en cada paso en el procedimiento, la separacion en los
dos nuevos subgrupos explica mas de la variancia o de la distribuci
on (reduce mas el error predictivo) que
la separacion en otro par de subgrupos.
SEARCH puede hacer las siguientes funciones:
*
*
*
*

Maximizar diferencias en medias de grupo, lneas de regresion de grupo, o distribuciones (criterio


de maxima similitud de Ji-cuadrada).
Asignar rangos a los predictores para darles preferencia en la partici
on.
Sacrificar poder explicativo por simetra.
Comenzar despues haber generado de una estructura parcial especificada de arbol.

Generaci
on de un dataset de residuos. Se pueden calcular residuos y llevarlos a la salida como un
archivo Datos descrito por un diccionario IDAMS. Ver Dataset de residuos de salida para los detalles.

36.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Se puede utilizar el filtro est
andar para escoger un subconjunto de casos
de los datos de entrada. La(s) variable(s) dependiente(s) se especifica(n) en el par
ametro DEPVAR y las
predictoras se especifican en el par
ametro VARS en las proposiciones de predictor.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para un
caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. Casos con datos faltantes en una variable dependiente continua o en una
covariada se eliminan autom
aticamente. Casos con datos faltantes en una variable dependiente categorica
se pueden excluir con una proposicion de filtro o al especificar c
odigos validos con el par
ametro DEPVAR.
Casos con datos faltantes en las variables predictoras no se excluyen autom
aticamente. Sin embargo, la
proposicion de filtro y/o el par
ametro CODES se pueden usar para este prop
osito.

274

36.3.

B
usqueda de estructura (SEARCH)

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Casos exc
entricos. (Opcional: ver el par
ametro PRINT). Los casos excentricos con los valores de la variable
de identificacion y de la variable dependiente.
Huella. (Opcional: ver el par
ametro PRINT, y opciones TRACE y FULLTRACE). La huella de separaciones
para cada predictor en cada separacion, contiene: los grupos candidatos para separar, el grupo escogido para
separar, todas las separaciones elegibles para cada predictor, la mejor separacion para cada predictor y el
grupo separado.
Resumen de an
alisis contiene el analisis de variancia o distribuci
on, el resumen de separacion, el resumen
de grupos finales.
Tablas de resumen de predictores. (Opcional: ver el par
ametro PRINT, opciones TABLE, FIRST y
FINAL). Las tablas del primer grupo (PRINT=FIRST), las tablas de grupos finales (PRINT=FINAL) o las
tablas de todos los grupos (PRINT=TABLE), contiene el resumen de las mejores separaciones para cada
predictor para cada grupo. Las tablas se imprimen en orden inverso de grupos, es decir, el u
ltimo grupo al
comienzo.
Diagrama de
arbol. (Opcional: ver el par
ametro PRINT). Diagrama de arbol jerarquico. Cada nodo
(caja) del arbol contiene: n
umero de grupo, n
umero de casos (N), n
umero de separacion, n
umero de variable
predictora, media de la variable dependiente (para analisis de medias), media de la variable dependiente y
covariada y pendiente (para analisis de regresion).

36.4.

Dataset de residuos de salida

Los residuos se pueden llevar opcionalmente a la salida en la forma de un archivo Datos descrito por un
diccionario IDAMS. (Ver el par
ametro WRITE). Para analisis de medias y de regresion y para analisis
de Ji-cuadrada con variables dependientes m
ultiples, cada registro contiene: una variable de identificacion,
la variable de grupo, variable(s) dependiente(s), una(s) variable(s) dependiente(s) predicha(s) (calculada),
residuo(s) y una ponderaci
on, si la hay.
Para analisis de Ji-cuadrada con una variable dependiente categorica, contiene: una variable de identificacion,
la variable de grupo, la primera categora de la variable dependiente, la primera categora predicha (calculada)
de la variable dependiente, el residuo para la primera categora de la variable dependiente, la segunda
categora de la variable dependiente, la segunda categora predicha (calculada) de la variable dependiente,
el residuo para la segunda categora de la variable dependiente, etc. y una ponderaci
on, si la hay.
Las caractersticas de las variables de salida son las siguientes:
N
umero de
variable
(identificador)
(variable de grupo)
(var dependiente 1)
(var predicha 1)
(residuo para var 1)
(var dependiente 2)
(var predicha 2)
(residuo para var 2)
...
(ponderaci
on - si hay)
*
**
***

1
2
3
4
5
6
7
8
.
n

Nombre
igual a entrada
Group variable
igual a entrada
igual a entrada
igual a entrada
igual a entrada
igual a entrada
igual a entrada
...
igual a entrada

cal
res
cal
res

Ancho de
campo

N
umero de
decimales

Codigo
MD1

*
3
*
7
7
*
7
7
.
*

0
0
**
***
***
**
***
***
...
**

igual a entrada
999
igual a entrada
9999999
9999999
igual a entrada
9999999
9999999
...
igual a entrada

transferido del diccionario de entrada para variables V o 7 para variables R


transferido del diccionario de entrada para variables V o 2 para variables R
6 + Nr. de decimales para la variable dependiente menos el ancho de la variable dependiente; si
esta es negativa, entonces este valor es cero.

36.5 Dataset de entrada

275

Si el valor calculado o el del residuo execeden el ancho de campo asignado, se reemplaza por el c
odigo MD1.

36.5.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para analisis
deben ser numericas; pueden tener valores decimales o enteros. La variable dependiente puede ser continua
o categorica. Las variables predictoras pueden ser ordinales o categoricas. La variable de identificacion de
caso puede ser alfabetica.

36.6.

Estructura del setup

$RUN SEARCH
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.

Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de predictores
Especificaciones de separaciones predefinidas (opcional)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT

36.7.

diccionario de entrada (omitir si se usa $DICT)


datos de entrada (omitir si se usa $DATA)
diccionario de residuos de salida
datos de residuos de salida
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-5, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE V3=5

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

BUSCANDO ESTRUCTURA

276

B
usqueda de estructura (SEARCH)

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

DEPV=V5

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
ANALYSIS=MEAN/REGRESSION/CHI
MEAN
Analisis de medias.
REGR
Analisis de regresion.
CHI
Analisis de Ji-cuadrada. Con una sola variable dependiente, se usara la lista de c
odigos
por defecto 0-9 y no se har
a verificacion de datos faltantes.
DEPVAR=n
umero de variable/(lista de variables)
La variable o variables dependientes. N
otese que se puede suministrar una lista de variables
solamente cuando se especifica ANALYSIS=CHI.
Sin valor por defecto.
CODES=(lista de c
odigos)
Solamente se puede suministrar una lista de c
odigos para ANALYSIS=CHI y una variable dependiente. N
otese que en este caso no se hace verificacion de datos faltantes para la variable
dependiente y solo se usan en el anaisis los casos con c
odigos listados.
COVAR=n
umero de variable
El n
umero de la variable covariada. Debe suministrase para ANALYSIS=REGR.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
MINCASES=25/n
N
umero mnimo de casos en un grupo.
MAXPARTITIONS=25/n
N
umero maximo de particiones.
SYMMETRY=0/n
La cantidad de poder explicativo que se quiere perder para obtener simetra, expresado como un
porcentaje.
EXPL=0.8/n
Incremento mnimo en el poder explicativo que se requiere para una separacion, expresado como
un porcentaje.

36.7 Proposiciones de control del programa

277

OUTDISTANCE=5/n
N
umero de desviaciones est
andar de la media del grupo al que pertenecen, que definen un caso
excentrico. N
otese que se reportan los casos excentricos si se especifica PRINT=OUTL, pero no
se excluyen del analisis.
IDVAR=n
umero de variable
Variable que sale con los residuos y/o que se imprime con cada caso clasificado como caso excentrico.
WRITE=RESIDUALS/CALCULATED/BOTH
Residuos y/o valores calculados que se escribiran como un dataset IDAMS.
RESI
Salen solo valores de residuos.
CALC
Salen solo valores calculados.
BOTH
Salen valores de residuos y valores calculados.
OUTFILE=OUT/yyyy
S
olo se aplica si se especifica WRITE.
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de residuos de salida
Por defecto: DICTOUT, DATAOUT.
PRINT=(CDICT/DICT, TRACE, FULLTRACE, TABLE, FIRST, FINAL, TREE, OUTLIERS)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
TRAC
Imprimir la huella de separaciones para cada predictor para cada separacion.
FULL
Imprimir la huella completa de separaciones para cada predictor, incluidas las separaciones elegibles pero sub-optimas.
TABL
Imprimir las tablas de resumen de predictores para todos los grupos.
FIRS
Imprimir las tablas de resumen de predictores para el primer grupo.
FINA
Imprimir las tablas de resumen de predictores para los grupos finales.
TREE
Imprimir el diagrama del arbol jerarquico.
OUTL
Imprimir los casos excentricos con valores de variable identificadora y de variable dependiente.
4. Especificaciones de predictores (mandatorio). Suministrar un conjunto de par
ametros para cada
grupo de predictores que se pueda describir con los mismos valores de los par
ametros. Las reglas de
codificacion son las mismas de los par
ametros. Cada especificaci
on de predictor debe comenzar en una
nueva lnea.
Ejemplo:

VARS=(V8,V9) TYPE=F

VARS=(lista de variables)
Variables predictoras a las cuales se aplican los otros par
ametros.
Sin valor por defecto.
TYPE=M/F/S
La restriccion del predictor.
M
Los predictores se consideran monotonicos, es decir, los c
odigos de predictores se van
a mantener adyacentes durante el barrido de la partici
on.
F
Los c
odigos de predictores se consideran libres.
S
Los c
odigos de predictores se selecionaran y separaran de los c
odigos restantes al
formar particiones de ensayo.
CODES=(0-9)/m
aximo c
odigo/(lista de c
odigos)
El valor de c
odigo mas grande aceptable o una lista de c
odigos aceptables. Los c
odigos pueden
estar en el rango de 0 a 31. Los casos con c
odigo fuera del rango 0 a 31 siempre se descartan.

278

B
usqueda de estructura (SEARCH)
RANK=n
Rango asignado. Si desean rangos, se asigan un rango predictor de 0 a 9. Un rango de cero indica
que se van a calcular estadsticas para los predictores, pero no se van a usar al hacer las particiones.

5. Especificaciones de separaciones predefinidas (opcional). Si desean separaciones predefinidas, se


suministra un conjunto de par
ametros para cada separacion predefinida. Las reglas de codificacion son
las mismas de los par
ametros. Cada especificaci
oon de separacion predefinida debe comenzar en una
nueva lnea.
Ejemplo:

GNUM=1

VAR=V18

CODES=(1-3)

GNUM=n
El n
umero del grupo a separar. Los grupos se especifican en orden ascendente, en donde la muestra
entera original es el grupo 1. Cada conjunto de par
ametros forma dos nuevos grupos.
Sin valor por defecto.
VAR=n
umero de variable
Variable predictora que se usa para hacer la separacion.
Sin valor por defecto.
CODES=(lista de c
odigos)
Lista de los c
odigos del predictor que definen el primer subgrupo. Todos los dem
as c
odigos
perteneceran al segundo subgrupo.
Sin valor por defecto.

36.8.

Restricciones

1. N
umero mnimo de casos requerido es 2 * MINCASES.
2. N
umero maximo de predictores es 100.
3. Valor maximo de predictor es 31.
4. N
umero maximo de c
odigos de variables categoricas es 400.
5. N
umero maximo de separaciones perdefinidas es 49.
6. Si la variable de identificaci
on es alfabetica con ancho > 4, solo se usan los primeros cuatro caracteres.

36.9.

Ejemplos

Ejemplo 1. Analisis de medias con cinco variables predictoras; se solicita un mnimo de 10 casos por grupo;
se reportan los casos excentricos con mas de 3 desviaciones est
andar de la media del grupo; los casos se
identifican con la variable V1.
$RUN SEARCH
$FILES
PRINT
= SEARCH1.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
ANALISIS DE MEDIAS - CINCO VARIABLES PREDICTORAS
DEPV=V4 MINC=10 OUTD=3 IDVAR=V1 PRINT=(TRACE,TREE,OUTL)
VARS=(V3-V5,V12)
VARS=V21 TYPE=F CODES=(1-4)
Ejemplo 2. Analisis de regresion con seis variables predictoras; se van a computar residuos y valores calculados y se van a escribir en un dataset (los casos se identifican con la variable V2).

36.9 Ejemplos

279

$RUN SEARCH
$FILES
PRINT
= SEARCH2.LST
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
DICTOUT = RESID.DIC
archivo Diccionario para residuos
DATAOUT = RESID.DAT
archivo Datos para residuos
$SETUP
ANALISIS DE REGRESION - SEIS VARIABLES PREDICTORAS
ANAL=REGR DEPV=V12 COVAR=V7 MINC=10 IDVAR=V2 WRITE=BOTH PRINT=(TRACE,TABLE,TREE)
VARS=(V3-V5,V18)
VARS=V22 TYPE=F
Ejemplo 3. Analisis de Ji-cuadrada con una variable dependiente categorica y c
odigos seleccionados; se
predefinen las dos primeras separaciones.
$RUN SEARCH
$FILES
DICTIN = STUDY.DIC
archivo Diccionario de entrada
DATAIN = STUDY.DAT
archivo Datos de entrada
$SETUP
ANALISIS DE JI: VARIABLE DEPENDIENTE CATEGORICA, SEPARACIONES PREDEFINIDAS
ANAL=CHI DEPV=V101 CODES=(1-5) MINC=5 PRINT=(FINAL,TREE)
VARS=(V3,V8) TYPE=S
GNUM=1 VAR=V8 CODES=3
GNUM=2 VAR=V3 CODES=(1,2)

Captulo 37

Tablas univariadas y bivariadas


(TABLES)
37.1.

Descripci
on general

El uso principal de TABLES es obtener listados de tablas de frecuencias univariadas y bivariadas con la
opcion de mostrar porcentajes de fila, columna y esquina, y de manera opcional, estadsticas univariadas y
bivariadas. Tambien se pueden obtener tablas de valores medios de una variable.
Ambos las tablas univariadas/bivariadas y estadsticas bivariadas se pueden bajar a un archivo de manera
que se utilicen desde un programa generador de informes con un formato escogido por el mismo usuario, o
puede entrar a GraphID u otros paquetes, tales como EXCEL, por despliegue grafico.
Tablas univariadas. Se pueden generar frecuencias univariadas y frecuencias univariadas acumulativas
para cualquier n
umero de variables de entrada y se pueden tambien expresar como porcentajes de la frecuencia
total ponderada o sin ponderar. Adicionalmente se puede obtener la media de una variable de celda.
Tablas bivariadas. Se puede generar cualquier n
umero de tablas bivariadas. Adicionalmente a las frecuencias ponderadas y/o sin ponderar, una tabla puede tener frecuencias expresadas como porcentajes basados
en los marginales por fila y columna o en el total de la tabla y la media de una variable de una celda. Todos
estos tems se pueden incluir en una sola tabla hasta con seis tems por celda, o bien, se puede imprimir cada
una individualmente como una tabla separada.
Estadsticas univariadas. Para analisis univariado, se dispone de las siguientes estadsticas: media, moda,
mediana, variancia (sin asimetra), desviacion est
andar, coeficiente de variacion, asimetra y kurtosis. Existe
tambien una opci
on de cuantiles (NTILE). Se puede solicitar una divisi
on desde tres partes hasta diez partes.
Estadsticas bivariadas. Para el analisis bivariado, se pueden solicitar las siguientes estadsticas:
-

pruebas-t de medias (asume poblaciones independientes) entre pares de filas,


Ji-cuadrada, coeficiente de contingencia y V de Cramer,
Taus de Kendall, Gama, Lambdas,
S (numerador de las estadsticas taus y gama), su desviacion est
andar y normal, y su variancia,
ro de Spearman,
estadsticas para medicina basada en evidencia (EBM),
pruebas no parametricas: Wilcoxon, Mann-Whitney y Fisher.

Matrices de estadsticas. Con excepci


on de las pruebas, estadsticas EBM o estadsticas que involucren a
S, se pueden imprimir o bajar a un archivo, matrices con todas las estadsticas bivariadas mencionadas. Se
pueden producir las matrices correspondientes a n ponderadas o sin ponderar.
Tablas de 3 y de 4 entradas. Estas tablas se pueden construir haciendo uso de las posibilidades de
repetici
on y de divisi
on en subconjuntos. La variable de repetici
on se puede pensar como una variable de
control o de panel. La posibilidad de dividir en subconjuntos puede usarse para escoger mas casos para un
grupo en particular de tablas.

282

Tablas univariadas y bivariadas (TABLES)

Tablas de sumas. Se pueden producir tablas en las cuales las celdas contengan la suma de una variable dependiente si se especifica la variable dependiente como el factor de ponderaci
on. Por ejemplo, WEIGHT=V208,
donde V208 representa el ingreso de un encuestado, y se quiere obtener el ingreso total de todos los encuestados en una sola celda.
Nota. Se tienen las siguientes opciones para controlar la presentacion de los resultados:
Se puede asignar un ttulo para cada conjunto de tablas.
Se pueden imprimir porcentajes y las medias en tablas separadas si se desea.
Se puede suprimir la malla de celdas.
Se pueden imprimir las filas que no tengan entradas en una secci
on particular de una tabla de
frecuencias grande; las tablas que tengan mas de diez columnas se imprimen por secciones y el
uso de la opci
on zero rows (cero filas) asegura que las diferentes secciones tengan el mismo
n
umero de filas (lo cual es importante si estas se van a recortar y pegar posteriormente).

37.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. Se puede usar el filtro est
andar para escoger un subconjunto de casos de
los datos de entrada. Ademas, se pueden usar filtros locales y factores de repetici
on (llamados especificaciones
de subconjunto) para escoger un subconjunto de casos para una tabla en particular. En tablas especificadas
individualmente, la variable o variables a utilizar con la tabla se escogen con los par
ametros de especificaci
on
de tabla R y C. Para conjuntos de tablas, las variables se seleccionan con los par
ametros de especificaci
on
de tabla ROWVARS y COLVARS.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode. N
otese que para las variables R
el programa utiliza el n
umero de cifras decimales dado en el par
ametro NDEC.
Ponderaci
on de datos. Se puede especificar, de manera opcional, una variable de ponderaci
on para cada
conjunto de tablas. Las variables V y R con decimales se multiplican por un factor de escala para obtener
valores enteros. Ver la secci
on Dataset de entrada abajo.
Cuando el valor de la variable de ponderaci
on para un caso es cero, negativo, dato faltante o no numerico,
entonces el caso siempre se omite; se imprime el n
umero de casos as tratados.
Tratamiento de datos faltantes.
1. El par
ametro MDVALUES est
a disponible para indicar cuales valores de datos faltantes, si los hay, se
usaran para verificar los datos faltantes.
2. Las frecuencias univariadas y bivariadas se imprimen siempre para todos los c
odigos en los datos sin
importar si se trata de datos faltantes o no. Para retirar completamente de las tablas los datos faltantes,
se puede especificar un filtro o un subconjunto de casos. Alternativamente, se pueden definir valores
maximos y/o mnimos de las variables de fila y de columna.
3. Los casos con datos faltantes, se pueden opcionalmente incluir en los c
alculos de porcentajes y de las
estadsticas bivariadas. Esto se puede hacer con el par
ametro de tabla MDHANDLING.
4. Los casos con datos faltantes en la variable de celda se excluyen siempre de las tablas univariadas y
bivariadas.
5. Los casos con datos faltantes, se excluyen siempre de los c
alculos de las estadsticas univariadas.

37.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Una tabla de contenido del listado. El contenido indica cada tabla producida y da el n
umero de p
agina
en el cual est
a localizada. Se suministra la informacion siguiente:

37.3 Resultados
-

283

n
umeros de variables de fila y columna (0 si no hay)
numero de variable para el valor de la media - variable de celda (0 si no hay)
n
umero de la variable de ponderaci
on (0 si no hay)
valores mnimo y maximo de fila (0 si no hay)
valores mnimo y maximo de columna (0 si no hay)
nombre de filtro y nombre del factor de repetici
on
porcentajes: fila, columna y total (T=solicitado, F=no solicitado)
RMD: datos faltantes para la variable de fila (T=eliminar, F=no eliminar)
CMD: datos faltantes para la variable de columna (T=eliminar, F=no eliminar)
CHI: Ji-cuadrada (T=solicitada, F=no solicitada)
TAU: tau a, b o c (T=solicitada, F=no solicitada)
GAM: gama (T=solicitada, F=no solicitada)
TEE: pruebas t (T=solicitadas, F=no solicitadas)
EXA: prueba no parametrica de Fisher (T=solicitada, F=no solicitada)
WIL: prueba no parametrica de Wicoxon (T=solicitada, F=no solicitada)
MW: prueba no parametrica de Mann-Whitney (T=solicitada, F=no solicitada)
SPM: ro de Spearman (T=solicitada, F=no solicitada)
EBM: estadsticas para medicina basada en evidencia (T=solicitadas, F=no solicitadas).

Las tablas que se solicitan con los par


ametros de tabla PRINT=MATRIX o WRITE=MATRIX no se
imprimen en el contenido y siempre se imprimen primero con n
umeros de p
agina y de tabla negativos.
Otras tablas se imprimen en el orden de las especificaciones de la tabla, excepto para aquellas en las cuales
solo se hayan solicitado las estadsticas univariadas; estas siempre se agrupan juntas al final del listado.
Tablas bivariadas. Cada tabla bivariada comienza en una p
agina nueva; una tabla grande puede ocupar
mas de una p
agina. Las tablas se imprimen con un maximo hasta de 10 columnas y 16 filas por p
agina, seg
un
el n
umero de tems de cada celda. Las filas y columnas se imprimen solo para los c
odigos que aparezcan en
los datos. Los totales de filas y columnas y las frecuencias acumuladas marginales y porcentajes se imprimen,
si as se ha solicitado, alrededor de los bordes de la tabla.
Una tabla grande se imprime por tiras verticales. Por ejemplo, una matriz con 40 filas de c
odigos y 40
columnas de codigos se imprimira normalmente en 12 p
aginas tal como se muestra en el siguiente diagrama,
en el cual los n
umeros en las celdas muestran el orden en el cual se imprimen las p
aginas:
primeros
10

segundos
10

terceros
10

cuartos
10

primeros 16 c
odigos

10

segundos 16 codigos

11

ultimos 8 c

odigos

12

c
odigos

Estadsticas bivariadas. (Opcional: ver el par


ametro de tabla STATS)
Pruebas-t. (Opcional: ver el par
ametro de tabla STATS). Si se solicitan pruebas-t, se imprimen estas y las
medias y las desviaciones est
andar de la variable de columna para cada fila en una p
agina separada.
Matrices de estadsticas bivariadas. (Opcional: ver el par
ametro de tabla PRINT). Se imprime la esquina
inferior izquierda de la matriz. Se imprimen 8 columnas y 25 filas por p
agina.
Matriz de las N. (Opcional: ver el par
ametro de tabla PRINT). Se imprime con el mismo formato de la
matriz estadstica correspondiente.
Tablas univariadas. (Opcional: ver el par
ametro de tabla CELLS). Normalmente, cada tabla univariada
se imprime al comienzo de una nueva p
agina. Se imprimen las frecuencias, porcentajes y las medias de una
variable, si se han solicitado, para diez c
odigos en una p
agina.
Estadsticas univariadas. (Opcional: ver el par
ametro de tabla USTATS).
Cuantiles. (Opcional: ver el par
ametro de tabla NTILE). Se imprimen N-1 puntos, por ej. si se han solicitado
cuartiles, el par
ametro NTILE toma el valor 4 y se imprimen 3 puntos de separacion.

284

Tablas univariadas y bivariadas (TABLES)

Numeraci
on de p
aginas. Es de la forma ttt.rr.ppp donde:
ttt
rr
ppp

37.4.

=
=
=

n
umero de la tabla
n
umero de repetici
on (00 si no se usa)
n
umero de p
agina dentro de cada tabla.

Tablas univariadas/bivariadas de salida

Se pueden obtener en un archivo, tablas univariadas y bivariadas con las estadsticas solicitadas en el
par
ametro CELLS, si se especifica WRITE=TABLES. Las tablas est
an en el formato de matriz rectangular de IDAMS (ver el captulo Los datos en IDAMS). Se produce una matriz para cada estadstica
solicitada. Si se usa un factor de repetici
on, se produce una matriz para cada repetici
on.
Las columnas 21-80 del registro descriptor de la matriz, contienen la siguiente description adicional de la
matriz:
21-40
41-60
61-80

Nombre de la variable de fila (para tablas bivariadas).


Nombre de la variable de columna.
Descripci
on de los valores en la matriz.

Los registros de identificaci


on de variable (#R and #C) contienen valores y nombres de c
odigo para las
variables de fila y de columna respectivamente.
Las estadsticas se escriben como registros de 80 caracteres de acuerdo con un formato Fortran 7F10.2. Las
columnas 73-80 contienen un identificador de la manera siguiente:
73-76
77-80

Identificaci
on de la estadstica: FREQ, UNFR, ROWP, COLP, TOTP o MEAN.
N
umero de tabla.

N
otese que los c
odigos de datos faltantes no se incluyen en la matriz.

37.5.

Matrices de estadsticas bivariadas de salida

Se pueden seleccionar estadsticas para bajarlas a un archivo. Por ejemplo, si se han seleccionado gamas y
taus, entonces se generar
a una matriz de gamas y una matriz de taus separadamente. Las matrices de salida
de estadsticas bivariadas se solicitan con las especificaciones WRITE=MATRIX o bien con los par
ametros
de tabla ROWVARS o ROWVARS y COLVARS. Si se usa un factor de repetici
on, se baja al archivo una
matriz por cada repetici
on. Las matrices son de la forma matriz de IDAMS cuadrada o rectangular (ver el
captulo Los datos en IDAMS). Los valores en la matriz se escriben con el formato Fortran 6F11.5. Las
columnas 73-80 contienen la siguiente identificacion:
73-76
77-80

Identificaci
on de la estadstica: TAUA, TAUB, TAUC, GAMM, LSYM, LRD, LCD, CHI, CRMV
o RHO.
N
umero de tabla.

Nota. Si se suministra solo ROWVARS, se escriben registros de medias y desviaciones est


andar ficticias,
2 registros por 60 variables. El segundo registro de formato (#F) en el diccionario especifica un formato
60I1 para estos registros ficticios. Esto se hace de manera que la matriz se ajuste al formato de una matriz
IDAMS cuadrada.

37.6.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Excepto variables del filtro principal,
todas otras variables referidas deben ser numericas.
En distribuciones y ponderaciones, las variables V y R con cifras decimales se multiplican por un factor de
escala para obtener valores enteros. Este factor se calcula como 10n donde n es el n
umero de decimales del

37.7 Estructura del setup

285

diccionario para las variables V y del par


ametro NDEC para las variables R, y aparece en los resultados
para cada variable.
Estadsticas univariadas sin distribuciones se calculan usando el n
umero de decimales del diccionario para
las variables V y del par
ametro NDEC para las variables R.
Los campos con caracteres no-numericos (incluidos campos en blanco) se pueden tabular con el par
ametro
BADDATA con MD1 o MD2. Ver el captulo El archivo Setup de IDAMS.

37.7.

Estructura del setup

$RUN TABLES
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1.
2.
3.
4.
5.
6.

Filtro (opcional)
T
tulo
Par
ametros
Especificaciones de subconjuntos (opcional)
TABLES
Especificaciones de tablas (tantas como sean necesarias)

$DICT (condicional)
Diccionario
$DATA (condicional)
Datos

Archivos:
FT02
DICTxxxx
DATAxxxx
PRINT

37.8.

tablas/matrices de salida
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al el captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, 1-3 y 6 a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE

V3=6

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

TABLAS DE FRECUENCIAS

3. Par
ametros (mandatorio). Para seleccionar opciones del programa. Los nuevos par
ametros son precedidos por un asterisco.
Ejemplo:

BADDATA=SKIP

286

Tablas univariadas y bivariadas (TABLES)


INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
* NDEC=0/n
N
umero de decimales (m
aximo 4) a conservar para las variables R.
PRINT=(CDICT/DICT, TIME)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
TIME
Imprimir el tiempo despues de cada tabla.

4. Especificaciones de subconjuntos (opcional). Estas proposiciones permiten escoger un subconjunto


de casos para una tabla o un conjunto de tablas.
Ejemplo:

CLASS

INCLUDE V8=1,2,3,-7,9

Hay dos clases de especificaci


on de subconjunto: filtros locales y factores de repetici
on. Cada uno tiene
una funci
on diferente, pero sus formatos son muy similar. Una especificaci
on se puede utilizar como
filtro local para una o mas tablas y como un factor de repetici
on para otras.
Reglas de codificaci
on
Prototipo: nombre proposicion
nombre
Nombre del subconjunto. 1-8 caracteres alfanumericos comenzando con una letra. Este nombre
debe coincidir exactamente con el nombre usado en las especificaciones de analisis subsecuentes.
Blancos intercalados no se permiten. Se recomienda que todos los nombres se justifiquen a la
izquierda.
proposicion
Definici
on del subconjunto que siga la sint
axis del filtro est
andar de IDAMS.
Para los factores de repetici
on, solo se puede especificar una variable en la expresion.
A continuacion se describe como trabajan los filtros locales y los factores de repetici
on.
Filtros locales. Una especificaci
on de subconjunto se identifica como un filtro local para una tabla o
un conjunto de tablas, al especificar el nombre del subconjunto con el par
ametro FILTER. El filtro local
funciona de la misma manera que el filtro est
andar excepto que se aplica solamente a las especificaciones
de la tabla en la cual ha sido referido.
Ejemplo:

EDUCATN
(nombre subconjunto)

INCLUDE V4=0-4,9 AND V5=1


(expresi
on)

En el ejemplo anterior, si EDUCATN se define como filtro local en las especificaciones de la tabla, la
tabla se producira con la inclusi
on de solo aquellos casos con c
odigos 0,1,2,3,4 o 9 para V4 y 1 para
V5.

37.8 Proposiciones de control del programa

287

Factores de repetici
on. Una especificaci
on de subconjunto se identifica como un factor de repetici
on
para una tabla o un conjunto de tablas, al especificar el nombre del subconjunto con el par
ametro
REPE. S
olo se debe dar una variable en una especificaci
on de subconjunto para usarla como factor
de repetici
on. Los factores de repetici
on permiten la generaci
on de tablas de 3 entradas, en donde la
variable utilizada en el factor de repetici
on, se puede considerar como una variable de control o de
panel. Si se utiliza un factor de repetici
on y un filtro, se puede obtener una tabla de 4 entradas.
Las expresiones INCLUDE, hacen que las tablas producidas incluyan los casos para cada valor o rango
de valores de la variable de control utilizada en la expresi
on. Los valores o rangos se separan con comas.
As si hay n comas en la expresion, se produciran n+1 tablas.
Ejemplo:

EDUCATN
(nombre subconjunto)

INCLUDE V4=0-4,9
(expresi
on)

En el ejemplo anterior, si EDUCATN se designa como un factor de repetici


on, resultaran dos tablas:
una que la incluye los casos codificados 0-4 para la variable 4, y otra que incluye los casos codificados
9 para la variable 4.
EXCLUDE se puede usar para producir tablas con todos los valores excepto aquellos especificados.
Ejemplo:

EDUCATN
(nombre subconjunto)

EXCLUDE V1=1,4
(expresi
on)

En el ejemplo anterior, si EDUCATN se designa como un factor de repetici


on, resultaran dos tablas:
una con todos los valores excepto 1 y otra con todos los valores excepto 4.
5. TABLES. La palabra TABLES en esta lnea, se
nala que siguen especificaciones de tablas. Debe
incluirse (con el objeto de separar las especificaciones de subconjuntos de las especificaciones de tablas)
y solo debe aparecer una vez.
6. Especificaciones de tablas. Las especificaciones de tablas se utilizan para describir las caractersticas
de las tablas que se van a producir. Las reglas de codificacion son las mismas de los par
ametros. Cada
conjunto de especificaciones de tabla debe comenzar en una lnea nueva.
Ejemplos:
R=(V6,1,8) CELLS=FREQS
R=(V6,1,8) C=(V9,0,4) REPE=SEX CELLS=(ROWP,FREQS)
ROWV=(V5-V9) CELLS=FREQS USTA=MEAN
ROWV=(V3,V5) COLV=(V21-V31) R=(0,1,8) C=(0,1,99)

(una tabla univariada)


(una tabla bivariada con factor de repetici
on,
es decir tabla de 3 entradas)
(conjunto de tablas univariadas)
(conjunto de tablas bivariadas)

ROWVARS=(lista de variables)
Lista de variables para la cual se requieren tablas univariadas o lista de variables que se va a usar
como filas en tablas bivariadas.
COLVARS=(lista de variables)
Lista de variables a usar como columnas para tablas bivariadas.
R=(var, rmin, rmax)
var
N
umero de variable de fila o de variable univariada de una tabla individual. Para
suministrar los valores maximos y mnimos de un conjunto de tablas, coloque el n
umero
de variable en ceros, por ej. R=(0,1,5); en este caso los c
odigos maximos y mnimos se
aplican a todas las variables en el par
ametro ROWVARS.
rmin
C
odigo mnimo de la(s) variable(s) de fila para los c
alculos estadsticos y de porcentajes.
rmax
C
odigo maximo de la(s) variable(s) de fila para los c
alculos estadsticos y de porcentajes.
Si se especifica rmin o rmax, entonces se deben especificar ambos. Si solo se especifica el n
umero
de variable, los valores maximos y mnimos no se aplican.

288

Tablas univariadas y bivariadas (TABLES)

C=(var, cmin, cmax)


var
N
umero de variable de columna para una tabla bivariada individual. Para suministrar
los valores maximos y mnimos de un conjunto de tablas, coloque el n
umero de variable
en ceros, por ej. C=(0,2,5); en este caso los c
odigos maximos y mnimos se aplican a
todas las variables en el par
ametro COLVARS.
cmin
C
odigo mnimo de la(s) variable(s) de columna para los c
alculos estadsticos y de
porcentajes.
cmax
C
odigo maximo de la(s) variable(s) de columna para los c
alculos estadsticos y de
porcentajes.
Si se especifica cmin o cmax, entonces se deben especificar ambos. Si solo se especifica el n
umero
de variable, los valores maximos y mnimos no se aplican.
TITLE=ttulo de la tabla
Ttulo para imprimir en el encabezamiento de cada tabla en este conjunto.
Por defecto: no imprime ttulo.
CELLS=(ROWPCT, COLPCT, TOTPCT, FREQS/NOFREQS, UNWFREQS, MEAN)
Contenido de las celdas de tablas cuando se ha especificado PRINT=TABLES o WRITE=TABLES.
ROWP
Porcentajes para tablas univariadas o porcentajes basados en totales de fila para tablas
bivariadas.
COLP
Porcentajes basados en totales de columnas en tablas bivariadas.
TOTP
Porcentajes basados en el gran total en tablas bivariadas.
FREQ
Conteos de frecuencia ponderada (el mismo sin ponderar si no se especifica WEIGHT).
UNWF
Conteos de frecuencia sin ponderar.
MEAN
Media de la variable especificada por VARCELL.
VARCELL=n
umero de variable
El n
umero de la variable para la cual se va calcular la media en cada celda de la tabla.
MDHANDLING=ALL/R/C/NONE
Indica cuales valores de datos faltantes deben excluirse de los c
alculos de porcentajes y estadsticas
bivariadas.
ALL
Eliminar todos los valores de datos faltantes.
R
Eliminar los valores de datos faltantes para las variables de fila.
C
Eliminar los valores de datos faltantes para las variables de columna.
NONE
No eliminar valores de datos faltantes.
Nota: los casos con datos faltantes siempre se excluyen de las estadsticas univaridas.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
FILTER=xxxxxxxx
El nombre de 1-8 caracteres de la especificaci
on de subconjunto que se va a usar como filtro local.
Debe estar encerrado entre comillas sencillas si tiene caracteres no-alfanumericos. Si el nombre
no coincide con alguno de los nombres de las especificaciones de subconjunto, se salta la tabla.
Se deben usar letras may
usculas con el objeto de hacer encajar el nombre en la especificaci
on de
subconjuntos el cual se convierte autom
aticamente a may
usculas.
REPE=xxxxxxxx
El nombre de 1-8 caracteres de la especificaci
on de subconjunto que se va a usar como factor
de repetici
on. Debe estar encerrado entre comillas sencillas si tiene caracteres no-alfanumericos.
Si el nombre no coincide con alguno de los nombres de las especificaciones de subconujunto, se
salta la tabla. Las tablas se repetir
an para cada grupo de casos especificado. Se deben usar letras
may
usculas con el objeto de hacer encajar el nombre en la especificaci
on de subconjuntos el cual
se convierte autom
aticamente a may
usculas.

37.8 Proposiciones de control del programa

289

USTATS=(MEANSD, MEDMOD)
(Solo tablas univariadas).
MEAN
Imprimir media, mnimo, maximo, variancia (sin asimetra), desviacion est
andar, coeficiente de variaci
on, asimetra, kurtosis, total de casos ponderados y sin ponderar.
MEDM
Imprimir mediana y moda (si hay ataduras, se escoge el valor numerico mas peque
no).
NTILE=n
(Solo tablas univariadas).
La n es el n
umero de cuartiles que se van a calcular; debe estar en el rango 3-10.
STATS=(CHI, CV, CC, LRD, LCD, LSYM, SPMR, GAMMA, TAUA, TAUB, TAUC, EBMSTAT,
WILC, MW, FISHER, T)
Si se va imprimir o producir como salida alguna de las estadsticas bivariadas, suministrar el
par
ametro STAT con cada una de las estadsticas deseadas.
Tablas bivariadas y matrices de salida
CHI
Ji-cuadrada. (Si no se ha pedido MATRIX, la selecci
on de CHI, CV o CC har
a que se
calculen las tres).
CV
V de Cramer.
CC
Coeficiente de contingencia.
LRD
Lambda, variable de fila es la variable dependiente. (Si no se ha pedido MATRIX, la
selecci
on de cualquiera de las lambdas har
a que se calculen las tres).
LCD
Lambda, variable de columna es la variable dependiente.
LSYM
Lambda, simetrica.
SPMR
Estadstica Ro de Spearman.
GAMM
Estadstica Gama.
TAUA
Estadstica tau a. (Si no se ha pedido MATRIX, la selecci
on de cualquiera de las taus
har
a que se calculen las tres).
TAUB
Estadstica tau b.
TAUC
Estadstica tau c.
Tablas bivariadas solamente
EBMS
Estadsticas para medicina basada en evidencia.
WILC
Prueba de rangos con signo de Wilcoxon.
MW
Prueba de Mann-Whitney.
FISH
Prueba exacta de Fisher.
T
Pruebas-t entre todas las combinaciones de filas, hasta un lmite de 50 filas.
DECPCT=2/n
N
umero de decimales impresos para porcentajes, maximo cuatro.
DECSTATS=2/n
N
umero de decimales impresos para las estadsticas media, mediana, taus, gama, lambdas y Jicuadrada. Todas las dem
as estadsticas se imprimiran con 2+n decimales (es decir, por defecto
4).
WRITE=MATRIX/TABLES
Si se va a generar un archivo de salida, se debe suministrar el par
ametro WRITE y el tipo de
salida.
MATR
Bajar al archivo las matrices de estadsticas seleccionadas.
Si el par
ametro ROWVARS se especifica, se produce una matriz cuadrada para cada
estadstica solicitada en el par
ametro STATS con todos los apareamientos de las variables que aparecen en la lista.
Si se especifican los par
ametros ROWVARS y COLVARS, se produce una matriz rectangular para cada estadstica solicitada en el par
ametro STATS con cada variable que
aparezca en la lista de ROWVARS, apareada con cada variable que aparezca en la lista
de COLVARS.

290

Tablas univariadas y bivariadas (TABLES)


TABL

Bajar al archivo las tablas de estadsticas solicitadas en el par


ametro CELLS.

PRINT=(TABLES/NOTABLES, SEPARATE, ZEROS, CUM, GRID/NOGRID,


N, WTDN, MATRIX)
Opciones que se refieren a tablas univariadas/bivariadas solamante.
TABL
Imprimir las tablas con tems especificados por CELLS.
SEPA
Imprime cada tem especificado en CELLS como una tabla separada.
ZERO
Mantener las filas con marginales cero en el listado. (S
olo aplica si la tabla tiene mas
de 10 columnas y por lo tanto ha de imprimirse por tiras).
CUM
Imprimir frecuencias y porcentajes acumulados y marginales por fila y columna. Si los
datos son ponderados, las cifras se calculan sobre frecuencias ponderadas solamente.
GRID
Imprimir la malla alrededor de las celdas de tablas bivariadas.
NOGR
Suprimir la malla alrededor de las celdas de tablas bivariadas.
Opciones
N
WTDN
MATR

37.9.

que se refieren a WRITE=MATRIX solamente.


Imprimir la matriz de las n para las matrices de estadsticas solicitadas.
Imprimir la matriz de las n ponderadas, para las matrices de estadsticas solicitadas.
Imprimir las matrices de estadsticas especificadas con STATS.

Restricciones

1. El n
umero maximo de variables para frecuencias univariadas es 400.
2. La combinaci
on de variables y especificaciones de subconjuntos est
a sujeta a la siguiente restriccion:
5NV + 107NF < 8499
donde NF es el n
umero de especificaciones de subconjuntos y NV es el n
umero de variables.
3. Los valores de los c
odigos en tablas univariadas deben estar dentro del rango -2,147,483,648 a 2,147,483,647.
4. Los valores de los c
odigos para tablas bivariadas deben estar en el rango -32,768 a 32,768. Cualesquiera
valores de c
odigo fuera de este rango, se recodifican inmediatamente a los valores de los puntos extremos
del rango, por ej. -40,000 se recodificar
a a -32,768 y 40,000 se convertira en 32,768. De esta manera, en
las especificaciones de tablas bivariadas, 32,768 corresponde al maximo valor maximo. (Notese que
una variable de 5 dgitos con un c
odigo de datos faltantes de 99999 tendra en el listado la fila de dato
faltante con ttulo 32,768).
5. La frecuencia maxima acumulada, ponderada o sin ponderar para una tabla (y para cualquier celda,
fila o columna) es 2,147,483,647.
6. Dimensiones maximas de la tabla.
Bivariada: 500 c
odigos de fila, 500 c
odigos de columna, 3000 celdas con entidades diferentes
de cero.
Univariada: 3000 categoras cuando se hayan solicitado frecuencias, mediana/moda; de lo
contrario, son ilimitadas.
Nota: para una variable como ingreso, si hay mas de 3000 valores u
nicos de ingreso, no se
puede obtener una mediana o una moda sin antes haber agrupado la variable.
7. Los valores no enteros de las variables tipo V en distribuciones y ponderaciones se tratan como si no
existiera el punto decimal; se imprime un factor de escala para cada variable.
8. Las pruebas-t de medias entre filas se llevan a cabo solamente en las primeras 50 filas de una tabla.
9. Para la salida de la matriz de estadsticas bivariadas, el maximo n
umero de variables por fila o columna
es de 95.
10. Si se van a producir archivos de salida para frecuencias bivariadas y matrices de estadsticas, todos
van al mismo archivo fsico de salida.
11. Cuando se utilizan variables recodificadas, no se pueden titular las filas y las columnas de las tablas.

37.10 Ejemplo

37.10.

291

Ejemplo

En el ejemplo a continuacion, se piden las siguientes tablas:


1. Conteos de frecuencia para las variables V201-V220.
2. Estadsticas univariadas sin tablas de frecuencias para las variables V54-V62 y V64. Las medias tendran
un decimal y las dem
as estadsticas 3 decimales.
3. Conteos de frecuencias ponderadas y sin ponderar y porcentajes con frecuencias acumuladas y porcentajes para las variables V25-V30 y la versi
on agrupada de la variable V7. Los casos con datos
faltantes no se excluiran de los porcentajes o de las estadsticas. Se solicitan la mediana y la moda.
4. Para las categoras de la variable individual V201, se piden conteos de frecuencias y la media de la
variable V54.
5. 8 tablas bivariadas (con variables de fila V25-V28 y variables de columna V29, V30) repetidas por los
valores 1 y 2 de la variable 10 (sexo), es decir que la variable sexo se utiliza como variable de panel
(control). En cada celda habr
a conteos, porcentajes por filas, por columnas y por totales. Se piden las
estadsticas Ji-cuadrada y Taus.
6. Tablas de 3 entradas con la regi
on (V3) agrupada en tres categoras como variable de panel. Las tablas
se restringen a casos de hombres solamente (V10=1). En cada celda aparecer
an conteos de frecuencias
y media de la variable V54.
7. Una tabla de conteos de frecuencia ponderada individual, con exclusion de los casos en los cuales la
variable de fila y/o de columna tomen el valor de 9.
8. Las matrices de las estadsticas Tau A y Gama se imprimiran y se bajaran a un archivo para todos los
pares de variables V54-V62. Tambien se imprimira una matriz de conteo de casos validos para cada
par de variables.

1.
2.
3.
4.
5.
6.
7.
8.

$RUN TABLES
$FILES
PRINT = TABLES.LST
FT02
= TREE.MAT
matrices de estad
sticas
DICTIN = TREE.DIC
archivo Diccionario de entrada
DATAIN = TREE.DAT
archivo Datos de entrada
$RECODE
R7=BRAC(V7,0-15=1,16-25=2,26-35=3,36-45=4,46-98=5,99=9)
NAME R7V7 AGRUPADA
$SETUP
EJEMPLO DE TABLAS
BADDATA=MD1
MALE
INCLUDE V10=1
SEX
INCLUDE V10=1,2
REGION
INCLUDE V3=1-2,3-4,5
MD
EXCLUDE V19=9 OR V52=9
TABLES
ROWV=(V201-V220) TITLE=Conteo de frecuencias
ROWV=(V54-V62,V64) USTATS=MEANSD PRINT=NOTABLES DECSTAT=1
ROWV=(V25-V30,R7)
USTATS=MEDMOD CELLS=(FREQS,UNWFREQS,ROWP) WEIGHT=V9 PRINT=CUM MDHAND=NONE
R=(V201,1,3) CELLS=(FREQS,MEAN) VARCELL=V54
ROWV=(V25-V28) COLV=(V29-V30) CELLS=(FREQS,ROWP,COLP,TOTP) STATS=(CHI,TAUA) REPE=SEX
ROWV=(V201-V203) COLV=V206 CELLS=(FREQS,MEAN) VARCELL=V54 REPE=REGION FILT=MALE
R=V19 C=V52 WEIGHT=V9 FILT=MD
ROWV=(V54-V62) STATS=(TAUA,GAMMA) PRINT=(MATRIX,N) WRITE=MATRIX

Captulo 38

Tipologa y clasificaci
on ascendente
(TYPOL)
38.1.

Descripci
on general

TYPOL crea una variable de clasificacion que resume un gran n


umero de variables. Se permite que el n
ucleo
inicial de grupos este constituido por el uso de una variable de clasificacion inicial, definida a priori (variable
clave), una muestra aleatoria de casos, o una muestra por pasos. Un proceso iterativo mejora los resultados
mediante la estabilizacion de los n
ucleos. Los grupos finales constituyen las categoras de la variable de
clasificacion que se busca. El n
umero de grupos de la tipologa se puede reducir si se utiliza un algoritmo de
clasificacion jer
arquica ascendente.
Las variables activas son aquellas sobres las cuales se hace el agrupamiento y reagrupamiento de los casos.
Tambien se pueden buscar las estadsticas principales de otras variables dentro de los grupos construidos de
acuerdo con las variables activas. Tales variables (que no tienen influencia en la construcci
on de los grupos)
se llaman variables pasivas.
TYPOL acepta variables cuantitativas y cualitativas, estas u
ltimas se tratan como cuantitativas depues
de una dicotomizacion completa de sus respectivas categoras, lo cual resulta en la construcci
on de tantas
variables dicotomizadas (1/0) como n
umero de categoras haya de la variable cualitativa. Tambien es posible
estandarizar las variables activas (tanto cuantitativas como cualitativas despues de la dicotomizacion).
TYPOL opera en dos etapas:
1. Construcci
on de una tipologa inicial. El programa construye una tipologa de n grupos, como
se haya solicitado por el usuario, a partir de los casos los cuales se caracterizan por un n
umero dado
de variables (consideradas como cuantitativas). El usuario puede escoger la manera de establecer una
configuracion inicial (ver el par
ametro INITIAL), y tambien el tipo de distancia (ver el par
ametro
DTYPE) utilizado por el programa para calcular la distancia entre los casos y los grupos.
2. Clasificaci
on ascendente adicional (opcional). Si el usuario desea una tipologia con menos grupos,
el programa -mediante un algoritmo de clasificacion jerarquica ascendente- reduce uno a uno, el n
umero
de grupos hasta llegar al n
umero especificado por el usuario.

38.2.

Caractersticas est
andar de IDAMS

Selecci
on de casos y variables. El filtro est
andar est
a disponible para escoger un subconjunto de casos a
partir de los datos de entrada. Las variables se especifican con par
ametros.
Transformaci
on de datos. Se pueden usar las proposiciones de Recode.
Ponderaci
on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci
on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci
on para un

294

Tipologa y clasificaci
on ascendente (TYPOL)

caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n
umero
de casos as tratados.
Tratamiento de datos faltantes. El par
ametro MDVALUES est
a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para verificar los datos faltantes. Los casos con datos faltantes en las
variables cuantitativas pueden ser excluidos del analisis (ver el par
ametro MDHANDLING).

38.3.

Resultados

Diccionario de entrada. (Opcional: ver el par


ametro PRINT). Registros descriptores de variables y registros C, si los hay, solamente para variables utilizadas en la ejecuci
on.
Tipologa inicial
Construcci
on de una tipologa inicial. (Opcional: ver el par
ametro PRINT).
El reagrupamiento de grupos iniciales, seguido de una tabla de n
umeros de referencias cruzadas
atribuidos a los grupos antes y despues de la construcci
on de los grupos iniciales.
Tabla(s) que muestra(n) la redistribuci
on de casos entre una iteraci
on y la siguiente y da el
porcentaje del n
umero total de casos agrupados correctamente.
Evoluci
on del porcentaje de variancia explicada de una iteraci
on a la otra.
Caractersticas de distancias por grupos. El n
umero de casos en cada grupo inicial de la tipologa,
junto con el valor de la media y de la desviaci
on est
andar de las distancias.
Tablas de las distancias. (Opcional: ver el par
ametro PRINT). Tablas de distancias mostrando dentro de
cada grupo, la distribuci
on de casos a traves de quince intervalos continuos siendo estos intervalos:
diferentes para cada grupo (primera tabla),
identicos para todos los grupos (segunda tabla).
Caractersticas globales de distancias. El n
umero total de casos, con la media y desviacion est
andar
globales de las distancias.
Estadsticas de resumen. La media, desviacion est
andar y el peso de la variable para las variables cuantitativas y para las categoras de las variables cualitativas activas.
Descripci
on de la tipologa resultante. Para cada grupo de tipologa, se imprime primero su n
umero
y el porcentaje de casos que le pertenecen. Despues se suministran las estadsticas, variable por variable,
en el siguiente orden: (1) variables cuantitativas activas (2) variables cuantitativas pasivas (3) variables
cualitativas activas (4) variables cualitativas pasivas.
Para cada variable cuantitativa se da su monto de variancia explicada, su valor de media global
y, dentro de cada grupo de la tipologa, su media y desviaci
on est
andar.
Para cada categora de la variable cualitativa, se da primero su monto de variancia explicada y el
porcentaje de casos que le coresponden; luego dentro de cada grupo de la tipologa se imprime:
verticalmente el porcentaje de casos a traves de las categoras de la variable en la primera lnea
y horizontalmente, el porcentaje de casos a traves de los grupos de la tipologa (porcentajes por
fila) en la segunda lnea (opcional: ver el par
ametro PRINT).
Resumen de la cantidad de variancia explicada por la tipologa. Se dan los siguientes porcentajes
de variancia explicada:
la variancia explicada por las variables mas discriminatorias, es decir, aquellas que tomadas juntas son
responsables por el 80 % de la variancia explicada,
la media de la cantidad de variancia explicada por las variables activas,
la media de la cantidad de variancia explicada por todas las variables juntas,
la media de la cantidad de variancia explicada por las variables mas discriminatorias junto con la
proporcion de estas variables.

38.4 Dataset de salida

295

Nota: cuando aparecen variables cualitativas en las tablas, se imprimen los primeros 12 carateres del nombre
de la variable junto con el c
odigo que identifica la categora. Cuando aparecen variables cuantitativas en las
tablas, se imprimen todos los 24 caracteres del nombre de la variable.
Clasificaci
on jer
arquica ascendente
Tabla de raices cuadradas de desplazamientos y distancias, calculadas para cada par de grupos. (Opcional:
ver el par
ametro PRINT).
Tabla de reagrupamiento Nr.1. Estadsticas de resumen para las variables cuantitativas activas y las
categoras de variables cualitativas activas de los grupos implicados en el reagrupamiento.
Descripci
on de la nueva tipologa resultante. (Opcional: ver el par
ametro LEVELS). La misma informaci
on anterior.
Resumen de la cantidad de variancia explicada por la nueva tipologa. La misma informacion
anterior. N
otese aqu la media de la cantidad de variancia explicada por las variables mas discriminatorias
antes del reagrupamiento.
El resumen de la clasificacion jer
arquica ascendente se imprime despues de cada reagrupamiento hasta el
n
umero de grupos especificado por el usuario.
Tres diagramas que muestran el porcentaje de variancia explicada como una funci
on del n
umero de grupos
de las tipologas sucesivas, a su turno, para:
todas las variables,
las variables activas,
las variables que explican el 80 % de la variancia antes de llevar a cabo el reagrupamiento.
Perfiles para cada grupo de la tipologa. (Opcional: ver el par
ametro PRINT). Estos perfiles se imprimen
y se grafican para todos los grupos de la primera tipologa resultante y despues para los grupos obtenidos
en cada reagrupamiento.
Arbol jer
arquico se produce al final.

38.4.

Dataset de salida

Se puede pedir un dataset de variable de clasificacion para la primera tipologa resultante y sale en la
forma de un archivo Datos descrito por un diccionario IDAMS (ver el par
ametro WRITE y el captulo
Los datos en IDAMS). Contiene la variable de identificaci
on de caso, las variables transferidas, la variable
de clasificacion (GROUP NUMBER) y para cada caso, su distancia multiplicada por 1000 desde cada
categora de la variable de clasificacion, llamadas variables de distancia (n GROUP DISTANCE). Las
variables se numeran desde uno e incrementan de uno en uno en el orden siguiente: variable de identificacion
de caso, variables transferidas, variable de clasificacion y variables de distancia.

38.5.

Matriz de configuraci
on de salida

Se puede escribir opcionalmente una matriz de configuracion de salida en la forma de una matriz rectangular
de IDAMS (ver el par
ametro WRITE). Ver el captulo Los datos en IDAMS para una descripcion del
formato. Esta matriz suministra, lnea por lnea, para cada variable cuantitativa y para cada categora de
variables cualitativas activas, su valor medio a traves de los grupos y su desviacion est
andar total para la
tipologa inicial, es decir, antes de que los reagrupamientos tengan lugar. Los elementos de la matriz se
escriben en formato 8F9.3. Se escriben registros de diccionario.

38.6.

Dataset de entrada

La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para analisis
deben ser numericas; pueden ser enteras o decimales. La variable identificadora de casos y las variables a ser
transferidas pueden ser alfabeticas.

296

Tipologa y clasificaci
on ascendente (TYPOL)

38.7.

Matriz de configuraci
on de entrada

La matriz de configuracion de entrada debe estar en la forma de una matriz rectangular IDAMS. Ver el
captulo Los datos en IDAMS para una descripcion del formato. La matriz es opcional y suministra una
configuracion inicial para usar en los c
alculos. Las estadsticas incluidas deberan ser valores medios para
las variables cuantitativas y proporciones (no porcentajes) para las categoras de variables cualitativas (por
ej. .180 en vez de 18.0 %). Una matriz de configuracion producida por el programa en una ejecuci
on previa
puede servir como configuracion de entrada.

38.8.

Estructura del setup

$RUN TYPOL
$FILES
Especificaci
on de archivos
$RECODE (opcional)
Proposiciones de Recode
$SETUP
1. Filtro (opcional)
2. T
tulo
3. Par
ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
$MATRIX (condicional)
Matriz de configuraci
on de entrada

Archivos:
FT02
FT09
DICTxxxx
DATAxxxx
DICTyyyy
DATAyyyy
PRINT

38.9.

matriz de configuraci
on de salida si se ha especificado WRITE=CONF
matriz de configuraci
on de entrada si se ha especificado INIT=CONF
(omitir si se usa $MATRIX)
diccionario de entrada (omitir si se usa $DICT)
datos de entrada (omitir si se usa $DATA)
diccionario de salida si se especifica WRITE=DATA
datos de salida si se especifica WRITE=DATA
resultados (por defecto IDAMS.LST)

Proposiciones de control del programa

Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci
on.
Ejemplo:

INCLUDE

V1=10-40,50

38.9 Proposiciones de control del programa

297

2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo:

PRIMERA CONSTRUCCION DE VARIABLE DE CLASIFICACION

3. Par
ametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo:

MDHAND=ALL AQNTV=(V12-V18) DTYPE=EUCL PRINT=(GRAP,ROWP,DIST) INIG=5 FING=3

INFILE=IN/xxxx
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
Por defecto: DICTIN, DATAIN.
BADDATA=STOP/SKIP/MD1/MD2
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
N
umero maximo de casos (despues de filtrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
AQNTVARS=(lista de variables)
Una lista de variables que especifica las variables cuantitativas activas.
PQNTVARS=(lista de variables)
Una lista de variables que especifica las variables cuantitativas pasivas.
AQLTVARS=(lista de variables)
Una lista de variables que especifica las variables cualitativas activas.
PQLTVARS=(lista de variables)
Una lista de variables que especifica las variables cualitativas pasivas.
MDVALUES=BOTH/MD1/MD2/NONE
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci
on. Ver
el captulo El archivo Setup de IDAMS.
MDHANDLING=ALL/QUALITATIVE/QUANTITATIVE
ALL
Se saltan los casos con datos faltantes en variables cuantitativas y se excluyen del
analisis los c
odigos de datos faltantes en variables cualitativas.
QUAL
Se excluyen del analisis los valores de datos faltantes en las variables cualitativas.
QUAN
Se saltan los casos con datos faltantes en las variables cuantitativas.
REDUCE
Estandarizacion de variables activas, cuantitativas y cualitativas.
WEIGHT=n
umero de variable
N
umero de la variable de ponderaci
on, si se van a ponderar los datos.
DTYPE=CITY/EUCLIDEAN/CHI
CITY
Distancia en cuadra urbana (city block).
EUCL
Distancia euclideana.
CHI
Distancia de Ji-cuadrada.
Nota: con referencia a la selecci
on del tipo de distancia, se recomienda usar:
la distancia en cuadra urbana cuando algunas variables activas son cualitativas y otras son
cuantitativas,

298

Tipologa y clasificaci
on ascendente (TYPOL)
la distancia euclideana cuando las variables activas son todas cuantitativas (con estandarizacion
cuando no se hayan medido todas con la misma escala),
la distancia de Ji-cuadrada cuando las variables activas son todas cualitativas.
INIGROUP=n
N
umero de grupos iniciales. Si una variable clave va a servir como base para la tipologa y si el
n
umero de grupos iniciales especificado aqu es mayor que el valor maximo de la variable clave,
el programa corrige esto autom
aticamente. Tambien, si hay ciertas categoras con cero casos, el
n
umero de grupos iniciales sera el n
umero de categorias no vacas que tengan casos.
Sin valor por defecto.
FINGROUP=1/n
N
umero de grupos finales.
INITIAL=STEPWISE/RANDOM/KEY/INCONF
La manera como la configuracion inicial es establecida.
STEP
Muestra por pasos.
RAND
Muestra aleatoria.
KEY
El perfil de los grupos iniciales es creado de acuerdo con una variable clave.
INCO
Se da un perfil a priori de grupos iniciales en un archivo de configuracion de entrada.
Nota: las variables incluidas en la configuracion de entrada deben corresponder exactamente a las variables suministradas con los par
ametros AQNTV y/o AQLTV.
STEP=5/n
Si se ha solicitado muestra de casos por pasos (INIT=STEP), n es la longitud del paso.
NCASES=n
Si se ha solicitado la muestra aleatoria de casos (INIT=RAND), n es el n
umero de casos (sin
ponderar) en el archivo de entrada, o una buena estimaci
on siempre que no exceda el n
umero de
casos.
Sin valor por defecto; debe especificarse si INIT=RAND.
KEY=n
umero de variable
Si se ha usado una variable clave para construir grupos iniciales (INIT=KEY), este es el n
umero
de la variable clave.
Sin valor por defecto; debe especificarse si INIT=KEY.
ITERATIONS=5/n
N
umero maximo de iteraciones para convergencia del perfil de grupo.
REGROUP=DISPLACEMENT/DISTANCE
DISP
El reagrupamiento se basa en el desplazamiento mnimo.
DIST
El reagrupamiento se basa en la distancia mnima.
WRITE=(DATA, CONFIG)
DATA
Crear un dataset IDAMS que contenga la variable identificadora de casos, las variables
transferidas, la variable de clasificacion y las variables de distancia.
CONF
Bajar la matriz de configuracion a un archivo.
OUTFILE=OUT/yyyy
Un sufijo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
IDVAR=n
umero de variable
La variable a ser transferida al dataset de salida para identificar los casos.
Obligatorio si WRITE=DATA se ha especificado.

38.10 Restricciones

299

TRANSVARS=(lista de variables)
Variables adicionales (hasta 99) para ser transferidas al dataset de salida.
LEVELS=(n1, n2, ...)
Imprimir la descripci
on de la tipologa resultante para el n
umero de grupos especificado.
Por defecto: se imprime la descripcion despues de cada reagrupamiento.
PRINT=(CDICT/DICT, OUTCDICT/OUTDICT, INITIAL, TABLES, GRAPHIC, ROWPCT,
DISTANCES)
CDIC
Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT
Imprimir el diccionario de entrada sin registros C.
OUTC
Imprimir el diccionario de salida con registros C si los hay.
OUTD
Imprimir el diccionario de salida sin registros C.
INIT
Imprimir la historia de la construcci
on de la tipologa inicial.
TABL
Imprimir dos tablas con clasificacion de distancias.
GRAP
Imprimir el gr
afico de los perfiles.
ROWP
Imprimir porcentajes de fila para categoras de variables cualitativas.
DIST
Imprimir tabla de distancias y desplazamientos para cada reagrupamiento.

38.10.

Restricciones

1. El n
umero maximo de grupos iniciales es 30.
2. El n
umero maximo total de variables es 500, incluidas variable de ponderaci
on, variable clave, variables
a ser transferidas, variables de analisis (variables cuantitativas + n
umero de categoras para variables
cualitativas) y variables usadas temporalmente en proposiciones de Recode.
3. Si la variable de identificaci
on o una variable a ser transferida es alfabetica con ancho > 4, solo se usan
los primeros cuatro caracteres.
4. No se pueden usar variables R como variable identificadora o como variables a ser transferidas.

38.11.

Ejemplos

Ejemplo 1. Creaci
on de una variable de clasificacion al reunir 5 variables cuantitativas y 4 variables cualitativas con uso de distancia en cuadra urbana; se establecer
a una configuracion inicial mediante selecci
on
aleatoria de casos; la clasificacion comienza con 6 grupos y termina con 3; el reagrupamiento se basa en la
distancia mnima; los datos faltantes se excluyen del analisis.
$RUN TYPOL
$FILES
PRINT = TYPOL1.LST
DICTIN = A.DIC
archivo Diccionario de entrada
DATAIN = A.DAT
archivo Datos de entrada
$SETUP
BUSCA NUMERO DE CATEGORIAS EN UNA VARIABLE DE CLASIFICACION
AQNTV=(V114,V116,V118,V120,V122) AQLTV=(V5-V7,V36) REDU INIG=6 FING=3 INIT=RAND NCAS=1200 REGR=DIST PRINT=(GRAP,ROWP,DIST)
Ejemplo 2. Generaci
on de una variable de clasificacion a partir del Ejemplo 1 con 4 categoras; la variable
se va escribir en un archivo; las variables V18 y V34 se usan como cuantitativas pasivas y las variables V12
y V14 como cualitativas pasivas.

300

Tipologa y clasificaci
on ascendente (TYPOL)
$RUN TYPOL
$FILES
PRINT
= TYPOL2.LST
DICTIN = A.DIC
archivo Diccionario de entrada
DATAIN = A.DAT
archivo Datos de entrada
DICTOUT = CLAS.DIC
archivo Diccionario de salida
DATAOUT = CLAS.DAT
archivo Datos de salida
$SETUP
GENERACION DE UNA VARIABLE DE CLASIFICACION
AQNTV=(V114,V116,V118,V120,V122) AQLTV=(V5-V7,V36) REDU PQNTV=(V18,V34) PQLTV=(V12,V14) INIG=6 FING=4 INIT=RAND NCAS=1200 REGR=DIST PRINT=(GRAP,ROWP) WRITE=DATA IDVAR=V1

Parte V

An
alisis interactivo de datos

Captulo 39

Tablas multidimensionales y su
presentaci
on gr
afica
39.1.

Visi
on general

El componente interactivo Tablas multidimensionales de WinIDAMS le permite visualizar y personalizar


tablas multidimensionales con frecuencias, porcentajes de fila, de columna y totales, estadsticas univariadas
(suma, conteo, media, maximo, mnimo, variancia, desviacion est
andar) de variables adicionales y estadsticas
bivariadas. Las variables de fila y/o columna se pueden colocar al mismo nivel o bien se pueden anidar hasta
siete variables en filas y columnas. Se puede repetir la construcci
on de una tabla para cada valor de hasta
tres variables de pagina. Tambien se pueden imprimir o exportar cada p
agina de la tabla en formato libre
(con coma o car
acter de tabulaci
on como delimitadores) o en formato HTML.
Los datasets de IDAMS usados como entrada deben tener el mismo nombre para los archivos Diccionario y
Datos con extensiones .dic y .dat respectivamente.
S
olo se puede usar un dataset por vez, es decir, si se abre un otro dataset, entonces se cierra autom
aticamente
el dataset que est
a en uso.

39.2.

Preparaci
on del an
alisis

Selecci
on de los datos. Hay un dataset disponible para construir tablas multidimensionales hasta que se
cambie al activar nuevamente el componente Tablas multidimensionales. El dialogo le permite escoger un
archivo de datos, bien sea de una lista de archivos usados recientemente (Recientes) o de cualquier carpeta
(Existentes). Por defecto se usa la carpeta Datos de la aplicacion actual. Si se asigna Archivos Datos (*.dat)
a Archivos de tipo: solo se muestran archivos Datos de IDAMS.
Selecci
on de variables. Al seleccionar un dataset para analisis, se llama al cuadro de dialogo para definicion
de la tabla. Se presenta una lista de las variables disponibles y se presentan cuatro ventanas para especificar
variables con diferentes prop
ositos. Use las tecnicas arrastrar y colocar para mover las variables entre y/o
dentro de las ventanas requeridas.
Variables de p
agina se usan para construir p
aginas separadas de la tabla para cada valor distinto de la
variable a la vez y para todos los casos juntos (pagina Total). Los casos incluidos en una p
agina en
particular tienen todos el mismo valor en la variable de p
agina. Las variables de p
agina nunca se anidan.
El orden en el cual se especifican las variables determina el orden en el cual se colocan las p
aginas.
Variables de fila son aquellas cuyos valores se usan para definir filas de la tabla. Su orden determina la
secuencia de uso de anidamiento.
Variables de columna son aquellas cuyos valores se usan para definir columnas de la tabla. Su orden
determina la secuencia de uso de anidamiento.

304

Tablas multidimensionales y su presentaci


on gr
afica

Variables de celda son aquellas cuyos valores se usan para calcular las estadsticas univariades (por ej. la
media) en las celdas de la tabla. El orden en el cual se especifican determina su orden de aparici
on en
la tabla. Puede haber hasta 10 variables de celda.

Anidamiento. Si se especifica mas de una variable de fila y/o columna, se anidan por defecto. Para usarlas
en forma secuencial, en el mismo nivel, haga doble clic en la variable de la fila o columna de la lista de
variables y marque la opci
on de tratamiento en el mismo nivel. Nota: esta opcion no est
a disponible para la
primera variable de una lista.
Porcentajes. Se pueden obtener porcentajes en cada celda (de fila, de columna y totales) haciendo doble
clic sobre la u
ltima variable de fila anidada en la ventana de definicion de tabla escogiendo los tipos de
porcentajes requeridos.
Estadsticas univariadas. Se pueden obtener diferentes estadsticas (suma, conteo, media, maximo, mnimo, variancia, desviaci
on est
andar) para cada variable de celda haciendo doble clic sobre la variable en la
ventana de definicion de tabla y marcando la estadstica o estadsticas requeridas. Las formulas para calcular media, variancia y desviaci
on est
andar se pueden encontrar en la secci
on Estadsticas univariadas del
captulo Tablas univariadas y bivariadas. Sin embargo, deben ajustarse ya que los casos no se ponderan.
Tratamiento de datos faltantes. El tratamiento de datos faltantes por defecto se aplica a la primera
construcci
on de tabla. Despues, se puede cambiar con el men
u Cambiar.
La opcion Valores de datos faltantes se usa para indicar cuales valores de datos faltantes, si los hay, se
usaran para verificar datos faltantes en los valores de las variables de fila y columna.
Ambos
Los valores de las variables se verificar
an contra los c
odigos MD1 y los rangos de los c
odigos
definidos por MD2.
MD1
Los valores de las variables se verificar
an contra los c
odigos MD1 solamente.
MD2
Los valores de las variables se verificar
an contra los rangos de los c
odigos definidos por MD2
solamente.
Ninguno
No se usaran c
odigos MD. Se consideran validos todos los valores de los datos.
Por defecto, se usan ambos c
odigos MD.
La opcion Manejo de datos faltantes se usa para indicar cuales valores de datos faltantes deben excluirse
de los c
alculos de porcentajes y estadsticas bivariadas.
Todos
Elimine todos los valores de datos faltantes.
Fila
Elimine los valores de datos faltantes para las variables de fila.

39.3 Ventana de tablas multidimensionales


Columna
Ninguno

305

Elimine los valores de datos faltantes para las variables de columna.


No elimine valores de datos faltantes.

Por defecto, se eliminan todos los valores de datos faltantes.


Nota: los casos con datos falantes en variables de celda siempre se excluyen de los c
alculos de estadsticas
univariadas. Esta exclusion se hace por celda, separadamente para cada variable. De esta manera, el n
umero
de casos validos puede no ser igual a la frecuencia de la celda. La estadstica conteo muestra el n
umero de
casos validos.
Cambiar la definici
on de la tabla. El comando Especificaci
on de men
u Cambiar llama al cuadro de
dialogo con la definicion de la tabla actual. Puede cambiar variables para analisis, su anidamiento as como
pedir porcentajes y estadsticas univariadas. Hacer clic en OK reemplaza la tabla actual por una nueva.

39.3.

Ventana de tablas multidimensionales

Despues de seleccionar las variables y hacer clic en OK, aparece la ventana de Tablas multidimensionales
en la ventana de documento de WinIDAMS. Por defecto, se muestran las frecuencias y las medias de todas
las variables de celda. Si se especifican las variables de p
agina, se muestran los nombres de c
odigos de estas
variables en el tabulador en la parte inferior de la tabla. Se puede acceder a una p
agina en particular con un
clic en su nombre (o su c
odigo).

Cambiar la presentaci
on de la p
agina. Se puede cambiar separadamente la presentacion de cada p
agina,
los cambios se aplican exclusivamente a la p
agina activa.
Son posibles las siguientes modificaciones:
Aumentar el tama
no de la fuente - use el comando Aumentar de men
u Ver o el boton Aumentar de la
barra de herramientas.
Disminuir el tama
no de la fuente - use el comando Reducir de men
u Ver o el boton Reducir de la barra
de herramientas.
Restaurar el tama
no de la fuente por defecto - use el comando 100 % de men
u Ver o el boton 100 % de
la barra de herramientas.

306

Tablas multidimensionales y su presentaci


on gr
afica
Aumentar/Disminuir el ancho de columna - coloque el cursor del rat
on sobre la lnea que separa dos
columnas en el encabezado de columna hasta que el cursor se haya convertido en una barra vertical
con dos flechas y muevalo a derecha/izquierda teniendo apretado el boton izquierdo del rat
on.
Minimizar el ancho de columnas - marque la columna o columnas requeridas y use el comando Cambiar
tama
no de columnas de men
u Formato.
Aumentar/Disminuir el alto de fila - coloque el cursor del rat
on sobre la lnea que separa dos filas en
el encabezado de fila hasta que el cursor se haya convertido en una barra horizontal con dos flechas y
muevalo arriba/abajo teniendo apretado el boton izquierdo del rat
on.
Minimizar el alto de filas - marque la fila o filas requeridas y use el comando Cambiar tama
no de filas
de men
u Formato.
Ocultar columnas/filas - reduzca el ancho/alto de la columna/fila a cero. Para mostrar nuevamente
una columna/fila ocultada, coloque el cursor sobre la lnea donde est
a ocultada hasta que aquel se
convierta en una barra vertical/horizontal con dos flechas y haga doble clic en el boton izquierdo del
rat
on.

Adicionalmente, el comando Formato/Estilo permite el acceso a un n


umero de posibilidades de formato de
tablas tales como: selecci
on de fuentes, tama
no de fuentes, colores, etc. para la celda activa o para todas las
celdas de una lnea activa.
Estadsticas bivariadas.
Se calculan estadsticas bivariadas para cada tabla o cada p
agina (Ji-cuadrada,
coeficiente fi, coeficiente de contingencia, V de Cramer, Taus, Gammas, Lambdas, y D de Sormer). Use el
comando Estadsticas de men
u Mostrar para mostrar las estadsticas al final de la tabla. Esta operaci
on
debe repetirse separadamente para cada p
agina si es necesario. Las formulas para calcular las estadsticas
bivariadas se pueden encontrar en la secci
on Estadsticas bivariadas del captulo Tablas univariadas y
bivariadas.
N
otese que las estadsticas se calculan solamente cuando hay una variable de fila y una variable de columna.
Imprimir una p
agina de tabla. Se puede imprimir todo el contenido o solamente partes deseadas de una
p
agina activa de tabla con el comando Imprimir de men
u Archivo. Si quiere imprimir solamente algunas
columnas y/o filas, oculte primero las otras filas/columnas. Se imprimen las columnas y filas mostradas.
Exportar una p
agina de tabla. Se puede exportar en formato libro (delimitadas con comma o car
acter de
tabulaci
on) o en formato HTML, todo el contenido o solamente partes deseadas de una p
agina activa de tabla.
Use el comando Exportar de men
u Archivo y escoja el formato deseado. Si quiere exportar solamente algunas
columnas y/o filas, oculte primero las otras filas/columnas. Se exportan las columnas y filas mostradas.

39.4.

Presentaci
on gr
afica de tablas univariadas y bivariadas

Las frecuencias mostradas en una p


agina de tablas univariadas o bivariadas se pueden presentar graficamente
con uno de los 24 estilos de gr
aficos que est
an a su disposicion. Se inicia la construcci
on del grafico con el
comando Crear de men
u Grafico. Este comando llama al cuadro de dialogo para escoger el estilo de grafico
para la p
agina activa. Adicionalmente, puede pedir el uso de transformaci
on logartmica de frecuencias y dar
una leyenda para los colores y los smbolos usados en el grafico.
Los graficos proyectados no se pueden manipular. Sin embargo, se pueden guardar en uno de los dos formatos,
a saber: formato JPEG de intercambio de archivos (.jpg) o formato Bitmap de Windows (.bmp) con los
comandos relevantes en el menu de Archivo. Tambien se pueden copiar en el portapapeles (el comando
Copiar de men
u Edici
on, el boton Copiar de la barra de herramientas o teclas Ctrl/C) y pasar a cualquier
editor de texto.
N
otese aqu otra vez, que se usan para esta presentacion, solo las frecuencias de las filas y columnas mostradas,
es decir, no de las filas y columnas que est
an ocultas.

39.5 C
omo hacer una tabla multidimensional

39.5.

307

C
omo hacer una tabla multidimensional

Usaremos el dataset rucm (rucm.dic es el archivo Diccionario y rucm.dat es el archivo Datos) que es
en la carpeta Datos por defecto y el cual est
a instalado con WinIDAMS.
Construiremos una tabla de tres entradas con dos variables de fila anidadas (SCIENTIFIC DEGREE y
SEX), una variable de columna (CM POSITION IN UNIT) y una variable de celda (AGE) para la
cual pediremos la media, el maximo y el mnimo.
Haga clic en Interactivo/Tablas multidimensionales. Este comando abre un dialogo para escoger un
archivo Datos de IDAMS.

Haga clic en rucm.dic y Abrir. Se ve ahora un dialogo para especificar las variables que desea usar en
la tabla multidimensional.

308

Tablas multidimensionales y su presentaci


on gr
afica
Escoja las variables SCIENTIFIC DEGREE y SEX como VARIABLES DE FILA, CM POSITION IN UNIT como VARIABLE DE COLUMNA y AGE como VARIABLE DE CELDA.
Con el rat
on, arrastre y coloque las variables (oprima el boton izquierdo del rat
on sobre la variable que
desea mover, mantenga oprimido el boton mientras mueva la variable y sueltela en la lista de variables
a donde quiere llevarla). Se pueden escoger y mover varias variables simult
aneamente de una lista a
otra (oprima la tecla Ctrl cuando seleccione).
El orden de las variables en las listas VARIABLES DE FILA y VARIABLES DE COLUMNA especifica
implcitamente el orden de anidamiento. La primera variable de la lista sera la de mas afuera. El orden
de las variables en una lista se puede modificar arrastrando y colocando las variables en la misma lista.

Despues de escoger las variables, puede cambiar las opciones por defecto, haciendo doble clic sobre la
variable. Un doble clic sobre la variable AGE en la lista VARIABLES DE CELDA abre el dialogo
siguiente:

La media aparece marcada por defecto. Marque M


ax y Mn. Ahora haga clic sobre OK aqu y sobre
OK en el dialogo de definicion de tabla multidimensional.

39.6 C
omo cambiar una tabla multidimensional

39.6.

309

C
omo cambiar una tabla multidimensional

Solicitar tablas separadas. Suponga que desea ver una tabla separada para hombres y mujeres.
Haga clic sobre Cambiar/Especificaci
on y obtiene nuevamente el dialogo con la selecci
on previa de
variables.
Coja y mueva con el rat
on la variable SEX de la lista VARIABLES DE FILA a la lista VARIABLES
DE PAGINA y haga clic sobre OK.
Se observa a primera vista que es total para todos los valores juntos (hombres y mujeres). En la parte
inferior de la vista se ven tres etiquetas Total, MALE,FEMALE. Total es la etiqueta de la
vista actual.

310

Tablas multidimensionales y su presentaci


on gr
afica

Para ver la p
agina de los hombres, haga clic en la etiqueta MALE

Para ver la p
agina de las mujeres, haga clic en la etiqueta FEMALE

39.6 C
omo cambiar una tabla multidimensional

311

Solicitar porcentajes. As como las frecuencias se muestran por defecto, los porcentajes deben pedirse
explcitamente.
Haga clic sobre Cambiar/Especificaci
on y obtiene nuevamente el dialogo de la selecci
on previa de
variables.
Haga doble clic en la variable de fila SCIENTIFIC DEGREE y ve un dialogo con casillas para
marcar frecuencia (marcada por defecto), % Fila, % Columna, y % Total. Marque todas las casillas de
porcentajes as:

Haga clic sobre OK para aceptar el cambio y haga clic sobre OK en el dialogo de definicion de tablas
multidimensonales. Ve la tabla multidimensional previa con todos los porcentajes.

312

Tablas multidimensionales y su presentaci


on gr
afica

Captulo 40

Exploraci
on gr
afica de datos
40.1.

Visi
on general

GraphID es un componente de WinIDAMS para la exploraci


on interactiva de los datos a traves de una
visualizacion gr
afica. Acepta dos clases de entrada:
datasets de IDAMS en los cuales los archivos Diccionario y Datos tienen el mismo nombre con extensiones .dic y .dat respectivamente,
archivos Matriz de IDAMS cuya extensi
on debe ser .mat.
S
olo se puede usar un dataset o una matriz cada vez, es decir, la apertura de un otro archivo, cierra
autom
aticamente el que se est
a usando.

40.2.

Preparaci
on del an
alisis

Selecci
on de datos. Para seleccionar datos, use el comando Abrir de men
u Archivo o haga clic en el boton
Abrir de la barra de herramientas. A continuacion, en el cuadro de dialogo de Abrir, escoja su archivo. La
asignacion de Archivos Datos (*.dat) o Archivos Matriz (*.mat) a Archivos de tipo: permite filtrar
los archivos mostrados.
Selecci
on de identificaci
on de caso. Si ha escogido un dataset, se le pide especificar una identificacion de
caso la cual puede ser una variable o el n
umero secuencial del caso. Se puede escoger una variable numerica
o alfabetica de una lista desplegable.
Selecci
on de variables. Si ha escogido un dataset, se le pide especificar las variables que quiera analizar.
Las variables numericas se pueden escoger de la Lista de origen de posibles variables y moverlas al area de
Vars seleccionadas. Mover las variables entre las listas se puede hacer con clic en los botones >, < (mover
solo las variables resaltadas), >>, << (mover todas las variables). N
otese que las variables alfabeticas no
est
an disponibles aqu y la variable identificadora del caso no debe escogerse para analisis.
Tratamiento de datos faltantes. Se proponen dos posibilidades: (1) en la eliminacion por casos, se usa
un caso en analisis solamente si tiene datos validos en todas las variables escogidas; (2) en la eliminacion
por pares, se usa un caso si tiene datos validos en ambas variables de cada par de variables separadamente.

40.3.

Ventana principal de GraphID para an


alisis de un dataset

Despues de hacer la selecci


on de variables para el analisis y de un clic en OK, la ventana principal de GraphID
muestra la matriz inicial de gr
aficos de dispersi
on con tres variables y propiedades por defecto de la matriz.
Este grafico se puede manipular con varias opciones y comandos en men
us y/o con los conos equivalentes
de la barra de herramientas.

314

40.3.1.

Exploraci
on gr
afica de datos

Barra de men
u y barra de herramientas

Archivo
Abrir

Llama al cuadro de dialogo para escoger un nuevo dataset/matriz para analisis.

Cerrar
Guardar como

Cierra todas las ventanas del analisis actual.


Llama al cuadro de dialogo para guardar la imagen grafica de la ventana
activa en formato Bitmap (*.bmp) de Windows.

Guardar casos enmascarados


Guarda para utilizaci
on ulterior, el n
umero secuencial de casos enmascarados en la sesi
on actual, la numeraci
on sigue la secuencia de casos en el
archivo Datos analizado.
Imprimir
Llama al cuadro de dialogo para imprimir el contenido de la ventana activa.
Vista preliminar
Configurar impresora
Salir

Muestra una vision previa de la impresion de la imagen grafica de la ventana


activa.
Llama al cuadro de dialogo para modificar las opciones de la impresion y de
la impresora.
Termina la sesi
on de GraphID.

El men
u tambien puede contener la lista de los archivos abiertos recientemente, es decir, archivos usados en
sesiones previas de GraphID.

Edici
on
El men
u solo tiene un comando, Copiar, para copiar la imagen grafica de la ventana activa al portapapeles.

Ver
Configuraci
on

Llama al cuadro de dialogo para escoger smbolos, colores, variables y n


umero
de columnas y filas visibles en la matriz.

Escalas
Barra de herramientas

Muestra/oculta las escalas del grafico en la ventana de aumento activa.


Muestra/oculta la barra de herramientas.

Barra de estado

Muestra/oculta la barra de estado.

40.3 Ventana principal de GraphID para an


alisis de un dataset
Info
Info de celda

Apariencia del pincel


Fuente para escalas
Fuente para nombres
Colores b
asicos

315

Muestra una ventana con informacion relevante acerca del dataset: n


umero
de casos, n
umero de variables, nombre del archivo Datos, etc.
Muestra una ventana con informacion relevante del grafico activo: nombres
de variables, sus medias, desviaciones est
andar, coeficientes de correlaci
on y
regresion.
Llama al cuatro de dialogo para escoger el smbolo y color de los casos dentro
del rectangulo del pincel.
Llama al cuadro de dialogo para escoger la fuente de escalas de la ventana
de aumento activa.

Guardar colores

Llama al cuadro de dialogo para escoger la fuente de los nombres de variables.


Llama al cuadro de dialogo para escoger colores de la ventana activa: color
de margen, color de cuadrcula y color de fondo de la celda diagonal.
Guarda la modificacion de colores.

Guardar fuentes

Guarda la modificacion de fuentes.

Herramientas
En este men
u puede hallar herramientas para manipular la matriz de graficos de dispersi
on y para llamar
otros graficos suministrados por GraphID.
Pincel

Activa/cancela el modo pincel.

Aumento
Agrupaci
on

Aumenta el grafico activo o el contenido del pincel a toda la ventana.


Llama al cuadro de dialogo para especificar la creacion de grupos.

Cancelar agrupaci
on
Histogramas

Cancela el agrupaci
on.
Llama al cuadro de dialogo para especificar graficos para mostrar en la celdas
de la diagonal y sus propiedades.
Llama al cuadro de dialogo para especificar tipos de lneas de regresion
(lneas suavizadas) y sus propiedades.

Lneas suavizadas
Gr
aficos de 3D

Llama al cuadro de dialogo para seleccionar variables para usar como ejes
para la dispersi
on 3D y rotacion.

Modo dirigido
Activa/cancela modo dirigido.
Diagramas de caja y bigotes Llama al cuadro de dialogo para seleccionar variables y colores para
mostrar diagramas de caja y bigotes.
Titilado
Hace titilar los casos proyectados.
Enmascaramiento

Enmascara los casos dentro del rectangulo del pincel.

Desenmascaramiento
Restaure paso por paso los casos enmascarados.
Hacer enmascaramiento guardado
Enmascara los casos enmascarados y guardados en la sesi
on previa.
Gr
afico agrupado
Llama al cuadro de dialogo para seleccionar variables de fila y de columna
de una tabla de dos dimensiones, y las variables X e Y para proyeccion de
sus gr
aficos en las celdas de la tabla.

Ventana
El men
u contiene la lista de ventanas abiertas y de comandos de Windows para organizarlos.

Ayuda
Manual de WinIDAMS
Acerca de GraphID

Da acceso al Manual de Referencia de WinIDAMS.


Muestra informacion de la versi
on y el copyright de GraphID y un vnculo
para acceder a la p
agina web de IDAMS en la sede principal de UNESCO.

316

Exploraci
on gr
afica de datos

Iconos de la barra de herramientas


Hay 21 botones en la barra de herramientas que dan acceso directo a los mismos comandos/opciones como
en los correspondientes men
us. Se escriben a continuacion tal como aparecen de derecha a izquierda.
Abrir
Guardar
Copiar
Imprimir
Colores b
asicos
Fuente para nombres
Fuente para ecalas
Pincel
Aumento
Agrupaci
on
Histogramas

40.3.2.

Lneas suavizadas
Diagramas de 3D
Modo dirigido
Diagramas de caja y bigotes
Cancelar titilado
Disminuir el nivel de titilado
Aumentar el nivel de titilado
Enmascarar los casos dentro del rectangulo del pincel
Restaure paso por paso los casos enmascarados
Informaci
on acerca de la versi
on de GraphID

Manipulaci
on de la matriz de gr
aficos de dispersi
on

Configuraci
on de la matriz de gr
aficos de dispersi
on. La matriz actual de graficos de dispersi
on se
puede cambiar con el comando Configuraci
on de men
u Ver.
Visible: Aqu se puede definir el n
umero de columnas y filas para mostrar en la pantalla (no necesitan ser
iguales). Se pueden ver otras celdas desplazando la pantalla.
Variables: El cuadro de dialogo tiene dos listas de variables: Lista de origen y Vars seleccionadas. Se
pueden mover las variables de una lista a otra haciendo clic en los botones >, < (mover solo variables
resaltadas), >>, << (mover todas las variables).
Smbolos: En este cuadro de dialogo, puede seleccionar la forma y el color de los smbolos que se van a
usar para representar cada grupo de casos en los graficos. Si no se especifican grupos, entonces todos
los casos caen por defecto en un solo grupo y todos se representan con el mismo signo (por defecto
es un rectangulo negro peque
no). Uno puede asignar un smbolo a un grupo o bien colapsar grupos
asignando el mismo smbolo a dos o mas grupos.
La lista de grupos se suministra en el cuadro de la izquierda. Los otros dos cuadros, son cuadros de
selecci
on de smbolos y colores. Para seleccionar un color o un smbolo, simplemente haga clic sobre el.
Aparece inmediatamente la imagen del smbolo en el boton al lado del nombre del grupo resaltado.
Modo dirigido. Esta opci
on es u
til cuando el orden de los casos en algunas variables de columna tiene
sentido, por ej. cuando los valores de una variable de columna indican intervalos de tiempo. Enlazando las
im
agenes de manera secuencial con lneas rectas, puede ayudar, por ejemplo, a buscar patrones cclicos.
Para cambiar a gr
aficos dirigidos o regresar a graficos de dispersi
on, pulse el boton Modo dirigido de la barra
de herramientas o use el comando Modo dirigido de men
u Herramientas.
Enmascaramiento y desenmascaramiento de casos. Puede enmascarar casos proyectados en los graficos
de dispersi
on. Este aspecto puede ser u
til, por ejemplo, para retirar del grafico los casos extraviados.
Enmascarar est
a disponible cuando el pincel est
a activo.
Para enmascarar casos incluidos en el rectangulo del pincel, haga clic en el boton Enmascarar de la barra de
herramientas. Los casos enmascarados se ocultan en todos los graficos de dispersi
on. El enmascaramiento de
casos se puede repetir varias veces.
Todos o una parte de los casos enmascarados se puede desenmascarar haciendo clic en el boton Restaurar
de la barra de herramientas.
Guardar y utilizar de nuevo casos enmascarados. Se puede guardar el n
umero secuencial de casos
enmascarados en la sesi
on actual en el archivo correspondiente al dataset analizado con el comando Archivo/Guardar casos enmascarados. Estos casos se pueden enmascarar de nuevo en la(s) sesi
on(es) siguiente(s)
con el comando Herramientas/Hacer enmascaramiento guardado.

40.3 Ventana principal de GraphID para an


alisis de un dataset

317

Agrupaci
on de casos. Esta opci
on permite ver c
omo una variable re
une los casos en grupos en todos
los graficos. La variable puede ser cualitativa o cuantitativa. Ademas de seleccionar la variable para crear
grupos, el usuario controla la forma de hacerlo (por valores o por intervalos y el n
umero de grupos).
El cuadro de dialogo para crear grupos se activa haciendo clic en el boton Agrupaci
on de la barra de
herramientas o con el comando Agrupaci
on de men
u Herramientas.
Exploraci
on con el pincel. El pincel es un rectangulo que se puede mover, aumentar y cuyo tama
no se
puede redefinir. Mientras se mueve sobre el grafico de dispersi
on, los casos dentro del pincel se resaltan en
el color y forma del pincel en todos los otros graficos de dispersi
on.
Una de las aplicaciones es determinar si una aglomeracion de casos representa verdaderamente un c
umulo en
un grafico de dispersi
on en el espacio multidimensional o si es simplemente una propiedad de la proyeccion.
Para este prop
osito, coloque el pincel sobre una aglomeracion en un grafico de dispersi
on y observe c
omo
estos casos se ubican en los otros gr
aficos. Si la misma aglomeracion aparece en los otros graficos entonces
puede tratarse de un c
umulo real. Desde luego, los graficos de dispersi
on deben escogerse de forma que las
distancias entre casos sean del mismo orden en los diferentes graficos.
Otra aplicacion del pincel es estudiar las distribuciones condicionales. Si las 4 esquinas del pincel se dan
como xmin , xmax , ymin , ymax , entonces los casos dentro del pincel son los que satisfacen las condiciones:

xmin < x < xmax

and ymin < y < ymax

y los casos que satisfacen estas condiciones se pueden estudiar en los otros graficos.
Tambien puede usar Pincel para enmascarar y buscar casos.
Para entrar o cancelar el modo Pincel, haga clic en el boton Pincel de la barra de herramientas o use el
comando Pincel de men
u Herramientas.
Para colocar el pincel en el
area deseada, ubique el cursor en el borde, pulse el boton izquierdo del rat
on,
arrastre y suelte en el otro borde.
Para mover o cambiar el tama
no del pincel, coloque el cursor dentro del rectangulo del pincel o en el lado
del mismo, pulse el boton izquierdo y arrastre. Nota: para mover rapidamente el pincel a otra celda, coloque
el cursor en la celda deseada y pulse el boton izquierdo del rat
on.
Aumento. Crea una nueva ventana para agrandar la celda deseada o, en modo Pincel, agrandar el pincel.
Esta nueva ventana aumentada tiene la mayora de las propiedades de una matriz de graficos de dispersi
on
con una celda, por ejemplo, puede usar el pincel para identificar un nuevo conjunto de casos y luego agrandar
nuevamente.
Si la matriz madre de los gr
aficos de dispersi
on est
a en modo Pincel, la modificacion del pincel se refleja
inmediatamente en la ventana agrandada; de lo contrario, la ventana agrandada refleja las modificaciones
introducidas en la celda escogida en la matriz madre.
El comando Escalas de men
u Ver le permite mostrar las escalas de valores de variable para la ventana activa
agrandada.
Titilado. Esta funci
on es u
til cuando hay variables discretas o cualitativas en los datos analizados. En este
caso, es posible que las matrices usuales de los graficos de dispersi
on no suministren suficiente informacion ya
que una parte o todas las proyecciones 2D y 3D presenta cuadrculas en 2D o 3D y por lo tanto es imposible
determinar visualmente cuantos casos coinciden en la misma posicion de la cuadrcula y a cuales grupos
pertenecen.
El titileo es una transformaci
on aleatoria de los datos. Los valores de los datos (x ) se modifican adicionando
un ruido (a*U ) donde U es un valor aleatorio uniformemente distribuido del intervalo (-0.5, 0.5) y a es
una factor para controlar el nivel del titilado.
Para establecer el nivel deseado de titilado, use los botones Disminuir el nivel de titilado, Aumentar el nivel
de titilado y Cancelar titilado de la barra de herramientas.
N
otese que el titileo solo se puede obtener en la ventana de la matriz de graficos de dispersi
on.

318

Exploraci
on gr
afica de datos

40.3.3.

Histogramas y densidades

Se pueden mostrar histogramas, densidades normales, graficos de puntos y tres estadsticas univariadas en
las celdas diagonales de la matriz de gr
aficos de dispersi
on.
Para obtenerlos, haga clic en el boton Histogramas de la barra de herramientas o use el comando Histogramas
de men
u Herramientas. En el cuadro de dialogo presentado puede seleccionar los graficos deseados, el color
y el n
umero de barras de histogramas. Con la opcion Estadsticas, se suministran las siguientes estadsticas:
Asimetra (Skew), Kurtosis (Kurt) y Desviaci
on est
andar (Std).

40.3.4.

Lneas de regresi
on (Lneas suavizadas)

Se pueden mostrar hasta 4 diferentes lneas de regresion en cada grafico de dispersi


on:
Regresi
on lineal MLE - Maximum Likelihood Estimation (regresion lineal usual)
Regresi
on lineal local
Media local
Mediana local

40.3 Ventana principal de GraphID para an


alisis de un dataset

319

N
otese que estas son lneas de regresion de Y contra X, donde las variables X y Y se proyectan respectivamente
en los ejes horizontal y vertical.
Para obtener las lneas, haga clic en el boton Lneas suavizadas o use el comando Lneas suavizadas de
men
u Herramientas. Luego, en el cuadro de dialogo escoja las lneas deseadas, el color y el valor del par
ametro
de suavizaci
on.
El par
ametro de suavizaci
on es el n
umero de vecinos (casos vecinos) y esta igual 7 por defecto. No puede
exceder n/2 donde n es el n
umero de casos.

40.3.5.

Diagramas de caja y bigotes

Este es un aspecto especialmente u


til si los casos se han fraccionado en grupos (ver Agrupacion de casos
mas atr
as).
Use el comando Diagrama de caja y bigotes de men
u Herramientas o haga clic en el boton Diagrama de caja
y bigotes para obtener un cuadro de dialogo que especifica el n
umero de filas y columnas visibles as como
los colores para la ventana de las diagramas de caja y bigotes.
Para cada variable escogida, se muestra un rectangulo dentro del cual se encuentran de cajas, cada caja
corresponde a un grupo de casos. La base de la caja se puede obtener proporcional al n
umero de casos en
el grupo y las fronteras superior e inferior muestran los cuartiles superior e inferior respectivamente. Los
extremos superior e inferior de las lneas verticales (bigotes) que emergen de la caja corresponden a los
valores maximo y mnimo de la variable en el grupo. Las lneas dentro de la caja son la media (lnea verde)
y la mediana (lnea punteada azul) de la variable en el grupo. La parte izquierda del rectangulo muestra la
escala de la variable y el margen inferior del rectangulo muestra los n
umeros de grupo.

Puede cambiar los colores y las fuentes de los graficos con los botones apropiados de la barra de herramientas.
Se puede registrar estos cambios como nuevos valores por defecto para las siguientes sesiones y ventanas.
El boton Colores permite cambiar los colores de:
Cajas
Fondo
Extensiones
Lnea de mediana
Lnea de media
M
argenes
Los botones Fuentes permiten cambiar las fuentes a escalas y nombres de variables.

320

Exploraci
on gr
afica de datos

Se puede agrandar cualquier celda de un diagrama de caja y bigotes. Escoja la celda deseada y haga clic en
el boton Aumento de la barra de herramientas.

40.3.6.

Gr
afico agrupado

Permite la proyeccion de un gr
afico de dispersi
on de dos dimensiones dentro de las celdas de una tabla de
dos dimensiones, y as un analisis en cuatro dimensiones.
Use el comando Herramientas/Gr
afico agrupado para obtener una ventana de dialogo en la cual se especifican
variables de fila y de columna para la construcci
on de la tabla, y las variables X y Y para los graficos de
dispersi
on.
Tambien se pide escoger la forma de calcular el n
umero de filas y de columnas. Hay dos posibilidades: pueden
ser iguales al n
umero de valores diferentes de variable o al n
umero de intervalos especificados por el usuario.
Los intervalos calculados son del mismo tama
no.

40.3.7.

Diagramas de dispersi
on tridimensionales y su rotaci
on

Para obtener un diagrama de dispersi


on tridimensional, haga clic en el boton Diagramas de 3D de la barra
de herramientas o use el comando Diagramas de 3D de men
u Herramientas. El cuadro de dialogo le permite
escoger tres variables para proyectarlas en los ejes OX, OY y OZ. Despues de OK, se obtiene una nueva
ventana con un diagrama de dispersi
on tridimensional de las variables escogidas. Si la ventana de la matriz
madre est
a en modo pincel, los casos encerrados en el rectangulo del pincel tambien se resaltan en el color
y forma del pincel en este diagrama.

Puede usar los elementos de control del cuadro de dialogo en el panel izquierdo de la ventana para cambiar
la imagen grafica y rotarla.
El boton en la esquina superior izquierda se puede usar para regresar el grafico a la posicion inicial.
El boton en la esquina superior derecha se puede usar para colocar el centro de la nube de puntos: en el
centro de gravedad o en cero.
Los botones en el grupo Rotar se usan para mover el diagrama de dispersi
on alrededor de los ejes correspondientes y los del grupo Esparcir se usan para mover puntos desde y hacia el centro.
El grupo Nombres permite mostrar u ocultar nombres de variables en los ejes correspondientes.

40.4 Ventana de GraphID para an


alisis de una matriz

321

Finalmente, el diagrama de dispersi


on 3D se puede proyectar como tres diagramas de dispersi
on 2D al
solicitar la vista 2D.

40.4.

Ventana de GraphID para an


alisis de una matriz

Una vez escogido el archivo de matrices, puede hacer clic en Abrir o hacer doble clic sobre el nombre del
archivo para mostrar un histograma 3D con una barra para cada celda de la primera matriz. La altura
de la barra representa el valor de la estadstica, con la escala construida usando su rango, es decir, h =
(sval smin )/(smax smin ). Por defecto, los valores negativos se muestran en azul y los positivos en rojo.

Puede escoger colores para nombres y escalas, valores negativos y positivos, paredes, piso y fondo. Use la
misma tecnica de los diagramas de caja y bigotes.
En la parte derecha de la ventana se le presenta una lista de matrices incluida en el archivo. N
otese que solo
se muestran los primeros 16 caracteres de la descripcion del contenido de la matriz. Si no hay descripcion,
GraphID muestra Untitled n. Puede traer la matriz a la pantalla haciendo clic sobre la descripcion del
contenido.
La matriz en pantalla se puede manipular con las opciones y comandos en los elementos de la barra de
men
u y con los conos equivalentes de la barra de herramientas.

40.4.1.

Barra de men
u y barra de herramientas

Archivo y Edici
on
Se suministran los mismos comandos de los correspondientes men
us en el analisis de datasets, excepto Cerrar.

322

Exploraci
on gr
afica de datos

Ver
Barra de herramientas

Muestra/oculta la barra de herramientas.

Barra de estado

Muestra/oculta la barra de estado.

Colores

Fuente para escalas

Llama al cuadro de dialogo para seleccionar los colores de la ventana activa:


nombres de fila/columna y escalas, valores negativos y positivos, paredes,
piso y fondo.
Llama al cuadro de dialogo para escoger la fuente para las escalas.

Fuente para nombres

Llama al cuadro de dialogo para escoger la fuente para los nombres.

Ventana y Ayuda
Est
an disponibles los mismos comandos de los correspondientes men
us en el analisis de datasets.

Iconos de la barra de herramientas


Hay botones disponibles en la barra de herramientas que suministran acceso directo a los mismos comandos/opciones que en los correspondientes men
us. Se listan aqu tal como aparecen de izquierda a derecha.
Abrir
Guardar
Copiar
Imprimir
Colores
Fuente para nombres
Fuente para escalas
Informaci
on acerca de la versi
on de GraphID.

40.4.2.

Manipulaci
on de la matriz en pantalla

Similar a la manipulaci
on de los gr
aficos de dispersi
on 3D, puede usar los elementos de control del cuadro de
dialogo en el panel izquierdo de la ventana para cambiar la imagen grafica y para rotar la matriz en pantalla.
El boton superior se puede usar para devolver el grafico a la posicion inicial.
El boton Colores le permite cambiar los colores de:
Barra (valores positivos)
Pared
Barra (valores negativos)
Piso
Fondo
Nombres y escala.
Las casillas del grupo Ocultar/Mostrar le permite mostrar u ocultar paredes, escala, nombres en los ejes
correspondientes y la diagonal, si aplica.
Los botones en el grupo Rotar se pueden usar para mover la matriz alrededor del eje vertical.
Los botones en los grupos Columnas y Filas se pueden usar para cambiar el tama
no de columnas y filas
respectivamente.
Los botones en el grupo Centrar le permiten mover el grafico a la izquierda, derecha, arriba y abajo.

Captulo 41

An
alisis de series de tiempo
41.1.

Visi
on general

TimeSID es un componente de WinIDAMS para analisis de series de tiempo. Usa datasets de IDAMS
como entrada cuyos archivos Diccionario y Datos deben tener el mismo nombre con extensiones .dic y .dat
respectivamente.
S
olo se puede usar un dataset a la vez, es decir que al abrir un otro dataset autom
aticamente se cierra el
que se est
a usando.

41.2.

Preparaci
on del an
alisis

Selecci
on de datos. Para seleccionar un dataset, use el comando Abrir de men
u Archivo o haga clic en el
boton Abrir de la barra de herramientas. A continuacion, en el cuadro de dialogo de Abrir, escoja su archivo.
Al asignar Archivos Datos (*.dat) a Archivos de tipo: se muestran solo archivos Datos de IDAMS.
Selecci
on de series. Tambien se pide especificar las series (variables) que quiere analizar. Las variables
numericas se pueden escoger de la lista Series accesibles de posibles variables y mover al area Seleccionadas. Mover las variables entre las listas se puede hacer con clic en los botones >, < (mover solo las
variables resaltadas), >>, << (mover todas las variables). N
otese que aqu no hay variables alfabeticas.
Tratamiento de datos faltantes. Los valores datos faltantes se excluyen de las transformaciones de
series; se excluyen tambien del c
alculo de estadsticas y auto-correlaciones. En todos los otros analisis, los
valores de datos faltantes se reemplazan por el promedio general.

41.3.

Ventana principal de TimeSID

Despues de seleccionar las series y de un clic en OK, la ventana principal de TimeSID muestra el grafico
de la primer serie de la lista de series seleccionadas. Las series se pueden manipular y analizar con varias
opciones y comandos en men
us y/o con los conos equivalentes de la barra de herramientas.

324

41.3.1.

An
alisis de series de tiempo

Barra de men
u y barra de herramientas

Archivo
Abrir

Llama al cuadro de dialogo para escoger un nuevo dataset para analisis.

Cerrar
Guardar como

Cierra todas las ventanas del analisis actual.


Llama al cuadro de dialogo para guardar el contenido del panel activo o
de la ventana activa. Las imagenes graficas se guardan en formato Bitmap
(*.bmp) de Windows. Las tablas de datos y de estadsticas se guardan en
formato de texto.

Imprimir

Llama al cuadro de dialogo para imprimir el contenido del panel activo o de


la ventana activa.

Vista preliminar

Muestra una vision previa de la impresion del contenido del panel activo o
de la ventana activa.

Configurar impresora

Llama al cuadro de dialogo para modificar las opciones de la impresion y de


la impresora.
Termina la sesi
on de TimeSID.

Salir

El men
u tambien puede contener la lista de los archivos abiertos recientemente, es decir, archivos usados en
sesiones previas de TimeSID.

Edici
on
El men
u solo tiene un comando, Copiar, para copiar el contenido del panel activo o de la ventana activa al
portapapeles.

41.3 Ventana principal de TimeSID

325

Ver
Barra de herramientas

Muestra/oculta la barra de herramientas.

Barra de estado

Muestra/oculta la barra de estado.

Escala OX
Fuente para escalas

Muestra/oculta la escala OX para las series de tiempo.


Llama al cuadro de dialogo para escoger la fuente de escalas.

Colores b
asicos

Llama al cuadro de dialogo para escoger colores de margen y de fondo.

Ventana
Tabla de datos

Llama la ventana con la tabla de datos. Las columnas de la tabla de datos son
las series de tiempo analizadas (incluidos los resultados de transformaci
on).

Ademas de Tabla de datos, el men


u contiene la lista de ventanas abiertas y las opciones est
andar de Windows
para organizarlas.

Ayuda
Manual de WinIDAMS
Acerca de TimeSID

Da acceso al Manual de Referencia de WinIDAMS.


Muestra informacion de la versi
on y el copyright de TimeSID y un vnculo
para acceder a la p
agina web de IDAMS en la sede principal de UNESCO.

Los otros dos men


us, Transformaciones y Analysis, se describen detalladamente en las secciones Transformaci
on de series de tiempo y An
alisis de series de tiempo mas adelante.

Iconos de la barra de herramientas


Hay 9 botones activos en la barra de herramientas que dan acceso directo a los mismos comandos/opciones
como en los correspondientes elementos de men
u. Se listan aqu tal como aparecen de derecha a izquierda.
Abrir
Copiar
Imprimir
Colores b
asicos
Fuente para escalas
Histogramas, estadsticas
Correlaciones auto y cruzadas
Autoregresi
on
Informaci
on acerca de TimeSID

326

An
alisis de series de tiempo

41.3.2.

Ventana de series de tiempo

La ventana de series de tiempo se divide en tres paneles: el de la izquierda es para cambiar las propiedades
de la ventana y para seleccionar series (variables), el de la derecha arriba es para mostrar varias series de
tiempo y el de la derecha abajo es para mostrar la serie actual.
Cambiar la apariencia de la ventana. Los dos paneles para mostrar series de tiempo est
an sincronizados
y se pueden cambiar con los controles suministrados en el panel de la izquierda. Por defecto, el panel superior
derecho est
a vaco y su tama
no est
a reducido. El panel derecho inferior muestra la serie actual dejando visibles
la barra de desplazamiento y las escalas. El tama
no de cualquiero de los paneles se puede cambiar con el
rat
on y la escala OX se puede ocultar/mostrar con el comando Escala OX de men
u Ver. M
as aun, la
presentacion de gr
aficos se puede modificar de la manera siguiente:
Regulaci
on del grado de compresi
on de gr
aficos - use los botones bajo Compresion de OX.
Colores para fondo y m
argenes - use el boton Colores.
Fuente para escalas - use el boton Fuente para escalas.
Cambiar el nombre de la serie de tiempo. Escoja la serie de tiempo requerida, haga clic en el nombre
con el boton derecho del rat
on y escoja la opcion Cambiar nombre. La ventana activa presenta el nombre
para ser modificado. N
otese que estas modificaciones son temporales y se guardan solamente durante la
sesi
on.
Escoger la serie de tiempo para mostrarla en pantalla. En el panel izquierdo de la ventana se
suministra una lista de series de tiempo. Al hacer doble clic sobre una variable de la lista, puede escoger la
forma y el color de la lnea de proyeccion. Despues de OK, se muestra el grafico correspondiente en el panel
superior de la ventana. Esta operaci
on se puede repetir para diferentes variables y de esta forma, puede
obtener varios gr
aficos mostrados simult
aneamente en el panel superior de la pantalla. El panel inferior
derecho siempre muestra la serie actual.
Suprimir una serie del an
alisis. Escoja la serie de tiempo requerida, haga clic en el nombre con el boton
derecho del rat
on y escoja la opci
on Suprimir serie.

41.4 Transformaci
on de series de tiempo

41.4.

327

Transformaci
on de series de tiempo

Los datos de series de tiempo se pueden transformar calculando diferencias, suavizaci


on, supresi
on de tendencias, transformaci
on funcional, etc. El men
u Transformaciones tiene comandos para crear nuevas series
de tiempo basadas en valores de series seleccionadas. N
otese que las variables mostradas est
an renumeradas
secuencialmente a partir de cero (0).

Promedio crea una nueva serie de tiempo como promedio de las series especificadas. Las series tomadas
para los c
alculos se seleccionan en el cuadro de dialogo Selecci
on de series (ver secci
on Preparaci
on
del analisis).
Aritm
etica en parejas crea un conjunto de series de tiempo haciendo operaciones aritmeticas en parejas
de series de tiempo especificadas en el cuadro de dialogo (cada serie especificada en la primera lista de
argumentos con el segundo argumento).
Diferencias, MA, ROC crea un conjunto se series de tiempo basado en transformaciones (diferencias
secuenciales, promedios movibles (MA) no centradas, raz
on de cambio (ROC)) de las series especificadas en el cuadro de dialogo. En el mismo cuadro se asignan los par
ametros especificados para cada
transformaci
on as como el tipo de transformaci
on ROC.

328

41.5.

An
alisis de series de tiempo

An
alisis de series de tiempo

Los aspectos del analisis se activan con comandos en el men


u An
alysis.

Estadsticas crea una tabla con la media, la desviacion est


andar, los valores mnimo y maximo para la serie
de tiempo seleccionada y una tabla con estadsticas para prueba de la hipotesis aleatoriedad versus
tendencia . Tambien muestra un histograma para esta serie.
Correlaciones auto y cruzadas crea una nueva ventana con un conjunto de celdas que contienen graficos
de auto-correlaciones y correlaciones cruzadas para el conjunto especificado de las series de tiempo.
Tendencia (param
etrica) crea una nueva serie de tiempo como la estimaci
on de un modelo parametrico
de tendencia para la serie de tiempo especificada. El modelo de tendencia y la serie se seleccionan en
un cuadro de dialogo.
Autoregresi
on estima los par
ametros de un modelo de autoregresion de predicci
on a corto plazo para la
serie de tiempo especificada.
Espectro (un analisis espectral) produce una tabla de valores del espectro (frecuencia, periodo, densidad),
grafico de estimaci
on del espectro, y para el espectro de tipo DFT, grafico de la desviacion del espectro
acumulativo a partir del espectro acumulativo de ruido blanco. Para la estimaci
on de densidades
espectrales, se puede utilizar el metodo de la transformada discreta rapida de Fourier (DFT) o el
metodo de la entropa maxima (MENT). En el procedimiento DFT se utilizan dos ventanas para
mejorar la estimaci
on de estas densidades: la ventana de datos de Welch para el tiempo y suavizado
polinomial para la frecuencia.
Espectro cruzado analiza una pareja de series de tiempo estacionarias. Suministra las densidades coespectrales, el espectro de fase y los valores de coherencia as como sus graficos. La estimaci
on de las
densidades co-espectrales se hace con la ventana de suavizado de Parzen.
Filtros de frecuencia es un procedimiento de descomposicion de una serie de tiempo en componentes
de frecuencia. Construye una serie nueva utilizando uno de los filtros siguientes: pasa-bajos, pasaaltos, pasa-banda o parada-banda. Para un filtro pasa-bajos o pasa-altos, su banda es igual al valor
del par
ametro Frecuencia. Para un filtro pasa-banda o parada-banda, las bandas de frecuencia est
an

41.5 An
alisis de series de tiempo

329

definidas por el intervalo (Frecuencia - ancho de la ventana, Frecuencia + ancho de la ventana). Con
una opci
on Eliminar tendencia se puede suprimir la tendencia de la serie antes filtraci
on (despues, el
componente de tendencia se a
nade a los resultados de la filtraci
on).

Referencias
Farnum, N.R., Stanton, L.W., Quantitative Forecasting Methods, PWS-KENT Publishing Company, Boston,
1989.
Kendall, M.G., Stuart, A., The Advanced Theory of Statistics, Volume 3 - Design and Analysis, and time
series, Second edition, Griffin, London, 1968.
Marple Jr, S.L., Digital Spectral Analysis with Applications, Prentice-Hall, Inc., 1987.

Parte VI

F
ormulas estadsticas y referencias
bibliogr
aficas

Captulo 42

An
alisis de conglomerados
Notaci
on
x
h, i, j, l
f, g
p
c
k
Nj
N

42.1.

= valores de variables
= subndices para objetos
= subndices para variables
= n
umero de variables
= subndice para conglomerado
= n
umero de conglomerados
= n
umero de objetos en conglomerado j
= n
umero total de casos.

Estadsticas univariadas

Si la entrada es un dataset IDAMS, se calculan las siguientes estadsticas para todas las variables usadas en
el analisis:
a) Promedio.

xf =

xif

b) Desviaci
on absoluta media.

sf =

42.2.

X
i

|xif xf |
N

Medidas estandarizadas

En la misma situaci
on, el programa puede calcular medidas estandarizadas, tambien llamadas puntajes z,
dados por:
zif =

xif xf
sf

para cada caso i y cada variable f utilizando el valor promedio y la desviacion absoluta media de la variable
f (ver secci
on 1 mas atr
as).

334

An
alisis de conglomerados

42.3.

Matriz de disimilitudes calculada a partir de un dataset de


IDAMS

Los elementos dij de una matriz de disimilitudes miden el grado de disimilitud entre los casos i y j. Los
dij se calculan directamente a partir de los datos primarios o a partir de los puntajes z si se solicita la
estandarizacion de las variables. Se pueden escoger dos tipos de distancias: euclideana o en cuadra urbana
(city block).
a) Distancia euclideana.
v
uX
u p
dij = t (xif xjf )2
f =1

b) Distancia en cuadra urbana (city block).


dij =

p
X

f =1

42.4.

|xif xjf |

Matriz de disimilitudes calculada a partir de una matriz de


similitudes

Si la entrada es una matriz de similitudes con elementos sij , los elementos dij de la matriz de disimilitudes
se calculan as:
dij = 1 sij

42.5.

Matrix de disimilitudes calculada a partir de una matriz de


correlaci
on

Si la entrada es una matriz de correlaci


on con elementos rij , los elementos dij de la matriz de disimilitudes
se calculan usando una de las dos f
ormulas: SIGN o ABSOLUTE.
Cuando se usa la f
ormula SIGN, las variables con una correlaci
on positiva alta reciben un coeficiente de
disimilitud cercano a cero mientras que las variables con una correlaci
on negativa fuerte se cosideran muy
dismiles.
dij = (1 rij )/2
Cuando se usa la f
ormula ABSOLUTE, se asigna una disimilitud peque
na a las variables con alta correlaci
on
positiva o con fuerte correlaci
on negativa.
dij = 1 |rij |

42.6.

Repartici
on alrededor de medoides (PAM)

El algoritmo busca k objetos representativos (medoides) que se encuentran centrados en los conglomerados
que ellos definen. El medoide, objeto representativo del conglomerado, es aquel objeto para el cual la disimilitud promedio con todos los objetos en el conglomerado es mnima. En realidad, el algoritmo PAM minimiza
la suma de disimilitudes en vez de la disimilitud promedio.
La selecci
on de k medoides se lleva a cabo en dos fases. En la primera, se obtiene un conglomerado inicial
con la selecci
on sucesiva de objetos representativos hasta hallar k objetos. El primer objeto es aquel para
el cual la suma de las disimilitudes con todos los otros objetos es tan peque
na como sea posible. (Es una
especie de Mediana multivariada de los N objetos, de all el termino medoide.) En cada paso, PAM

42.6 Repartici
on alrededor de medoides (PAM)

335

selecciona el objeto que hace decrecer la funci


on objetivo (suma de disimilitudes) tanto como sea posible.
En la segunda fase, se hace un intento de mejorar el conjunto de objetos representativos. Esto se hace al
considerar todos los pares de objetos (i, h) para los cuales se ha escogido el objeto i y el objeto h no se ha
escogido, verificando si la escogencia de h y desechando i reduce la funci
on objetivo. En cada paso, se hace
el intercambio mas econ
omico.
a) Distancia (disimilitud) promedio final. Esta es la funci
on objetivo de PAM que puede verse como
una medida de la bondad del conglomerado final.

Distancia promedio final =

N
X

di,m(i)

i=1

donde m(i) es el objeto representativo (medoide) mas cercano al objeto i.


b) Conglomerados aislados. Hay dos tipos de conglomerados aislados: conglomerados L y conglomerados L .
El conglomerado C es un conglomerado L si para cada objeto i que pertenece a C
max dij < mn dih
jC

h6C

El conglomerado C es un conglomerado L si
max dij < mn dlh

i,jC

lC,h6C

c) Di
ametro de un conglomerado. Se define el diametro del conglomerado C como la mayor disimilitud
entre objetos que pertenecen a C:
Di
ametroC = max dij
i,jC

d) Separaci
on de un conglomerado. Se define la separacion del conglomerado C como la menor disimilitud entre dos objetos, uno de los cuales pertenece a C y el otro no.
Separaci
onC = mn dlh
lC,h6C

e) Distancia promedio a un medoide. Si j es el medoide del conglomerado C, la distancia promedio


de todos los objetos de C a j se calcula as:

Distancia promedioj =

dij

iC

Nj

f ) Distancia m
axima a un medoide. Si el objeto j es el medoide del conglomerado C, la distancia
maxima de todos los objetos de C a j se calcula as:
Distancia maximaj = max dij
iC

g) Siluetas de los conglomerados. Cada conglomerado se representa con una silueta (Rousseeuw
1987), que muestra cuales objetos caen bien dentro del conglomerado y cuales simplemente tienen una
posicion intermedia. Para cada objeto se suministra la siguiente informacion:
-

n
umero del conglomerado al cual pertenece (CLU),
n
umero del conglomerado vecino (NEIG),
el valor si (denotado como S(I) en el listado),
el identificador de tres caracteres del objeto i,
una lnea cuya longitud es proporcional a si .

336

An
alisis de conglomerados
Para cada objeto i, el valor si se calcula as:
si =

b i ai
max(ai , bi )

donde ai es la disimilitud promedio del objeto i con todos los dem


as objetos del conglomerado A al
cual pertenece i y bi es la disimilitud promedio del objeto i con todos los objetos del conglomerado
mas cercano B (vecina del objeto i). N
otese que el conglomerado vecino es como la segunda mejor
escogencia del objeto i. Cuando el conglomerado A tiene solo un objeto i, si se coloca en cero (si = 0).
h) Ancho promedio de la silueta de un conglomerado. Es el promedio de si para todos los objetos
i de un conglomerado.
i) Ancho promedio de silueta. Es el promedio de si para todos los objetos i en los datos, es decir el
ancho promedio de silueta para k conglomerados. Se puede usar para seleccionar el mejor n
umero
de conglomerados a escoger el k que produzca el promedio mas grande de si .
Otro coeficiente, SC, llamado coeficiente de silueta, se puede calcular manualmente como el ancho
promedio maximo de silueta sobre todos los k para los cuales se pueden construir las siluetas. Este
coeficiente es una medida adimensional de la cantidad de estructura de conglomeracion que se ha
encontrado con el algoritmo de clasificacion.
SC = max sk
k

Rousseew (1987) propuso la siguiente interpretaci


on del coeficiente SC:
0,71 1,00 Se encontr
o una estructura fuerte.
0,51 0,70 Se encontr
o una estructura razonable.
0,26 0,50 La estructura es debil y podra ser artificial;
debe tratar metodos adicionales con estos datos.
0,25
No hay estructura substancial.

42.7.

Repartici
on para grandes datasets (CLARA)

Al igual que PAM, el metodo CLARA tambien se basa en la b


usqueda de k objetos representativos, pero el
algoritmo CLARA esta dise
nado especialmente para analizar grandes conjuntos de datos. Consecuentemente,
la entrada a CLARA ha de ser un dataset IDAMS.
Internamente, CLARA tiene dos pasos. Primero se toma una muestra del conjunto de objetos (casos), y se
divide en k conglomerados con el mismo algoritmo de PAM. A continuacion, cada objeto que no pertenezca
a la muestra se asigna al mas cercano entre los k objetos representativos. La calidad de esta conglomerado
se define como la distancia promedio entre cada objeto y su objeto representativo. Despues se sacan cinco
muestras, se aglomeran y se escoge la que tenga la distancia promedio mas baja.
Se analiza a continuacion la aglomeraci
on retenida de todos los datos. La distancia promedio final, las
distancias promedio y maximas a cada medoide se calculan de la misma manera que en PAM (para todos
los objetos y no solo para aquellos en la muestra escogida). Tambien se calculan siluetas y estadsticas
relacionadas de la misma manera que en PAM, pero solo para los objetos de la muestra escogida (ya que
toda la silueta sera muy grande para imprimir).

42.8.

Conglomeraci
on difusa (FANNY)

La conglomeracion difusa es una generalizaci


on de la repartici
on, que se puede aplicar al mismo tipo de
datos que el metodo PAM pero el algoritmo es de naturaleza diferente. En vez de asignar un objeto a
un conglomerado en particular, FANNY da su grado de pertenencia (coeficiente de pertenencia) a cada
conglomerado y as suministra una informaci
on mas detallada acerca de la estructura de los datos.

42.9 Conglomeraci
on jer
arquica acumulativa (AGNES)

337

a) Funci
on objetivo. La tecnica de conglomeracion difusa usada en FANNY busca minimizar la funci
on
objetivo
XX
u2ic u2jc dij
k
X i j
X
Funci
on objetivo =
u2jc
2
c=1
j

donde uic y ujc son funciones de pertenencia que est


an sujetas a las restricciones
uic 0

para i = 1, 2, . . . , N ; c = 1, 2, . . . , k

para i = 1, 2, . . . , N

uic = 1

El algoritmo que minimiza esta funci


on objetivo es iterativo y se detiene cuando la funci
on converge.
b) Conglomeraci
on difusa (pertenencia). Son los valores de pertenencia (coeficientes de pertenencia
uic ) que dan el valor mas peque
no de la funci
on objetivo. Indican para cada objeto i, que tan fuertemente pertenece al conglomerado c. N
otese que la suma de los coeficientes de pertenencia es igual a 1
para cada objeto.
c) Coeficiente de partici
on de Dunn. Este coeficiente, Fk , mide que tan dura es una aglomeracion
difusa. Vara del mnimo de 1/k para una conglomeracion completamente difusa (donde todos los
uic = 1/k) hasta 1 para una conglomeracion totalmente dura (donde todos los uic = 0 o 1).
Fk =

k
N X
X

u2ic / N

i=1 c=1

d) Coeficiente de Dunn de partici


on normalizado. La versi
on normalizada del coeficiente de Dunn
siempre vara de 0 a 1, cualquiera que sea el valor escogido de k.
Fk0 =

Fk (1/k)
kFk 1
=
1 (1/k)
k 1

e) Conglomeraci
on dura m
as cercana. Esta partici
on (= conglomeracion dura) se obtiene asignando cada objeto al conglomerado en el cual tenga el mas alto coeficiente de pertenencia. Se calculan
siluetas y estadsticas relacionadas de la misma manera que en PAM.

42.9.

Conglomeraci
on jer
arquica acumulativa (AGNES)

Este metodo se puede aplicar al mismo tipo de datos que los metodos PAM y FANNY. Sin embargo, no es
necesario especificar el n
umero de conglomerados requeridos. El algoritmo construye una jerarqua en forma
de arbol que contiene implcitamente todos los valores de k, comenzando por N conglomerados y siguiendo
con fusiones sucesivas hasta obtener un solo conglomerado con todos los objetos.
En el primer paso, se unen los dos objetos mas cercanos (es decir, con disimilitud entre objetos mas peque
na)
para formar un conglomerado de dos objetos, mientras que los dem
as conglomerados tienen un solo miembro.
En cada paso siguiente se fusionan los dos conglomerados mas cercanos (con disimilitud entre objetos mas
peque
na).
a) Disimilitud entre dos conglomerados. En el algoritmo AGNES, se usa el metodo del promedio del
grupo de Sokal y Michener (llamado algunas veces metodo del promedio no ponderado de los grupos
pareados) para medir las disimilitudes entre conglomerados.
Sean R y Q dos conglomerados y |R| y |Q| el n
umero de objetos en cada uno de ellos. La disimilitud
d(R, Q) entre los conglomerados R y Q se define como el promedio de todas las disimilitudes dij donde
i es cualquier objeto de R y j es cualquier objeto de Q.
d(R, Q) =

1 XX
dij
|R| |Q|
iR jQ

338

An
alisis de conglomerados

b) Ordenamiento final de objetos y disimilitudes entre ellos. En la primera lnea, los objetos se
imprimen en el orden en que aparecer
an en la representacion grafica de los resultados. En la segunda
lnea se imprimen las disimilitudes entre conglomerados de union. N
otese que el n
umero de disimilitudes
impreso es uno menos que el n
umero de objetos N porque hay N 1 fusiones.
c) Bandera de disimilitudes. Es una representacion grafica de los resultados. Una bandera consiste
en tiras y estrellas. Las estrellas indican enlaces y las tiras son repeticioners de identificadores de
objetos. Una bandera se lee siempre de izquierda a derecha. Cada lnea con estrellas comienza en la
disimilitud de los conglomerados fusionados. Hay escalas fijas encima y debajo de la bandera que van de
0.00 (disimilitud 0) hasta 1.00 (la disimilitud mas grande encontrada). La disimilitud mas alta actual
(correspondiente a 1.00 en la bandera) se encuentra justamente debajo de la bandera.
d) Coeficiente aglomerativo. El ancho promedio de la bandera se llama coeficiente aglomerativo (AC).
Describe la fuerza de la estructura de aglomeracion encontrada.
AC =

1X
li
N i

donde li es la longitud de la lnea que contiene el identificador del objeto i.

42.10.

Conglomeraci
on jer
arquica divisiva (DIANA)

El metodo DIANA se puede usar para el mismo tipo de datos que el metodo AGNES. Aunque AGNES y
DIANA producen salidas similares, DIANA construye su jerarqua en la direcci
on opuesta, comenzando con
un gran conglomerado que contiene todos los objetos. En cada paso, divide un conglomerado en dos mas
peque
nos, hasta que todos los conglomerados tengan un solo elemento. Esto significa que para N objetos, la
jerarqua se construye en N 1 pasos.
En el primer paso, los datos se dividen en dos conglomerados haciendo uso de las disimilitudes. En cada
uno de los pasos siguientes, se divide el conglomerado con diametro mas grande (ver 6.c atr
as) de la misma
manera. Despues de N 1 pasos divisorios, todos los objetos est
an aparte.
a) Disimilitud promedio con todos los objetos. Sea A un conglomerado y |A| el n
umero de objetos
en el. La disimilitud promedio entre el objeto i y todos los dem
as objetos en el conglomerado A se
define como en 6.g atr
as.
di =

X
1
dij
|A| 1
jA,j6=i

b) Ordenamiento final de objetos y di


ametros de conglomerados. En la primera lnea, se imprimen los objetos en el orden en que aparecer
an en la representacion grafica. Debajo se imprimen los
diametros de los conglomerados. Estas dos secuencias de n
umeros caracterizan juntas toda la jerarqua.
El diametro mas rande indica el nivel de divisi
on de todos los datos. Los objetos a la izquierda de este
valor constituyen un conglomerado y los objetos a la derecha constituyen otro. El segundo diametro
mas grande indica la segunda divisi
on, etc.
c) Bandera de disimilitudes. Igual que para el metodo AGNES, es una representacion grafica de los
resultados. Tambien consiste de lneas con estrellas y las tiras que repiten los identificadores de objetos.
La bandera se lee de izquierda a derecha pero las escalas fijas encima y debajo ahora van de 1.00
(correspondiente al diametro de todo el archivo de datos) a 0.00 (correspondiente al diametros de las
clases con un solo elemento). Cada lnea con estrellas termina en el diametro en el que el conglomerado
se divide. El diametro actual de los datos (correspondiente a 1.00 en la bandera) se suministra debajo
de la bandera.
d) Coeficiente divisorio. El ancho promedio de la bandera se llama coeficiente divisorio (DC). Describe
la fuerza de aglomeraci
on de la estructura encontrada.
DC =

1X
li
N i

donde li , es la longitud de la lnea que contiene el identificador del objeto i.

42.11 Conglomeraci
on monot
etica (MONA)

42.11.

339

Conglomeraci
on monot
etica (MONA)

El metodo MONA est


a orientado a datos que consisten exclusivamente de variables binarias (dicotomas,
que toman solo dos valores, de manera que xif = 0 o xif = 1). Aunque el algoritmo es del tipo jerarquico
divisorio, no usa disimilitudes entre objetos y por lo tanto no se calcula una matriz de disimilitudes. La
divisi
on en conglomerados utiliza directamente las variables.
En cada paso, una de las variables (digamos, f ) se usa para dividir los datos mediante la separacion de objetos
i para los cuales xif = 1 de aquellos en los que xif = 0. En el paso siguiente, cada conglomerado obtenido
en el paso anterior se divide aun mas, usando valores (0 y 1) de una de las variables restantes (se pueden
usar variables diferentes en conglomerados diferentes). El proceso contin
ua hasta que cada conglomerado
contenga un objeto o bien, las variables restantes no puedan dividirlo.
Para cada divisi
on, se escoge la variable mas fuertemente asociada con las otras variables.
a) Asociaci
on entre dos variables. La medida de asociaci
on entre dos variables f y g se define as:
Af g = |af g df g bf g cf g |
donde af g es el n
umero de objetos i con xif = xig = 0, df g es el n
umero de objetos con xif = xig = 1,
bf g es el n
umero de objetos con xif = 0 y xig = 1, y cf g es el n
umero de objetos con xif = 1 y xig = 0.
La medida Af g expresa si las variables f y g dan divisiones similares del conjunto de objetos y se puede
considerer como una clase de similitud entre variables.
Para seleccionar la variable mas fuertemente asociada con las otras variables, se calcula la medida total
Af para cada variable as:
Af =

Af g

g6=f

b) Orden final de objetos. Los objetos se imprimen en el orden en que aparecen en el grafico de
separacion. Los pasos de separacion y las variables usadas para la separacion se imprimen debajo de
los identificadores de objetos.
c) Gr
afico de separci
on (bandera). Esta representacion grafica es muy similar a la bandera que
produce DIANA. La longitud de una fila de estrellas ahora es proporcional al n
umero del paso en
el cual se hizo la separacion. Las filas de identificadores de objetos corresponden a objetos. Una fila
de identificadores que contin
ua a la derecha de la bandera, se
nala un objeto que se convirtio en un
conglomerado con un solo elemento en el paso correspondiente. Las filas de identificadores graficadas
entre dos filas de estrellas indican objetos que pertenecen a un conglomerado que no se pudo separar.

42.12.

Referencias

Kaufman, L., and Rousseeuw, P.J., Finding Groups in Data: An Introduction to Cluster Analysis, John
Wiley & Sons, Inc., New York, 1990.
Rousseeuw, P.J., Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis,
Journal of Computational and Applied Mathematics, 20, 1987.

Captulo 43

An
alisis de configuraci
on
Notaci
on
Sea A(n,t) una matriz rectangular de n variables (filas) y t dimensiones (columnas). Una variable o punto a
tiene t coordenadas, cada una correspondiente a una dimensi
on.
ais
i, j

= elemento de la matriz A localizado en la iesima fila


y la sesima columna
= subndices para variables (filas)

n = n
umero de variables
s, l, m = subndices para dimensiones (columnas)
t

43.1.

= n
umero de dimensiones.

Configurati
on centrada

Las variables se centran en cada dimensi


on restando la media de cada columna de cada elemento en la
columna.
X
ais
ais centrada = ais

n
Despues de haber efectuado los c
alculos con esta formula, la media de las coordenadas de las n variables es
cero para cada dimensi
on.

43.2.

Configurati
on normalizada

La suma de cuadrados de todos los elementos de la matriz A dividida por el n


umero de variables n, calcula
la media del segundo momento de las variables. Cada elemento de la matriz queda normalizada por la raz
cuadrada del este valor (ver el denominador abajo).
ais
ais normalizada = sX X
a2is /n
i

Despues del esta normalizaci


on, la suma de cuadrados de los elementos ais es igual a n.

342

An
alisis de configuraci
on

43.3.

Soluci
on en ejes principales

Se rota la configuracion de forma que dimensiones sucesivas suministran la maxima variancia posible. Sea A
la configuracion a rotar y B la configuracion en la forma de ejes principales.
C
alculo de la matriz B:
La matriz simetrica A0 A de dimensi
on (t, t) es calculada en primer lugar. Despues los vectores propios, T ,
de A0 A se determinan con el metodo de diagonalizacion de Jacobi.
La matriz A est
a transformada en la matriz B con elementos bis , tal que B = A T , B tiene n lneas y t
columnas de la misma forma que la matriz A.

43.4.

Matriz de productos escalares

SPij =

ais ajs

La matriz SP es una matriz cuadrada y simetrica de dimensi


on (n, n) de productos escalares de variables. El
producto escalar de una variable con ella misma, es su segundo momento. Si cada variable ha sido centrada
y normalizada, (media igual a cero y desviaci
on est
andar igual a la unidad), la matriz SP se convierte en
una matriz de correlaciones.

43.5.

Matriz de distancias entre puntos

DISTij =

s
X
s

(ais ajs )2

DIST es una matriz cuadrada y simetrica de distancias euclideanas entre variables.

43.6.

Configuraci
on rotada

La rotacion puede ser llevada a cabo de dos en dos dimensiones cada vez. Corresponde al usuario seleccionar
las dimensiones, por eg. 2 y 5 (columna 2 y columna 5) y el angulo de la rotacion en grados.
Las nuevas coordenadas se calculan como sigue:
a0il
a0im

= ail cos + aim sin


= ail sin + aim cos

El c
alculo se lleva a cabo para cada valor de i, y tantas veces como haya variables.
En la matriz A, las columnas l y m, se transforman en los vectores de las nuevas coordenadas que han sido
calculadas como se indic
o arriba.

43.7.

Configuraci
on transladada

La traslacion puede ser llevada a cabo en una sola dimensi


on (una columna) cada vez. El usuario especifica
la constante T a ser adicionada a cada elemento de la dimensi
on, y la columna l a la que se aplica.
Para todas las coordenadas de l (n coordenadas ya que hay n variables):
a0il = ail + T

43.8 Rotaci
on varimax

43.8.

343

Rotaci
on varimax

(a) Los elementos ais de A est


an normalizados por la raz cuadrada de las comunalidades correspondientes
a cada variable y definimos
ais
bis = rX
a2is
s

(b) Despues de construir B = (bis ), uno buscar


a el mejor eje de proyeccion para las variables, una vez se
haya igualado su inercia. La maximizacion de la funci
on Vc se lleva a cabo, a traves de rotaciones sucesivas,
de dos en dos dimensiones cada vez, hasta que se alcanza la convergencia.
X 2
X
bis
b4is
n
X
i
i
Vc =
n2
s
La matriz resultante B con elementos bis , tiene el mismo n
umero de filas y columnas que la matriz inicial A.

43.9.

Configuraci
on clasificada

Es la configuracion final impresa en formato diferente. Cada dimensi


on se imprime ahora como una fila, con
los elementos en orden ascendente.

43.10.

Referencias

Greenstadt, J., The determination of the characteristic roots of a matrix by the Jacobi method, Mathematical
Methods for Digital Computers, eds. A. Ralston and H.S. Wilf, Wiley, New York, 1960.
Herman, H.H., Modern Factor Analysis, University of Chicago Press, Chicago, 1967.
Kaiser, H.F., Computer program for varimax rotation in factor analysis, Educational and Psychological
Measurement, 3, 1959.

Captulo 44

An
alisis discriminatorio
Notaci
on
x =
k =
i, j
g

=
=

valores de variables
subndice para el caso
subndices para variables
superndice para el grupo

q =
p =

subndice para el paso


n
umero de variables

valor del peso

xgk
yqg

=
=

vector de los elementos p correspondientes al caso k en el grupo g


vector con los valores de la media de las variables seleccionadas

en el paso q para el grupo g


n
umero de casos en el grupo g

Wg
Iq

=
=

suma total de los pesos para el grupo g


subconjunto de ndices para las variables seleccionadas en el paso q.

44.1.

Estadsticas univariadas

Estas estadsticas, ponderadas si as se han especificado, se calculan para cada grupo y para cada variable
de analisis, usando la muestra b
asica. Se calcula la tambien la media para toda la muestra b
asica (media
total).
a) Media.
g

xgi =

N
X

wkg xgki

k=1

Wg

Nota: la media total se calcula con la formula analoga.


b) Desviaci
on est
andar.

sgi =

v
u Ng
uX
2
u
wg (xg )
u
t k=1 k ki
Wg

(xgi )

346

An
alisis discriminatorio

44.2.

Discriminaci
on lineal entre 2 grupos

El procedimiento se basa en la funci


on discriminatoria lineal de Fisher y la matriz de covariancia total
se usa para calcular los coeficientes de esta funci
on. La clasificacion de los casos se hace con los valores
de esta funci
on y no con las distancias. El criterio aplicado para escoger la siguiente variable es la D2 de
Mahalanobis (distancia de Mahalanobis entre dos grupos). Despues de cada paso, el programa produce la
funci
on discriminatoria, la tabla de clasificacion y el porcentaje de casos clasificados correctamente para la
muestra b
asica y para la muestra de prueba.
a) Funci
on discriminatoria lineal. Denominemos la funci
on discriminatoria calculada en el paso q
como
fq (x) =

bqi xi + aq

iIq

Los coeficientes bqi de esta funci


on para las variables i incluidas en el paso q corresponden a los
elementos del u
nico vector propio de la matriz
(yq1 yq2 )0 Tq1
y el termino constante se calcula asi:
1
aq = (yq1 yq2 )0 Tq1 (yq1 + yq2 )
2
donde Tq es la matriz de covariancia total (calculada para casos extraidos de ambos grupos) de las
variables incluidas en el paso q, con los elementos

tij =

X
k

wk (xki xi )(xkj xj )
W1 + W2

b) Tabla de clasificaci
on para la muestra b
asica.
Se asigna un caso:
al grupo 1 si fq (x) > 0 ,
al grupo 2 si fq (x) < 0 .
No se asigna un caso si fq (x) = 0 .
Porcentaje de casos correctamente clasificados se calcula como el cociente entre el n
umero
de casos en la diagonal y el n
umero total de casos en la tabla de clasificacion.
c) Tabla de clasificaci
on para la muestra de prueba.
Se construye de la misma manera que la tabla para la muestra b
asica (ver 2.b mas atr
as).
d) Criterio de selecci
on de la siguiente variable. Para este prop
osito se usa la distancia de Mahalanobis entre los dos grupos. La variable escogida en el paso q es la que maximiza el valor de Dq2 .
Dq2 = (yq1 yq2 )0 Tq1 (yq1 yq2 )
e) Asignaci
on y valor de la funci
on discriminatoria lineal para los casos. Se calculan y se
imprimen para el u
ltimo paso o cuando este precede a un decrecimiento del porcentaje de casos clasificados correctamente. El valor de la funci
on se calcula de acuerdo con la formula descrita anteriormente
en el punto 2.a; en el c
alculo se usan las variables retenidas en el paso. La asignacion de casos a los
grupos se hace seg
un lo descrito el punto 2.b anteriormente.
Se usan las mismas reglas de asignacion y la misma formula para la muestra b
asica, las medias de
grupos, la muestra de prueba y la muestra anonima.

44.3 Discriminaci
on lineal entre m
as de 2 grupos

44.3.

347

Discriminaci
on lineal entre m
as de 2 grupos

El procedimiento de discriminaci
on de 3 o mas grupos no solamente utiliza la matriz de covariancia total
sino tambien la matriz de covariancia entre grupos. El criterio para escoger la siguiente variable a usar
aqu es la huella del producto de estas dos matrices (generalizacion de la distancia de Mahalanobis para dos
grupos). Despues de escoger la nueva variable a entrar, se ejecuta el analisis factorial discriminatorio lineal y
el programa produce el poder discriminatorio total y el poder discriminatorio para los tres primeros factores.
Los casos se clasifican de acuerdo con las distancias a los centros de los grupos. En cada paso, el programa
calcula e imprime la tabla de clasificacion y el porcentaje de casos clasificados correctamente para la muestra
b
asica y para la muestra de prueba.
a) Tabla de clasificaci
on para la muestra b
asica. La distancia de un caso x al centro del grupo g
en el paso q se define como la funci
on lineal
vyqg (x) = (yqg )0 Tq1 (yqg 2x)
donde Tq , como se describio en 2.a anteriormente, es la matriz de covariancia total (calculada para los
casos extraidos de todos los grupos) para las variables incluidas en el paso q, con los elementos

tij =

X
k

wk (xki xi )(xkj xj )
W

no (la distancia mas peque


na).
Un caso se asigna al grupo para el cual vyqg (x) tenga el valor mas peque
Porcentaje de casos correctamente clasificados se calcula como el cociente entre el n
umero
de casos en la diagonal y el n
umero total de casos en la tabla de clasificacion.
b) Tabla de clasificaci
on para la muestra de prueba.
Se construye de la misma manera que para la muestra b
asica (ver 3.a mas atr
as).
c) Criterio de selecci
on de la siguiente variable. La variable escogida en el paso q es aquella que
maximiza el valor de la huella de la matriz Tq1 Bq , donde Tq es la matriz de covariancia total usada
en el paso q (ver 3.a mas atr
as), y Bq es la matriz de covariancias entre grupos, con elementos

bij =

X
g

W g (yig xi )(yjg xj )
W

La siguiente parte del analisis (puntos 3.d - 3.h a continuacion) se lleva a cabo en una de las siguientes
tres circunstancias:
cuando el paso precede a un decrecimiento del porcentaje de casos clasificados correctamente,
cuando el porcentaje de casos clasificados correctamente es igual a 100,
cuando es el ultimo paso.
d) Asignaci
on y distancias de los casos en la muestra b
asica. Las distancias a cada grupo se
calculan como se describio en el punto 3.a anteriormente; las variables usadas en los c
alculos son
aquellas retenidas en el paso. La asignacion de casos a los grupos se lleva a cabo como se describio en
el punto 3.a anteriormente.
e) An
alisis factorial discriminatorio. Se analiza la matriz Tq1 Bq descrita en 3.c mas atr
as. Los
dos primeros vectores propios correspondientes a los dos valores propios mas grandes de esta matriz
son los dos ejes factoriales discriminatorios. El poder discriminatorio de los factores se mide con los
correspondientes valores propios. Como el programa suministra el poder discriminatorio para los tres
primeros factores, la suma de los valores propios permite estimar el nivel de los valores propios restantes,
es decir, de aquellos que no se imprimen.
f ) Valores de factores discriminatorios para todos los casos y medias de grupos.
Para un caso, el valor del factor discriminatorio se calcula como el producto escalar del vector del
caso que contenga las variables retenidas en dicho paso con el vector propio correspondiente al factor.

348

An
alisis discriminatorio
Notese que estos valores no se imprimen sino que se utilizan en una representacion grafica de los casos
en el espacio de los dos primeros factores.
Para una media de grupo, se calcula el valor del factor discriminatorio de la misma manera, reemplazando el vector del caso por el vector de media de grupo.

g) Asignaci
on y distancias de los casos en la muestra de prueba. Las distancias a cada grupo se
calculan de la misma manera y la asignacion de casos a los grupos se hace siguiendo las mismas reglas
que para la muestra b
asica (ver 3.d mas atr
as).
h) Asignaci
on y distancias de los casos en la muestra an
onima. Las distancias a cada grupo se
calculan de la misma manera y la asignacion de casos a los grupos se hace siguiendo las mismas reglas
que para la muestra b
asica (ver 3.d mas atr
as).

44.4.

Referencias

Romeder, J.M., Methodes et programmes danalyse discriminante, Dunod, Paris, 1973.

Captulo 45

Funciones de distribuci
on y de Lorenz
Notaci
on
pi
i

= valor del iesimo punto de separacion


= subndice para el punto de separacion

s
N

= n
umero de subintervalos
= n
umero total de casos.

45.1.

Formula para los puntos de separaci


on

El n
umero de puntos de separacion es inferior en una unidad al n
umero solicitado de subintervalos, por ej.
la mediana implica dos subintervalos y un punto de separaci
on.
pi = V () + [V ( + 1) V ()]
donde V es un vector ordenado de datos, por ej. V (3) es el tercer componente en el vector,


i(N + 1)
= entero
s
=

i(N + 1)

y entero(x) es el mayor entero que no exceda x.

45.2.

Puntos de separaci
on de la funci
on de distribuci
on

Hay cuatro posibilidades:


Si un punto de separacion es identicamente igual a un valor y este no est
a atado a ning
un otro valor,
entonces el valor mismo es el punto de separacion.
Si un punto de separacion se presenta entre dos valores y los dos valores no son iguales, entonces el
punto de separacion se determina utilizando la interpolaci
on lineal ordinaria.
Si un punto de separacion es identicamente igual a un valor y dicho valor est
a atado a uno o mas
valores, entonces el procedimiento involucra el c
alculo de nuevos puntos medios. Sea k el valor, m
la frecuencia con la que ocurre y d la distancia mnima entre los items en el vector V. El intervalo
k mn(d, 1)/2 se divide en m partes y los puntos medios son calculados para estos nuevos intervalos.
El punto de separacion adecuado es el punto medio.
Si un punto de separacion se presenta entre dos valores que son identicos, el procedimiento involucra
el c
alculo de nuevos puntos medios e interpolaci
on lineal ordinaria. Sea k el valor, m la frecuencia con

350

Funciones de distribuci
on y de Lorenz
la que el ocurre y d la distancia mnima entre los items en el vector V. El intervalo k mn(d, 1)/2
se divide en m partes y los puntos medios son calculados para estos nuevos intervalos. Entonces la
interpolaci
on lineal se lleva a cabo entre dos nuevos puntos medios adecuados.

45.3.

Puntos de separaci
on de la funci
on de Lorenz

Para determinar los puntos de separacion en la funci


on de Lorenz, los componentes del vector ordenado de
datos se suman y en cada paso el total acumulado se divide por el total general. Los puntos de separacion
se calculan de la misma forma que se describe arriba.

45.4.

Curva de Lorenz

La funci
on de Lorenz trazada contra la proporcion de la poblacion ordenada, da la curva de Lorenz que
siempre est
a contenida en el triangulo inferior del cuadrado unitario. El programa QUANTILE utiliza diez
subintervalos para generar la curva de Lorenz.
Note que los valores de la funci
on de Lorenz son llamados Fracci
on de riqueza en la impresion efectuada
por la computadora.

45.5.

El coeficiente de Gini

El coeficiente de Gini, representa el doble del area entre la funci


on de Lorenz y la diagonal trazada en el
cuadrado unitario. Toma valores entre cero y uno. Cero (0) indica igualdad perfecta - todos los valores de
los datos son iguales. La unidad (1) indica desigualdad perfecta - hay un valor diferente de cero.
El programa utiliza una aproximacion:
s1

Coeficiente de Gini = 1

1 2X
li

s s i=1

donde li es el iesimo punto de separacion de la funci


on de Lorenz.
Esta aproximacion es mas precisa cuando el n
umero de puntos de separacion aumenta; se recomienda que al
menos diez sean utilizados.

45.6.

Estadstica D de Kolmogorov-Smirnov

La prueba de Kolmogorov-Smirnov trata la similitud entre dos funciones acumulativas. Si dos distribuciones
acumulativas para dos muestras est
an muy separadas en cualquier punto, esto sugiere que las muestras
provienen de poblaciones diferentes. La prueba se enfoca sobre la mayor diferencia entre las dos distribuciones.
Sean V1 y V2 los vectores ordenados para la primera y la segunda variable respectivamente, y X el vector de
c
odigos que aparecen en cualquiera de las dos distribuciones. El programa crea las dos funciones acumulativas
F1 (x) y F2 (x) respectivamente. Entonces busca la diferencia absoluta mayor entre las distribuciones,
D = max(|F1 (x) F2 (x)|)
e imprime:
x : el primer valor para la mayor diferencia en valor absoluto
f1
f2

: el valor de F1 asociado con x


: el valor de F2 asociado con x.

Si las N para V1 y V2 son iguales e inferiores a 40, el programa imprime la estadstica K igual a la diferencia
en frecuencias asociada a la mayor diferencia. Una tabla de valores crticos de la estadstica K, denotada

45.7 Nota sobre los pesos

351

como KD , puede ser consultada para determinar la significaci


on de la diferencia observada.
Si las N para V1 y V2 no son iguales o superiores a 40, el programa imprime las estadsticas siguientes:
Desviaci
on no ajustada = D = |f1 f2 |
r
N1 N2
Desviaci
on ajustada = D
N1 + N2
donde N1 y N2 son iguales al n
umero de casos en V1 y V2 respectivamente.
Ji-cuadrada aproximada = 4D2

N1 N2
N1 + N2

Nota: la significaci
on de la desviaci
on direccional maxima puede ser encontrada cuando se compara este valor
de Ji-cuadrada a una distribuci
on Ji-cuadrada con dos grados de libertad.

45.7.

Nota sobre los pesos

Para los puntos de separacion de la funci


on de distribuci
on, los puntos de separacion de la funci
on de Lorenz
y los coeficientes de Gini, los datos pueden ser ponderados con un entero. Si un peso es especificado, cada
caso se cuenta implcitamente como w casos, donde w es el valor del peso para el caso correspondiente.
La prueba de Kolmogorov-Smirnov es siempre calculada para datos no ponderados.

Captulo 46

An
alisis factorial
Notaci
on
x =
i =

valores de variables
subndice para el caso

j, j 0 =
=

subndices para variables


subndice para el factor

m =
I1 =

n
umero de factores determinados/deseados
n
umero de casos activos

J1 =

n
umero de variables activas

w
W

valor del peso


suma total de los pesos para casos activos.

46.1.

=
=

Estadsticas univariadas

Estas estadsticas se calculan para todas las variables usadas en el analisis, es decir, variables activas y
variables pasivas, si las hay. N
otese que las variables se numeran nuevamente a partir de 1 (columna RNK).
S
olo los casos activos entran a los calculos.
a) Media.

xj =

I1
X

wi xij

i=1

b) Variancia (estimada).

N
N 1

sbj =

!" W

I1
X
i=1

wi x2ij

I1
X

W2

c) Desviaci
on est
andar (estimada).
q
sbj = sbj 2

d) Coeficiente de variaci
on (C. Var.).
Cj =

sbj
xj

i=1

wi xij

2

354

An
alisis factorial

e) Total (suma de xj ).
I1
X

T otalj =

wi xij

i=1

f ) Asimetra.

g1j =

g) Kurtosis.

g2j =

m3j
q
sb2j

sb2j

m4j
3
(b
s2j )2

donde

m3j =

donde

I1
X
i=1

m4j =

wi (xij xj )3

I1
X
i=1

wi (xij xj )4
W

h) N ponderada. N
umero de casos activos si no se especifica ponderaci
on, o n
umero ponderado de casos
activos (suma de ponderaciones).

46.2.

Datos de entrada

Se imprimen los datos tanto para casos activos como para casos pasivos.
La primera columna de la tabla contiene los valores de la variable identificadora del caso (hasta 4 digitos). La
segunda columna (Coef) contiene el valor de la ponderaci
on asignada a cada caso (wi ). La tercera columna
(PI) es igual a la suma ponderada de los valores de las variables activas para cada caso (totales ponderados
de fila).
Pi =

J1
X

wi xij

j=1

La primera lnea contiene los primeros 4 caracteres del nombre de cada variable. La segunda lnea (PJ) es
igual a la suma ponderada de los valores de los casos activos para cada variable (totales ponderados de
columna).
Pj =

I1
X

wi xij

i=1

N
otese que el valor de Coef al comienzo de esta lnea es igual al n
umero ponderado de casos activos y el
valor de PI es igual al total general (P ) de las variables activas para los casos activos.
P =

I1
X
i=1

Pi =

J1
X
j=1

Pj =

I1 X
J1
X

wi xij

i=1 j=1

El resto de la tabla de entrada de datos contiene los valores (con una cifra decimal) de las variables activas
y pasivas.

46.3.

Matrices n
ucleo (matrices de relaciones)

Para cada tipo de analisis se calula y se imprime una matriz n


ucleo. Esta es una matriz de relaciones entre
variables. N
otese que para los listados los valores en la matriz est
an multiplicados por un factor cuyo valor
se imprime junto al ttulo de la matriz. Este factor es cero cuando algunos valores de la matriz exceden 5
caracteres (puede ser el caso de productos escalares o de matrices de covariancia).

46.4 Huella

355

ucleo se calculan as:


Para el analisis de correspondencias, los elementos Cjj 0 de la matriz n
C

jj 0

I1
X
1
(wi xij ) (wi xij 0 )
= p p
Pi
Pj Pj 0 i=1

Para el analisis de productos escalares, los elementos SPjj 0 de la matriz n


ucleo se calculan as:
SPjj 0 =

I1
X

wi xij xij 0

i=1

ucleo se
Para el analisis de productos escalares normados, los elementos N SPjj 0 de la matriz n
calculan as:
I1
X

wi xij xij 0

i=1

N SPjj 0 = v
u I1
I1

X
u X
t
2
wi x2ij 0
wi xij
i=1

i=1

ucleo se calculan as:


Para el analisis de covariancias, los elementos COVjj 0 de la matriz n

COVjj 0 =

I1
X
i=1

wi (xij xj ) (xij 0 xj 0 )

W
ucleo se calculan as:
Para el analisis de correlaciones, los elementos CORjj 0 de la matriz n
I1
X
i=1

wi (xij xj ) (xij 0 xj 0 )

CORjj 0 = v
u I1
I1
uX
X
t
wi (xij xj )2
wi (xij 0 xj 0 )2
i=1

46.4.

i=1

Huella

La huella de la matriz n
ucleo se calcula como la suma de sus elementos en la diagonal. La huella tambien
es igual al total de los valores propios (inercia total). N
otese que para el analisis de correlaciones y para el
analisis de productos escalares normados la inercia total es igual al n
umero de variables activas.
Huella =

J1
X

=1

46.5.

Valores y vectores propios

Se imprimen los valores propios y los vectores propios para los factores retenidos. Tiene el mismo significado
para cada tipo de analisis pero son de poco interes para el usuario.
Para el analisis de correspondencias, el programa imprime un valor propio y un vector propio mas que el
n
umero de factores determinado/deseado. Primero se imprime el factor para el valor propio trivial (siempre
igual a 1) y luego se ignora. Los factores restantes se numeran nuevamente (a partir de 1) en las tables de
casos/variables activos/pasivos.

356

An
alisis factorial

46.6.

Tabla de valores propios

La tabla contiene todos los valores propios, simbolizados aqu por , calculados por el programa. N
otese
que en el analisis de correspondencias, el primer valor propio trivial (siempre 1) se imprime solamente en la
tabla y su valor se resta de la huella cuando se calcula el porcentaje en el punto 6.d mas adelante.
a) NO. N
umero secuencial de valor propio, , en orden ascendente.
b) ITER. N
umero de iteraciones usadas para calcular los vectores propios correspondientes. El valor cero
significa que el vector propio se obtuvo a la vez que el anterior (desde abajo).
c) Valor propio. Esta columna muestra una secuencia de valores propios, lambdas, cada uno correspondiente al factor .
d) Porcentaje. Contribuci
on del factor a la inercia total (en terminos porcentuales).
=

100
Huella

e) Cumul (porcentaje acumulativo). Contribucion de los factores 1 a a la inercia total (en terminos
porcentuales).
Cumul = 1 + 2 + +
f ) Histograma de valores propios. Cada valor propio se representa mediante una lnea de asteriscos en
la cual la cantidad de asteriscos es proporcional al valor propio. El primer valor propio del histograma
siempre se representa con 60 asteriscos. El histograma permite un analisis visual de la disminicion
relativa de valores propios para factores subsiguientes.

46.7.

Tabla de factores de variables activas

La tabla contiene las ordenadas de las variables activas en el espacio factorial, sus cosenos al cuadrado con
cada factor y sus contribuciones a cada factor. Adicionalmente, contiene la calidad de estas variables, sus
ponderaciones y sus inercias.
a) JPR. N
umero de variable para las variables activas (principales).
b) QLT. Se mide la calidad de representacion de la variable en el espacio de m factores, para todo tipo
de analisis, con la suma de cosenos cuadrados (ver 7.f mas adelante). Los valores mas cercanos a 1
indican un nivel mas alto de representacion de la variable por los factores.
QLTj =

m
X

COS2 j

=1

c) PESO. Valor de ponderaci


on de la variable. Para todo tipo de analisis, se calcula como un cociente
entre el total de la variable y el total general (ver secci
on 2 atr
as), multiplicado por 1000.
fj =

Pj
1000
P

N
otese que la ponderaci
on (PESO) impresa en la u
ltima lnea de la tabla es igual a:
- el total general para el analisis de correspondencias,
- el n
umero ponderado de casos para otros tipos de analisis.
d) INR. Inercia correspondiente a la variable. Indica la parte de la inercia total relacionada con la variable
en el espacio de factores.

46.7 Tabla de factores de variables activas

357

Para el analisis de correspondencias, se calcula como el cociente entre la inercia de la variable y


la inercia total, multiplicado por 1000. N
otese que la inercia de la variable depende de la ponderaci
on
de esta y que el valor de huella usado no incluye el valor trivial del valor propio.
J11
X

fj

F2 j

=1

IN Rj =

Huella

1000

donde F j es la ordenada de la variable j que corresponde al factor (ver 7.e mas adelante).
Para el analisis de productos escalares y el analisis de covariancias, la inercia de la variable
no depende de la ponderaci
on de esta.

IN Rj =

J1
X

F2 j

=1

1000

Huella

Para el analisis de productos escalares normados y el analisis of correlaciones, la inercia


de la variable solo depende del n
umero de variables activas.
IN Rj =

1
1000
J1

N
otese que la inercia (INR) impresa en la u
ltima lnea de la tabla es igual a 1000.
Las siguientes tres columnas se repiten para cada factor.
e) #F . La ordenada de la variable en el espacio factorial, denominado aqu con F j .
f ) COS2. Coseno cuadrado del
angulo entre la variable y el factor. Es una medida de la distancia entre
la variable y el factor. Valores cercanos a 1 indican distancias mas cortas al factor.
Para el analisis de correspondencias, se calcula as:
COS2 j =

F2 j
J11
X

F2 j

1000

=1

Para el analisis de productos escalares y el analisis de covariancias,


COS2 j =

F2 j
J1
X

F2 j

1000

=1

Para el analisis de productos escalares normados y el analisis of correlaciones,


COS2 j = F2 j 1000
g) CPF. Contribuci
on de la variable al factor.
Para el analisis de correspondencias,
CP F j =

fj F2 j
1000

Para todos los otros tipos de analisis,


CP F j =

F2 j
1000

N
otese que la contribuci
on (CPF) impresa en la u
ltima lnea de la tabla es igual a 1000.

358

An
alisis factorial

46.8.

Tabla de factores de variables pasivas

La tabla contiene la misma informaci


on descrita en el punto 7 mas atr
as, pero para variables pasivas.
a) JSUP. N
umero de variable para las variables pasivas (suplementarias).
b) QLT. Calidad de representacion de la variable en el espacio de m factores (ver 7.b atr
as).
c) PESO. Valor de ponderaci
on de la variable (ver 7.c atr
as).
d) INR. Inercia correspondiente a la variable. N
otese que las variables pasivas no contribuyen a la inercia
total. De esta manera, la inercia aqu indica si la variable podra jugar alg
un papel en el analisis si se
utilizara como variable activa. Se calcula de la misma forma que las variables activas en los respectivos
analisis (ver 7.d atr
as).
La inercia (INR) impresa en la u
ltima lnea de la tabla es igual a la INR total sobre todas las variables
pasivas.
Las siguientes tres columnas se repiten para cada factor.
e) #F . La ordenada de la variable en el espacio factorial, denominada aqu por F j .
f ) COS2. Coseno cuadrado del
angulo entre la variable y el factor. Se calcula en la misma forma que
para las variables activas en los analisis respectivos (ver 7.f atr
as).
g) CPF. Contribuci
on de la variable al factor. N
otese que las variables pasivas no participan en la
construcci
on del espacio factorial. As, la contribuci
on solo indica si la variable podra tener alg
un
papel en el analisis si se utilizara como variable activa. CPF se calcula de la misma manera que para
las variables activas en los analisis respectivos (ver 7.g atr
as).
La contribuci
on (CPF) impresa en la u
ltima lnea de la tabla es igual al CPF total sobre todas las
variables pasivas.

46.9.

Tabla de factores de casos activos

La tabla contiene las ordenadas de los casos activos en el espacio factorial, sus cosenos cuadrados con cada
factor y sus contribuciones a cada factor. Ademas, contiene la calidad de la representacion de estos casos,
sus ponderaciones y sus inercias.
a) IPR. Valor de identificador de caso para los casos activos (principales).
b) QLT. Se mide la calidad de representacion del caso en el espacio de m factores, para todos los tipos
de analisis, con la suma de cosenos cuadrados (ver 9.f mas adelante). Valores cercanos a 1 indican
un nivel mas alto de representacion del caso por los factores.
QLTi =

m
X

COS2 i

=1

c) PESO. Valor de ponderaci


on del caso.
Para el analisis de correspondencias, se calcula como el cociente entre la suma (ponderada) de
variables activas para este caso y el total general (ver secci
on 2 atr
as), multiplicado por 1000.
fi =

Pi
1000
P

N
otese que la ponderaci
on (PESO) que se imprime en la u
ltima lnea de la tabla es igual al total
general.
Para todos los otros tipos de analisis,
fi =

wi
1000
P

N
otese que la ponderaci
on (PESO) que se imprime en la u
ltima lnea de la tabla es igual al n
umero
ponderado de casos.

46.9 Tabla de factores de casos activos

359

d) INR. Inercia correspondiente al caso. Indica la parte de le inercia total relacionada con el caso en el
espacio de factores.
Para el analisis de correspondencias, se calcula como el cociente entre la inercia del caso y la
inercia total, multiplicado por 1000. N
otese que la inercia del caso depende de la ponderaci
on del caso
y que el valor de huella usado aqu no incluye el valor trivial del valor propio.
fi

J11
X

F2 i

=1

IN Ri =

Huella

1000

Para todos los otros tipos de analisis,


IN Ri =

J1
X
wi
z2
W Huella j=1 ij

1000

donde

zij =

xij

xij

q PI1
i=1


2

para analisis de productos escalares


para analisis de productos escalares normados

wi xij / W

xij xj
xij xj
sj

para analisis de covariancias


para analisis de correlaciones

y sj es la desviaci
on est
andar de la muestra para la variable j.
N
otese que la inercia (INR) que se imprime en la u
ltima lnea de la tabla es igual a 1000.
Las siguientes tres columnas se repiten para cada factor.
e) #F . La ordenada del caso en el espacio factorial, denominada aqu por F i .
f ) COS2. Coseno cuadrado del
angulo entre el caso y el factor. Es una medida de distancia entre caso
y factor. Los valores mas cercanos a 1 indican distancias mas cortas al factor.
Para el analisis de correspondencias, se calcula as:
COS2 i =

F2 i
1000
J11
X
F2 i
=1

Para todos los otros tipos de analisis,


COS2 i =

F2 i
1000
J1
X
2
F i

=1

g) CPF. Contribuci
on del caso al factor.
Para el analisis de correspondencias,
CP F i =

fi F2 i
1000

Para todos los otros tipos de analisis,


CP F i =

wi F2 i
1000
W

N
otese que la contribuci
on (CPF) que se imprime en la u
ltima lnea de la tabla es igual a 1000.

360

An
alisis factorial

46.10.

Tabla de factores de casos pasivos

La tabla contiene la misma informaci


on que la descrita en el punto 9. mas atr
as, pero para los casos pasivos.
a) ISUP. Valor de identificador de caso para los casos pasivos (suplementarios).
b) QLT. Calidad de representacion del caso en el espacio de m factores (ver 9.b atr
as)
c) PESO. Valor de ponderaci
on del caso (ver 9.c atr
as).
d) INR. Inercia correspondiente al caso. N
otese que los casos pasivos no contribuyen a la inercia total.
As, la inercia aqu indica si el caso podra tener alg
un papel en el analisis si se usara como caso activo.
Se calcula de la misma manera que para los casos activos en los respectivos analisis (ver 9.d atr
as).
La inercia (INR) que se imprime en la u
ltima lnea de la tabla es igual a la INR total sobre todos los
casos pasivos.
Las siguientes tres columnas se repiten para cada factor.
e) #F . La ordenada del caso en el espacio factorial, denominada aqu por F i .
f ) COS2. Coseno cuadrado del
angulo entre el caso y el factor. Se calcula de la misma manera que los
casos activos en los respectivos analisis (ver 9.f atr
as).
g) CPF. Contribuci
on del caso al factor. N
otese que los casos pasivos no participan en la construcci
on
del espacio factorial. As, la contribuci
on indica solamante si el caso podra tener alg
un papel en el
analisis si se hubiera usado como caso activo. CPF se calcula de la misma manera que los casos activos
en los analisis respectivos (ver 9.g atr
as).
La contribuci
on (CFP) impresa en la u
ltima lnea de la tabla es igual al CPF total de todos los casos
complementarios.

46.11.

Factores rotados

S
olo en analisis de correlaciones. Los factores de variables se pueden rotar cuando se haya terminado el
analisis factorial. El procedimiento Varimax que se utiliza aqu es el mismo usado en el programa CONFIG.
N
otese que los factores de variables para las variables activas se pueden tratar como una configuracion de
J1 objetos en un espacio dimensional .

46.12.

Referencias

Benzecri, J.-P. and F., Pratique de lanalyse de donnees, tome 1: Analyse des correspondances, expose elementaire, Dunod, Paris, 1984.
Iagolnitzer, E.R., Presentation des programmes MLIFxx danalyses factorielles en composantes principales,
Informatique et sciences humaines, 26, 1975.

Captulo 47

Regresi
on lineal
Notaci
on
y
x

= valor de la variable dependiente


= valor de una variable independiente

i, j, l, m = subndices para variables


p = n
umero de predictores
k

47.1.

= subndice para el caso

N
w

= n
umero total de casos
= valor del peso multiplicado por

= suma total de los pesos.

N
W

Estadsticas univariadas

Estas estadsticas ponderadas son calculadas para todas las variables utilizadas en el analisis, es desir,
variables ficticias, variables independientes y la variable dependiente.
a) Promedio.

xi =

wk xik

b) Desviaci
on est
andar (estimada).

sbi =

v
X
2
u X
2
uN
w
x
(w
x
)

k ik
k ik
u
t
k
k
N (N 1)

c) Coeficiente de variaci
on (C.var.).
Ci =

47.2.

100 sbi
xi

Matriz de sumas totales de cuadrados y productos cruzados

Es calculada para todas las variables utilizadas en el analisis como sigue:


X
t.s.s.c.p. ij =
wk xik xjk
k

362

Regresi
on lineal

47.3.

Matriz de sumas de cuadrados residuales y productos cruzados

Esta matriz, llamada matriz de cuadrados y productos cruzados de puntajes de desviacion, es calculada para
todas las variables utilizadas en el analisis como sigue:
X
X

wk xik
wk xjk
X
k
k
r.s.s.c.p. ij =
wk xik xjk
N
k

47.4.

Matriz de correlaci
on total

Los elementos de esta matriz son calculados directamente a partir de la matriz de la suma de cuadrados
residuales y productos cruzados. Note que si esta formula se escribe en todo detalle y si se multiplican por
N numerador y denominador, se trata de la f
ormula convencional de la r de Pearson.
r.s.s.c.p. ij
rij =

r.s.s.c.p. ii r.s.s.c.p. jj

47.5.

Matriz de correlaci
on parcial

El ij esimo elemento de esta matriz es la correlaci


on parcial entre la variable i y la variable j, manteniendo
constantes ciertas variables especficas. Las correlaciones parciales describen el grado de interrelaci
on que
puede existir entre dos variables si se controla la variaci
on en una o mas variables. Tambien describen la
correlaci
on entre variables independientes que seran seleccionadas en una regresion por pasos.
a) Correlaci
on entre xi y xj manteniendo constante xl (parciales de primer orden).
rij ril rjl
q
rij l = p
2
2
1 ril
1 rjl
donde rij , ril , rjl son los coeficientes de orden cero (coeficientes r de Pearson).
b) Correlaci
on entre xi y xj manteniendo constantes xl y xm (parciales de segundo orden).
rij l rim l rjm l
q
rij lm = p
2
2
1 rim
1 rjm
l
l
donde rij l , rim l , rjm l son las parciales de primer orden.
Nota: el programa calcula las correlaciones parciales aumentando paso a paso a partir de los coeficientes
de orden cero pasando a los coeficientes de primer orden, despues a los coeficientes de segundo orden,
etc.

47.6.

Matriz inversa

En el caso de una regresion est


andar, esta es la inversa de la matriz de correlaci
on de las variables independientes y de la variable dependiente. Para una regresion por pasos, esta es la inversa de la matriz de
correlaciones de las variables independientes en la ecuaci
on final. El programa utiliza el metodo de eliminacion
de Gauss para invertir.

47.7 Estadsticas de resumen del an


alisis

47.7.

363

Estadsticas de resumen del an


alisis

a) Error est
andar de la estimaci
on. Es la desviacion est
andar de los residuos.
vX
u
u
(yk ybk )2
u
t k
Error est
andar de estimaci
on =
gl

donde

ybk =
gl =

valor proyectado de la variable dependiente para el k esimo caso


grados de libertad del residuo (ver 7.f mas abajo).

b) Cociente F para la regresi


on. Es la estadstica F para determinar la significaci
on estadstica del
modelo considerado. Los grados de libertad son p y N p 1.
F =

R2 gl
p (1 R2 )

donde R2 es igual a la fracci


on de la variancia explicada (ver 7.d mas abajo).
c) Coeficiente de correlaci
on m
ultiple. Es la correlaci
on entre la variable dependiente y el valor
proyectado. Indica la fortaleza de la relacion entre el criterio y la funci
on lineal de los predictores y es
similar a un coeficiente simple de correlaci
on de Pearson excepto que siempre es positivo.

R = R2
R no es impresa si el termino constante ha sido forzado a tomar el valor cero.
d) Fracci
on de la variancia explicada. R2 puede ser interpretada como la proporcion de la variacion
en la variable dependiente, explicada por las variables explicativas. Llamado algunas veces el coeficiente
de determinaci
on, es una medida de eficacia de la regresion lineal. Entre mas grande sea, la ecuaci
on
ajustada explicar
a mejor la variaci
on en los datos.
X

(yk ybk )2

k
R2 = 1 X
k

(yk y)

donde
ybk
y

=
=

valor proyectado de la variable dependiente para el k esimo caso


media de la variable dependiente.

Al igual que R, R2 no es impresa si el termino constante es forzado a tomar el valor cero.


e) Determinante de la matriz de correlaci
on. Es el determinante de la matriz de correlaci
on de
las variables predictoras. El valor del determinante de esta matriz, vara de cero a uno y es obtenido
mediante la suma de varios productos de sus elementos. Determinantes cuyos valores son cercanos a
cero, indican que algunas o todas las variables explicativas tienen un alto grado de correlaci
on. Un
determinante igual a cero indica que se trata de una matriz singular que no tiene inverso.
f ) Grados de libertad de residuos.
Si la constante no est
a forzada a tomar el valor cero,
gl = N p 1
Si la constante est
a forzada a tomar el valor cero,
gl = N p

364

Regresi
on lineal

g) T
ermino constante.
X

A=y

Bi xi

donde

47.8.

y
xi

=
=

promedio de la variable dependiente (ver 1.a arriba)


promedio de la iesima variable predictora (ver 1.a arriba)

Bi

coeficiente B de la iesima variable predictora (ver 8.a abajo).

Estadsticas de an
alisis para los predictores

a) B. Son los coeficientes de regresion parcial no estandarizada que son los indicados (en vez de las betas)
para utilizarse en una ecuaci
on de proyeccion de valores primarios. Son sensibles a la escala de medida
de la variable predictora as como a la variancia de la variable predictora.
Bi = i
donde

sby
sbi

= ponderaci
on beta para el predictor i (ver 8.c abajo)

sby
sbi

= desviaci
on est
andar de la variable dependiente (ver 1.b arriba)
= desviaci
on est
andar de la variable predictora i (ver 1.b arriba).

b) Sigma B. Es el error est


andar de B, una medida de fiabilidad del coeficiente.
Sigma Bi = (error est
andar de la estimaci
on)

cii
r.s.s.c.p. ii

donde cii es el iesimo elemento de la diagonal de la inversa de la matriz de correlaci


on de los predictores
en la ecuaci
on (ver secci
on 6 arriba).
c) Beta. Coeficientes de regresion que se llaman tambien los coeficientes estandarizados de regresion
parcial o coeficientes estandarizados B. Son independientes de la escala de medida. Las magnitudes
de los cuadrados de las betas indican las contribuciones relativas de las variables a la proyeccion.
1
i = R11
Ryi

donde
R11
Ryi

=
=

matriz de correlaci
on de los predictores en la ecuaci
on
vector columna de correlaciones de la variable dependiente y los
predictores indicada por el predictor i.

d) Sigma Beta. Es el error est


andar del coeficiente beta, una medida de fiabilidad del coeficiente.
Sigma i = sigma Bi

sbi
sby

e) r cuadrada parcial. Son las correlaciones parciales, al cuadrado, entre el predictor i y la variable
dependiente, y, eliminada la influencia de otras variables en la ecuaci
on de regresion. El coeficiente
de correlaci
on parcial al cuadrado, es una medida de que tanto la parte de variacion en la variable
dependiente que no est
a explicada por otros predictores, est
a explicada por el predictor i.
2
ryi
jl... =

2
2
Ry
ijl... Ry jl...
2
1 Ry
jl...

47.9 Residuos

365

donde
2
Ry
ijl...

R cuadrada m
ultiple con el predictor i

2
Ry
jl...

R cuadrada m
ultiple sin el predictor i.

f ) r cuadrada marginal. Es el incremento de la variancia explicada, al a


nadir el predictor i a los otros
predictores ya incluidos en la ecuaci
on de regresion.
2
2
ri2 marginal = Ry
ijl... Ry jl...

g) Cociente t. Puede ser utilizado para probar si la hipotesis que , o B, es igual a cero; es decir si el
predictor i no tiene una influencia lineal en la variable dependiente. Su significancia se puede determinar
de la tabla de t con N p 1 grados de libertad.




i Bi
=

t =


sigma i
sigma Bi

h) Coeficiente de covariancia. La tasa de covariancia de xi es el cuadrado del coeficiente de correlaci


on
m
ultiple, R2 , de xi con las otras p 1 variables independientes en la ecuaci
on. Es una medida de la
intercorrelacion de xi con los otros predictores.
Coeficiente de covariancia i = 1

1
cii

donde cii es el iesimo elemento de la diagonal del inverso de la matriz de correlaci


on de los predictores
en la ecuaci
on (ver secci
on 6 arriba).

47.9.

Residuos

Los residuos son la diferencia entre los valores observados de la variable dependiente y los valores calculados
por la ecuaci
on de regresion.
ek = yk ybk

La prueba para detectar la correlaci


on serial, popularmente conocida como la estadstica d de Durbin-Watson
para autocorrelaci
on de primer orden de residuos, se calcula as:

d=

N
X

(ek ek1 )2

k=2

N
X

e2k

k=1

47.10.

Nota sobre la regresi


on por pasos

La regresion por pasos incluye los predictores en el modelo paso a paso, comenzando con la variable independiente que est
a mas correlacionada con y. Despues del primer paso, el algoritmo selecciona a partir de
las variables independientes restantes, aquella que disminuye al maximo la variancia restante (no explicada)
de la variable dependiente, es decir, la variable cuya correlaci
on parcial con y es mas elevada. Entonces, el
programa hace una prueba parcial de F de inclusi
on para ver si la variable absorbe una cantidad significativa
de variacion relativa, a aquella que ya ha sido absorbida por las variables que ya forman parte de la regresion.
El usuario puede especificar un valor F mnimo, para incluir cualquier variable; el programa eval
ua si el valor
de F calculado en un paso dado, satisface el mnimo especificado y si lo satisface, incluye la variable en la
regresion. En forma similar, el programa decide a cada paso si cada variable incluida previamente, continua
a satisfacer el mnimo (tambien proporcionado por el usuario), y si no, la excluye.
Valor parcial de F para la variable i =

2
2
(Ry
P i Ry P )(gl)
2
1 Ry
Pi

366

Regresi
on lineal

donde
2
Ry
Pi
2
Ry
P

R cuadrada m
ultiple para el conjunto (P ) de predictores

ya incluidos en la regresion, con el predictor i


R cuadrada m
ultiple para el conjunto (P ) de predictores

gl =

ya incluidos en la regresion
grados de libertad de los residuos.

En cualquier paso del procedimiento, los resultados son los mismos que habra en una regresion est
andar
utilizando el conjunto particular de variables; as, el u
ltimo paso de una regresion por pasos muestra los
mismos coeficientes de una pasada normal utilizando las variables que sobrevivieron el procedimiento de
selecci
on hecho paso a paso.

47.11.

Nota sobre la regresi


on descendente

La regresion descendente es similar a la regresion paso a paso, a excepcion que el algoritmo comienza con
la inclusi
on de todas las variables independientes y despues quita o a
nade nuevamente las variables, en la
forma de paso a paso.

47.12.

Nota sobre la regresi


on con intercepto cero

Cuando se utiliza el programa REGRESSN, es posible solicitar una intercepto cero, es decir, que la variable
dependiente sea cero cuando todas las variables independientes son cero.
Si una regresion a traves del origen es especificada, todas las estadsticas a la excepcion de aquellas citadas
de 1 a 4 arriba, est
an basadas sobre una media cero. El coeficiente de correlaci
on m
ultiple y la fracci
on de
variancia explicada (artculos 7.c y 7.d) no son impresas. Las estadsticas que no est
an centradas con respecto
a la media pueden ser muy diferentes de lo que podran serlo, si hubieran sido centradas; as, en una solucion
por pasos, las variables pueden ser incluidas en la ecuaci
on en un orden diferente del que ha sido hecho, si
una constante hubiera sido estimada.
En el programa REGRESSN una matriz con elementos
X
wk xik xjk
aij = sX k
X
wk x2ik
wk x2jk
k

es analizada en vez de R, la matriz de correlaci


on.
Las B, los coeficientes de regresion parcial no estandarizados, se obtienen mediante
sX
X
wk x2ik
wk x2jk
Bi = i
k

Captulo 48

Escalamiento multidimensional
Notaci
on
x = elemento de la configuracion
i, j, l, m = subndices para variables

48.1.

n
s

= n
umero de variables
= subndice para dimensi
on

= n
umero de dimensiones.

Orden de los c
alculos

Para un n
umero dado de dimensiones, t, MDSCAL calcula la configuracion de mnimo esfuerzo (stress)
utilizando un proceso iterativo. El programa comienza con una configuracion inicial (suministrada por el
usuario o por programa) y contin
ua modific
andola hasta que converge hacia la configuracion que tenga el
mnimo esfuerzo.

48.2.

Configuraci
on inicial

Si el usuario no proporciona una configuracion de entrada, el programa genera una configuracion arbitraria
tomando los primeros n puntos a partir de la lista a continuacion (cada expresion entre parentesis representa
un punto):
(1, 0, 0, . . . , 0),
(0, 2, 0, . . . , 0),
(0, 0, 3, . . . , 0),
..
.
(0, 0, 0, . . . , t),
(t + 1, 0, 0, . . . , 0),
(0, t + 2, 0, . . . , 0),
..
.

48.3.

Centrado y normalizaci
on de la configuraci
on

Al principio de cada iteraci


on, la configuracion es centrada y normalizada.
Si xis denota el elemento en la iesima lnea y sesima columna de la configuracion, entonces

368

Escalamiento multidimensional
xis centrada = xis xs
xis normalizada =

donde

xs =

xis xs
n.f.

xis

n
es la media de la dimensi
on s y
v
u
n
n.f. = u
t X X x2
is
i

es el factor de normalizaci
on.

Note que el total de la suma de cuadrados de los elementos de la configuracion centrada y normalizada es
igual a n, el n
umero de variables.

48.4.

Historia de los c
alculos

Al termino de cada iteraci


on, las partidas de 4.a a 4.h abajo, son impresas. Esto crea un descriptivo secuencial
que, en general, es de interes solamente cuando se teme que la convergencia no sea completa. Sin embargo,
al final del descriptivo secuencial la raz
on para detenerse es impresa. Si el programa no se para porque un
mnimo ha sido alcanzado, aun as puede ser cierto, que la solucion alcanzada sea practicamente igual al
mnimo que hubiera sido alcanzado despues de unas cuantas iteraciones suplementarias - en particular, si el
esfuerzo es muy peque
no, que es generalmente el caso.
a) Stress (esfuerzo). La medida de esfuerzo tiene dos funciones. Primero, es una medida de que tan
bien la configuracion calculada, semeja los datos de entrada. Segundo, es utilizada para decidir c
omo
los puntos deber
an ser desplazados en la nueva iteraci
on. Hay dos formulas disponibles para calcular
el esfuerzo: SQDIST y SQDEV.
vXX
u
u
(dij dbij )2
u
u i j
XX
Esfuerzo SQDIST = u
t
d2
ij

vX X
u
u
(dij dbij )2
u
u i j
Esfuerzo SQDEV = u X X
t
(dij d )2
i

donde
dij
dbij

=
=

d =

distancia entre las variables i y j en la configuracion (ver 8.c abajo)


los n
umeros que minimizan el esfuerzo, sujetos a la condicion que
las dij sean del mismo orden de rango que los datos de entrada (ver 8.d mas abajo)
media de las dij .

b) SRAT. Coeficiente de esfuerzo. El usuario puede detener el procedimiento de escalamiento, especificando un coeficiente de esfuerzo a alcanzar. Para la primera iteraci
on (iteracion 0), su valor se fija a
0.800.
SRAT =

Esfuerzo actual
Esfuerzo anterior

48.4 Historia de los c


alculos

369

c) SRATAV. Promedio de coeficiente de esfuerzo. Para la primera iteraci


on su valor es igual a 0.800.
SRATAVactual = (SRATactual )0,33334 (SRATAVanterior )0,66666
d) CAGRGL. Este es el coseno del a
ngulo entre el gradiente actual y el gradiente anterior.
XX
00
gis gis
CAGRGL = cos = sX Xi
i

2
gis

sX X
i

00 2
(gis
)

donde
g
g 00

=
=

gradiente actual
gradiente anterior.

El gradiente inicial est


a fijado de acuerdo con la constante:
r
1
Inicial gis =
t
e) COSAV. Coseno promedio del
angulo entre los gradientes sucesivos. Este es una media ponderada.
Para la primera iteraci
on, su valor se fija a cero.
COSAVactual = CAGRGLactual COSAVW + COSAVanterior (1,0 COSAVW)
donde COSAVW es un factor de ponderaci
on controlado por el usuario.
f ) ACSAV. Promedio del valor absoluto del coseno del angulo entre gradientes sucesivos. Esta es una
media ponderada. Para la primera iteraci
on, su valor es fijado a cero.
ACSAVactual = |CAGRGLactual | ACSAVW + ACSAVanterior (1,0 ACSAVW)
donde ACSAVW es un factor de ponderaci
on controlado por el usuario.
g) SFGR. Factor de escala del gradiente. Conforme los c
alculos se llevan a cabo, el factor de escala de
los gradientes sucesivos disminuye. Una forma de detener el proceso de escalamiento es alcanzando un
factor de escala mnimo para el gradiente que ha sido proporcionado por el usuario.
s
1XX 2
SFGR =
g
n i s is
donde g es igual al gradiente actual.
h) STEP. Tama
no del paso. En la formula de tama
no del paso, las dos determinantes principales del
tama
no del paso siguiente, son el tama
no del paso inmediatamente anterior y el factor de angulo. Los
tama
nos de pasos utilizados no afectan la solucion final pero afectan el n
umero de iteraciones necesarias
para alcanzar una solucion.
STEPactual = STEPanterior f de angulo f de relajamiento f de buena suerte
donde
factor (f) de
angulo = 4,0COSAV
1,4
factor (f) de relajamiento =
AB
A = 1 + (mn(1, SRATAV))5
B = 1 + ACSAV |COSAV|
p
mn(1, SRAT)
factor (f) de buena suerte =

El tama
no del primer paso se calcula como sigue:
STEP = 50. Esfuerzo SFGR

370

Escalamiento multidimensional

48.5.

Esfuerzo para la configuraci


on final

Esta es una iteraci


on adicional utilizando el u
ltimo valor de la columna del esfuerzo del descriptivo secuencial
(ver 4.a arriba). El Esfuerzo es una medida de que tan bien la configuracion iguala los datos de entrada.
La interpretaci
on del esfuerzo para la configuracion final depende de la formula utilizada en los c
alculos.
Note que la utilizaci
on de esfuerzo SQDEV rinde valores de esfuerzo substancialmente mayores para el
mismo grado de bondad de ajuste.
Para la modalidad cl
asica de utilizar MDSCAL, Kruskal y Carmone proporcionan el cuadro a continuacion,
para un rango de valores de N (digamos de 10 a 30) y un rango de dimensi
on (digamos de 2 a 5):
Esfuerzo SQDIST
Pobre
Aceptable
Bueno
Excelente
Perfecto

48.6.

Esfuerzo SQDEV

20.0 %
10.0 %
5.0 %
2.5 %
0.0 %

40.0 %
20.0 %
10.0 %
5.0 %
0.0 %

Configuraci
on final

En cada iteraci
on la configuracion siguiente se forma comenzando a partir de la configuracion precedente y
desplazandose en direcci
on (negativa) del gradiente de esfuerzo, de una distancia igual al tama
no del paso.
STEP
(gradiente)
SFGR
Cada fila de la matriz de configuracion final proporciona las coordenadas de una variable de la configuracion.
La orientacion de los ejes de referencia es arbitraria y por ello uno debe buscar los ejes que hayan sido
girados o inclusive ejes oblicuos que sean interpretados de inmediato. Si una distancia Euclideana ordinaria
se utilizo, es posible girar la configuracion tal que sus ejes principales coincidan con los ejes cardinales. El
programa CONFIG puede ser utilizado para este prop
osito.
Nueva configuracion = configuracion precedente +

48.7.

Configuraci
on clasificada

Es la configuracion final presentada con cada dimensi


on clasificada - las coordenadas han sido nuevamente
ordenadas de peque
nas a grandes.

48.8.

Resumen

a) IPOINT, JPOINT. Estos son subndices de las variables, (i, j), indicando a que par de variables se
refieren las tres estadsticas a continuacion.
b) DATA. Para cada pareja de variables, es el ndice de igualdad o diferencia proporcionado por el usuario
en la matriz de datos de entrada.
c) DIST. Es la distancia entre puntos en la configuracion final.
Para la metrica - r de Minkowski,
dij =

"

X
s

|xis xjs |

#1/r

En caso que r = 2, esta se convierte en la distancia euclideana


s
X
(xis xjs )2
dij =
s

48.9 Nota sobre ataduras en los datos de entrada

371

En caso que r = 1 esta se convierte en la distancia de cuadra urbana (city block)


X
dij =
|xis xjs |
s

d) DHAT. D-hats son los n


umeros que minimizan el esfuerzo, sujeto a la restriccion que las d-hats tengan
el mismo rango de orden que los datos de entrada; son distancias adecuadas, estimadas a partir de
los datos de entrada.
Se obtienen a partir de:
XX
XX
dij y
dbij =
i

dbij dblm

si pij plm
o
pij plm

(similitudes)
(diferencias)

donde
dij
dbij

pij

48.9.

distancia en la configuracion entre las variables i y j

una transformaci
on monot
onica de las pij

el ndice de entrada de similitud o de diferencia entre las variables i y j.

Nota sobre ataduras en los datos de entrada

Las ataduras en los datos de entrada, es decir, los valores iguales en la matriz de datos de entrada, pueden
ser tratados de dos maneras, el usuario indicara su elecci
on.
El primer enfoque, DIFFER, trata las ataduras en la matriz de entrada como una relacion de orden indeterminado, que puede ser resuelta en forma arbitraria para disminuir la dimensi
on o el esfuerzo.
El segundo enfoque, EQUAL, trata las ataduras como una implicacion de una relacion de equi-valencia, que
(hasta donde es posible) es mantenida (inclusive si el esfuerzo es aumentado).
Si hay pocas ataduras, el enfoque seleccionado no tendra mucha diferencia.

48.10.

Nota sobre los pesos

El programa permite la ponderaci


on, pero no es una ponderaci
on en el sentido usual de IDAMS. La ponderacion MDSCAL puede ser utilizada para asignar una importancia diferente a los diferentes valores de los
datos, esto es, asignar pesos a celdas de la matriz de datos de entrada. Este tipo de ponderaci
on puede ser
utilizado, por ejemplo, para acomodar la variabilidad en la medida de los datos.
Si los pesos son utilizados,
vXX
u
u
wij (dij dbij )2
u
u i j
XX
Esfuerzo SQDIST = u
t
wij d2ij
i

vX X
u
u
wij (dij dbij )2
u
u i j
Esfuerzo SQDEV = u X X
t
wij (dij d )2
i

donde

d=

XX
i

wij dij

XX
i

wij

y wij designa el valor en la celda ij de la matriz de pesos.

372

48.11.

Escalamiento multidimensional

References

Kruskal, J.B., Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis, Psychometrica, 3, 1964.
Kruskal, J.B., Nonmetric multidimensional scaling: a numerical method, Psychometrica, 29, 1964.

Captulo 49

An
alisis de clasificaci
on m
ultiple
Notaci
on
y
w

=
=

valor de la variable dependiente


valor del peso

k
i

=
=

subndice para el caso


subndice para el predictor

subndice para categora dentro del predictor

p
c

=
=

n
umero de predictores
n
umero de categoras que no est
an vacas para todos los predictores

aij
Nij

=
=

desviaci
on ajustada de la j esima categora del predictor i (ver 2.c mas abajo)
n
umero de casos en la j esima categora del predictor i

N
W

=
=

n
umero total de casos
suma total de los pesos

el subndice ijk indica que el caso k corresponde a la j esima categora del predictor i.

49.1.

Estadsticas de la variable dependiente

a) Media. Media general de y.

y=

wk yk

b) Desviaci
on est
andar de y (estimada).
v
u
u
u
u
sby = t

N
N 1

!" W

c) Coeficiente de variaci
on.
Cy =

100 sby
y

d) Suma de y.

Suma de y =

X
k

wk yk

X
k

wk yk2

X

W2

wk yk

2

374

An
alisis de clasificaci
on m
ultiple

e) Suma de y cuadrada.
Suma de y 2 =

wk yk2

f ) Suma de cuadrados total.


TSS =

X
k

wk (yk y)2

g) Suma de cuadrados explicada.


ESS =

XX
i

aij

X

wijk yijk

h) Suma de cuadrados residual.


RSS = TSS ESS

49.2.

Estadsticas de los predictores para an


alisis de clasificaci
on
m
ultiple

a) Media de clase. Media de la variable dependiente para casos en la j esima categora del predictor i.

yij =

X
k

wijk yijk

wijk

b) Desviaci
on no ajustada de la media general.
aij no ajustada = y ij y
c) Coeficiente. Desviaci
on ajustada aij de la media general. Este es el coeficiente de regresion para cada
categora de cada predictor.
yk proyectado = y +

aijk

Los valores de aij son obtenidos por medio de un proceso iterativo que se detiene cuando
yk proyectado)2 alcanza el mnimo.

k (yk

d) Media ajustada de clase. Es una estimaci


on de lo que la media habra sido, si el grupo hubiera sido
exactamente igual a la poblacion total en su distribuci
on sobre toda clasificacion de los predictores. Si
no hubiera correlaci
on entre predictores, la media ajustada sera igual a la media de la clase.
yij ajustada = y + aij
e) Desviaci
on est
andar (estimada) de la variable dependiente para la j esima categora del predictor
i.
v
uX
X
2 X
u
2
wijk yijk

wijk yijk /
wijk
u
u
k
k
k
u
X

sbij = u
X
t
wijk
wijk / Nij
k

49.2 Estadsticas de los predictores para an


alisis de clasificaci
on m
ultiple

375

f ) Coeficiente de variaci
on (C.var.).
Cij =

100 sbij
y ij

g) Desviaci
on de la SS (Sum of Squares) no ajustada. Es la suma de cuadrados de las desviaciones
no ajustadas para el predictor i.
Ui =

X X
j

wijk

yij y

2

donde y ij es igual a la media de y para la j esima categora del predictor i.


h) Desviaci
on ajustada de la SS. Esta es la suma de cuadrados de las desviaciones ajustadas para el
predictor i.
Di =

X X
j

wijk

a2ij

i) Eta cuadrada para el predictor i. Eta cuadrada puede interpretarse como el porcentaje de la
variancia en la variable dependiente que puede ser explicada solamente por el predictor i.
i2 =

Ui
TSS

j) Eta para el predictor i. Indica la habilidad del predictor, utilizando las categoras dadas, para
explicar la variaci
on en la variable dependiente.
q
i = i2
k) Eta cuadrada para el predictor i, ajustada para los grados de libertad.
i2 ajustada = 1 A (1 i2 )
donde A es el ajuste para los grados de libertad (ver 3.b mas abajo).
l) Eta para el predictor i, ajustada.
i ajustada =

q
1 A (1 i2 )

m) Beta cuadrada para el predictor i. Beta cuadrada es la suma de cuadrados atribuida al predictor,
despues de haber mantenido otros predictores constantes, relativa al total de la suma de cuadrados.
Esta expresion no est
a descrita en terminos de porcentaje de la variancia explicada.
i2 =

Di
TSS

n) Beta para el predictor i. Beta proporciona una medida de la habilidad del predictor para explicar
la variaci
on en la variable dependiente despues de haber la ajustado para la influencia de todos los
dem
as predictores. Los coeficientes Beta indican la importancia relativa de los predictores (entre mas
alto sea el valor, mayor sera la variacion explicada por la beta correspondiente).
i =

q
i2

376

An
alisis de clasificaci
on m
ultiple

49.3.

Estadsticas del an
alisis para an
alisis de clasificaci
on m
ultiple

a) R cuadrada m
ultiple no ajustada. Este es el coeficiente de correlaci
on m
ultiple al cuadrado. Indica
la proporcion actual de la variancia explicada por los predictores usados en el analisis.
R2 =

ESS
TSS

b) Ajuste por grados de libertad.


N 1
N pc1

A=

c) R cuadrada m
ultiple ajustada. Proporciona una estimaci
on de la correlaci
on m
ultiple en la poblacion,
a partir de la cual una muestra fue extrada. Note que es una estimaci
on de la correlaci
on m
ultiple
que sera obtenida si los mismos predictores, pero no necesariamente los mismos coeficientes, fueran
utilizados para la poblacion.
R2 ajustada = 1 A (1 R2 )
d) R m
ultiple ajustada. Este es el coeficiente de correlaci
on m
ultiple ajustado para los grados de
libertad. Es una estimaci
on de la R que sera obtenida si los mismos predictores fueran aplicados a la
poblacion.
p
R ajustada = 1 A (1 R2 )

49.4.

Estadsticas de resumen de residuos

El residuo para un caso k es rk = yk yk proyectado.


a) Media.

r=

wk rk

b) Variancia (estimada).

sb2r

N
N 1

!" W

X
k

wk rk2

X

W2

wk rk

2

c) Asimetra. La asimetra de una distribuci


on de residuos est
a medida por
!
!
m3
N
p
g1 =
2
N 2
sbr sb2r
donde

m3 =

X
k

wk (rk r)3
W

d) Kurtosis. La kurtosis de la distribuci


on de residuos est
a medida por
!
!
N
m4
g2 =
3
N 3
(b
s2r )2
donde

m4 =

X
k

wk (rk r)4
W

49.5 Estadsticas de categora de los predictores, para an


alisis de variancia de una entrada377

49.5.

Estadsticas de categora de los predictores, para an


alisis de
variancia de una entrada

Para detalles, ver el captulo An


alisis de variancia de una entrada.

49.6.

Estadsticas del an
alisis, para an
alisis de variancia de una
entrada

Para detalles, ver el captulo An


alisis de variancia de una entrada.
Tenga en cuenta que el factor de ajuste A usado en MCA para el analisis de variancia de una entrada se
calcula de manera diferente que en el programa ONEWAY, o sea:
A=

49.7.

N 1
N c

Referencias

Andrews, F.M., Morgan, J.N., Sonquist, J.A., and Klem, L., Multiple Classification Analysis, 2nd ed., Institute for Social Research, The University of Michigan, Ann Arbor, 1973.

Captulo 50

An
alisis multivariado de variancia
Notaci
on
y
i, j

= valor de la variable dependiente o covariada


= subndices para categoras de predictores

k
p

= subndice para el caso


= n
umero de variables independientes

dfh
dfe

= grados de libertad para la hipotesis


= grados de libertad para el error.

50.1.

Estadsticas generales

a) Medias de celda. Sea yijk la representacion del valor de una variable dependiente o covariada para
el caso k en la subclase i, j de una clasificacion de dos entradas.

y ij =

Nij
X

yijk

k=1

Nij

donde Nij es igual al n


umero de casos en la clase i, j.
b) Base del dise
no. La matriz de dise
no se genera primero para cada factor de una matriz de dise
no de
una entrada (una matriz Kf ) de acuerdo con el tipo de contraste especificado por el usuario para ese
factor. La matriz general de dise
no K se obtiene a partir de las matrices de una entrada Kf tomando
el producto de Kronecker de las matrices.
La matriz de dise
no siempre se imprime con las ecuaciones de efectos en las columnas, comenzando
con la matriz de efecto de la gran media en la primera columna.
c) Intercorrelaciones entre los coeficientes de las ecuaciones normales. La base del dise
no se
pondera con los conteos de celda. El efecto de frecuencias desiguales es introducir correlaciones entre
las columnas de la matriz de dise
no. Estas son esas correlaciones. Si las frecuencias de celda son iguales,
habr
a unos (1) en la diagonal y ceros en el resto.
d) Soluci
on de las ecuaciones normales. Los par
ametros se estiman con mnimos cuadrados en la
forma
LX = (K 0 DK)1 K 0 DY
donde
L

= la matriz de contraste que tiene como fila i los contrastes independientes


en los par
ametros a ser estimados y probados

380

An
alisis multivariado de variancia
X

par
ametros a ser estimados

K
D

=
=

la matriz de dise
no
una matriz diagonal con el n
umero de casos en cada celda

una matriz de medias de celda con columnas correspondientes a las variables.

Cuando se trata de un dise


no ortogonal y de constrastes ortogonales, los contrastes tienen estimativos
independientes. Para frecuencias desiguales de celda, sin embargo, la K apropiado para dise
nos ortogonales ya no es ortogonal. Se requiere transformar K a la ortogonalidad en la metrica D. Esto se hace
poniendo
T = SK 0 D1/2

con T T 0 = T 0 T = I = SK 0 DKS 0

asi
K 0 D1/2 = S 1 T
y
(K 0 DK)1 = S 0 S
y sustituyendo en la primera ecuaci
on de arriba,
(S 0 )1 LX = SK 0 DY
Esta u
ltima ecuaci
on define un conjunto nuevo de par
ametros que son funciones lineales de los contrastes, con la matriz SK 0 reemplazando K 0 . Estos par
ametros son ortogonales.
S es la matriz producida con la ortogonalizaci
on de Gram-Schmidt de K en la metrica D y reduce las
filas de esta a longitud unitaria. S, y as (S 0 )1 , es triangular.
e) Partici
on de matrices. En un analisis univariado de variancia, cada caso tiene una variable independiente y; en analisis multivariado de variancia, cada caso tiene un vector y de variables dependientes.
El analogo multivariado de y 2 es el producto de matrices y 0 y y el analogo multivariado de una suma
de cuadrados es una suma de productos de matrices.
En un analisis multivariado, hay una matriz que corresponde a cada suma de cuadrados de un dise
no
univariado. Las pruebas multivariadas dependen de particiones de la suma total de productos de
matrices, as como las pruebas univariadas dependen de particiones de la suma total de cuadrados. Las
formulas para la suma total de productos, la suma de productos entre subclases y la suma de productos
dentro (intra) de subclases son
St = Y 0 Y
Sb = Y.0 DY.
Sw = Y 0 Y Y.0 DY.
donde
Y

= la matriz N p de datos primeros (N casos, p variables dependientes)

Y. = la matriz n p de medias de celda (n celdas, p variables dependientes)


D = una matriz diagonal con el n
umero de casos en cada celda.
La suma de productos entre subclases se particiona a
un mas de acuerdo con los efectos sobre el modelo.
f ) Matriz de correlaci
on de errores. En un analisis multivariado de variancia, el termino del error
es una matriz variancia-covariancia. Este es ese termino de error reducido a una matriz de correlaci
on.
La matriz de correlaci
on se calcula usando Sw , la suma de productos internos o error interno.
1
Re = s1
e S w se

50.2 C
alculos para una prueba en un an
alisis multivariado

381

donde

Sw
s2e

=
=

la suma de productos dentro de subclases


las entradas diagonales de Sw .

Re es la matriz de coeficientes de correlaci


on entre las variadas que estiman los valores de poblacion.
Si el usuario ha especificado que la suma de cuadrados dentro de subclases se aument
o para formar el
termino de error, el aumento tiene lugar antes de reducir la matriz a correlaciones.
g) Componentes principales de la matriz de correlaci
on de errores. Este es un analisis est
andar
de componentes principales de la matriz Re . Indica la estructura de factores de variables, encontrada
en la poblacion bajo estudio. Los valores propios (o races) se imprimen debajo de las componentes.
h) Matriz de dispersi
on de errores. Es el termino de error, una matriz variancia-covariancia para el
analisis. La matriz se ajusta para covariadas, si las hay. Cada elemento de la diagonal de la matriz es
exactamente el que aparecera en una tabla de analisis convencional de variancia como el error interno
cuadratico medio de la variable.
Me =

Sw
dfe

donde
Sw

la suma de productos dentro de subclases

dfe

los grados de libertad del error, ajustados para aumento si eso se solicito.

Si no hay aumento, los grados de libertad del error son iguales al n


umero de casos menos el n
umero
de celdas en el dise
no.
i) Errores est
andar de estimaci
on. Corresponden a las races cuadradas de los elementos de la
diagonal de la matriz Me .

50.2.

C
alculos para una prueba en un an
alisis multivariado

Se repiten los c
alculos para cada prueba solicitada por el usuario. No se imprimen los resultados de los
c
alculos internos descritos mas adelante bajo los puntos a) hasta d).
a) Matriz de suma de cuadrados debida a la hip
otesis. La suma de cuadrados entre subclases
se divide de acuerdo con los varios efectos del modelo. Para probar una hipotesis dada, el programa
determina los estimativos ortogonales a probar y calcula la suma de cuadrados debidos a la hipotesis
(Sh ).
b) Sw e Sh reducidas a cuadrados medios y escaladas al espacio de correlaci
on. La matriz de
cuadrados medios para la hip
otesis, Mh , se calcula analogamente a los cuadrados medios para el error.
Mh =

Sh
dfh

donde
Sh

la matriz de suma de cuadrados debida a la hipotesis (ver atr


as).

Los grados de libertad para la hip


otesis dependen de la prueba solitada; para una prueba de efecto
principal A, donde el factor A tiene a niveles, los grados de libertad para la hipotesis deberan ser
a 1.

382

An
alisis multivariado de variancia
Mh es una matriz de los productos medios de las entre-subclases asociada con el efecto principal o la
hipotesis de interacci
on.
Ambas Me y Mh est
an escaladas al espacio de correlaci
on:
1
Re = 1
e Me e
1
Ch = 1
e Mh e

donde
Re

la matriz de coeficientes de correlaci


on entre las variables
que estiman valores de poblacion

Ch

una matriz, la cual, aunque no es de correlaci


on, presenta las variancias
y covariancias para las variables como han sido afectadas por el tratamiento

Me
Mh

=
=

cuadrados medios para el error


cuadrados medios para la hipotesis

una matriz diagonal que contiene los errores est


andar de estimaci
on.

La matriz Re se calcula dos veces, una vez como se describio en la secci


on Matriz de correlaci
on de
errores y otra como se describio aqu. Si no se han especificado covariadas, los resultados son identicos
y no se imprime la matriz Re . Si se han especificado una o mas covariadas, la segunda matriz Re
incorpora ajustes para covariadas.
c) Soluci
on de la ecuaci
on de determinante. El metodo usual de c
alculo del criterio de la raz
on de
similitud de Wilk es de la ecuaci
on de determinante
|Mh Me | = 0
La ecuaci
on anterior se ha pre- e post-multiplicado por la matriz diagonal 1
e
1
|1
e Mh e Re | = 0

Sea
Re = F F 0
donde
F

= la matriz de coeficientes de componentes principales que satisface


F 0 F = , la matriz diagonal de valores propios de Re .

La segunda ecuaci
on de detrimento se pre-multiplica por F 1 y se post-multiplica por su transpuesta
para dar
|(e F )1 Mh ((e F )1 )0 F 1 (F F 0 )(F 1 )0 | = 0
o
|(e F )1 Mh ((e F )1 )0 I| = 0
La u
ltima ecuaci
on se resuelve para los valores .
d) Criterio de raz
on de similitud.
=

1
s 
Y
dfh
q
1+
dfe
q=1

donde
q

= valores que no son cero en la u


ltima ecuaci
on de la secci
on previa.

50.2 C
alculos para una prueba en un an
alisis multivariado

383

e) Cociente F para el crieterio de raz


on de similitud. El programa usa la aproximacion F a los
puntos de porcentaje de la distribuci
on nula de .
F =

k(2dfe + dfh p 1) p(dfh ) + 2


1 1/k

1/k
2p(dfh )

donde
k=

p2 (dfh )2 4
p2 + (dfh )2 5

Esta es una prueba multivariada de significancia del efecto para todas las variables dependientes simultaneamente.
f ) Grados de libertad para el cociente F.
p(dfh )
y
k(2dfe + dfh p 1) p(dfh ) + 2
2
Si p = 1 o 2 y dfh = 1 o 2, k se pone a 1 en casos cuando p(dfh ) = 2.
g) Variancias can
onicas de las componentes principales de la hip
otesis. Estas son las lambdas
calculadas como se describio en la secci
on Solucion de la ecuaci
on de determinante atr
as. Se ordenan
por magnitud descendente. El n
umero de lambdas diferentes de cero para una ecuaci
on dada es igual
a dfh (el n
umero de grados de libertad asociado con Mh ), o p, el n
umero de variables dependientes, el
que sea menor.
h) Coeficientes de las componentes principales de la hip
otesis. La resolucion de la ecuaci
on
|(e F )1 Mh ((e F )1 )0 I| = 0
produce T , para lo cual
1
1 0
F 1 1
) = T T0
e Mh e (F

Se puede escribir como


1 0
0
1
)T =
T 0 F 1 1
e Xh Xh e (F

La ecuaci
on anterior se considera como

T 0 F 1 1
e X h = Sh

donde
Sh (Sh )0 =
y escrita en la forma habitual de la ecuaci
on de factor, X = F S, es

1
e X h = F T Sh

El programa imprime los coeficientes F T de las componentes principales de la hipotesis.


i) Puntaje de las componentes de contraste para efectos estimados. Las filas de Sh son los
conjuntos de puntajes de factor atribuibles a las hipotesis que tienen como variancias maximas las i .

384

An
alisis multivariado de variancia

j) Pruebas acumulativas de Bartlett en las races. Las pruebas se pueden usar para determinar
la dimensionalidad de la configuracion. Las lambdas o las races se ordenan ascendentemente seg
un
la magnitud. En las pruebas de Bartlett, se prueban primero todas las races. Despues todas menos
la primera, despues todas menos las dos primeras, y as sucesivamente. La prueba de Ji cuadrada
suministra una prueba de significancia de la variancia para las races n k despues de aceptar las
primeras k races.
Primero se escalan las lambdas
i normada =

dfh
i
dfe

y luego se calcula Ji cuadrada


2k+1



dfh + p + 1
= dfe + dfh
2

s
X

ln(i normada + 1)

i=k+1

donde
k
s

= n
umero de races aceptadas (k = 0, 1, ..., s 1)

= n
umero de races.

El n
umero de grados de libertad es
DF = (p k)(g k 1)
donde g es igual al n
umero de niveles de la hipotesis.
1
k) Cocientes F para pruebas univariadas. Son los elementos de la diagonal de 1
e Mh e . El
cociente F para la variable y es exactamente el cociente F que se obtendra para el efecto dado si se
hubiera hecho un analisis univariado con la variable y como la u
nica variable dependiente.

50.3.

An
alisis univariado

Si se ha especificado una sola variable dependiente, tambien se hacen los c


alculos como se han descrito atr
as.
Sin embargo, se toma ventaje de la simplificaci
onn, es decir, la componente principal de la matriz de
correlaci
on de errores se hace igual a uno y no se hace ning
un c
alculo.
El resultado de un analisis univariado de variancia es una tabla convencional de ANOVA con peque
nas
diferencias. Tiene una fila para la gran media pero no tiene una fila para el total. Generalmente, la gran
media no es interpretable. Para obtener la suma total de cuadrados, suma todas las sumas de cuadrados
excepto la suma de la gran media.

50.4.

An
alisis de covariancia

Par la mayor parte, las f


ormulas descritas no tienen en cuenta las covariadas. Si se han especificado una o
mas covariadas, es la suma de productos de las matrices, Se e Sh que se han ajustado. Si hay q covariadas,
el programa comienza llev
andolas con p variables dependientes. Hay una matriz (p q) (p q) de suma de
productos del error, Se , y una matriz (p q) (p q) Sh para cada hipotesis. Se calcula la matriz total St . Se
y Sh se parten en secciones correspondientes a las variables dependientes y covariadas. Se obtienen matrices
totales y de errores reducidas (p p) y luego se obtiene, por resta, una matriz reducida para hip
otesis.
Se calculan las matrices de correlaci
on de errores y sus componentes principales despues del ajuste a Se para
covariadas.

Captulo 51

An
alisis de variancia de una entrada
Notaci
on
y
w

= valor de la variable dependiente


= valor del peso

k
i

= subndice para el caso


= subndice para la categora en la variable de control

Ni
Wi

= n
umero de casos en la categora i
= suma de los pesos para la categora i

= n
umero total de casos

W
c

= suma total de los pesos


= n
umero de categoras de c
odigo de la variable de control
con grados de libertad que no son cero.

51.1.

Estadsticas descriptivas para cada categora de la variable


de control

a) Media.

yi =

wik yik

Wi

b) Desviaci
on est
andar (estimada).
v
u
u
u
u
sbi = t

Ni
Ni 1

!" Wi

X
k

2
wik yik

c) Coeficiente de variaci
on (C.var.).
Ci =

100 sbi
yi

d) Suma de y.
Suma yi =

X
k

wik yik

Wi2

X
k

wik yik

2

386

An
alisis de variancia de una entrada

e) Porcentaje.
Suma yi
Porcentajei = X
Suma yi
i

f ) Suma de y cuadrada.
X

Suma yi2 =

2
wik yik

g) Total. El rengl
on de totales da las estadsticas a) a e) arriba calculadas para todos los casos, excepto
aquellas categoras codificadas con cero grados de libertad.
h) Grados de libertad para la categora i.
gli = Wi (Ni 1) / Ni
Categoras con cero grados de libertad no est
an incluidas en los c
alculos de las estadsticas de resumen.

51.2.

Estadsticas del an
alisis de variancia

a) Suma de cuadrados total.

TSS =

XX
i

2
wik yik

X X
i

wik yik

2

b) Suma de cuadrados entre medias. Esta es llamada a veces la suma de cuadrados entre grupos.

BSS =

X
i

"

X
k

wik yik

wik

2

X X
i

wik yik

2

c) Suma de cuadrados dentro de grupos.


WSS = TSS BSS
d) Eta cuadrada (Etasq). Esta medida puede ser interpretada como el porcentaje de variancia en
la variable dependiente que puede ser explicada por la variable de control. Vara de cero a uno.
2 =

BSS
TSS

e) Eta. Es una medida de intensidad de la asociaci


on entre la variable dependiente y la variable de control.
Vara de cero a uno.
r
BSS
=
TSS
f ) Eta cuadrada ajustada. Eta cuadrada ajustada para los grados de libertad.
2 ajustada = 1 A (1 2 )
con el factor de ajuste
A=

W 1
W c

51.2 Estadsticas del an


alisis de variancia

387

g) Eta ajustada.
ajustada =

p
2 ajustada

h) Valor de F. El cociente F puede ser referido a la distribuci


on F con c1 y N c grados de libertad. Un
cociente F significativo quiere decir que existen diferencias entre las medias, o probablemente efectos
entre los grupos.
F =

BSS/(c 1)
WSS/(N c)

El cociente F no se calcula si una variable de peso fue especificada.

Captulo 52

Puntajes basados en el orden parcial


de casos
52.1.

Terminologa especial y definiciones

Sea un conjunto de elementos denotado por V = {a, b, c, . . . , } y una relacion binaria definida en V denotada
por R.
a) Relaci
on binaria. Una relaci
on binaria R en V es tal que para cualesquiera dos elementos a, b V
aRb
Para una relaci
on R en V existe una relacion conversa R+ en V tal que
bR+ a
b) Relaci
on reflexiva y antirreflexiva. Una relacion R es reflexiva cuando
aRa

para todo a V

y R es antirreflexiva cuando
no(aRa)

para todo a V

c) Relaci
on sim
etrica y antisim
etrica. Una relacion R es simetrica cuando R = R+ , esto es cuando
aRb bRa

para todo a, b V

y R es antisimetrica cuando no es simetrica para todo a 6= b.


d) Relaci
on transitiva. Una relaci
on R es transitiva cuando
aRb bRc = aRc

para todos a, b, c V

e) Relaci
on de equivalencia. Una relacion R definida en un conjunto de elementos V es una relacion
de equivalencia cuando es:
reflexiva,
simetrica, y
transitiva.
Note que la relaci
on com
unmente utilizada de igualdad, (=), definida en el conjunto de los n
umeros
reales es una relaci
on de equivalencia.

390

Puntajes basados en el orden parcial de casos

f ) Relaci
on de orden parcial estricto. Una relacion R es un orden parcial estricto cuando satisface
las condiciones:
aRb y bRa no pueden ser satisfechas simult
aneamente, y
R es transitiva.
Una relacion de orden parcial estricto sera notada de ahora en adelante por .
g) Conjunto parcialmente ordenado. Un conjunto V es un conjunto parcialmente ordenado si una
relacion de orden parcial estricta es definida en el. Las propiedades fundamentales de un conjunto
parcialmente ordenado son:
a b b c = a c

para todos a, b, c V

a b y b a no pueden ser satisfechas simult


aneamente.
h) Conjunto ordenado. Un conjunto V es un conjunto ordenado si hay dos relaciones y
definidas en el y que satisfacen los axiomas de orden:
para dos elementos cualquiera a, b V, una y solo una de las relaciones a b, a b, b a es
satisfecha,
es una relaci
on de equivalencia, y
es una relaci
on transitiva.
En otras palabras, un conjunto ordenado es un conjunto parcialmente ordenado ademas de la relacion
de equivalencia definida en el, y donde las condiciones ni a b ni b a y a b son equivalentes.
i) Subconjunto de elementos que dominan a un elemento a.
n
o
G(a) = g | g V; a g

j) Subconjunto de elementos dominados por un elemento a.


n
o
L(a) = l | l V; l a

k) Subconjunto de elementos comparables.


C(a) = G(a) L(a)
Note que G(a) L(a) = .

l) Dominaci
on estricta. Un elemento b domina estrictamente un elemento a si
ab

no(b a)

Tambien se puede decir que b es estrictamente mejor que a, o que a es estrictamente peor que b.

52.2.

C
alculo de puntajes

Sea la lista de variables para ser utilizadas en el analisis notada por


{x1 , x2 , . . . , xi , . . . , xv }
y una lista de prioridades asociada a ella por
{p1 , p2 , . . . , pi , . . . , pv }.
n de orden parcial construida en la base de esta colecci
Una relacio
on de variables,
a b para cualquiera de los casos a y b
es equivalente a la condicion
x1 (a) x1 (b), x2 (a) x2 (b), . . . , xv (a) xv (b)

52.3 Referencias

391

donde xi (a) y xi (b) indican el valor de la iesima variable para los casos a y b respectivamente.
Cuando se comparan dos casos, las variables cuya prioridad es la mas elevada (valor de LEVEL mas bajo)
se consideran primero. Si estas determinan la relacion de forma inequvoca el procedimiento de comparaci
on
termina. En caso de igualdad, la comparaci
on contin
ua utilizando variables del nivel de prioridad siguiente.
Este procedimiento se repite hasta que la relacion se determina en uno de los niveles de prioridad, o hasta
el final de la lista de variables.
Para cada caso a del conjunto analizado, el programa calcula:
N (a) =

n
umero de casos que dominan estrictamente al caso a

N (a) =
N (a) =

n
umero de casos equivalentes al caso a
n
umero de casos estrictamente dominados por el caso a

y despues uno (o dos) de los puntajes a continuacion:


s1 (a) = S

N (a)
N (a) + N (a) + N (a)

r1 (a) = S s1 (a)
s2 (a) = S

N (a) + N (a)
N (a) + N (a) + N (a)

r2 (a) = S s2 (a)
s3 (a) = S

N (a)
N

r3 (a) = S

N (a) + N (a)
N

s4 (a) = S

N (a) + N (a)
N

r4 (a) = S

N (a)
N

donde
N

= n
umero de casos en el conjunto analizado

= valor del factor de escala (ver el par


ametro SCALE).

El par
ametro ORDER selecciona los puntaje(s) como sigue:
ASEA

: r3 (a)

DEEA : s4 (a)
ASCA : r4 (a)
DESA
ASER

: s3 (a)
: s1 (a), r1 (a)

DESR
ASCR

: s1 (a), r1 (a)
: s2 (a), r2 (a)

DEER : s2 (a), r2 (a).

52.3.

Referencias

Debreu, G., Representation of a preference ordering by a numerical function, Decision Process, eds. R.M.
Thrall, C.A. Coombs and R.L. Davis, New York, 1954.
Hunya, P., A Ranking Procedure Based on Partially Ordered Sets, Internal paper, JATE, Szeged, 1976.

Captulo 53

Correlaci
on de Pearson
Notaci
on
x, y
w

= valores de variables
= valor del peso

k
N

= subndice para el caso


= n
umero de casos validos en x y y

= suma total de los pesos.

53.1.

Estadsticas pareadas

Est
an calculadas para las variables, tomadas por parejas (x, y) en el subconjunto de casos que tengan datos
validos en x y y.
a) Suma ponderada ajustada. El n
umero de casos, ponderados, con datos validos en x y y.
b) Media de x.
X
x=

wk xk

Nota: la f
ormula para la media de y es semejante.
c) Desviaci
on est
andar de x (estimada).
v
X
2
u
X
u
!" W
wk x2k
wk xk #
u
u
N
k
k
sbx = t
N 1
W2

Nota: la f
ormula para la desviaci
on est
andar de y es semejante.

d) Coeficiente de correlaci
on. Momento producto r de Pearson.
X
X

X
W
wk xk yk
wk xk
wk yk

k
k
k
rxy = v"
#"
#
u


X
2
X
X
X
u
2
2
2
t W
wk xk
W
wk yk
wk xk
wk yk
k

e) Prueba t. Esta estadstica se utiliza para probar la hipotesis que el coeficiente de correlaci
on de la
poblacion es cero.

r N 2
t=
1 r2

394

Correlaci
on de Pearson

53.2.

Medias y desviaciones est


andar no pareadas

Est
an calculadas variable por variable para todas las variables includas en el analisis, utilizando las formulas
dadas en 1.a, 1.b y 1.c respectivamente, la diferencia en los resultados se debe en particular a la diferencia
de casos validos.
a) Suma ponderada ajustada. El n
umero de casos, ponderado, con datos validos para x.
b) Media de x. Media de la variable x para todos los casos que tengan datos validos para x.
c) Desviaci
on est
andar de x (estimada). La desviacion est
andar de la variable x para todos los casos
que tengan datos validos para x.

53.3.

Ecuaci
on de regresi
on para puntajes primarios

Calculada para todos los casos validos para la pareja (x, y).
a) Coeficiente de regresi
on. Es el coeficiente no estandarizado de la regresion de y (variable dependiente) sobre x (variable independiente).
 
sby
Byx = rxy
sbx

b) T
ermino constante.
A = y Byx x;

53.4.

ecuaci
on de regresion: y = Byx x + A

Matriz de correlaci
on

Los elementos de esta matriz est


an calculados con base en la formula dada en 1.d arriba. Tenga en cuenta
que las desviaciones est
andar que salen en la matriz de correlaci
on, se calculan de acuerdo con la formula
dada en 1.c atr
as (desviaciones est
andar estimadas).

53.5.

Matriz de productos cruzados

Es una matriz cuadrada con los elementos siguientes:


X
CPxy =
wk xk yk
k

53.6.

Matriz de covariancia

Es la matriz que contiene los elementos a continuacion:


COVxy = rxy sx sy
donde

sx =

v


u
u W X w x2 X w x 2
u
k k
k k
t
k
k
W2

y sy se calcula de acuerdo con la f


ormula analoga.
N
otese que la matriz de covariancia que produce PEARSON en un archivo no tiene elementos de la diagonal.
Para permitir su c
alculo, las desviaciones est
andar que produce esta matriz se calculan de acuerdo con la
f
ormula anterior (desviaciones est
andar no estimadas).

Captulo 54

Ordenamiento de alternativas
Notaci
on
i, j, l
m

54.1.

=
=

subndices para alternativas


n
umero de alternativas

k
n

= ndice para el caso


= n
umero de casos

valor del peso.

Manejo de los datos de entrada

Sea un conjunto de alternativas, A = {a1 , a2 , . . . , ai , . . . , am } y el conjunto de fuentes de informacion


(llamados de ahora en adelante evaluaciones) notado por E = {e1 , e2 , . . . , ek , . . . , en }.
En la practica, los datos que proporcionan la informacion primaria sobre las relaciones preferenciales, pueden
presentarse de varias formas. El programa acepta, sin embargo, dos tipos b
asicos de datos: datos que representan una selecci
on de alternativas y datos que representan una ordenaci
on de alternativas. Todo otro tipo
de datos deber
an ser transformados por el usuario antes de la ejecuci
on del programa RANK.
a) Datos que representan una selecci
on de alternativas. En este caso las evaluaciones representan
la selecci
on de las alternativas preferidas y opcionalmente su orden de preferencia. En otras palabras,
todas las evaluaciones ek seleccionan un subconjunto Ak de A y opcionalmente ordenan sus elementos.
Por esta raz
on, Ak es un subconjunto de alternativas (ordenado, o desordenado), y las Ak constituyen
el dato individual primario:
o
n
Ak = aki1 , aki2 , . . . , akipk
donde
p

n
umero maximo de alternativas que podan ser seleccionadas en una evaluacion

pk

n
umero de alternativas actualmente seleccionadas en la evaluacion ek
y pk p < m .

b) Datos que representan una ordenaci


on de alternativas por rangos. Las evaluaciones representan la ordenaci
on de alternativas en todo el conjunto A as como la atribuci
on a cada una de ellas
de su n
umero de rango. Formalmente, todas las evaluaciones ek dan un n
umero de rango k (ai ) = ki
para todas las alternativas. En este caso, los datos est
an proporcionados en la forma siguiente:
Pk = {k (a1 ), k (a2 ), . . . , k (am )}

396

Ordenamiento de alternativas
Note que una alternativa aki1 es estrictamente preferida a o domina estrictamente a otra alternativa
aki2 de acuerdo con los datos que provienen de la evaluacion ek , si la primera tiene un rango superior
a la segunda. Igualmente, una alternativa aki1 es preferida a o domina otra alternativa aki2 de
acuerdo con los datos que provienen de la evaluacion ek , si el rango de aki1 es al menos tan elevado
como el rango de aki2 . El valor 1 es considerado como el rango mas elevado.

Solamente los datos descritos en el p


arrafo b) est
an dados en una forma que no requieren procesamiento
adicional. Los datos que figuran en p
arrafo a) son transformados a la forma de los del p
arrafo b). Esta
transformaci
on hace una diferencia entre una preferencia estricta y una preferencia debil.
Cuando se trata de datos representando una selecci
on de alternativas completamente ordenadas (preferencia
n, es la siguiente:
estricta), la regla de transformacio
para ai Ak

k (ai1 ) = 1, k (ai2 ) = 2, . . . , k (aipk ) = pk


pk + 1 + m
k (ai ) =
2

para ai 6 Ak

Cuando se trata de datos que representan una selecci


on desordenada de alternativas (preferencia debil), se
supone que todas las alternativas seleccionadas se encuentran al mismo nivel de preferencia. De acuerdo con
esta suposicion, la regla de transformaci
on es:
pk + 1
2
pk + 1 + m
k (ai ) =
2

para ai Ak

k (ai ) =

para ai 6 Ak

Como resultado de las trasformaciones definidas arriba, los datos de preferencia, (o prioridad en la selecci
on)
toman para los pasos subsiguientes del analisis, la forma:

11 12 1i 1m
21 22 2i 2m

..
..
..
..
.

.
.
.

P(n,m) =
k1 k2 ki km

.
..
..
..
..
.
.
.
n1 n2 ni nm

54.2.

M
etodo basado en la l
ogica cl
asica

En este metodo, la matriz P se utiliza como si sus elementos fueran los datos iniciales del analisis. En lo que
se refiere al car
acter estricto o debil de la relacion de preferencia, debe notarse que la relacion de preferencia
juega un papel solamente en los pasos que nos llevan a la matriz P. En los pasos subsiguientes del analisis, el
procedimiento est
a controlado por otros par
ametros, tales como la diferencia de rangos para la concordancia
y la diferencia de rangos para la discordancia (ver abajo).
El procedimiento de ordenamiento basado en la logica clasica, consiste de dos pasos mayores, a saber: a)
construcci
on de relaciones, y b) identificaci
on de n
ucleos.
a) Construcci
on de relaciones. En este paso, dos relaciones de trabajo (la relacion de concordancia
y la relacion de discordancia) se construyen en primer lugar. Despues, son utilizadas para construir
una relacion final de dominacion.
i) Las relaciones de concordancia y de discordancia se construyen a partir de la matriz
P(n,m) , y las reglas aplicadas en este proceso son esencialmente iguales para ambas relaciones.
n de concordancia. Se utilizan dos par
Relacio
ametros para crear una relacion que refleje la
concordancia de la opini
on colectiva que ai es preferida a aj :
dc

pc

la diferencia de rangos para la concordancia (0 dc m 1)


la proporci
on mnima de concordancia (0 pc < 1).

54.2 M
etodo basado en la l
ogica cl
asica

397

La diferencia de rangos para concordancia, permite al usuario influir en la evaluacion de datos


cuando construye las matrices de preferencias individuales
h
i
RCk (dc ) = rckij (dc )
donde i, j = 1, 2, . . . , m.

Los elementos de RCk (dc ), miden la dominacion de ai sobre aj de acuerdo con la evaluacion k, y
son definidos como sigue:

1 si kj ki dc
rckij (dc ) =
0 de otra forma.
La suma de estas matrices mide la dominacion promedio de ai sobre aj y toma la forma de una
relaci
on difusa descrita por la matriz
h
i
RC(dc ) = rcij (dc )
donde

rcij (dc ) =

X
k

wk rckij (dc )
X

wk

Note que mayores valores de dc nos llevan a reglas de construcci


on mas rigurosas, ya que d1c < d2c
implica
rckij (d1c ) rckij (d2c )

rcij (d1c ) rcij (d2c )

Una proporci
on mnima de concordancia hace posible la transformaci
on de una relacion difusa
RC(dc ) en una relaci
on no-difusa, llamada relacion de concordancia, descrita por la matriz
h
i
RC(dc , pc ) = rcij (dc , pc )

los elementos de la cual est


an definidos como sigue:

1 si rcij (dc ) pc
rcij (dc , pc ) =
0 de otra forma.

La condicion rcij (dc , pc ) = 1 significa que la opinion colectiva est


a de acuerdo con la expresion
ai es preferida a aj al nivel (dc , pc ).
Nuevamente, es claro que al incrementar el valor de pc uno obtiene condiciones mas estrictas de
concordancia.
n de discordancia. La construcci
Relacio
on de la relacion de discordancia sigue el mismo
camino que el que fue explicado para la concordancia. Los dos par
ametros que controlan su
construcci
on son:
dd

pd

la diferencia de rangos para la discordancia (0 dd m 1)


la proporci
on maxima de discordancia (0 pd 1).

Las relaciones individuales de discordancia se determinan primero en las matrices


h
i
RDk (dd ) = rdkij (dd )
donde i, j = 1, 2, . . . , m.

Los elementos de RDk (dd ), que miden la dominacion de aj sobre ai de acuerdo a la evaluacion k,
se definen como sigue:

1 si ki kj dd
rdkij (dd ) =
0 de otra forma.
La suma de estas matrices mide la dominacion promedio de aj sobre ai y tiene la forma de una
relaci
on difusa descrita por la matriz
h
i
RD(dd ) = rdij (dd )
donde

rdij (dd ) =

X
k

wk rdkij (dd )
X
k

wk

398

Ordenamiento de alternativas
En lo que se refiere a la concordancia, el segundo par
ametro (proporcion maxima de discordancia),
permite al usuario transformar la relacion difusa RD(dd ) en una relacion no-difusa, llamada la
relacion de discordancia, y que est
a descrita por la matriz
h
i
RD(dd , pd ) = rdij (dd , pd )
los elementos de la cual est
an definidos como sigue:

1 si rdij (dd ) > pd
rdij (dd , pd ) =
0 de otra forma.

La condicion rdij (dd , pd ) = 1 significa que la opinion colectiva est


a en discordancia con la asercion
ai es preferido a aj , es decir, que apoya a la expresion opuesta aj es preferida a ai , al nivel
(dd , pd ). Esto puede ser interpretado como un veto colectivo contra la asercion ai es preferida
a aj .
Note que mayores valores para dd y pd nos llevan a reglas de construcci
on menos rigurosas y por
tanto a condiciones mas debiles de discordancia.
n de dominacio
n est
ii) La relacio
a compuesta de relaciones de concordancia y de discordancia.
La idea b
asica es que la expresion ai es preferido a aj puede ser aceptada si la opinion colectiva
est
a en concordancia con ella, es decir, rcij (dc , pc ) = 1, y
no est
a en discordancia con ella, es decir, rdij (dd , pd ) = 0;
de otra forma esta expresion tiene que ser rechazada. Entonces, la relacion de dominacion, siendo
una funci
on de cuatro par
ametros, est
a descrita por la matriz R de m m dimensiones
h
i
R = rij (dc , pc , dd , pd )

donde los elementos son obtenidos de acuerdo con la expresi


on


rij (dc , pc , dd , pd ) = mn rcij (dc , pc ), 1 rdij (dd , pd )

rij es una funci


on monot
onicamente decreciente en los dos primeros par
ametros, y creciente
monot
onicamente en los dos u
ltimos. Esto implica que:
incrementando las dc , pc y/o disminuyendo dd , pd , uno puede disminuir le n
umero de conexiones en la relaci
on de dominacion, y
cambiando los par
ametros en direcci
on opuesta uno puede crear mas conexiones.
cleos son subconjuntos de A (conjunto de alternativas) cuyos
b) Identificaci
on de n
ucleos. Los nu
elementos son alternativas no-dominadas. Una alternativa aj es no-dominada, s, y solo si
rij = 0 para todo i = 1, 2, . . . , m.
i) De acuerdo con este criterio, el n
ucleo del conjunto A (el n
ucleo de mas alto nivel) es el subconjunto
n
o
C(A) = aj | aj A; rij = 0, i = 1, 2, . . . , m
Si C(A) = entonces todas las alternativas est
an dominadas.
Si C(A) = A entonces todas las alternativas no est
an dominadas.

ii) Para encontrar el n


ucleo siguiente, los elementos del n
ucleo precedente son eliminados primero
de la relaci
on de dominacion. Esto quiere decir que las filas y las columnas correspondientes son
eliminadas de la matriz relacional. La b
usqueda de un nuevo n
ucleo se repite entonces en la
estructura reducida.
La aplicacion sucesiva de i) e ii) crea una serie de n
ucleos Ac1 , Ac2 , . . . , Acq . Estos n
ucleos representan capas sucesivas de alternativas con rangos decrecientos en la estructura preferencial, mientras
que las alternativas pertenecientes al mismo n
ucleo se supone que tienen el mismo rango.

54.3.

M
etodos basados en la l
ogica difusa: la relaci
on de entrada

En el metodo de ordenamiento basado en la logica difusa, la matriz P(n,m) se utiliza para construir: a)
relaciones preferenciales individuales, y b) relaciones de entrada (llamadas tambien relaciones difusas)
sobre el conjunto de alternativas A. En este contexto, el car
acter estricto y debil de la relacion de preferencia
juega un papel importante.

54.3 M
etodos basados en la l
ogica difusa: la relaci
on de entrada

399

a) Construcci
on de relaciones preferenciales individuales. Para cada evaluacion ek una relacion de
preferencia individual, que est
a dada implcitamente en P, es transformada en una matriz de dimensi
on
m m:
h
i
k
Rk = rij
donde i, j = 1, 2, . . . , m
en la cual
k
=
rij

1 si la expresion ai es preferido a aj en la evaluacion ek es cierta;


0 si la expresion es falsa.

Dependiendo del tipo de preferencia utilizado, la expresi


on ai es preferido a aj en la evaluacion ek
es equivalente a la desigualdad
ki < kj
ki kj

(preferencia estricta), o
(preferencia debil).

b) Construcci
on de la relaci
on de entrada (relaci
on difusa). La suma de las matrices de preferencia individual genera la matriz que representa una relacion difusa en el conjunto de alternativas
A:
i
h
R = rij
donde

rij =

k
wk rij

wk

Cada elemento rij de R puede ser interpretado como la credibilidad de aserciones ai es preferida a
aj en un sentido global, y sin referirse a una evaluacion. As, la siguiente interpretaci
on general es
posible:
rij = 1
ai es preferida a aj en todas las evaluaciones,
rij = 0
ai es preferida a aj en ninguna de las evaluaciones,
0 < rij < 1 ai es preferida a aj en una cierta porcion de las evaluaciones.
c) Caractersticas de la relaci
on de entrada.
i) Difusion
no difuso :
difuso :

si rij = 0 o rij = 1 para todo i, j = 1, 2, . . . , m;


de otra forma.

ii) Simetra
simetrico :
si rij = rji para todo i, j = 1, 2, . . . , m;
antisimetrico : si rij 6= 0 implica que rji = 0 para toda i 6= j;
asimetrico :
de otra forma.
iii) Reflexividad
reflexiva :
si rii = 1 para todo i = 1, 2, . . . , m;
antirreflexiva : si rii = 0 para todo i = 1, 2, . . . , m;
irreflexiva :
de otra forma.
iv) Tricotomia
tric
otomo :
si rij + rji = 1 para todo i, j = 1, 2, . . . , m e i 6= j;
(normalizado)
atric
otomo :
de otra forma.
(no normalizado)

400

Ordenamiento de alternativas
v) Indice de coherencia. Su valor, C, depende del orden de las filas y columnas en R, es decir,
en el orden de las alternativas en A, y 1 C 1.
X
(rij rji )
i<j

C=X

(rij + rji )

i<j

El ndice de coherencia absoluta es una modificacion de C, independiente del orden. Su


valor, Ca , es una frontera superior para C y 0 Ca 1.
X
|rij rji |
i<j

Ca = X
(rij + rji )
i<j

Los ndices C y Ca son indicadores de la unanimidad en los datos de preferencia. La coherencia


completa se indica cuando C = 1, mientras que Ca = 0 indica una incoherencia total. El valor 1
para el ndice C puede ser interpretado como un orden de alternativas opuesto al orden definido
por la relaci
on difusa.

vi) Indice de intensidad. El ndice I puede ser interpretado como un nivel de credibilidad promedio
de las expresiones ai es preferida a aj o aj es preferida a ai . En general, toma valores en
1 I 2, mientras que en el caso de una preferencia estricta, toma valores en 0 I 1. En
caso que I = 1, esto implica una relacion normalizada (ver 3.c abajo) y significa que en todos los
datos de preferencia una de las expresiones arriba es valida para todas las parejas de alternativas.
X
(rij + rji )
i<j

I=

m(m 1)/2

n. Es tambien un ndice que depende del orden, y toma valores en 1


vii) Indice de dominacio
D 1.
X
(rij rji )
D=

i<j

m(m 1)/2

Indice de dominacio
n absoluta, en forma similar al ndice de coherencia, se define como un
ndice de dominacion independiente del orden. Su valor, Da , es una frontera superior para D y
toma valores en 0 Da 1.
X
|rij rji |
Da =

i<j

m(m 1)/2

Los ndices D y Da indican la diferencia promedio entre la credibilidad de las expresiones ai es


preferida a aj y de sus expresiones opuestas aj es preferida a ai .
Note que C, I, D y Ca , I, Da no son independientes entre ellos, a saber:
C I =D

Ca I = Da

d) Matriz normalizada. Una matriz normalizada se obtiene a partir de la matriz R utilizando la


transformaci
on siguiente:
0
rij

54.4.

rij
rij + rji
rij

si i 6= j y rij + rji 6= 0

de otra forma.

M
etodo difuso-1: capas no dominadas

El metodo de ordenamiento basado en la logica difusa supone una relacion de preferencia difusa con una
funci
on de pertenencia : A A [0, 1] en un conjunto dado A de alternativas. Esta funci
on de pertenencia est
a representada por la matriz R (ver la secci
on 3 arriba). Los valores rij = (ai , aj ) deben de ser

54.4 M
etodo difuso-1: capas no dominadas

401

interpretados como los grados en los cuales las preferencias expresadas por las aserciones ai es preferida a
aj son ciertas.
Otra suposicion es que:
en el caso de una preferencia debil, es reflexiva, es decir,
(ai , ai ) = rii = 1

para toda ai A

en el caso de preferencia estricta, es antirreflexiva, es decir,


(ai , ai ) = rii = 0

para toda ai A

El procedimiento del metodo difuso-1 busca un conjunto de alternativas no dominadas (notadas


como las alternativas ND), considerando dicho conjunto como el n
ucleo de alternativas de mas alto nivel.
La raz
on es que las alternativas ND son: o equivalentes entre ellas, o no son comparables entre ellas sobre la
base de la relaci
on de preferencia considerada, y no est
an dominadas en el sentido estricto por otras.
Para determinar un conjunto ND de alternativas difusas, dos relaciones difusas correspondientes a la relacion
de preferencia R son definidas: una relacion difusa de casi-equivalencia y una relacion difusa de preferencia
estricta. Formalmente, est
an definidas como sigue:
relacion difusa de casi-equivalencia Re :
Re = R R1

relacion difusa de preferencia estricta Rs :


Rs = R \ Re = R \ (R R1 ) = R \ R1
donde R1 es la relaci
on opuesta de la relacion R.
Todava mas, las funciones de pertenencia siguientes est
an definidas para Re y Rs respectivamente:
e (ai , aj ) = mn(rij , rji )

rij rji cuando rij > rji
s (ai , aj ) =
0
de otra forma.

Para una alternativa fija aj A, la funci


on s (aj , ai ) describe un conjunto difuso de alternativas que
est
an estrictamente dominadas por aj . El complemento de este conjunto difuso, descrito por la funci
on de
pertenencia 1 s (aj , ai ), es para una aj fija, el conjunto difuso de todas las alternativas que no est
an
estrictamente dominadas por aj . Entonces, la interseccion de todos los complementos de conjuntos difusos
(sobre todas las aj A) representa el conjunto difuso de aquellas alternativas ai A que no est
an dominadas
estrictamente por cualquiera de las alternativas del conjunto A. Este conjunto se llama el conjunto difuso
ND de alternativas ND en el conjunto A. As, de acuerdo con la definicion de interseccion
ND (ai ) = mn (1 s (aj , ai )) = 1 max s (aj , ai )
aj A

aj A

El valor ND (ai ) representa el grado hasta el cual la alternativa ai no est


a estrictamente dominada por
cualquiera de las alternativas del conjunto A.
cleo de nivel ma
s elevado de alternativas contiene aquellas alternativas ai que tienen el grado
El nu
mas elevado de no-dominacion o, en otras palabras, que dan un valor a ND (ai ) que es igual al valor:
M ND = max ND (ai )
ai A

El valor de M ND es llamado nivel de certeza correspondiente al n


ucleo definido por:
o
n
C(A) = ai | ai A; ND (ai ) = M ND

Los n
ucleos siguientes se construyen mediante una aplicacion sucesiva del procedimiento descrito arriba. Los
elementos del n
ucleo inmediatamente anterior, son excluidos de la relacion difusa, es decir, las filas y las
columnas correspondientes son excluidas de la matriz de relacion difusa. Entonces, los c
alculos se repiten en
la nueva estructura reducida.

402

Ordenamiento de alternativas

54.5.

M
etodo difuso-2: rangos

La relacion de entrada a este metodo es la misma que para el metodo difuso-1, a saber: la matriz R que tiene
que ser reflexiva o antirreflexiva. Sin embargo la pregunta a la que tenemos que responder, es completamente
diferente.
El procedimiento del metodo difuso-2 busca los niveles de credibilidad, notados cjp , de las aserciones
aj est
a exactamente en el pesimo lugar en la secuencia ordenada de alternativas en A, denotada Tjp . Los
valores de las cjp forman una matriz M de dimensiones m m que representan una funci
on de pertenencia
difusa, en la cual las filas corresponden a las alternativas y las columnas a las posibles posiciones en la
secuencia 1, 2, . . . , m.
Para poder hacer posibles los c
alculos de las cjp , estas deben estar desglosadas en niveles de credibilidad
ya conocidos rij y por tanto las aserciones Tjp deben estar desglosadas en expresiones elementales con
niveles de credibilidad conocidos rij . Para esto, a
nadiremos notaciones suplementarias. Note que para que
una alternativa aj se encuentre exactamente en el pesimo lugar significa que es preferida a m p alternativas
y que est
a precedida por las p 1 alternativas restantes. Cuando el subconjunto de alternativas despues de
aj ha sido fijado, entonces
Ajmp
Ajp1
Aj

=
=
=

el subconjunto de aquellas alternativas sobre las cuales aj es preferida,


el subconjunto de alternativas que son preferidas a aj ,
el subconjunto A \ {aj }.

Obviamente,
Ajp1 Ajmp = Aj
Ajp1 Ajmp =
y la expresion Tjp es equivalente a una secuencia de aserciones aj es preferida a todos los elementos de
Ajmp , y todos los elementos de Ajp1 son preferidos a aj , conectados por el operador disyuntivo de logica.
Todava mas, la aserci
on aj es preferida a todos los elementos de Ajmp es una conjunci
on de las expresiones
ya conocidas aj es preferida a al con un nivel de credibilidad igual a rjl , para todos los elementos al de
Ajmp .
Igualmente, la expresion todos los elementos de Ajp1 son preferidos a aj es una conjunci
on de las aserciones
ya conocidas ai es preferida a aj con un nivel de credibilidad igual a rij , para todos los elementos al de
Ajmp .
Si empleamos los operadores difusos correspondientes, los elementos de la matriz M pueden ser obtenidos
como sigue:
#
"


rjl , mn
rij
mn
mn
cjp = j max
j
j
Amp Aj

al Amp

ai Ap1

El c
alculo de los valores cjp se hace utilizando un procedimiento de optimizacion que genera una serie de
subconjuntos Ajmp (manteniendo j y p fijos) incrementando monot
onicamente en forma estricta los valores
de la funci
on que tiene que ser maximizada en pasos sucesivos.
El programa proporciona dos formas de interpretar la matriz M.
Conjuntos difusos de rangos por alternativas.
Para cada alternativa aj , los valores de una funci
on de pertenencia difusa muestran la credibilidad de tener
esta alternativa en el pesimo lugar (p = 1, 2, . . . , m). Tambien, los rangos (lugares) mas plausibles para cada
alternativa son listados.
Subconjuntos difusos de alternativas por rangos.
Para cada rango (lugar) p, los valores de una funci
on difusa de pertenencia muestran la credibilidad de las
alternativas aj (j = 1, 2, . . . , m) de estar en ese lugar. Tambien las alternativas mas plausibles, candidatas
para ese puesto, son listadas.

54.6 Referencias

54.6.

403

Referencias

Dussaix, A.-M., Deux methodes de determination de priorites ou de choix, Partie 1: Fondements mathematiques, Document UNESCO/NS/ROU/624, UNESCO, Paris, 1984.
Jacquet-Lagr`eze, E., Analyse dopinions valuees et graphes de preference, Mathematiques et sciences humaines, 33, 1971.
Jacquet-Lagr`eze, E., Lagregation des opinions individuelles, Informatique et sciences humaines, 4, 1969.
Kaufmann, A., Introduction a
` la theorie des sous-ensembles flous, Masson, Paris, 1975.
Orlovski, S.A., Decision-making with a fuzzy preference relation, Fuzzy Sets and Systems, Vol. 1, No 3, 1978.

Captulo 55

Diagramas de dispersi
on
Notaci
on
x
y

= valor de la variable que se va a trazar horizontalmente


= valor de la variable que se va a trazar verticalmente

w
k

= valor del peso


= subndice del caso

= n
umero total de casos

= suma total de los pesos.

55.1.

Estadsticas univariadas

Estas estadsticas que no son ponderadas se calculan para todas las variables indicadas en la pasada.
a) Media.

x=

xk

b) Desviaci
on est
andar.

sx =

55.2.

v
uX
u
x2k
u
t k
N

x2

Estadsticas univariadas por parejas

Se calculan para el conjunto de casos que tienen datos validos en x y y. Son estadsticas ponderadas si se
especifica una variable de peso.
a) Media.

x=

wk xk

Nota: la f
ormula de la media de y es analoga.

406

Diagramas de dispersi
on

b) Desviaci
on est
andar.

sx =

v
uX
u
wk x2k
u
t k

x2

Nota: la formula de la desviaci


on est
andar de y es analoga.
c) N. El n
umero de casos, ponderado, con datos validos en x y y.

55.3.

Estadsticas bivariadas

Est
an calculadas en el conjunto de casos con datos validos en x y y.
a) Momento producto r de Pearson.
W

wk xk yk

X

wk xk

X

wk yk

k
k
k
rxy = v"
#"
#
u
X
2
X
2
X
X
u
t W
wk x2k
W
wk yk2
wk xk
wk yk
k

b) Estadsticas de regresi
on: constante A y coeficiente B.

A=

X
k

wk yk

wk xk B

donde B es el coeficiente de regresion no estandarizado.


W
B=

X
k

wk xk yk
W

X
k

X
k

wk x2k

wk xk

X
k

X
k

wk xk

2

wk yk

La constante A y el coeficiente B se utilizan en la ecuaci


on de regresion y = Bx + A para proyectar y
a partir de x.

Captulo 56

B
usqueda de estructura
Notaci
on
y
x

= valor de la variable dependiente


= frecuencia (ponderada) de la variable categorica dependiente

o valores (ponderados) de variables dependientes dic


otomas
= valor de la covariada

= valor del peso

k
j

= subndice para el caso


= subndice para c
odigo de categoras de la variable dependiente

o subndice para variables dic


otomas dependientes
= n
umero de c
odigos de la variable dependiente

o n
umero de variables dic
otomas dependientes
= subndice de grupo; g = 1 indica toda la muestra

i
t

= subndice de grupos finales


= n
umero de grupos finales

Ng
Wg

= n
umero de casos en el grupo g
= suma de pesos en el grupo g

Ni
Wi

= n
umero de casos en el grupo final i
= suma de pesos en el grupo final i

N
W

= n
umero total de casos
= suma total de pesos.

56.1.

An
alisis de medias

Este metodo se puede usar cuando se analiza una variable dependiente (por intervalos o dic
otoma) y varios
predictores. Busca crear grupos que permitan la mejor predicci
on de los valores de la variable dependiente
a partir del promedio de grupo. En otras palabras, los grupos creados deben suministrar las diferencias mas
grandes entre medias de grupos. El criterio de divisi
on (variacion explicada) se basa en las medias de grupos.
a) Estadsticas de huella. Son las estadsticas calculadas sobre toda la muestra (para g = 1) y sobre
divisiones tentativas de grupos padres as como tambien para cada grupo que resulte de la mejor
divisi
on.
i) Suma (wt). N
umero de casos (Ng ) si no se ha especificado la variable de ponderaci
on o n
umero
de casos ponderado (Wg ) en el grupo g.

408

B
usqueda de estructura
ii) Med y. Valor medio de la variable dependiente y en el grupo g.

yg =

Ng
X

wk ygk

k=1

Wg

iii) Var y. Variancia de la variable dependiente y en el grupo g.

y2g =

Ng
X

k=1

wk (ygk yg )2
Wg

Wg
Ng

n. Suma de cuadrados de la variable dependiente (como en el an


iv) Variacio
alisis de variancia de
una entrada) en el grupo g.
Vg =

Ng
X

k=1

wk (ygk yg )2

v) Var expl. La variaci


on explicada se mide con la diferencia entre la variacion en el grupo padre
y la suma de la variaci
on en los dos grupos hijos. Suministra, para cada predictor, la cantidad de
variacion explicada por la mejor divisi
on de este predictor, es decir, el valor mas alto obtenido
sobre todas las posibles divisiones de este predictor.
Sean g1 y g2 dos subgrupos (grupos hijos) obtenidos en una divisi
on del grupo padre g, y Vg1 y
on del grupo g se calcula as:
Vg2 sus variaciones respectivas. La variacion explicada por esa divisi
V Eg = Vg (Vg1 + Vg2 )
Entonces, este valor se maximiza sobre todas las divisiones posibles del predictor.
n explicada. Es el porcentaje de la variacion total explicada por los grupos finales.
vi) Variacio
VE
VT
donde V E y V T son, respectivamente, la variacion explicada por los grupos finales y la variacion
total (ver 1.b adelante).
P orcentaje = 100

b) An
alisis de una entrada de grupos finales. Son estadsticas de analisis de variancia de una entrada
calculadas para los grupos finales.
n explicada y GL. Es la cantidad de variacion explicada por los grupos finales y los
i) Variacio
grados de libertad correspondientes.
VE =VT VN =VT

t
X

Vi

i=1

GL = t 1
n total y GL. Variaci
ii) Variacio
on total calculada para toda la muestra, es decir, para el grupo
1 y los correspondientes grados de libertad.
V T = V1
GL = W 1
iii) Error and GL. Es la cantidad de variancia no explicada y los correspondientes grados de libertad.
VN =

t
X

Vi

i=1

GL = W t
c) Tabla de resumen de separaci
on. La tabla suministra valor medio de grupo, variancia y variacion
de la variable dependiente en cada divisi
on as como tambien la variacion explicada por esa divisi
on
(ver 1.a atr
as).

56.2 An
alisis de regresi
on

409

d) Tabla de resumen de grupos finales. Esta tabla suministra valor medio, variancia y variacion de
la variable dependiente para los grupos finales (ver 1.a atr
as).
e) Porcentaje de variaci
on explicada. El porcentaje de la variacion total explicada por la mejor
divisi
on de cada grupo, se calcula as:
P orcentajeg = 100

V Eg
VT

N
otese que este valor es igual a cero para los grupos finales (indicados con un asterisco).
f ) Residuos. Los residuos son las diferencias entre el valor observado y el valor predicho de la variable
dependiente.
ek = yk ybk

Como valor predicho, se asigna a un caso el valor medio de la variable dependiente para el grupo al
cual pertenece, es decir

56.2.

ybik = y i

An
alisis de regresi
on

Este metodo se puede usar cuando se analiza una variable dependiente (por intervalos o dic
otoma) con una
covariada y varios predictores. Busca crear grupos que permitan la mejor predicci
on de valores de la variable
dependiente a partir de la ecuaci
on de regresion del grupo y el valor covariado. En otras palabras, los grupos
creados deben suministrar las diferencias mas grandes en las lneas de regresion de grupo. El criterio de
divisi
on (variaci
on explicada) se basa en la regresion de la variable dependiente sobre la covariada.
a) Estadsticas de huella. Son las estadsticas calculadas sobre toda la muestra (para g = 1) y sobre
divisiones tentativas de grupos padres as como tambien para cada grupo que resulte de la mejor
divisi
on.
i) Suma (wt). N
umero de casos (Ng ) si no se ha especificado la variable de ponderaci
on o n
umero
de casos ponderados (Wg ) en el grupo g.
ii) Med y,z. Valor medio de la variable dependiente y y de la covariada z en el grupo g (ver 1.a.ii
atr
as).
iii) Var y,z. Variancia de la variable dependiente y y de la covariada z en el grupo g (ver 1.a.iii
atr
as).
iv) Pendiente. Es la pendiente de la variable dependiente y sobre la covariada z en el grupo g.

bg =

Ng
X

k=1

wk (ygk y g )(zgk z g )
Ng
X

k=1

wk (zgk z g )2

n. Es el error o la suma residual de cuadrados al estimar la variable y por su regresion


v) Variacio
sobre la covariada en el grupo g, es decir, una medida de la desviacion alrededor de la lnea de
regresion.
Vg =

Ng
X

k=1

wk (ygk y g )2 bg

Ng
X

k=1

wk (ygk yg )(zgk z g )

donde bg es la pendiente de la lnea de regresion en el grupo g.


vi) Var expl. Variaci
on explicada (VE). Ver 1.a.v atr
as para informacion general y 2.a.v atr
as para
detalles acerca de la V (variacion) usada en el analisis de regresion.
n explicada. Es el porcentaje de la variacion total explicada por los grupos finales.
vii) Variacio
Ver 1.a.vi atr
as y 2.b adelante.

410

B
usqueda de estructura

b) An
alisis de una entrada de grupos finales. Son estadsticas resumen para los grupos finales. Ver
1.b. atr
as para informaci
on general y 2.a.v y 2.a.vi atr
as para detalles sobre las medidas de V y V E
usadas en el analisis de regresion.
c) Tabla de resumen de separaci
on. La tabla suministra el valor medio de grupo, variancia y variacion
de la variable dependiente en cada divisi
on as como tambien la variacion explicada por esa divisi
on.
Tambien suministra el valor medio y variancia de la covariada. Ver 2.a atr
as para formulas. Se calculan
las siguientes estadsticas de regresion para cada divisi
on:
i) Pendiente. Es la pendiente de la variable dependiente y sobre la covariada z en el grupo g (ver
2.a.iv atr
as).
ii) Intercepto. Es el termino constante en la ecuaci
on de regresion.
ag = y g b g z g
donde bg es la pendiente en el grupo g.
iii) Corr. Coeficiente r de la correlaci
on de Pearson entre la variable dependiente y y la covariada z
en el grupo g.

rg =

Ng
X

k=1

wk (ygk yg ) (zgk z g )
q
y2g z2g

d) Tabla de resumen de grupos finales. Esta tabla suministra la misma informacion (a excepcion de
la variacion explicada) que la Tabla de resumen de separacion, pero para los grupos finales.
e) Porcentaje de variaci
on explicada. El porcentaje de la variacion total explicada por la mejor
divisi
on para cada grupo (ver 1.e y 2.a.vi atr
as).
f ) Residuos. Los residuos son las diferencias entre el valor observado y el valor predicho de la variable
dependiente.
ek = yk ybk

Los valores predichos se calculan as:


ybik = ai + bi zik

donde ai y bi son coeficientes de regresion para el grupo final i.

56.3.

An
alisis de Ji-cuadrada

Este metodo se puede usar cuando se analiza una variable dependiente (nominal u ordinal) o un conjunto de
variables dependientes dic
otomas con varios predictores. Busca crear grupos que permitan la mejor predicci
on
de la categora de la variable dependiente a partir de su distribuci
on de grupo. En otras palabras, los grupos
creados deben suministrar las diferencias mas grandes en las distribuciones de la variable dependiente. El
criterio de divisi
on (variaci
on explicada) se calcula sobre la base de la distribuci
on de frecuencias de la
variable dependiente. N
otese que las variables dependientes dic
otomas m
ultiples se tratan como categoras
de una variable categ
orica.
a) Estadsticas de huella. Son las estadsticas calculadas sobre toda la muestra (para g = 1) y sobre
divisiones tentativas de grupos padres as como tambien para cada grupo resultante de la mejor divisi
on.
i) Suma (wt). N
umero de casos (Ng ) si no se ha especificado la variable de ponderaci
on o n
umero
ponderado de casos (Wg ) en el grupo g.
n. Es la entropa del grupo g, es decir, una medida del desorden en la distribuci
ii) Variacio
on de
la variable dependiente.
Vg = 2

m
X
j=1

xjg ln

xjg
xg

56.4 Referencias

411

donde
xjg =

Ng
X

xjgk

k=1

xg =

m
X

xjg

j=1

y xjgk es la frecuencia (codificada 0 o 1) del c


odigo j (o valor de la variable j) del caso k en
grupo g.
iii) Var expl. Variaci
on explicada (VE). Ver 1.a.v atr
as para informacion general y 3.a.ii atr
as para
detalles sobre la V (variaci
on) usada en el analisis de Ji-cuadrada.
n explicada. Es el porcentaje de la variacion total explicada por los grupos finales.
iv) Variacio
Ver 1.a.vi atr
as y 3.b adelante.
b) An
alisis de una entrada de grupos finales. Son estadsticas resumen para los grupos finales. Ver
1.b atr
as para informaci
on general y 3.a.ii y 3.a.iii atr
as para detalles sobre las medidas V y la V E
usadas en el analisis de Ji-cuadrada.
c) Tabla de resumen de separaci
on. Esta tabla suministra la variacion de la variable dependiente en
cada divisi
on as como tambien la variacion explicada por esa divisi
on. Ver 3.a.ii y 3.a.iii atr
as para
las formulas.
d) Tabla de resumen de grupos finales. Esta tabla suministra la variacion de la variable dependiente
para los grupos finales.
e) Porcentaje de variaci
on explicada. El porcentaje de la variacion total explicada por la mejor
divisi
on para cada grupo (ver 1.e atr
as y 3.a.iii atr
as).
f ) Distribuci
on de porcentajes. Una tabla bivariada que muestra la distribuci
on de porcentajes de la
variable dependiente para todos los grupos (Pjg ).
g) Residuos. Los residuos son las diferencias entre el valor observado y el valor predicho de la variable
dependiente.
rica dependiente, los residuos se calculan para cada
Para el analisis con una variable catego
categora de la variable. As, el n
umero de residuos es igual al n
umero de categoras.
ejk = xjk x
bjik

Los valores observados, xjk , se crean como una serie de variables ficticias, codificadas 0 o 1.
Como valor predicho para la categora j, se le asigna al caso un valor proporcional al n
umero de casos
que est
an en esta categora para el grupo al cual pertenece el caso, es decir:
x
bjik = Pji /100

tomas, los residuos se calculan para cada


Para el analisis con varias variables dependientes dico
variable. As, el n
umero de residuos es igual al n
umero de variables dependientes.
ejk = x0jk x
bjik

Los valores observados se caculan as:


xjk
x0jk = m
X
xjk
j=1

Como valor predicho para la variable j, se le asigna al caso un valor proporcional al n


umero de casos
que tengan valor 1 para esta variable en el grupo al cual pertenece el caso, es decir:

56.4.

x
bjik = Pji /100

Referencias

Morgan, J.N., Messenger, R.C., THAID A Sequential Analysis Program for the Analysis of Nominal Scale
Dependent Variables, Institute for Social Research, The University of Michigan, Ann Arbor, 1973.
Sonquist, J.A., Baker, E.L., Morgan, J.N., Searching for Structure, Revised ed., Institute for Social Research,
The University of Michigan, Ann Arbor, 1974.

Captulo 57

Tablas univariadas y bivariadas


Notaci
on
x =

valor de la variable de fila en tablas bivariadas


o valor de la variable en tablas univariadas

y
w

=
=

valor de la variable de columna en tablas bivariadas


valor del peso

subndice para el caso

i =
j =

subndice de la fila en tablas bivariadas


subndice de la columna en tablas bivariadas

r
c

=
=

n
umero de filas en tablas bivariadas
n
umero de columnas en tablas bivariadas

fi
fj

=
=

frecuencia marginal de la fila i en una tabla bivariada


frecuencia marginal en la columna j de una tabla bivariada

n
umero total de casos.

57.1.

Estadsticas univariadas

a) Wtnum. N
umero de la variable de ponderaci
on, o cero si el peso no est
a especificado.
b) Wtsum. N
umero de casos si la variable de ponderaci
on no est
a especificada, o n
umero ponderado de
casos (suma de los pesos).
c) Moda. La primera categora que contiene la frecuencia maxima.
d) Mediana. La mediana est
a calculada como un cuantil n-tile con dos subintervalos solicitados. Ver
el captulo Funciones de distribuci
on y de Lorenz para detalles.
e) Media.
X

wk xk

x= X

wk

f ) Variancia. Es un estimador insesgado de la variancia de la poblacion.

sb2x =

N
N 1

X
k

wk (xk x)2
X
k

wk

414

Tablas univariadas y bivariadas

g) Desviaci
on est
andar. Note que sbx no es en s mismo un estimador insesgado de la desviacion est
andar
de la poblacion.
sbx =

p
sb2x

h) Coeficiente de variaci
on (C.var.).
Cx =

100 sbx
x

i) Asimetra. La asimetra de la distribuci


on de x est
a medida por

g1 =

N
N 2

m3
p
2
sbx sb2x

donde m3 =

X
k

wk (xk x)3
X

wk

Esta cifra es una medida de asimetra. Distribuciones que son asimetricas hacia la derecha, es decir, la
cola se encuentra del lado derecho, tienen una medida de asimetra positiva; distribuciones que tienen
una asimetra cargada hacia la izquierda, tienen una medida de asimetra negativa; una distribuci
on
normal tiene asimetra igual a cero.
j) Kurtosis. La kurtosis de la distribuci
on de x est
a medida por

g2 =

N
N 3

m4
(b
s2x )2

3 donde m4 =

X
k

wk (xk x)4
X

wk

La kurtosis mide el grado de picudez de una distribuci


on. Una distribuci
on normal tiene kurtosis igual a
cero. Una curva de punta aguda tiene una kurtosis positiva; las distribuciones de puntas menos agudas
que las de una distribuci
on normal tienen una kurtosis negativa.
k) Cuantiles (n-tiles). Los puntos de separacion de los n-tiles, se calculan de la misma forma que en el
programa QUANTILE.

57.2.

Estadsticas bivariadas

a) Ji-cuadrada. Ji-cuadrada es adecuada para probar la significaci


on de las diferencias de las distribuciones entre grupos independientes.
2 =

X X (fij Eij )2
Eij
i
j

donde
fij

= frecuencia observada en la celda ij

Eij

= frecuencia estimada (calculada) en la celda ij;


es el producto de la frecuencia de la fila i multiplicada
por la frecuencia en la columna j, dividida por el total N .

Para tablas de dos por dos, la 2 se calcula de acuerdo con la formula siguiente:
2 =

N (|ad bc| N/2)2


(a + b)(c + d)(a + c)(b + d)

donde a, b, c, d representan las frecuencias en las cuatro celdas.

57.2 Estadsticas bivariadas

415

b) V de Cramer. La V de Cramer describe la fuerza de asociaci


on en una muestra. Su valor se sit
ua
entre cero, que refleja una independencia completa, y la unidad, indicando una dependencia total en
las cualidades.
s
2
V =
N (L 1)
donde L = mn(r, c) .
c) Coeficiente de contingencia. Al igual que la V de Cramer, el coeficiente de contingencia se utiliza
para describir la fuerza de asociaci
on en una muestra. Su lmite superior es una funci
on del n
umero de
categoras. El ndice no puede alcanzar la unidad.
CC =

2
+N

d) Grados de libertad.
gl = (r 1)(c 1)
e) N ajustada. Es la N utilizada en los c
alculos estadsticos, es decir, el n
umero de casos con c
odigos
validos. Ser
a ponderada si una variable de peso ha sido especificada.
f ) S. S es igual al n
umero de acuerdos en el orden, menos el n
umero de desacuerdos en el orden. Para
una celda dada en una tabla, todos los casos en las celdas a la derecha y abajo est
an en acuerdo, todos
los casos a la izquierda y abajo est
an en desacuerdo. S es el numerador de la estadsticas tau y gama.

S=

r1 X
c
X
i=1 j=1

fij

r
X

c
X

h=i+1 l=j+1

fhl

j1
r
X
X

m=i+1 n=1

fmn

donde fij , fhl y fmn son las frecuencias observadas en las celdas ij, hl y mn respectivamente.
g) Variancia de S. Es la variancia de S cuando hay ataduras. (Una atadura se presenta en los datos si
mas de un caso aparece en una fila o en una columna dadas).

s2

N (N 1)(2N + 5)
=

"
X

"
X

X
j

fj (fj 1)(2fj + 5)

#"

fj (fj 1)(fj 2)

18
X
i

X
i

fi (fi 1)(2fi + 5)
+

fi (fi 1)(fi 2)

9N (N 1)(N 2)
#
#"
X
fi (fi 1)
fj (fj 1)

2N (N 1)

h) Desviaci
on est
andar de S.
s =

p
s2

i) Desviaci
on normal de S. Proporciona una prueba de significaci
on de muestra grande para valores de
tau o gama con ataduras. El n
umero menos uno en el numerador es una correccion para continuidad (si
S es negativa, el n
umero uno es a
nadido). El n
umero puede ser comparado a una tabla de distribuci
on
normal. La prueba est
a condicionada por la distribuci
on de ataduras.
Z=

S1
s

416

Tablas univariadas y bivariadas

j) Tau a. Tau a supone que no hay ataduras entre los datos, o que las ataduras, si las hay, representan
un error de medida que se refleja claramente a traves de una disminuci
on de intensidad de la relacion
misma. Tau a tiene un rango que va de menos uno a mas uno.
a =

S
N (N 1)
2

k) Tau b. Tau b es similar a tau-a, a excepcion que las ataduras est


an permitidas, es decir, puede haber
mas de un caso en una fila o columna dadas en la tabla bivariada. Tau b puede alcanzar la unidad
solamente cuando el n
umero de filas es igual al n
umero de columnas.
b = s

S


N (N 1)
T1
2

N (N 1)
T2
2

donde
T1

hX
i

T2

hX
j

i
fi (fi 1) / 2

i
fj (fj 1) / 2

l) Tau c. Tau c es similar a Tau b exceptuando que si el n


umero de filas no es igual al n
umero de
columnas, tau b no puede alcanzar los valores mas o menos la unidad, mientras que tau c puede
alcanzarlos.
c =

S
1/2 N 2 [(L

1)/L]

donde L = mn(r, c).


m) Gama. La de Goodman-Kruskal es otra medida de asociaci
on ampliamente usada que est
a relacionada estrechamente con la de Kendall. Puede variar de menos uno a mas uno y puede ser calculada
aun cuando ataduras ocurren en los datos.
=

S
S+ + S

donde
S
S+
S

= S+ S

= n
umero total de parejas en orden similar
= n
umero total de parejas en orden diferente.

n) Ro de Spearman. Es el momento producto de correlaci


on ordinaria de Pearson calculado sobre
los rangos. Vara de menos uno a mas uno. La ro de Spearman calculada por el programa TABLES
incorpora una correccion para ataduras.
El factor de correccion, T , para un solo grupo de casos atados es:
T =

t3 t
12

donde t es igual al n
umero de casos atados en un rango dado, es decir, el n
umero de casos en una fila
dada o en una columna dada.
La ro de Spearman se calcula
P 2 P 2 P 2
x + y d
pP
s =
P 2
y
x2
2

57.2 Estadsticas bivariadas

417

donde
X

X
X

x2

y2

d2

N3 N X

Tx
12
3
N N X

Ty
12
X
(Xk Yk )2
k

Tx

Ty

suma de las T para todas las columnas con mas de un caso

Xk
Yk

=
=

rango del caso k en la variable fila


rango del caso k en la variable columna.

suma de las T para todas las filas con mas de un caso

Note que cuando mas de un caso ocurre en una fila (o columna) dada, el valor de las Xk (o las Yk ) para
casos atados, es el promedio de los rangos que hubieran sido asignados si no hubiera habido ataduras.
Por ejemplo, si hay 15 casos en la primera fila de una tabla, entonces a esos 15 casos se les habra
asignado un rango, es decir, valor de X de 8.
n
) Lambda sim
etrica. Es una medida simetrica del poder de predicci
on; es adecuada cuando ni las filas
ni las columnas est
an especialmente designadas como las fuentes a partir de las cuales debe proyectarse
o ser conocidos en primer lugar. Lambda tiene un rango de cero a uno.

sym =

max fij +
j

X
j

max fij max fj max fi


i

2N max fj max fi
j

donde
fij
max fij

= frecuencia observada en la celda ij


= frecuencia maxima en la fila i

max fij

= frecuencia maxima en la columna j

max fj

= frecuencia marginal maxima entre las j columnas

max fi

= frecuencia marginal maxima entre las i filas.

j
i

o) Lambda A, variable dependiente en fila. Esta lambda es adecuada cuando la variable de fila es
la variable dependiente. Es una medida de reduccion proporcional en la probabilidad de error, cuando
se proyecta la variable fila, especificado por una categora de columna. La lambda dependiente de fila
tiene un rango de cero a uno.

rd =

X
j

max fij max fi


i

N max fi
i

Vea mas arriba la definicion de los terminos de esta formula.


p) Lambda B, variable dependiente en columna. Esta lambda es adecuada cuando la variable de la
columna es la variable dependiente. Toma valores en el intervalo cero a uno.

cd =

X
i

max fij max fj


j

N max fj
j

Vea mas arriba la definicion de los terminos de esta formula.

418

Tablas univariadas y bivariadas

q) Estadsticas para medicina basada en evidencia (EBM). Se calculan para las tablas 2 x 2
donde la primera fila contiene las frecuencias de evento (a) y no-evento (b) para los casos en el grupo
experimental y la secunda fila contiene las frecuencias de evento (c) y no-evento (d) para los casos en
el grupo control.
Son calculadas las estadsticas siguientes:
Tasa de eventos en el grupo experimental
T EE = a/(a + b)
Tasa de eventos en el grupo control
T EC = c/(c + d)
Reducci
on absoluta del riesgo (Diferencia de riesgo)
RAR = |T EC T EE|
Reducci
on relativa del riesgo
RRR = RAR/T EC
N
umero necesario a tratar
N N T = 1/RAR
Riesgo relativo (relaci
on de riesgo)
RR = T EE/T EC
y su intervalo de confianza al 95 %
h
i
ICRR = exp ln(RR estimado) 1,96 T

donde la variancia estimada de ln(RR estimado) es


T =

d/c
b/a
+
a+b c+d

Razon de posibilidades (odds ratio)


RP = ad/bc
y su intervalo de confianza al 95 %
h
i
ICRP = exp ln(RP estimado) 1,96 V

donde la variancia estimada de ln(RP estimado) es


V =

1 1 1 1
+ + +
a
b
c d

r) Prueba exacta de Fisher. La prueba exacta de probabilidad de Fisher es una tecnica no-parametrica
muy u
til para analizar datos discretos (que sean nominales o ordinales) a partir de dos muestras
independientes. Es utilizada cuando todos los casos de dos muestras aleatorias independientes caen en
una o en otra de dos categoras mutuamente exclusivas. La prueba determina si los dos grupos difieren
en la proporci
on en la cual se separan las dos clasificaciones.
La probabilidad de un resultado observado se calcula como sigue:
p=

(a + b)! (c + d)! (a + c)! (b + d)!


N ! a! b! c! d!

donde a, b, c, d representan la frecuencia en las cuatro celdas.


El programa TABLES calcula ambas probabilidades exactas relativas a una o dos colas, que son
llamadas probabilidad de ocurrencia igual o extrema a la que fue observada y probabilidad de
ocurrencia extrema a la que fue observada en cualquier direcci
on respectivamente.

57.2 Estadsticas bivariadas

419

s) Prueba de Mann-Whitney. La prueba U de Mann-Whitney puede ser utilizada para probar si dos
grupos independientes han sido seleccionados a partir de la misma poblacion. Es la mejor alternativa
a la prueba parametrica t cuando la medida es inferior al escalamiento por intervalos. En el programa
TABLES se requiere que la variable por fila sea la variable de agrupamiento dicotomica.
Sean
n1
n2

= n
umero de casos en el grupo mas peque
no de casos en los dos grupos
= n
umero de casos en el segundo grupo

R1
R2

= suma de ordenaciones asignada al grupo con n


umero de casos n1
= suma de ordenaciones asignada al grupo con n
umero de casos n2 .

Entonces
U 1 = n1 n2 +

n1 (n1 + 1)
R1
2

U 2 = n1 n2 +

n2 (n2 + 1)
R2
2

y
U = mn(U1 , U2 )
Si hay mas de 10 casos en cada grupo, el programa TABLES proporciona la aproximacion Z (aproximaci
on normal de U ) calculada como sigue:
Z= r

U n1 n2 /2
n1 n2 (n1 + n2 + 1)
12

t) Prueba de rangos con signo de Wilcoxon. La prueba estadstica de Wilcoxon sirve para probar
la relaci
on entre dos muestras y utiliza ambas informaciones, sobre la direcci
on y la magnitud relativa
de la diferencia entre parejas de variables.
La suma de rangos positivos, T + , se obtiene como sigue:
Las diferencias con signo dk = xk yk se calculan para todos los casos.
Las diferencias dk son ordenadas con respecto al rango e independientemente de su signo. Los
casos en los cuales dk toma el valor cero son descartados. A las dk que est
an atadas, se les asigna
el promedio de los rangos atados.
A cada rango se le anexa el signo (+ o ) de la d que representan.
N 0 es el n
umero de dk cuyo valor no es cero.
+
T es la suma de las dk con signo positivo.
Si N 0 > 15, el programa calcula la aproximacion Z (aproximacion normal de T + ) como sigue:
Z=

T + T +
T +

donde
T + =

N 0 (N 0 + 1)
4
g

T2 +

1X
N 0 (N 0 + 1) (2N 0 + 1)

nt (nt 1) (nt 2)
=
24
2 t=1

g
nt

=
=

y
n
umero de grupos de diferentes rangos atados
n
umero de rangos atados en el grupo t.

Note que la aproximacion Z tambien est


a ajustada para los rangos atados. El uso de esta, sin embargo,
no produce cambio alguno en la variancia cuando no hay ataduras.

420

Tablas univariadas y bivariadas

u) Prueba-t. El cociente t es adecuado para probar la diferencia entre dos medias independientes, es
decir, dos muestras independientes. La variancia est
a calculada en com
un.
t = s

yi yh


ni + nh
+ nh s2h
ni + nh 2
ni nh

ni s2i

donde
yi
yh

=
=

media de la variable de columna para casos en la fila i


media de la variable de columna para casos en la fila h

s2i
s2h

=
=

variancia de la muestra para la variable de columna para casos en la fila i


variancia de la muestra para la variable de columna para casos en la fila h.

Si se requieren las pruebas t, las desviaciones est


andar de la muestra son calculadas para los casos en
cada fila como sigue:
si =

57.3.

sP

y2
y 2i
ni

Nota sobre los pesos

Si se solicitan las estadsticas bivariadas y una variable de ponderaci


on es especificada, se imprime una
indicaci
on al respecto y las estadsticas se calculan utilizando los valores ponderados:
xk
x2k

=
=

wk xk
wk x2k

yk
yk2

=
=

fij

wk yk
wk y 2
X k
wk
k

la frecuencia ponderada en la celda ij.

Captulo 58

Tipologa y clasificaci
on ascendente
Notaci
on
x
k
v
g, i, j

= subndice para la variable


= subndices para grupos

= n
umero de variables activas (cuantitativas y cualitativas dicotomizadas)

p
t

= n
umero de variables pasivas (cuantitativas y cualitativas dicotomizadas)
= n
umero inicial de grupos

Ni
Nj

w
W

58.1.

= valores de variables
= subndice para el caso

= n
umero de casos en el grupo i ponderado si el peso del caso est
a especificado)
= n
umero de casos en el grupo j (ponderado si el peso del caso est
a especificado)
= valor del peso de la variable
= valor del peso del caso
= suma total de los pesos del caso.

Tipos de variables utilizadas

El programa acepta variables cuantitativas y cualitativas (categ


oricas), estas u
ltimas seran tratadas
como cuantitativas despues de haber sido dicotomizadas en sus categoras respectivas, es decir, despues
de la construcci
on de tantas variables dicotomicas (cero/uno) igual al n
umero de categoras. Las variables
utilizadas por el programa pueden ser activas o pasivas. Las variables activas son aquellas sobre las cuales
la tipologa es construida. Las variables pasivas no participan en la construcci
on de la tipologa, pero el
programa imprime para estas las estadsticas principales dentro de los grupos de la tipologa.
Un conjunto de variables activas se denota aqu, como Xa , y un conjunto de variables pasivas como Xp .

58.2.

Perfil de caso

El perfil del caso k es un vector Pk tal que


Pk = (xk1 , xk2 , . . . , xkv , . . . , xka ) = (xkv )
donde todas las xv Xa .
Si se requiere que las variables activas sean estandarizadas, el perfil de caso k se convierte en
x 
kv
Pk =
sv
donde sv es la desviaci
on est
andar de la variable xv (ver 7.b mas abajo).

422

Tipologa y clasificaci
on ascendente

58.3.

Perfil de grupo

El perfil del grupo i, conocido tambien como el barycentro de grupo, es un vector Pi tal que
Pi = (xi1 , xi2 , . . . , xiv , . . . , xia ) = (xiv )
y en caso de datos estandarizados se convierte en,
x 
iv
Pi =
sv

donde el numerador es la media de la variable xv de los casos que corresponden al grupo i y el denominador
es la desviacion est
andar de esta variable.

58.4.

Distancias utilizadas

Hay tres tipos b


asicos de distancias utilizadas en este programa, que son la distancia en cuadra urbana
(city block), la distancia euclideana y la distancia Ji-cuadrada de Benzecri. Estas pueden ser utilizadas
para calcular las distancias entre dos casos, entre un caso y un grupo de casos y entre dos grupos de casos. A
continuacion, estas distancias est
an definidas como distancias entre dos grupos (entre perfiles de dos grupos),
pero las otras distancias pueden ser obtenidas adaptando las formulas respectivas.
a) Distancia en cuadra urbana (city block).

dij = d(Pi , Pj ) =

a
X
v=1

v |xiv xjv |
a
X

v=1

b) Distancia euclideana.
v
uX
u a
u
v (xiv xjv )2
u
u v=1
dij = d(Pi , Pj ) = u
a
u
X
t

v=1

c) Distancia Ji-cuadrada.
v
u a
uX 1  piv
pjv 2

dij = d(Pi , Pj ) = t
p
pi
pj
v=1 v
donde

pv =

t
X

xgv ,

pi =

g=1

piv =

xiv
t
a
XX

a
X

xiv ,

pj =

v=1

,
xgv

g=1 v=1

pjv =

a
X

xjv

v=1

xjv
t
a
XX

xgv

g=1 v=1

Todava mas, el programa proporciona la posibilidad de utilizar distancias ponderadas, llamadas


desplazamiento (displacement), que son definidas como sigue:
Dij = D(Pi , Pj ) =

2Ni Nj
dij
Ni + Nj

Note que el desplazamiento entre el perfil de dos casos es igual a su distancia ya que Ni = Nj = 1.

58.5 Construcci
on de una tipologa inicial

58.5.

423

Construcci
on de una tipologa inicial

a) Selecci
on de la configuraci
on inicial. Antes de comenzar el proceso de agregacion de los casos, el
programa selecciona la configuracion inicial, es decir, t perfiles iniciales de grupo, en una de las formas
siguientes:
los perfiles de casos de t casos escogidos al azar (con n
umeros aleatorios) constituyen la configuraci
on de partida; para obtener la configuracion inicial, los casos restantes se distribuyen en t
grupos como se describe mas adelante;
los perfiles de casos de t casos escogidos por pasos constituyen la configuracion de partida; para
obtener la configuracion inicial, los casos restantes se distribuyen en t grupos como se describe
mas adelante;
la configuracion inicial es un conjunto de perfiles calculados para los casos distribuidos a lo largo
de las categoras de una variable clave;
la configuracion inicial es un conjunto de perfiles de grupo proporcionados a priori por el usuario.
Cuando la construcci
on comienza a partir de t perfiles, el programa considera este conjunto de t
vectores, como un conjunto de t casos de partida y distribuye los casos restantes de acuerdo a la
distancia de cada uno de los casos de partida.
Notemos el conjunto de los t casos de partida por
o
n
Ppartida = Pk1 , Pk2 , . . . , Pkt

y la distancia entre grupos y/o casos i y j por D(Pi , Pj ).

Note que D(Pi , Pj ) puede ser cualquier distancia definida en secci


on 4 mas arriba.
Para cada caso i 6 Ppartida el programa calcula
i
h
= mn D(Pi , Pkj )
1jt

i
h
= mn D(Pk1 , Pk2 ), D(Pk1 , Pk3 ), . . . , D(Pkt1 , Pkt )

Hay dos posibilidades:

: el caso i queda asignado al grupo mas cercano Pkj y el perfil de este grupo es calculado
nuevamente


Pkj = Pkj + Pi /2
> : el caso i construye un nuevo grupo que es a
nadido al conjunto Ppartida , y los dos perfiles
mas cercanos Pkj y Pkj0 se suman formando un nuevo grupo con el nuevo perfil


Pkj = Pkj + Pkj0 /2

Al final de este procedimiento, la configuracion inicial es un conjunto de t perfiles


o
n
Pinicial = P1 , P2 , . . . , Pj , . . . , Pt

donde Pj es el perfil medio de todos los casos correspondientes al grupo j.

En esta etapa, el programa no toma en cuenta la ponderaci


on de los casos, si esta existe.

b) Estabilizaci
on de la configuraci
on inicial. La configuracion inicial es estabilizada por medio de
un proceso iterativo. En cada iteraci
on, el programa redistribuye los casos entre los grupos iniciales
tomando en cuenta sus distancias de cada perfil de grupo.
Aqu tambien hay dos posibilidades:
cuando el caso i Pj y

h
i
D(Pi , Pj ) = mn D(Pi , Pg )
1gt

entonces el caso es mantenido en el grupo Pj ;

424

Tipologa y clasificaci
on ascendente
cuando el caso i Pj pero
h
i
D(Pi , Pj 0 ) = mn D(Pi , Pg )
1gt

entonces el caso i es transferido del grupo Pj al grupo Pj 0 , y los perfiles de esos dos grupos son
calculados nuevamente como sigue:
Pj = (Nj Pj Pi ) /(Nj 1)
Pj 0 = (Nj 0 Pj 0 + Pi ) /(Nj 0 + 1)
Despues de haber efectuado esta operaci
on, el grupo Pj contiene Nj 1 casos y el grupo Pj 0 contiene
0
Nj + 1 casos.
Note que si los casos est
an ponderados, entonces:
Nj = Nj wi
Nj 0 = Nj 0 + wi
Pi = wi Pi
umero de casos ponderados en los grupos Pj
en donde wi es igual al peso del caso i; Nj y Nj 0 son el n
and Pj 0 respectivamente.

La estabilidad de los grupos est


a medida por el porcentaje de casos que quedan en el mismo grupo
entre dos iteraciones sucesivas.
El procedimiento se repite hasta que los grupos se estabilizan o hasta que el n
umero de iteraciones
indicada por el usuario son efectuadas.

58.6.

Caractersticas de distancias por grupos

a) N. N
umero de casos en cada grupo de la tipologa inicial.
b) Media. Distancia media para cada grupo, es decir, el promedio de las distancias del perfil de grupo
sobre todos los casos que partenecen a este grupo.
c) D.E. Desviaci
on est
andar de la distancia para cada grupo.
d) Clasificaci
on de distancias. Distribucion de casos en terminos de frecuencia y porcentaje, a traves
de 15 intervalos continuos que son diferentes para cada grupo.
e) Conteo total. N
umero total de casos que participan en la construcci
on de la tipologa inicial.
f ) Media. Distancia media total.
g) D.E. Desviaci
on est
andar total de la distancia.
h) Clasificaci
on de distancias (lmites iguales para cada grupo). Igual que 6.d arriba, a la excepcion que los 15 intervalos tienen el mismo espectro en todos los grupos.

58.7.

Estadsticas de resumen

Son calculadas para las variables cuantitativas y para las variables cualitativas activas.
a) Media. Media de las xv cuantitativas, tales que xv (Xa Xp ). Para las categoras de variables
cualitativas, es una proporci
on de casos en esa categora.

xv =

wk xkv

58.8 Descripci
on de la tipologa resultante

425

b) D.E. Desviaci
on est
andar.

sv =

v

2
u
u W X w x2 X w x
u
k kv
k kv
t
k
k
W2

c) Peso. El valor de la ponderaci


on calculada para cada variable es como sigue:

v =

58.8.

para variables cuantitativas pasivas


para variables cuantitativas activas

(c+1)/3
c

para categoras de una variable cualitativa activa, donde


c es igual al n
umero de categoras con datos para esta variable
para categoras de una variable cualitativa activa
si se usa la distancia Ji-cuadrada.

Descripci
on de la tipologa resultante

Al final de la construcci
on de la tipologa inicial, y tambien al final de cada paso de la clasificacion ascendente,
todas las variables, es decir, activas y pasivas son evaluadas por una cantidad de variancia explicada. Es una
medida de poder discriminante de cada variable cuantitativa y de cada una de las categoras de las variables
cualitativas. Le sigue una descripci
on individual de todos los grupos de la tipologa.
a) Proporci
on de casos. Porcentaje multiplicado por 1000 de los casos que corresponden a cada grupo
de la tipologa.
b) Variancia explicada.
tg
X

i=1
VE(xv ) = X
k

Ni (xiv xv )

wk (xkv xv )2

1000

donde
tg
xiv
xv

= n
umero de grupos en la tipologa
= media de la variable v en el grupo i
= media global de la variable v.

c) Media global.
Para variables cuantitativas, los valores medios como descrito en 7.a arriba.
Para cada categora de las variables cualitativas, porcentaje de casos en esta categora.
d) Estadsticas para cada grupo de la tipologa.
Para variables cuantitativas:
primera lnea: valores medios tal como est
an descritos en 7.a arriba;
segunda lnea: desviaciones est
andar como est
an descritas en 7.b arriba.
Para cada categora de las variables cualitativas:
primera lnea: porcentaje de casos de columna;
segunda lnea: porcentaje de casos de fila.

426

58.9.

Tipologa y clasificaci
on ascendente

Resumen de la cantidad de variancia explicada por la tipologa

En forma similar a la descripci


on de la tipologa resultante, una tabla de resumen se imprime al final de la
construcci
on de la tipologa inicial y al final de cada paso de la clasificacion ascendente.
a) Variables que explican el 80 % de la variancia. Presenta las variables con mayor poder discriminante - que, tomadas todas juntas - son responsables de la explicaci
on de al menos el 80 % de la
variancia, junto con la cantidad de variancia explicada por cada una de ellas individualmente (ver 8.b
arriba).
b) Variancia explicada media por las variables activas.

VEactivas =

a
X

v VE(xv )

v=1
a
X

v=1

c) Variancia explicada media por todas las variables.

VEtodas =

a+p
X

v VE(xv )

v=1

a+p
X

v=1

d) Variancia explicada media por las variables que explican el 80 % de la variancia total.
Despues de cada agrupamiento, el programa busca las variables que explican al menos el 80 % de la variancia total e imprime la variancia media explicada por esas variables antes y despues del agrupamiento
as como el porcentaje de dichas variables.

58.10.

Clasificaci
on jer
arquica ascendente

Despues de haber creado la tipologa inicial, el programa efect


ua una serie de agrupamientos, reduciendo uno
por uno el n
umero inicial de grupos hasta el n
umero especificado por el usuario. A cada agrupamiento, el
programa selecciona los dos grupos mas cercanos, es decir, dos grupos con la menor distancia o desplazamiento
(ver secci
on 4 arriba), y calcula el perfil para este nuevo grupo.
a) Grupo i + j. Perfil del nuevo grupo, impreso hasta para 15 variables activas en orden descendiente
de su desviaci
on (ver 10.d mas abajo). Note que si hay menos de 15 variables activas, o menos de
15 variables con casos validos en grupos agregados, el programa completa la lista utilizando variables
pasivas.
b) Grupo i. Perfil del grupo i, impreso para las mismas variables que est
an indicadas arriba.
c) Grupo j. Perfil del grupo j, impreso para las mismas variables que est
an indicadas arriba.
d) Desv. Valor absoluto de la diferencia entre perfiles de los grupos i y j, impreso para las mismas
variables que est
an indicadas arriba.
Desv(xv ) = |xiv xjv |
e) Desviaci
on ponderada. Desviaci
on ponderada por el peso de la variable y por la desviacion est
andar,
impresa para las mismas variables que est
an indicadas arriba.
DesvP(xv ) = Desv(xv )

v
sv

58.11 Referencias

58.11.

427

Referencias

Aimetti, J.P., SYSTIT: Programme de classification automatique, GSIE-CFRO, Paris, 1978.


Diday, E., Optimisation en classification automatique, RAIRO, Vol. 3, 1972.
Hall & Ball, A clustering technique for summerizing multivariate data, Behavioral Sciences, Vol. 12, No 2,
1967.

Ap
endice

Mensajes de error de los programas


de IDAMS
Visi
on general
Se ha echo un esfuerzo para que los mensajes de error se expliquen por s mismos. Este Apendice esencialmente
describe el esquema de codificacion utilizado para los mensajes de error.

Errores y advertencias
Los errores (E) siempre causan la terminaci
on de la ejecuci
on de programas de IDAMS; las advertencias
(W) alertan al usuario acerca de posibles anormalidades en los datos y/o proposiciones de control as como
tambien, de una interpretaci
on equivocada de los resultados. Los mensajes de error y de advertencia tienen
el formato siguiente:
***E* aaannn texto del mensaje de error
***W* aaannn texto del mensaje de advertencia
donde
nnn

es un n
umero de tres dgitos, que empieza en 001 para las advertencias y en 101 para los errores;

aaa

indica de donde proviene el mensaje, seg


un las reglas siguientes:
Mensajes de los programas: la primera letra del nombre del programa seguida de las dos consonantes siguientes del nombre del programa.
Mensajes de las subrutinas:
SYN

errores de sintaxis general;

RCD

errores y advertencias de sintaxis de Recode;

DTM

errores en datos y diccionario y advertencias acerca de los archivos de datos y diccionario;

SYS

errores y advertencias del Monitor;

FLM

errores y advertencias sobre el manejo de archivos.

430

Mensajes de error de los programas de IDAMS

Mensajes de error de ejecuci


on que provienen de Fortran
Cuando se presentan errores durante la ejecuci
on de un programa, Visual Fortran RTL arroja mensajes de
diagnostico. Estos mensajes tienen el siguiente formato:
forrtl: severidad (numero): texto
forrtl
severidad
numero
texto

identifica la fuente como Visual Fortran RTL.


los niveles de severidad son: severo (debe corigirse), error (debera corigirse), advertencia
(debera investigarse), o info (s
olo informacion).
es el n
umero del mensaje, tambien el valor IOSTAT para proposiciones I/O (Entrada/Salida).
explica la causa del error.

Los mensajes de ejecuci


on se explican por si mismo y por esta raz
on, no se listan aqu.

Indice alfab
etico
agrupaci
on de datos, 59, 97
analisis
basado en ordenamiento parcial de puntajes, 245,
389
de clasificacion, 173, 293, 333, 421
de configuracion, 179, 341
de correspondencias, 197, 353
de preferencias, 259, 395
de proximidades, 215, 367
de regresion, 205, 221, 361, 373
de segmentacion binaria, 273, 407
de series de tiempo, 4, 323, 328
de variancia, 221, 239, 373, 385
discriminatorio, 185, 345
en componentes principales, 197, 353
factorial, 197, 353
analisis de variancia
multivariado, 231
analisis multivariado de variancia, 231
archivos
clasificacion, 157
Datos, 5, 79
de datos, 12
de diccionario, 14
de matrices, 5, 16
del sistema, 80
permanentes, 80
del usuario, 79
Diccionario, 5, 79
especificaci
on de, 23
intercalaci
on, 157
jerarquicos, 12
Matriz, 79
nombre, 79
rectangulares, creacion de, 57
Resultados, 79
Setup, 79
usados en WinIDAMS, 79
asimetra, 354, 414
blancos
identificaci
on, 112
recodificacion por BUILD, 103
c
odigos
incorrectos/invalidos, especificaci
on, 109
nombre de, 16
verificacion, 89, 109
carpetas
en WinIDAMS, 80
por defecto, 80

casos
activos, 358
duplicados
eliminacion con SUBSET, 163
tratamiento con MERGE, 151
eliminacion, 129, 161, 165
excenticos
tratamiento por MCA, 226
tratamiento por SEARCH, 277
faltantes, tratamiento con MERGE, 150
fijacion de n
umero a procesar, 30
identificacion con MERCHECK, 121
listado, 129, 145, 165
ordenamiento parcial, 245
pasivos, 360
selecci
on de, 25
centrado de configuraciones, 179, 341
clasificacion de alternativas, 259, 395
basada en la logica clasica, 259, 396
basada en la logica difusa, 259, 400, 402
clasificacion de archivos, 157
clasificacion de casos
basada en la logica difusa, 174, 336
basada en repartici
on, 173, 174, 334, 336
jerarquica, 173, 174, 293, 337339, 421
clasificacion de objetos
basada en la logica difusa, 174, 336
basada en repartici
on, 173, 174, 334, 336
jerarquica, 173, 174, 337, 338
clasificacion jerarquica
ascendente, 174, 177, 293, 337, 421
basada en variables dicotomicas, 174, 177, 339
de casos, 293, 421
descendente, 174, 177, 338
por aglomeracion, 174, 177, 337
por divisi
on, 174, 177, 338
cociente F, 223, 240, 387
coeficiente de Gini, 191, 350
coeficientes
B, 207, 254, 267, 364, 394, 406
beta, 207, 223, 364, 375
de contingencia, 281, 415
de correlaci
on
m
ultiple, 207, 223, 363, 376
parcial, 207, 362
r de Pearson, 206, 253, 362, 393
de regresion, 207, 254, 267, 364, 394, 406
de variacion, 361, 373, 375, 385, 414
eta, 223, 240, 375, 386
comandos de IDAMS

432

INDICE ALFABETICO

$CHECK, 21
listado, 60, 145
$COMMENT, 22
no numericos, edici
on, 103
$DATA, 22
numericos
$DICT, 22
edici
on, 103
$FILES, 22
tratamiento de campos no numericos, 13
$MATRIX, 22
reagrupamiento (ver agrupaci
on), 97
$PRINT, 22
recodificacion, 31, 59
$RECODE, 22
salvar datos recodificados, 165
$RUN, 23
transformaci
on, 59, 165
$SETUP, 23
para recodificacion, 31
comentario en el setup, 22
seguro con TRANS, 59
configuracion
validaci
on, 57, 58
analisis, 179, 341
verificacion
centrado, 179, 341
de consistencia, 57, 59, 115
matriz de configuracion, 179, 215, 295, 296, 341,
de intercalaci
on, 57, 58
367
de orden de clasificacion, 121, 161, 163
en entrada de CONFIG, 180
de valores, 57, 58, 109
en entrada de MDSCALE, 218
datos faltantes
en entrada de TYPOL, 296
asignacion de c
odigos por Recode, 51
en salida de CONFIG, 180
c
odigos de, 13
en salida de MDSCALE, 217
declaracion en el setup, 30
en salida de TYPOL, 295
definicion, 13
normalizaci
on, 180, 341
eliminacion por casos
proyeccion, 182
en PEARSON, 254
rotacion varimax, 180, 343
en REGRESSN, 206
transformaci
on, 180, 342
eliminacion por pares
correccion
en PEARSON, 253
de datos, 57, 59, 88, 129
especificaci
on en el diccionario, 15
de identificador de casos, 129
tratamiento con Recode, 34
Cramer (V de), 281, 306, 415
datos preferenciales
curva de Lorenz, 191, 350
selecci
on de alternativas, 261
tipos
de,
260
D de Sormer, 306
ddname, 23
dataset, definicion en IDAMS, 11
modificacion, 30
datasets
nombre por defecto, 30
construcci
on, 103
densidades,
318
copia, 161
desviaci
o
n
est
andar, 304, 345, 353, 361, 373, 374, 385,
importacion, 89
393,
394, 405, 406, 414, 425
intercalaci
on, 59, 149
determinaci
o
n
de prioridades, 259, 395
de diferente nivel, 59, 149
diagramas
de mismo nivel, 59, 149
agrupados, 320
preparacion, 58
de caja y bigotes, 319
subdivisi
on, 60, 161
de dispersi
on, 198, 202, 267, 316
datos
tridimensional,
320
actualizacion, 129
diccionario
agrupaci
on, 59, 97
archivos de, 5, 79
almacenamiento, 11
construcci
on, 86, 103
archivos de, 5, 79
correci
o
n,
86
conversi
on a modo binario, 13
descripci
o
n,
14
correccion, 57, 59, 88, 129
en el setup, 22
en el setup, 22
listado con LIST, 145
en IDAMS, 5
registros
entrada, 88
de c
odigos y nombres de categoras, 15
exportacion, 90, 135
de tipo C, 15
formato DIF, 136
de tipo T, 15
formato libre, 90, 136
descriptor de diccionario, 14
formato, 11
descriptores de variables, 15
importacion, 20, 89, 135
verificacion, 86
formato DIF, 137
distancia
formato libre, 89, 137

INDICE ALFABETICO
cuadra urbana, 176, 219, 297, 334, 371, 422
de Mahalanobis, 185, 346
euclideana, 176, 219, 297, 334, 370, 422
Ji-cuadrada, 297, 422
Durbin-Watson (estadstica de), 207, 365

factor de repetici
on en TABLES, 287
filtro, 25
colocacion, 25
local, 25
en ONEWAY, 242
en QUANTILE, 194
ELECTRE (metodo de clasificacion de alternativas),
en SCAT, 270
259, 396
en TABLES, 286
eliminacion
principal, 25
de casos
reglas de codificacion, 25
con CORRECT, 129
variables a usar, 26
con SUBSET, 161
variables alfabeticas., 26
con TRANS, 165
variables numericas, 26
de casos duplicados con SUBSET, 163
variables R, 26
de variables
Fisher
con SUBSET, 161
prueba exacta de, 281, 418
con TRANS, 165
prueba F de, 207, 223, 240, 363, 387
esfuerzo en analisis de proximidades, 216, 368
frecuencias
estadsticas, c
alculo de
bivariadas, 281, 305
bivariadas por TABLES, 281
univariadas, 281, 305
de residuos por MCA, 223
univariadas acumulativas, 281
para medicina basada en evidencia, 281
funci
on
univariadas, 318
de distribuci
on, 191, 349
interactivo, 304
de Lorenz, 191, 350
por AGGREG, 97, 98
discriminatoria lineal, 185, 346
por FACTOR, 198
funciones de Recode
por TABLES, 281
aritmeticas, 37
exploraci
on gr
afica interactiva, 4, 313
logicas, 45
exportacion
de datos, 90, 135
gamma (estadstica), 281, 306, 416
de matrices, 135
Gini (coeficiente de), 191, 350
de tablas multidimensionales, 306
histogramas, 318
facilidades de analisis
analisis de componentes principales, 3, 197, 353 IDAMS
caractersticas est
andar, 5
analisis de configuracion, 3, 179, 341
comandos, 21
analisis de conglomerados, 3, 173, 333
dataset, 11, 103
analisis de correspondencias, 3, 197, 353
construcci
on, 103
analisis de regresion, 3, 221, 373
exportacion, 90
analisis de variancia, 3, 221, 373
importacion, 89
analisis de variancia de una entrada, 3, 239, 385
datos
analisis discriminatorio, 3, 185, 345
exportacion, 135
analisis factorial, 3, 197, 353
importacion, 135
b
usqueda de estructura, 4, 273, 407
diccionario, construcci
on, 103
clasificacion jer
arquica ascendente, 4, 293, 421
especificaci
on de archivos, 23
correlaci
on de Pearson, 4, 253, 393
GraphID, 4, 313
diagramas de dispersi
on, 4, 267, 405
matrices, 16
escalamiento multidimensional, 3, 215, 367
exportacion, 135
exploraci
on gr
afica interactiva de datos, 4, 313
importacion, 135
funciones de distribuci
on y de Lorenz, 3, 191, 349
mensajes de error, 429
interactivo de series de tiempo, 4, 323
programas de, 2, 3
nubes de puntos, 4, 267, 405
proposiciones de control, 25, 61
ordenamiento de alternativas, 4, 259, 395
proposiciones de recodificacion, 31, 61
puntajes basados en el orden parcial de casos, 3,
245, 389
setup, 21, 61
regresion lineal, 3, 205, 361
tablas multidimensionales, 4, 303
segmentacion binaria, 4, 273, 407
TimeSID, 4, 323
tablas multidimensionales interactivas, 4, 303
identificador de caso
tablas univariadas y bivariadas, 4, 281, 413
correccion, 129
tipologia iterativa, 4, 293, 421
en LIST, 146

433

434
en MERGE (variables de emparejamiento), 154
importacion
de datos, 20, 89, 135
de matrices, 135
impresion de resultados, 93
imprimir
tablas, 306
interacciones
construcci
on de una variable de combinaci
on, 222
definicion, 221
deteccion y tratamiento, 221
intercalaci
on
de archivos, 157
de datasets, 59, 60, 149
de diferente nivel, 149
de mismo nivel, 149
Ji-cuadrada (prueba), 281, 306, 414
Kaiser (criterio de), 201
Kendall (taus de), 281, 306, 416
Kolmogorov-Smirnov (prueba de), 191, 350
kurtosis, 354, 414
logica difusa
clasificacion de alternativas, 259, 400, 402
clasificacion de objetos, 174, 336
lambda (estadsticas), 281, 306, 417
lista de variables, reglas de codificacion, 31
listado
de casos
con CORRECT, 129
con LIST, 145
con TRANS, 165
de datos con LIST, 60, 145
de diccionarios con LIST, 145
Lorenz
curva de, 191, 350
funci
on de, 191, 350
Mahalanobis (distancia de), 185, 346
Man-Whitney (prueba de), 281, 419
manejo de datos
agrupaci
on de datos, 2, 97
clasificacion e intercalaci
on de archivos, 2, 157
construcci
on de un dataset IDAMS, 2, 103
correccion de datos, 2, 129
importacion o exportacion de datos, 2, 135
intercalaci
on de datasets, 2, 149
listado de datos, 2, 145
subdivisi
on de datasets, 2, 161
transformaci
on de datos, 2, 165
verificacion de c
odigos, 2, 109
verificacion de consistencia, 2, 115
verificacion de intercalaci
on de datos, 2
verificacion de intercalaci
on de registros, 121
matriz
archivos de, 5, 16, 79
cuadrada, 17
descriptor, 17

INDICE ALFABETICO
formato, 17
de configuracion, 179, 215, 295, 296, 341, 367
en entrada de CONFIG, 180
en entrada de MDSCALE, 218
en entrada de TYPOL, 296
en salida de CONFIG, 180
en salida de MDSCALE, 217
en salida de TYPOL, 295
de correlaci
on, 206, 254, 362, 394
en entrada de CLUSFIND, 175
en entrada de REGRESSN, 208
en salida de PEARSON, 255
en salida de REGRESSN, 207
de correlaci
on parcial, 207, 362
de correlaciones, 355
de correspondencias, 355
de covariancia, 254, 394
en salida de PEARSON, 255
de covariancias, 355
de distancias, 180, 342
en salida de CONFIG, 180
de estadsticas, 281
de estadsticas bivariadas
en salida de TABLES, 284
de medidas de similitud/disimilitud, 173, 215,
334
en entrada de CLUSFIND, 175
en entrada de MDSCALE, 217
de productos cruzados, 207, 254, 361, 394
de productos escalares, 180, 342, 355
de relaciones, 197, 198, 260, 354, 399
en el setup, 22
exportacion, 135
formato libre, 137
importacion, 20, 135
formato libre, 137
inversa, 207, 362
programas que leen, 17, 18
programas que producen, 17, 18
proyeccion, 321
rectangular, 18
descriptor, 19
formato, 19
media, 304, 345, 353, 373, 374, 379, 385, 393, 394,
405, 413, 424
mensajes de error, 429
nombre
de c
odigos, 16
de variables, 15
normalizaci
on
de configuraciones, 180, 341
de la matriz de relaciones, 264, 400
nubes de puntos, 198, 202, 267, 316
palabras clave
est
andar, 27
reglas de codificacion, 29
tipos de, 28
par
ametros

INDICE ALFABETICO
colocacion, 27
comunes, 30
BADDATA, 30
INFILE, 30
MAXCASES, 30
MDVALUES, 30
OUTFILE, 30
VARS, 31
WEIGHT, 30
formatos de especificaci
on, 27
presentacion en el Manual, 27
reglas de codificacion, 29
valores por defecto, 28
Pearson (coeficiente r de), 206, 253, 362, 393
pesos, 30
ponderaci
on de datos, 30
porcentajes
basados en el gran total, 281, 304
basados en totales de columna, 281, 304
basados en totales de fila, 281, 304
predictores, 221, 239, 273
preferencia
debil, 260
estricta, 260
programas
de analisis de datos, 3
de manejo de datos, 2
ejemplo de setup, 60
promedio, 333, 361
proposiciones de control
filtro, 25
parmetros, 27
reglas de codificacion, 25
ttulo, 27
proposiciones de Recode, 31
asignacion, 46
condicionales, 50
control, 48
definicion/asignacion, 50
verificacion, 35, 165
proposiciones, ejemplo de setup, 60
proyeccion
de casos, 198, 267, 316
de variables, 198
prueba
de Durbin-Watson, 207, 365
de Kolmogorov-Smirnov, 191, 350
de Man-Whitney, 281, 419
de Wilcoxon, 281, 419
exacta de Fisher, 281, 418
F de Fisher, 223, 240, 387
Ji-cuadrada, 281, 306, 414
t de Student, 281, 420
puntajes
calculados por FACTOR, 198
calculados por POSCOR, 246
quantiles, 193, 283, 349, 414
reagrupamiento de datos con AGGREG, 97

435
Recode
constantes (tipos de), 35
expresiones, 36
aritmeticas, 36
logicas, 36
forma de proposiciones, 33
funciones aritmeticas, 37
funciones logicas, 45
iniciacion de valores de variables, 34
lenguaje, elementos de, 35
operadores
aritmeticos, 35
logicos, 36
relacionales, 36
operandos b
asicos, 35
proposiciones, 46, 48
reglas de codificacion, 33
restricciones, 54
tratamiento de datos faltantes, 34
variables V y R, 35
Recode, funciones aritmeticas
ABS, 37
BRAC, 37
COMBINE, 38
COUNT, 39
LOG, 39
MAX, 40
MD1, MD2, 40
MEAN, 40
MIN, 40
NMISS, 41
NVALID, 41
RAND, 41
RECODE, 41
SELECT, 42
SQRT, 43
STD, 43
SUM, 43
TABLE, 43
TRUNC, 44
VAR, 45
Recode, funciones logicas
EOF, 45
INLIST, 45
MDATA, 46
Recode, proposiciones
BRANCH, 48
CARRY, 51
CONTINUE, 48
DUMMY, 47
ENDFILE, 48
ERROR, 49
GO TO, 49
IF, 50
MDCODES, 51
NAME, 51
REJECT, 49
RELEASE, 49
RETURN, 49

436
SELECT, 47
recodificacion
de blancos con BUILD, 103
de datos, 31, 59
salvar variables recodificadas, 165
registros
duplicados, identificaci
on y correccion, 122
eliminados, tratamiento, 122
faltantes, deteccion y reemplazo, 122
identificacion en MERCHECK, 121
invalidos, identificaci
on y correccion, 122
regresion, 205, 361
con variables categ
oricas, 205, 221
con variables ficticias, 205, 221
lneas de, 318
lineal m
ultiple, 205, 361
por pasos, 205, 365
por pasos descendente, 205, 366
repartici
on
alrededor de medoides, 174, 177, 334, 336
basada en la logica difusa, 174, 177, 336
residuos, 206, 221, 273, 376, 409411
en salida de MCA, 224
en salida de REGRESSN, 208
en salida de SEARCH, 274
ro de Spearman, 281, 416
rotacion varimax
de configuraciones, 180, 343
de factores, 198, 360
salvar
datos recodificados, 165
variables recodificadas, 165
segmentacion binaria, 273, 407
selecci
on
de casos, 25
de variables, 31
series de tiempo
analisis, 323, 328
autoregresion, 328
correlaciones, 328
espectro, 328
espectro cruzado, 328
estadsticas, 328
filtros de frecuencia, 329
proyeccion, 326
transformaci
on, 327
setup
archivos de, 5, 79, 91
comentarios, 22
ejecuci
on, 92
preparacion, 91
Sormer (D de), 306
Spearman (ro de), 281, 416
Student (prueba t de), 207, 281, 365, 420
subdivisi
on de datasets, 60, 161
sumas de cuadrados, 207, 223, 240, 361, 374, 386
ttulo
colocacion, 27

INDICE ALFABETICO
reglas de codificacion, 27
tablas
bivariadas, 281, 305, 413
de 3 y 4 entradas, 281
de contingencia, 281, 413
de estadsticas en salida de TABLES, 284
de factores, 198, 356
de frecuencias bivariadas, 281
de frecuencias univariadas, 281
de frecuencias univariadas acumulativas, 281
multidimensionales, 305
univariadas, 281, 305, 413
tau (estadsticas), 281, 306, 416
tipologa iterativa, 293, 421
transformaci
on
de configuraciones, 180, 342
de datos, 59, 165
para recodificacion, 31
seguro con TRANS, 59
de series de tiempo, 327
V de Cramer, 281, 306, 415
validaci
on de datos, 57, 58
valores excentricos
tratamiento por MCA, 226
tratamiento por SEARCH, 277
valores no numericos, tratamiento, 30
valores propios, 355, 356
valores residuales, 206, 221, 273, 376, 409411
en salida de MCA, 224
en salida de REGRESSN, 208
en salida de SEARCH, 274
variable
de clasificacion producida por TYPOL, 295
de combinaci
on, 222
de grupo, 187
de muestra, 187
variables
activas, 197, 293, 356, 421
agrupadas, 97
alfabeticas, 13
categoricas
en MCA, 221
en REGRESSN, 205, 211
nombres de c
odigos, 16
con decimales, 12
construidas por POSCOR, 246
cualitativas, nombres de c
odigos, 16
de control, 97, 221, 239
eliminacion, 161, 165
ficticias
en MCA, 221
en REGRESSN, 205, 211
lista de, 31
colocacion, 31
reglas de codificacion, 31
localizacion en los registros, 15
nombre de, 15
asignacion por Recode, 51
numericas, 12

INDICE ALFABETICO
correccion, 129
edici
on, 14, 103
tratamiento de campos no numericos, 13
tratamiento por BUILD, reglas de, 103
pasivas, 197, 293, 358, 421
referencia a, 12
salvar variables recodificadas, 165
selecci
on de, 31
suplementarias, 197
variancia, analisis de, 221, 239, 373, 385
varimax
rotacion de configuraciones, 180, 343
rotacion de factores, 198, 360
vectores propios, 355
verificacion
de c
odigos con ayuda de registros C, 89, 109
de consistencia, 57, 59, 115
de intercalaci
on de datos, 57, 58
de proposiciones Recode, 35, 91, 165
de valores de datos, 57, 58, 109
del orden de clasificacion de datos, 121, 161, 163
Wilcoxon (prueba de), 281, 419
WinIDAMS
archivos, 79
carpetas, 80
personalizacion del ambiente, 83

437

También podría gustarte