Está en la página 1de 6

AGREGAR DATOS / AGGREGATE

Este comando permite resumir la información de varios casos en una sola variable. O bien, generar
una nueva base de datos con la información agregada, reduciendo el número de casos del archivo
original. Esta última opción es especialmente útil para trabajar con unidades de análisis que se
forman a partir de la agrupación de elementos menores, por ejemplo, número de personas por
comuna, promedio de ocupados por hogar, etc. En bases de datos como la del Censo de Población
y Vivienda o la Encuesta CASEN se transforma en una herramienta muy útil.

Para ejemplificar el resumen de datos, supongamos que en una base hay datos de una serie de
personas que viven en dos hogares diferentes, sobre las cuales se informa su ingreso del mes
pasado. El comando AGGREGATE permitirá contarlas e incorporar una nueva variable que dé
cuenta de este conteo, para cada hogar en específico y también permitirá conocer la sumatoria de
los ingresos de integrantes de cada hogar, o el promedio per cápita. La tabla 1 ilustra estos
ejemplos:

Tabla 1: Ejemplo de agregación de datos

VARIABLES ORIGINALES NUEVAS VARIABLES CREADAS CON AGGREGATE


Promedio de
Número de
Ingresos totales por ingresos por persona
Hogar Nombre Ingresos (en $) personas por
hogar (en $) para cada hogar (en
hogar
$)
1 Ana 100.000 6 616.245 102.708
1 José 123.456 6 616.245 102.708
1 Claudia 345.789 6 616.245 102.708
1 Patricio 45.000 6 616.245 102.708
1 Ricardo 0 6 616.245 102.708
1 Alan 2.000 6 616.245 102.708
2 Víctor 500.000 3 500.000 166.667
2 Bárbara 0 3 500.000 166.667
2 Elías 0 3 500.000 166.667

Suponiendo que una base de datos sólo tiene información sobre el nombre de las seis personas
que residen en el hogar 1 y las tres del hogar 2, así como también sobre los ingresos recibidos en
el último mes, el comando AGGREGATE permite conocer, entre otras cosas, cuál es el total de
personas que vive en dichos hogares (seis y tres personas, respectivamente), los ingresos totales
recibidos ($616.245 y $500.000 para cada caso) y el promedio de ingreso por persona ($102.708
en el hogar 1 y $166.667 en el hogar 2). Las variables creadas se repetirán tantas veces como
miembros del hogar existan.

Para acceder a este comando en SPSS, se debe hacer clic en la pestaña DATOS, y luego seleccionar
AGREGAR. Se desplegará una ventana como la que muestra la figura 1.

1
Figura 1: Cuadro de diálogo Agregar datos… (DATOS/AGREGAR)

Hay dos elementos muy importantes en este cuadro de diálogo: la opción VARIABLES DE
SEGMENTACIÓN y la opción RESÚMENES DE VARIABLES.

 Variables de segmentación: permite definir el criterio de agrupación de los casos de la


variable original. Puede ser una o más variables, numéricas o de cadena (aunque se
recomienda utilizar las primeras, ya que son mucho más manejables). Lo importante es que
permitan ordenar la información de cada uno de los casos.

 Resúmenes de variables: señala cual será la variable original que se transformará en una
nueva variable, a partir del criterio de segmentación. El valor de la nueva variable es el
resultado de aplicar alguna FUNCIÓN (justo debajo del cuadro). También es posible agregarle
NOMBRE Y ETIQUETA (al lado derecho de FUNCIÓN).

Un ejemplo permite ver el uso desplegado de este comando. Para ello se utilizará la base de datos
de CASEN 2011. Se utilizará como variable de segmentación la comuna y como resumen, el
número de personas, con el fin de conocer cuántas personas fueron encuestadas en cada comuna.

Como paso previo, es necesario crear una variable que muestre la presencia del atributo buscado.
En este caso, dado que la base es de personas, sólo bastaría con asociar cualquier variable con
información al valor 1, en una nueva variable. Pero otro tipo de atributos, por ejemplo, si la

2
persona es ocupada, tiene determinada edad o es estudiante, requiere de una adecuada
definición. Lo importante es que SIEMPRE se haga en términos dicotómicos, de 1 y 0, pues ello
facilita muchísimo el análisis.

En el ejemplo, cualquier caso en que haya información en la variable SEGMENTO tendrá el valor 1
en la nueva variable PERSONA. Es muy importante que el cálculo se haga sin ponderar y para todos
los casos, por lo que se incluyen los comandos WEIGHT OFF y FILTER OFF para cumplir esos fines.1
La sintaxis es la siguiente:

WEIGHT OFF.
FILTER OFF.
RECODE segmento (ELSE=1) INTO Persona.
EXECUTE.

La figura 2 muestra las variables seleccionadas para realizar la agregación de información. En el


caso expuesto, se contara a las personas encuestadas por región.

Figura 2: Selección de variables para segmentación y resumen

El programa por defecto utiliza la función MEAN para cualquier variable seleccionada. Por lo
mismo, la nueva variable a crear tiene el nombre PERSONA_MEAN. Dado que no interesa realizar

1
De todas formas, también se puede utilizar con datos ponderados, dependiendo de los objetivos buscados.

3
dicho cálculo, es necesario cambiar la función, para realizar un conteo de personas. La figura 3
muestra el despliegue de la subventana FUNCIÓN.

Figura 3: Cuadro de diálogo Agregar datos: Funciones de agregación

Una vez desplegada la ventana, se debe seleccionar la opción SUMA, en ESTADÍSTICOS DE


RESUMEN.2 Esto sumará todos los valores 1 por comuna. Todos los casos que presenten la misma
comuna, tendrán el número específico de personas que informaron a la CASEN. Al regresar a la
selección de variables para segmentación y resumen, se observa que la variable a crear se
denomina ahora como PERSONA_SUM (Figura 4).

Figura 4: Selección de variables para segmentación y resumen, con función SUM

2
En el ejemplo, es posible obtener el mismo resultado con la función NÚMERO DE CASOS/NO PODERADADOS
(sigla NU). Las funciones de agregación son bastante limitadas y se remiten sólo a operaciones básicas de conteo.
Sin embargo, un adecuado conocimiento lógico de las relaciones entre las variables puede resultar bastante potente
para construir este tipo de variables en la base de datos.

4
Al presionar el botón NOMBRE Y ETIQUETA…, es posible cambiar el nombre a la nueva variable a
crear. En este caso, de PERSONA_SUM a PERSONA_COMUNA. También es posible ponerle una
etiqueta: “Personas encuestadas por comuna” (Figura 5)

Figura 5: Despliegue de botón NOMBRE Y ETIQUETA…

Todo este procedimiento se resume en la siguiente sintaxis:

AGGREGATE
/OUTFILE=* MODE=ADDVARIABLES
/BREAK=comuna
/Personas_comuna 'Personas encuestadas por comuna'=SUM(Persona).

En la base de datos hay 200.032 personas. Es decir, es la cantidad de veces que aparecen casos en
la variable PERSONAS_COMUNA. Para conocer el número de personas encuestadas por comuna,
basta sólo con calcular la moda:

5
FREQUENCIES VARIABLES=comuna
/STATISTICS=MODE
/ORDER=ANALYSIS.

Es posible realizar otro tipo de análisis. Es importante señalar algo sobre la identificación del hogar
En CASEN 2011, ésta la que entrega la variable FOLIO. Pero no todas las bases de datos de la
encuesta CASEN asocian FOLIO a hogar. En la versión 2011, ésta se construye con la concatenación
de las unidades jerárquicas COMUNA, ZONA, MANZANA (código único en la encuesta, que no
figura en la base de datos de modo independiente), VIV y HOG. Lamentablemente este criterio no
está estandarizado, por lo que se transforma en un punto crítico previo al análisis, lo cual hace
fundamental un adecuado estudio de los manuales de usuario.

Eduardo Toro, abril de 2013

También podría gustarte