Computación III-Tema 04 Manipulacion Datos

2
04
IBM SPSS STATISTICS 22.0

Manipulación de Datos
Capacidad:
Reconoce y utiliza herramientas para la manipulación de datos.
Contenidos:
1. Ordenar casos
2. Selección de casos
3. Agregación de datos
4. Fusión de archivos
5. Ponderar casos
6. Segmentar archivo
1. Ordenar Casos:
Esta opción permite ordenar los casos (las filas “vista de datos”) del conjunto
de datos activos basándose en los valores de una o más variables de
ordenación. Puede ordenar los casos en orden ascendente o descendente,
del más antiguo al más reciente o en forma alfabética.
La ruta de acceso a esta opción es:
Datos Ordenar Casos
Figura N° 01: Base Datos – “Hábitos y Estilos de Vida”
Ejemplificaremos con la base de datos: hábitos y estilos de vida.sav.

En la que la variable N_Encuesta presenta desorden sus registros, y
mediante la opción ordenar datos, podremos corregir.
Figura N° 01: Base Datos – “Hábitos y Estilos de Vida”
Trasladamos de izquierda a derecha la variable de interés, y en forma

automática se activará el campo “ordenado”, y finalmente hacemos click
sobre el boton aceptar
***En actividades posteriores de “ordenar casos”, aplicar “restablecer”
MÓDULO DE COMPUTACIÓN III 2

2. Selección de Casos:
Este tipo de opción, nos proporciona varios métodos para seleccionar un
subgrupo de casos basándose en criterios que incluyen variables y
expresiones complejas. También se puede seleccionar una muestra aleatoria
de casos.
La ruta de acceso a esta opción:
Datos Seleccionar Casos
a) Todos los Casos: Esta opción por defecto siempre tendrá en cuenta
todos los registros existentes dentro de nuestra base de datos.
O también nos permite “desactivar” alguna selección realizada (mensaje
filter off en visor de resutlados).
b) Si se satisface la condición: Mediante esta opción, podremos

seleccionar casos bajo ciertos criterios.
Por ejemplo, tomaremos la base de datos: hábitos y estilos de vida.sav.
Y seleccionaremos únicamente a los de género Masculino (variable
“Género”), pero sabemos que como configuración de ítems, dicha variable
tiene las etiquetas: 1 “Masculino” y 2 “Femenino”.
Figura N° 02: Selección de Datos / “Si se satisface la condición”
Finalmente, click sobre botón continuar y después aceptar.

Figura N° 03: Resultado / “Si se satisface la condición”
Como apreciamos en la figura N°03, hay casos “tachados”, los cuales

confirman que NO SE ESTÁN TOMANDO EN CUENTA dentro de la base
datos, y a su vez se ha generado una variable filter_$ teniendo como
etiquetas (“selected” y “no selected”).
Cuando deseemos desactivar el filtro, podemos apoyarnos en la opción
Todos los casos.
c) Muestra aleatoria de casos: En esta opción, casi similar a la anterior,

peroa diferencia, que esta solo selecciona casos sin tener algun criterio
en especial. A su vez esta tiene 02 tipos de selección:
- Selección Aproximada: La asignación de casos seleccionados son
aproximado. Por ejm. Seleccionar 50% casos (sabiendo que el total de
ellos es 30) y que posiblemente se seleccionen 27 ó 28 casos.
Figura N° 04: Muestra Aleatoria de Casos – Aproximada

- Selección Exacta: Como la misma descripción lo dice, es exacta la
asignación de casos. Por ejemplo, se seleccione exactamente 25
casos de los primeros 30 (total de casos).
Figura N° 04: Muestra Aleatoria de Casos – Exacta
3. Agregación de datos:
Mediante esta opción, podemos agregar grupos de casos en el conjunto de
datos activo en casos individuales y crea un archivo nuevo agregado o
variables nuevas en el conjunto de datos activo que contiene los datos
agregados. Los casos se agregan en función del valor de cero o más
variables de segmentación (agrupación). Si no se han especificado variables
de segmentación, el conjunto de datos completo es un grupo de
segmentación simple.
Tiene algunas consideraciones a tomar en cuenta:

 Si crea un archivo de datos agregado nuevo, dicho archivo de datos nuevo
contiene un caso para cada grupo definido por las variables de
segmentación. Por ejemplo, si hay una variable de segmentación con dos
valores, el archivo de datos nuevo contiene sólo dos casos. Si no se
especifica una variable de segmentación, el nuevo archivo de datos
contendrá un caso.

 Si añade variables agregadas al conjunto de datos activo, no se agrega el
archivo de datos. Cada caso con los mismos valores de variables de
segmentación recibe los mismos valores para las nuevas variables
agregadas. Por ejemplo, si sexo es la única variable de segmentación,
todos los hombres reciben el mismo valor para la variable agregada nueva
que representa la edad media. Si no se especifica una variable de
segmentación, todos los casos recibirán el mismo valor para una nueva
variable agregada que representa una edad media.
Trabajaremos nuevamente con la base de datos:

hábitos y estilos de vida.sav.
Para ello ingresamos a la ruta:
Datos Agregar
Y tendremos en cuenta la variable de segmentación “GÉNERO”, y como

nuevas variables agredas “EDAD”, y así poder conocer algunas
funciones de agregación, que serían las medidas tipo: media, mediana,
desviación estándar, etc.
Figura N° 05: Agregar

Vale acotar lo siguiente:
 Variables de segmentación: Los casos se agrupan en función de los
valores de las variables de segmentación. Cada combinación
exclusiva de valores de variables de segmentación define un grupo.
Al crear un archivo de datos agregados nuevo, todas las variables de
segmentación se guardan en el archivo nuevo con sus nombres y la
información del diccionario. Si se especifica la variable de
segmentación, puede ser tanto numérica como de cadena.
 Variables agregadas: Las variables de origen se utilizan con

funciones función de agregación para crear variables agregadas
nuevas. El nombre de la variable agregada viene seguido de una
etiqueta de variable opcional, el nombre de la función de agregación
y el nombre de la variable de origen entre paréntesis.
Figura N° 05: Agregar – Salida Final
Finalmente, después de haber asignado las funciones respectivas, en

forma automática se genera un nuevo archivo de datos mostrando el
detalle de la segmentación de información.

4. Fusión de archivos:
En algunas ocasiones se cuenta con información complementaria distribuida
en varios archivos de datos, lo que impide realizar un análisis con la totalidad
de la información, debido a que SPSS únicamente nos permite tener un solo
archivo de datos abierto a la vez. Para poder generar análisis con el total de
la información, es necesario aglomerar los datos (Variables y casos) de las
diferentes fuentes dentro de un único archivo.
En entonces que IBM SPSS, cuenta con un procedimiento que nos permite
congregar información proveniente de diferentes archivos, con la condición
que el proceso se realice en pares de ficheros; es decir, sólo podemos reunir
información de dos archivos por cada proceso de fusión que se ejecute.
Para la unión de información, el procedimiento nos ofrece dos posibilidades,

la primera consiste en agregar los casos o respuestas de una fuente externa
dentro del archivo principal y la segunda consiste en importar las variables y
sus respectivas respuestas desde una fuente externa
Se tomará en cuenta, para ejemplificar esta opción, las siguientes bases de

datos:
Material de Computación III - Temas N° 04 - Hábitos y Estilos de Vida
Material de Computación III - Temas N° 04 - Hábitos y Estilos de Vida 02
Y la ruta para acceder a la opción es:
Datos Fusionar Archivos
a) Fusionar / Casos: Mediante esta opción, agregaremos casos de la base

de datos 02 hacia la base actual.
La base de datos 02 contiene las mismas variables, pero los casos son a
partir del caso 31 a 60, y así la cantidad de casos en base sean 60.
Mencionaremos las pautas a tener en cuenta:

Figura N° 06: Fusionar Archivos – Casos
1º. Accedemos a la ruta, y seleccionamos la opción Un archivo de

datos de SPSS Statistics externo, es decir seleccionaremos el
archivo 02.
2º. Como es de conocimiento, el archivo inicial contiene un total de 30
casos con las mismas variables en ambos archivos, es decir solo
se continuará con a partir del caso 31 hacia adelante.
Figura N° 07: Salida: Fusionar Archivos – Casos
3º. Y en efecto, la figura N° 07, nos muestra que se agregaron más

casos a la base de datos actual.

b) Fusionar / Variables: Para combinar dos archivos con los mismos casos
pero con distintas variables es necesario que ambos archivos sean
archivos de datos SPSS (*sav), y que los casos estén en el mismo orden;
además, si se utiliza una o más variables como criterio de
emparejamientos (variable clave).
La base de datos 04 contiene las mismas variables, pero hay una 06

variable (P6_calificación), y a su vez contienen la misma cantidad de
casos (30 casos).
Material de Computación III - Temas N° 04 - Hábitos y Estilos de Vida
Material de Computación III - Temas N° 04 - Hábitos y Estilos de Vida 04
Mencionaremos las pautas a tener en cuenta:
1º. Accedemos a la ruta, y seleccionamos la opción Un archivo de datos

de SPSS Statistics externo, es decir seleccionaremos el archivo 04.
Figura N° 06: Fusionar Archivos – Variables
2º. Luego, sabiendo que en AMBAS BASES la variable coincidente y

en común es N_Encuesta, agregamos a variable clave, y así la
variable nueva P6_Calfica que está en la base de datos 04, pueda
fusionarse con la base actual (figura N° 07).

Figura N° 06: Fusionar Archivos – Configuración
3º. Luego de esto, aceptamos la configuración, para finalmente

concretar que la variable P6_Califica se encuentra en la base de
datos actual.
Figura N° 07: Fusionar Archivos – Salida Final

5. Ponderar casos:
Algunos análisis estadísticos requieren emplear coeficientes de ponderación
para asignar importancias diferentes a los valores de la variable. Esta opción,
permite utilizar una variable como criterio de ponderación, el único requisito
es que dicha variable esté en el archivo activo y sus valores serán las
ponderaciones.
La ponderación de casos es una forma rápida de introducir repeticiones
virtuales de casos con los mismos valores para sus variables.
Ante ello se debe de tener en cuenta lo siguiente:

 Los valores de la variable de ponderación deben indicar el número de
observaciones representadas por casos únicos en el archivo de datos.
 Los casos con valores perdidos, negativos o cero para la variable de

ponderación se excluyen del análisis.
 Los valores fraccionarios son válidos y algunos procedimientos, como

Frecuencias, Tablas cruzadas y Tablas personalizadas, utilizan
valores de ponderación fraccionarios. Sin embargo, la mayoría de los
procedimientos consideran la ponderación de variables una
ponderación de réplica y simplemente redondean las ponderaciones
fraccionarias al número entero más cercano. Algunos procedimientos
ignoran por completo la variable de ponderación, y esta limitación se
indica en la documentación específica del procedimiento.
Datos Ponderar Casos

1º. Accedemos a la ruta, y seleccionaremos la variable

P4_Hrs_Estud.

Figura N° 08: Ponderar Casos – Salida Final
2º. Constatamos mediante la salida que está Activo la “ponderación

de casos”, para de esta forma poder hacer procesos estadísticos.
6. Segmentar archivos:
Permite dividir el archivo de datos en distintos grupos para el análisis
basándose en los valores de una o más variables de agrupación. Si
selecciona varias variables de agrupación, los casos se agruparán por
variable dentro de las categorías de la variable anterior de la lista Grupos
basados en. Por ejemplo, si selecciona sexo como la primera variable de
agrupación y minoría como la segunda, los casos se agruparán por minorías
dentro de cada categoría de sexo.
Es posible especificar hasta ocho variables de agrupación.

Cada ocho bytes de una variable de cadena larga (variables de cadena que
superan los ocho bytes) cuenta como una variable hasta llegar al límite de
ocho variables de agrupación.
Los casos deben ordenarse según los valores de las variables de agrupación,
en el mismo orden en el que aparecen las variables en la lista Grupos.

Datos Segmentar Archivos

1º. Accedemos a la ruta, y seleccionaremos la variable Género.

La cual será la referencia para realizar análisis posteriores.
2º. Debemos de activar la opción Comparar los Grupos
Figura N° 09: Segmentar archivo
3º. Luego realizaremos un breve análisis de detalle de la variable

P1_Activ_Dep, y poder apreciar “cómo segmenta la información
por la variable SEXO”.
***Haremos la ruta:
Analizar -> Estadísticos Descriptivos -> Frecuencia

Figura N° 09: Análisis de Variable SEGÚN Género

Referencias Bibliográficas:
 Rodríguez Franco, J., Pierdant Rodríguez, A., & Rodríguez Jiménez, E.

C. (2016). Estadística para la Administración. México: Grupo Editorial
Patria.
 Tomás Sábado, J. (2009). Fundamentos de Bioestadística y análisis de
datos para enfermería. Barcelona: Servei de Publicacions.
 Fernandez Fernandez, S., Cordoba Largo, A., & Cordero Sánchez, J. M.
(2002). Estadística Descriptiva.
 Salafranca Cosialls, L., Nuñez Peña, M. I., & Serra Delgado, G. (2001).
Estadística Aplicada con SPSS y StatGraphics. Barcelona: Universidad
de Barcelona.
Enlace Web
 Statistics, I. S. (2017). Documentación técnica del producto de IBM.
Obtenido de https://www.ibm.com/support/knowledgecenter/es/

Computación III-Tema 04 Manipulacion Datos

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Computación III-Tema 04 Manipulacion Datos

Cargado por

Copyright:

Formatos disponibles

2

IBM SPSS STATISTICS 22.0

Datos Ordenar Casos

Figura N° 01: Base Datos – “Hábitos y Estilos de Vida”

Ejemplificaremos con la base de datos: hábitos y estilos de vida.sav.

Figura N° 01: Base Datos – “Hábitos y Estilos de Vida”

Trasladamos de izquierda a derecha la variable de interés, y en forma

MÓDULO DE COMPUTACIÓN III 2

Datos Seleccionar Casos

b) Si se satisface la condición: Mediante esta opción, podremos

Figura N° 02: Selección de Datos / “Si se satisface la condición”

Finalmente, click sobre botón continuar y después aceptar.

MÓDULO DE COMPUTACIÓN III 3

Como apreciamos en la figura N°03, hay casos “tachados”, los cuales

c) Muestra aleatoria de casos: En esta opción, casi similar a la anterior,

Figura N° 04: Muestra Aleatoria de Casos – Aproximada

MÓDULO DE COMPUTACIÓN III 4

Figura N° 04: Muestra Aleatoria de Casos – Exacta

Tiene algunas consideraciones a tomar en cuenta:

MÓDULO DE COMPUTACIÓN III 5

Trabajaremos nuevamente con la base de datos:

Y tendremos en cuenta la variable de segmentación “GÉNERO”, y como

Figura N° 05: Agregar

MÓDULO DE COMPUTACIÓN III 6

 Variables agregadas: Las variables de origen se utilizan con

Figura N° 05: Agregar – Salida Final

Finalmente, después de haber asignado las funciones respectivas, en

MÓDULO DE COMPUTACIÓN III 7

Para la unión de información, el procedimiento nos ofrece dos posibilidades,

Se tomará en cuenta, para ejemplificar esta opción, las siguientes bases de

Y la ruta para acceder a la opción es:

Datos Fusionar Archivos

a) Fusionar / Casos: Mediante esta opción, agregaremos casos de la base

MÓDULO DE COMPUTACIÓN III 8

1º. Accedemos a la ruta, y seleccionamos la opción Un archivo de

Figura N° 07: Salida: Fusionar Archivos – Casos

3º. Y en efecto, la figura N° 07, nos muestra que se agregaron más

MÓDULO DE COMPUTACIÓN III 9

La base de datos 04 contiene las mismas variables, pero hay una 06

Mencionaremos las pautas a tener en cuenta:

1º. Accedemos a la ruta, y seleccionamos la opción Un archivo de datos

Figura N° 06: Fusionar Archivos – Variables

2º. Luego, sabiendo que en AMBAS BASES la variable coincidente y

MÓDULO DE COMPUTACIÓN III 10

3º. Luego de esto, aceptamos la configuración, para finalmente

Figura N° 07: Fusionar Archivos – Salida Final

MÓDULO DE COMPUTACIÓN III 11

Ante ello se debe de tener en cuenta lo siguiente:

 Los casos con valores perdidos, negativos o cero para la variable de

 Los valores fraccionarios son válidos y algunos procedimientos, como

La ruta de acceso a esta opción:

Datos Ponderar Casos

Trabajaremos nuevamente con la base de datos:

1º. Accedemos a la ruta, y seleccionaremos la variable

MÓDULO DE COMPUTACIÓN III 12

2º. Constatamos mediante la salida que está Activo la “ponderación

Es posible especificar hasta ocho variables de agrupación.

MÓDULO DE COMPUTACIÓN III 13

Datos Segmentar Archivos

Trabajaremos nuevamente con la base de datos:

1º. Accedemos a la ruta, y seleccionaremos la variable Género.

2º. Debemos de activar la opción Comparar los Grupos

Figura N° 09: Segmentar archivo

3º. Luego realizaremos un breve análisis de detalle de la variable