Documentos de Académico
Documentos de Profesional
Documentos de Cultura
El contenido de este libro no puede ser reproducido, duplicado o transmitido sin el permiso por
escrito del autor o el editor.
Bajo ninguna circunstancia se culpará o se responsabilizará legalmente al editor o al autor por daños,
reparaciones o pérdidas monetarias debidas a la información contenida en este libro. Ya sea directa o
indirectamente.
Aviso Legal:
Este libro está protegido por derechos de autor. Este libro es solo para uso personal. No puede
enmendar, distribuir, vender, usar, citar o parafrasear ninguna parte o el contenido de este libro, sin el
consentimiento del autor o editor.
Aviso de exención de responsabilidad:
Tenga en cuenta que la información contenida en este documento es solo para fines educativos y de
entretenimiento. Se han realizado todos los esfuerzos para presentar información precisa, actualizada
y confiable. Ninguna garantía de ningún tipo está declarada o implícita. Los lectores reconocen que
el autor no participa en la prestación de asesoramiento legal, financiero, médico o profesional. El
contenido de este libro ha sido derivado de varias fuentes. Consulte a un profesional con licencia
antes de intentar cualquier técnica descrita en este libro.
Al leer este documento, el lector acepta que bajo ninguna circunstancia el autor es responsable de
cualquier pérdida, directa o indirecta, en que se incurra como resulta-do del uso de la información
contenida en este documento, incluidos, entre otros, los errores, omisiones, o inexactitudes.
Tabla de Contenidos
IBM SPSS
Guía Completa Para Principiantes Aprende
Estadísticas Utilizando IBM SPSS De la A-Z
Introducción
Capítulo 1: ¿Por Qué Usar IBM SPSS?
Historia
Haciendo el caso para IBM SPSS
En el siguiente capítulo ...
Capítulo 2: Instalación de IBM SPSS v.25
Tutorial de instalación de IBM SPSS
Nuestro primer vistazo a IBM SPSS
La página de bienvenida de SPSS
En el siguiente capítulo ...
Capítulo 3: Acerca de los datos
¿Por qué realizar análisis de datos?
Problema 1: Venta al por menor
Problema 2: salud
Problema 3: Finanzas
Datos, definición
Tipos de datos legibles por máquina
Datos ordenados y desordenados
¿Existe un proceso para el análisis de datos?
Una Nota Sobre Los Métodos De Investigación
La Importancia De Los Datos De Limpieza Para El Análisis
En el siguiente capítulo ...
Capítulo 4: El Editor De Datos De SPSS
Abrir un nuevo conjunto de datos en SPSS
Ingresando datos en SPSS
La lista de variables en SPSS
Medida
Nombre
Etiqueta
Tipo
El panel de información general de datos
Abrir múltiples pestañas en SPSS
Buscar artículos
Ajustes y notificaciones
Nuevo análisis
Otras funciones útiles de la pestaña
En el siguiente capítulo ...
Capítulo 5: Introducción A La Estadística
Una definición de estadística
Ir tarde al trabajo: un estudio estadístico breve
Entonces, ¿cómo lo hacemos a tiempo, ya sea que nos vayamos
temprano o no?
Estadísticas descriptivas
Todas estas son preguntas excelentes que vale la pena abordar una por
una.
Estadística inferencial
En el siguiente capítulo ...
Capítulo 6: Los Menús Del Editor De Datos De SPSS
El menú de archivos
El menú de datos
El menú Transformar
El menú Analizar
El menú de visualización
El menú de utilidades
Acceso rápido a funciones importantes
Otro caso y funcionalidad de menú variable
En el siguiente capítulo ...
Capítulo 7: Estadísticas descriptivas
Aplicaciones comunes de estadística descriptiva
Examinando conjuntos de datos y su distribución
¿Por qué deberíamos saber esto?
¿Qué miden las estadísticas descriptivas?
Medidas de tendencia central
Medidas de forma
La importancia de usar gráficos
Presentación de estadísticas descriptivas utilizando tablas y gráficos
En el siguiente capítulo ...
Capítulo 8: Cálculo de estadísticas descriptivas utilizando SPSS
Frecuencia
Medidas de tendencia central
Mediana
Medidas de propagación
Medidas de forma o distribución
Asimetria
Uso de la sección de resúmenes de casos en informes
En el siguiente capítulo ...
Capítulo 9: Creación De Gráficos En SPSS
Gráficos comunes disponibles en SPSS
Otras cartas disponibles en SPSS
En el siguiente capítulo ...
Capítulo 10: Introducción A La Estadística Inferencial
Muestra, Población y Muestreo Aleatorio
El teorema del límite central
Distribuciones de probabilidad
Enfoques utilizados en estadística inferencial
En el siguiente capítulo ...
Capítulo 11: Uso De SPSS Para Estadísticas Inferenciales
Estimación
Prueba de hipótesis
Otras características de SPSS disponibles en estadísticas inferenciales
En el siguiente capítulo ...
Capítulo 12: Uso de los comandos de sintaxis de SPSS
Creación y uso de archivos de comandos de sintaxis
Para concluir
Pensamientos finales
Pensamientos finales
Bibliografía
Textos Académicos
Fuentes en linea
Imagenes
IBM SPSS
Consejos y Trucos para Aprender y Estudiar
Estadística con IBM SPSS desde la A hasta la Z
Introducción
Capítulo Uno: Trabajo Preliminar
Capítulo Dos: Los Fundamentos de IBM SPSS
Capítulo Tres: El Registro de Datos de Ejemplo
Capítulo Cuatro: Definición de Datos
Capítulo Cinco: Análisis en SPSS Statistics (Procedimientos)
Capítulo Seis: Modificación de los Datos
Capítulo Siete: Selección de Datos
Capítulo Ocho: Gráficos en SPSS Statistics para Windows
Capítulo Nueve: Elaboración de la Matriz de Datos
Capítulo Diez: Análisis Estadístico
Conclusión
IBM SPSS
Estrategias Sencillas y Eficaces para Dominar
la Estadística con IBM SPSS desde la A hasta la Z
Introducción
Capítulo 1: Los Fundamentos de Python con SPSS
Reunir lo Esencial
Cómo Empezar con el Módulo de SPSS
Ejecutar el Código en el IDE de Python
Usar el Módulo SPSS Client
Capítulo 2: Familiarizarse con los Comandos de SPSS
Construir una Sintaxis de Comandos
Capturar e Interceptar la Salida
Personalización de la Salida de la Tabla Dinámica
Capítulo 3: Fusión de la Sintaxis de Comandos de SPSS y Bloques de
Programa Junto con el Manejo de Errores
Bloques de Programas Anidados
Manejo de Errores
Capítulo 4: Trabajar con SPSS Para Crear una Interfaz Gráfica de
Usuario
Solicitud de Mensaje Estándar
Crear un Explorador de Archivos
Cuadro de Selección de Variables
Capítulo 5: Información del Diccionario de Conjuntos de Datos
Obtener una Variable de un Conjunto de Datos
Separación Automática de Variables Para el Análisis
Listado de Variables que Tienen un Formato Específico
Verificación de la Presencia de una Variable en un Conjunto de Datos
Poner las Variables Numéricas y de Cadena en Listas Separadas
Capítulo 6: Realización de Diferentes Tareas en los Datos de Casos
La Clase Cursor
Uso de la Clase Cursor para Leer Datos
Uso de la Clase Cursor para Crear Nuevas Variables
Uso la Clase Cursor para Añadir Nuevos Casos al Conjunto de Datos
Contar Valores Distintos en las Variables
Añadir Valores de Percentil de Grupo a un Conjunto de Datos
Creación y Acceso a Múltiples Conjunto de Datos
Capítulo 7: Trabajar con Bloques de Programa de SPSS Usando el
Lenguaje de Programación R
Trabajar con Bloques de Programa R
Reglas de Sintaxis del Lenguaje de Programación R
Lectura de Datos de Casos de IBM SPSS Statistics Usando Bloques de
Programa R
Manejo de los Valores de Fecha-Hora de IBM SPSS Statistics
Escritura de Resultados en un Nuevo Conjunto de Datos de IBM SPSS
Statistics
Especificación de Valores Faltantes para Nuevos Conjuntos de Datos
Especificación de las Etiquetas de los Valores para los Nuevos
Conjuntos de Datos
Especificación de los Atributos de una Variable para Nuevos Conjuntos
de Datos
Conclusión
Referencias
IBM SPSS
WALKER SCHMIDT
Introducción
Los datos nos ayudaron a entender por qué ocurrió la recesión financiera
de 2008
Esto se debe a que los datos, por sí solos, no tienen ningún propósito útil.
Nosotros, como investigador, analista o científico, debemos esforzarnos por
darle vida.
Dicho esto, al leer el título de este libro, sabrá que esto es exactamente lo
que pretendemos cubrir al analizar tanto el estudio de estadísticas como la
herramienta IBM SPSS. Por supuesto, pretendemos utilizar una variedad de
conjuntos de datos simples que nos pueden ayudar a entender cómo aplicar
conceptos estadísticos, pero también obtendremos algo de práctica con la
herramienta SPSS.
Pero eso no es todo: no solo sabrá cómo usar el SPSS de IBM, sino que
también comprenderá la razón y el contexto en el que estas características
se aplican a cualquier conjunto de datos. Al hacerlo, debería poder usar
estas funciones en cualquier situación, siempre que pueda determinar qué
método estadístico es el más propicio para resolver un determinado
problema.
El logotipo de SPSS, antes de ser adquirido por IBM en 2010
Al ver el potencial, IBM decidió adquirir SPSS por un valor de $ 1,2 mil
millones en 2009 y, en octubre de 2010, el paquete de software conocido
comúnmente como SPSS ahora se llamaba IBM SPSS. Ahora es una de las
marcas clave en la cartera de análisis de negocios de IBM.
IBM adquiere SPSS en 2009
Si bien cada una de estas ofertas son competidores dignos, se debe agregar
que SPSS es simple de usar. Tiene características para principiantes y
usuarios muy experimentados que no encontrarás en ningún otro lugar. En
otras palabras, ingrese y guarde sus datos, procéselos y genere los
resultados. Mejor aún, puede exportar datos a SPSS desde una variedad de
formatos. Es tan simple como eso.
Todas las preguntas justas para preguntar, con toda honestidad. Si bien
Excel permite al usuario ingresar, almacenar y manipular datos, estas
características existen en SPSS, pero hay mucho más. Dado que SPSS se
desarrolló particularmente para el análisis estadístico de datos, puede
realizar cálculos estadísticos complejos. En marcado contraste, Excel aún
debe incluir estas funciones.
Excel funciona para el análisis simple de datos, pero SPSS puede hacer
mucho más
Por supuesto, ahora que IBM posee este producto, puede esperar un soporte
excelente para un producto estable que ha resistido la prueba del tiempo.
Dicho esto, no debería sorprender que SPSS sea considerado como el
paquete de software líder utilizado por varios otros negocios para el análisis
estadístico durante más de medio siglo.
Al completar este paso, tendrá que esperar un código de siete dígitos que se
enviará al correo electrónico que usa en el proceso de registro.
Una vez que lo haga, se creará una cuenta de IBM para usted, para la cual
recibirá una notificación en el correo electrónico registrado. Este es el ID de
IBM que tendrá que usar de ahora en adelante. Su prueba de IBM SPSS
comienza a partir de ese momento y dura aproximadamente 14 días en total.
A menos que tenga la intención de comprar una copia de SPSS de
inmediato.
Al recibir este correo electrónico,
comienza la prueba de 14 días de SPSS.
Una vez que haya llegado a la página siguiente, puede descargar la versión
Classic o la versión de prueba de IBM SPSS. IBM determina las
especificaciones de su sistema y le proporciona un archivo de descarga que
se ejecutaría mejor en su sistema
Sin embargo, antes de hacer algo más, consulte la tabla a continuación para
comprender los requisitos mínimos del sistema para instalar y ejecutar
SPSS sin problemas.
Ahora, una vez que esté seguro de que puede ejecutar SPSS sin problemas
en su sistema, seleccione "Descargar". Dependiendo de su conexión a
Internet, tendrá que esperar un tiempo ya que el archivo .exe tiene un
tamaño de casi 1 GB.
Paso 7: seleccione una unidad y carpeta para guardar todos sus archivos
SPSS.
Seleccione la ruta de instalación o la unidad. Seleccione Continuar.
Si nos damos cuenta de esto o no, los datos están en todas partes. Nuestros
cinco sentidos toman datos todos los días, mientras que nuestra mente
procesa estos datos en patrones a partir de los cuales podemos sacar
conclusiones.
Por ejemplo, si entramos en contacto con algo cortante o caliente,
¿realizaríamos a sabiendas la misma acción de nuevo? Por supuesto no.
Esto es porque nuestra mente ha registrado la sensación ardiente o dolorosa.
Son datos sensoriales. En el futuro, recordamos esa experiencia y hacemos
todo lo posible para no repetirla nunca. No a menos que nos preocupemos
por nuestra salud física.
Pero, ¿qué tiene esto que ver con el estudio de análisis de datos? Mucho, en
realidad.
Apenas.
¿Te imaginas lo que puede hacer una tienda minorista con este tipo de
información?
Sí, mayores ganancias. Pero esto también puede afectar qué y cuántos de
estos artículos deben mantenerse en esa tienda, ya que el análisis de datos le
indicará qué artículos prefieren comprar sus clientes. Esto puede, a su vez,
impactar en la eficiencia, ya que puede asignar los recursos mínimos
requeridos para satisfacer estas necesidades.
Problema 3: Finanzas
Las empresas financieras como Amex no solo predicen la lealtad basándose
en el análisis del hábito de gasto de sus clientes, sino que también pueden
predecir qué cuentas de clientes cerrarán en unos pocos meses. Es
sorprendente lo que las tendencias de análisis pueden decirle sobre sus
propias vidas.
Además de esto, las compañías de seguros están analizando los datos para
predecir las reclamaciones fraudulentas antes de que ocurran. Esto se debe a
que es un proceso arduo para detectar qué reclamaciones son fraudulentas o
no.
Cuando vea el alcance de los efectos del análisis de datos, debe quedar
claro que nuestro futuro es sentirnos cómodos con los datos. Dicho esto,
entendamos algunos términos clave relacionados con los datos que servirán
de base para realizar el análisis a medida que avanzamos.
Datos, definición
Entonces, ¿qué son los datos? Esta es una pregunta adecuada dado que el
enfoque en la recopilación, limpieza y análisis de datos se ha convertido en
una ciencia en la última década. En el sentido convencional de la palabra,
los datos no son más que información objetiva que se puede capturar o
recopilar de una fuente.
Por sí solo, esto se clasifica en términos generales como datos sin procesar
antes de ser procesados. Sin embargo, cuando se procesa, mediante
software como SPSS, se transforma en información que ayuda a contar una
historia. Pero hay más: estos datos procesados también pueden considerarse
como datos sin procesar para una serie de otros experimentos.
Los datos cuando se procesan revelan tendencias
Cualitativo
Incluso si hay un uso limitado de datos cualitativos en el análisis de datos,
aún es necesario recopilar datos que consisten en texto.
Hay una serie de otras razones por las que se recopilan datos cualitativos, y
en su mayor parte funcionan como categorías de descripción. Tenga en
cuenta que los datos cualitativos pueden ser nominales u ordinales
dependiendo de si existe un pedido o no. Discutiremos esto un poco más
tarde.
Cuantitativo
Ahora, los datos cuantitativos toman la forma de conteos o mediciones. En
otras palabras, este tipo de datos trata con números únicamente. Si bien los
datos cualitativos, que se basan en el lenguaje, pueden variar de acuerdo
con la experiencia de uno, los datos cuantitativos son fijos. Aún más, los
datos cuantitativos se pueden desglosar en valores discretos y continuos.
Un ejemplo sencillo para explicar este tipo de datos podría ser el número
registrado de ventas realizadas cada día en la tienda o incluso las alturas y
los pesos de todos los empleados en una oficina. Dicho esto, dado que el
número registrado de ventas siempre será un número entero, se dice que es
un valor discreto.
Por otro lado, dado que las alturas y los pesos de todos los empleados
pueden tomar cualquier valor e incluir decimales, estos valores se
consideran continuos. Hay una razón para esta categorización y es lo que
veremos más adelante.
Otro
Hay un tercer tipo de datos que no se clasifican como datos cualitativos o
cuantitativos, pero pueden servir como claves en los casos. Tomemos, por
ejemplo, una identificación de registro de automóvil o una identificación de
empleado, que puede ser una secuencia de solo números o ambos números
y letras alfabéticas. No es una medida en el sentido real, ni se puede
analizar este número. No se clasifica como datos cualitativos, ya que
tampoco puede segmentarse en categorías ordenadas o desordenadas.
¿De dónde crees que obtienes buenos datos? De las Bases de datos
relacionales, por supuesto!
Dicho esto, sería prudente recordar que una sola fila de datos en SPSS se
denomina "caso", mientras que una sola columna se denomina variable.
Esto no es diferente de la información almacenada en las bases de datos,
que generalmente se llaman registros y campos.
Datos ordenados y desordenados
Hay otro aspecto de los datos que debe cubrirse y que puede entenderse en
términos generales como datos ordenados o no ordenados. Para comprender
mejor esto, debemos recordar lo que leemos en la sección anterior sobre
datos cuantitativos y cualitativos.
Una diferencia clave entre estos dos tipos de datos es que podemos
clasificar los datos cuantitativos según sus mediciones, mientras que esto no
siempre es posible o necesario con datos cualitativos. Dicho esto, veamos
las diferencias entre los datos nominales, ordinales, y de escala o basados
en intervalos.
Nominal
Por ejemplo, si quisiéramos contar el número de manzanas, naranjas,
plátanos. y las sandías compradas en una tienda durante todo el día y
graficándolas con un gráfico de barras, notarán que no hay un orden
particular en el que deba mostrarse esta lista de artículos.
Ordinal
El siguiente tipo de datos también incluye la recopilación de datos
cualitativos. Sin embargo, hay una diferencia clave con este tipo de datos en
comparación con los datos nominales. Conocido como datos ordinales, este
tipo generalmente ocurre en encuestas de retroalimentación de clientes que
se clasifican de enojado a neutral a feliz.
Por supuesto, el rango más alto se otorga a la categoría feliz mientras que el
rango más bajo se asigna a la categoría enojada por razones obvias.
Asumiendo que el lector considera que la felicidad es la experiencia más
positiva, aplicamos una clasificación artificial aquí.
Sin embargo, hay otro aspecto de este tipo de datos que lo diferencia de los
datos de escala o intervalo. Lo único que no podemos medir con este tipo de
datos es la verdadera brecha entre la felicidad, la neutralidad y la ira a
diferencia de los valores cuantitativos. En otras palabras, sabemos que la
brecha entre 5 y 10 es de 5 unidades de medida. Esto no es posible con los
datos ordinales, incluso si asignamos una clasificación artificial a cada uno
de los atributos de la encuesta.
Intervalo o escala
Los datos de escala o intervalo implican datos cuantitativos, que tienen las
características de tener un orden específico al tiempo que nos proporcionan
una imagen clara de la diferencia numérica entre dos valores en función de
los intervalos en la escala.
Por ejemplo, sabemos que la temperatura, ya sea en grados Fahrenheit o
Celsius, tiene intervalos específicos. Al comparar dos valores, podemos
distinguir la diferencia entre 95 grados y 105 grados Fahrenheit, sabiendo
que 105 grados es más alto en valor.
Si bien hay otro tipo de datos que involucran relaciones, no cubriremos este
tema ya que SPSS nos permite definir nuestros datos utilizando las
características de nominal, ordinal y escala. Cubriremos esto en el siguiente
capítulo cuando veamos cómo definimos nuestros datos en SPSS.
Hablando de eso, dado que los datos cuantitativos consisten en números que
pueden categorizarse, clasificarse o incluso servir como medidas, se logra la
objetividad. Sin embargo, a diferencia de los métodos utilizados en la
investigación cualitativa, las respuestas de los participantes generalmente se
limitan a una escala de calificación o simples preguntas de sí y no, como en
las encuestas y encuestas.
Sin embargo, el medio más popular por el cual las personas recopilan datos
cuantitativos es mediante la realización de experimentos naturales, de
laboratorio y de campo. Un ejemplo tradicional de esto es tratar de
determinar el punto de fusión y el punto de ebullición de una sustancia.
Otro ejemplo sería la atención hospitalaria donde la enfermera toma sus
valores de presión y temperatura para compararla con los valores
"saludables".
Otro ejemplo más que se puede agregar aquí son las métricas de marketing
de contenido que Google registra y utiliza para clasificar las páginas web en
su página de resultados de búsqueda para ciertas palabras clave.
Tan simple como son estos ejemplos, el diseño experimental juega un papel
importante en los valores que se obtienen como resultado. Veremos este
tema mucho más tarde.
Errores estructurales
Esta categoría de errores incluye la entrada incorrecta de datos en el
momento de la medición o incluso cuando se transfieren los datos. Como
resultado, puede tener varias variables que deben clasificarse juntas pero
ahora están separadas. Los errores de etiquetado y los errores tipográficos
pueden ser razones para que ocurran estos tipos de errores. Como se puede
esperar, los resultados de su análisis serán deficientes, por lo que es vital
hacer un seguimiento de estos errores y corregirlos.
Debería ser obvio que cuanto mayor sea el conjunto de datos, más difícil
será limpiar los datos. Por lo tanto, no debe acelerar el proceso de limpieza
o preparación de datos para el análisis. En última instancia, el uso de datos
confiables es la única forma en que puede llegar a conclusiones adecuadas.
No hay ningún atajo.
Ya que esta es la primera vez que usa IBM SPSS, seleccionemos Nuevo
conjunto de datos como se resalta en rojo a continuación:
La nueva versión de SPSS es amigable tanto para los números como para el
texto. Detecta el tipo de datos ingresados y altera el tipo de datos de la
variable de cuantitativo a cualitativo o viceversa.
Sin embargo, tendrá que realizar algunos cambios más para esa variable en
particular si está ingresando datos que tienen características especiales. Nos
ocuparemos de cómo puede hacerlo en breve. El ingreso de datos es
definitivamente importante, ¡pero aprender a definir las variables como
datos cuantitativos o cualitativos es tan importante en SPSS!
Medida
Tenemos tres opciones en Medida, que son nominales, ordinales y de
escala. Se puede seleccionar nominal si no es necesario categorizar los
valores de esta variable, como suelen ser los valores cuantitativos. Por
ejemplo, los números de Nombre o de Seguridad Social se incluyen en esta
categoría.
Ordinal, por otro lado, puede usarse para clasificar los datos, pero donde la
diferencia cuantitativa entre dos puntos de datos no es fija ni conocida. Por
ejemplo, los grados universitarios o incluso las encuestas de satisfacción
que determinan los niveles de felicidad o infelicidad de una persona son de
naturaleza nominal.
La opción Escala en SPSS es donde puede clasificar los datos y saber la
diferencia entre las dos cantidades que se comparan. Tiempo en segundos,
horas y minutos, temperatura en grados Fahrenheit o Celsius, y Edad en
años, como ejemplos.
Dicho esto, seleccione la medida correcta para cada una de las variables de
la lista desplegable en SPSS v.25.
Nombre
El nombre del encabezado indica que el nombre de la variable que no
admite espacios entre las etiquetas no le permite iniciar la etiqueta con
caracteres especiales o números. Simplemente borre el término
VARIABLE001, VARIABLE002. VARIABLE003 e ingrese el nombre
deseado.
Etiqueta
Esta característica le permite modificar el nombre de la variable de la
misma manera que lo hizo para Nombre. Cuando abre un nuevo conjunto de
datos, las variables no se definirán, como se muestra a continuación:
Dicho esto, los cambios que realizó en la Lista de variables tanto para el
Nombre como para la Etiqueta se reflejarán aquí dependiendo de si utiliza
el Nombre o la Etiqueta para identificar su variable.
Apunte y haga clic en el área rodeada con un círculo rojo para cambiar el
tipo de datos del nombre del estudiante
Las opciones que se abren en una lista desplegable son Numérico, Coma,
Punto, Notación científica, Fecha, Dólar, Moneda personalizada, Cadena y
Numérico restringido. Además, use las flechas hacia arriba y hacia abajo
debajo del ancho para aumentar el ancho del carácter.
Decimales
Si el tipo que ha seleccionado es numérico, puede seleccionar el número de
decimales que desea que se muestren en la hoja. Simplemente, use la tecla
Retroceso o Eliminar para eliminar el valor actual e ingrese el número de
decimales preferidos.
Etiquetas de valor
Si desea agregar nombres a ciertos valores, entonces usaría esta
característica, pero si no, simplemente déjelo como está.
Valores faltantes
De forma predeterminada, SPSS no permite que falten valores en una celda.
En algunos casos, se pueden hacer excepciones. Ya que es recomendable
utilizar los datos que se limpian tanto como sea posible, mantengamos el
valor predeterminado tal como está.
Papel
Los valores bajo la variable pueden asumir el rol de una entrada o valor
objetivo o de salida. O ambos. También existe la opción de Ninguno que se
puede usar para definir el rol de un conjunto de valores bajo dicha Variable.
Una vez que seleccione este ícono, verá que se abre un panel en el lado
derecho de su pantalla, como se muestra a continuación:
Para esto, seleccione el signo '+' al lado de la pestaña abierta para abrir una
segunda pestaña. Se abrirá una nueva pestaña como se muestra a
continuación y puede elegir abrir un conjunto de datos creado o rellenar
datos en uno nuevo y nuevo.
Después de esto, puede alternar entre estas pestañas para ver ambos
conjuntos de datos simultáneamente.
Buscar artículos
Ahora, hay otra opción interesante que está disponible en SPSS que
consiste en realizar una búsqueda rápida de elementos, ya sean archivos de
salida, conjunto de datos o sintaxis. Para ello, haga clic en la flecha
resaltada en rojo en la esquina superior derecha de la pantalla:
Seleccione la flecha hacia abajo debajo de la rueda dentada
(Configuración)
Una vez que haya seleccionado esta opción, este cuadro desplegable se abre
a continuación, en el que puede ingresar texto para ubicar conjuntos de
datos, salidas y sintaxis que puede haber abierto en varias pestañas.
Ajustes y notificaciones
Ubicado en la esquina superior derecha de la pantalla, encontrará los íconos
de Configuración y Notificaciones, como se muestra a continuación:
Notificaciones [izquierda] y configuración [derecha] iconos
Nuevo análisis
Ahora, una vez que haya ingresado o exportado todos los datos que necesita
para un análisis, puede realizar un análisis primero seleccionando una
variedad de opciones disponibles una vez que haga clic en Nuevo análisis,
como se muestra a continuación:
Una vez que lo haga, será dirigido a otro menú desde el cual puede
seleccionar una opción para el análisis entre los varios que están
disponibles. Esta sección de Analizar Catálogo tiene varias opciones. Elija
uno de ellos como se muestra a continuación y comience con su análisis de
datos.
Analizar el menú del catálogo
Duplicar (duplicate)
Produce un duplicado de la pestaña.
Si te gusta ver deportes, los medios casi siempre publican artículos que
clasifican a los atletas mejor pagados del mundo cada dos años. Si te gustan
las películas, también encontrarás artículos que enumeran a las actrices
mejor pagadas cada año. Un excelente ejemplo de esto es Forbes, con su
clasificación anual de los hombres y mujeres más ricos del mundo.
Sin embargo, no hay duda de que va a usar estadísticas para algo u otro en
la vida, ya sea que se trate de comprar bienes o incluso de una casa,
administrar su presupuesto o incluso elegir entre dos empleadores cuando
busque un nuevo trabajo mejor.
Ahora que hemos entendido por qué es necesaria una comprensión sólida de
por qué son necesarias las estadísticas, continuemos esta discusión
examinando lo que realmente implica el pensamiento estadístico.
Pero antes de sumergirnos en este simple proceso, hay que tener en cuenta
que existe una gran diferencia entre sacar conclusiones de una muestra de
datos que tiene muchos menos casos de datos que toda la población. En
todo caso, cuantas más observaciones pueda capturar o registrar, más
precisas serán sus conclusiones.
Por supuesto, esto requiere seguir un proceso paso a paso que comienza con
la recopilación para interpretar los datos en el paso final. Si entendemos el
proceso involucrado, entenderemos realmente qué son las estadísticas.
Si bien hay una variedad de métodos mediante los cuales puede recopilar
datos cualitativos y cuantitativos, vale la pena considerar el método más
adecuado en función del problema que desea resolver.
Hay muchos factores en juego en un estudio y la persona que lo dirige debe
ser sensible a lo que funciona y lo que no.
Es fácil. Solo cuenta el número de votos y listo. ¿Verdad? Alli hay mucho
mas
¡Mucho más por varias razones!
En general, esto es lo que hace que el estudio de las estadísticas sea tan
interesante porque podemos comenzar a descubrir por qué ciertos políticos,
atletas o estudiantes se desempeñan mejor que otros. Esto, por supuesto,
depende de cómo analizamos las relaciones entre las variables en cualquiera
de estos estudios.
Para empezar, puede decir que cuanto antes se vaya a trabajar utilizando
cualquier ruta o método de transporte, es más probable que llegue al trabajo
a tiempo. Un simple conteo de los datos anteriores debe decirle esto. Puede
promediar la cantidad de tiempo que se tarda en llegar al trabajo cuando se
va antes de las 8:00 AM y compararla con el tiempo promedio que se tarda
en llegar al trabajo cuando se va después de las 8:00 AM. Por supuesto, esto
no siempre es posible, ya que hay veces en que nos levantamos tarde o
tenemos que completar las tareas antes de irnos.
Después de ver un ejemplo básico y cómo podemos usar los datos para
resolver un problema simple, pasemos a comprender las dos categorías
generales en las que se dividen las estadísticas.
Estadísticas descriptivas
Si ha encontrado los términos media, modo, mediana, varianza y
distribución en algún punto de las matemáticas de la escuela secundaria, ya
tiene alguna idea de en qué consiste la estadística descriptiva. ¿Pero para
qué lo usas? ¿En qué se diferencia de las estadísticas inferenciales? A pesar
de lo útiles que son estos métodos de análisis estadístico, ¿existen
limitaciones?
Estadística inferencial
Teniendo en cuenta la diferencia entre una muestra y toda una población de
datos, existe una limitación con la que generalmente se enfrentan los
estadísticos: no pueden recopilar mucho menos datos de análisis de una
población completa.
Examinar los menús de SPSS que contienen las funciones necesarias para
realizar los cálculos estadísticos que realizaremos en los siguientes
capítulos.
Así, sin más dilación, veamos cada uno de los menús que se encuentran en
la esquina superior izquierda de su pantalla.
El menú de archivos
El primer menú que ver es el menú Archivo, que tiene ocho funciones que
ayudan a administrar sus sistemas de datos, salida y archivos de sintaxis.
El menú de archivos
Nuevo abierto
Cuando apuntamos el mouse directamente sobre Nuevo, podremos abrir un
nuevo conjunto de datos, un script de sintaxis, un archivo de salida o un
script de Python 2 o 3. Esto no es diferente con la opción Abrir también.
El menú de datos
Como se puede decir, el menú Datos se ocupa de una serie de funciones que
implican la manipulación de datos que se encuentran en variables y casos.
Entonces, examinemos algunos de estos que usará más comúnmente:
Casos seleccionados
Ahora, si está buscando un rango de valores numéricos o no numéricos en
el conjunto de datos bajo una variable particular, puede usar esta función
para encontrar estos valores. Por supuesto, tiene que especificar ciertas
condiciones usando operadores para tamizar a través de los datos.
Ordenar variables
Con esta opción, puede reorganizar las variables en cualquier conjunto de
datos por Medida, Etiqueta, Nombre, Tipo, Decimales y Valores. Si
recuerda, estas son las características por las que definió sus variables al
principio.
Fusionar archivo
Si desea combinar un conjunto de datos con el actual con el que está
trabajando, puede seleccionar la opción Fusionar archivo.
Archivo dividido
Puede usar esta función para dividir el archivo en grupos de casos que
puede analizar más a fondo. Digamos que tienes un conjunto de datos que
contiene estudiantes de dos escuelas. Puede dividir el conjunto de datos en
dos clasificando los datos de los estudiantes según la escuela a la que
asisten.
El menú Transformar
Mientras que el menú de datos ayuda con las variables y los casos, pero no
manipula directamente los datos en sí, el menú de transformación nos ayuda
a hacer mucho más con los datos que tenemos. Veamos algunas de las
funciones comunes utilizadas en este menú:
Calcular variable
Esta función nos ayuda a calcular nuevas variables a partir de las existentes.
Por ejemplo, si necesita encontrar el rendimiento promedio de los
estudiantes en un conjunto de datos, puede usar las funciones
proporcionadas cuando selecciona esta función para hacerlo. Los datos que
obtenga al calcularlos se agregarán a una nueva variable.
Valores de cambio
Esta función le ayuda a mover una variable completa para cualquier
propósito. A primera vista, esta función parece ser un método mediante el
cual puede copiar los datos de una variable completa en otro lugar.
Por esta misma razón, no es seguro usar esta función, a menos que esté muy
seguro. Una razón para esto es porque no puede deshacer fácilmente los
cambios realizados, lo que puede hacer que pierda los datos ingresados para
esa variable en particular.
El menú Analizar
El menú Analizar es importante para el usuario principiante, intermedio y
experto de SPSS. Hay varias opciones disponibles en este menú que se
adaptan al tipo de análisis de datos que intenta realizar, desde estadísticas
descriptivas a inferenciales.
El menú Analizar
Si bien es posible que no sea posible ejecutar pruebas para cada una de las
opciones de esta lista, podrá comprender qué harán estas funciones, ya que
cubrimos las opciones en teoría estadística de la manera más simple
posible.
El menú de visualización
Como puede ver, el menú Visualizar solo tiene una opción: Generador de
gráficos.
El menú de visualización
Tan obvio como es Chart Builder, puedes trazar varios tipos de gráficos
dependiendo de las variables y los valores en tu conjunto de datos.
Puede encontrar una lista de los tipos de gráficos tan pronto como
seleccione la opción Generador de gráficos, como se muestra a
continuación:
El menú de utilidades
El menú Analizar es el segundo último menú que cubriremos en este
capítulo y tiene algunas características extendidas que se pueden usar si
desean automatizar sus tareas.
El menú de utilidades
Ejecutar guión
Como se mencionó anteriormente, podemos abrir los scripts de Python 2 y
3 para SPSS en las opciones Nueva y Abrir en Archivo. La función Ejecutar
secuencia de comandos te ayuda a ejecutar los mismos scripts que has
cargado.
Planta de producción
En función de la rapidez con la que aprenda a utilizar SPSS, llegará un
momento en el que deberá ejecutar el mismo análisis repetidamente. Si bien
esto puede ser aburrido, ser capaz de automatizar y ejecutar ciertos análisis
como este puede ayudarlo a continuar con otras tareas mientras tanto. Un
ejemplo de esto es generar informes semanales. Ahora, cuando usa esta
función, puede continuar trabajando en un análisis mientras este trabajo se
ejecuta en segundo plano. Por supuesto, también puede programarlo para
que se ejecute a una hora específica.
El menú de ayuda
El Menú de Ayuda es el último menú que cubriremos en este capítulo y
tiene mucho que ver con obtener más información sobre cómo usar SPSS o
hacerlo mucho más fácil. Es una curva de aprendizaje nítida cuando se
navega por SPSS por primera vez, por lo que es necesario acceder a los
temas de Ayuda con regularidad.
El menú de ayuda
Temas de ayuda
La selección de esta opción lo lleva a la página principal donde tiene acceso
a Tutoriales, Casos de estudio y Referencia para la sintaxis de comandos, y
así sucesivamente.
Soporte de SPSS
La selección de esta opción lo lleva a la página de desarrollador de IBM,
donde puede obtener información sobre licencias y otras consultas
relacionadas con SPSS. Dado que hay una serie de características que
vienen con los paquetes de software, las personas se atascarán si intentan
realizar análisis estadísticos complejos. El soporte de SPSS puede ayudarte
con eso.
Guardar como
Al igual que la opción Guardar como en el menú Archivo, puede guardar un
nuevo conjunto de datos seleccionando esta función.
Insertar variable
Puedes insertar una nueva Variable con esta opción, pero primero debes
seleccionar una celda en la columna derecha cuando quieras ingresar tus
valores.
Insertar caja
Puede insertar una nueva caja usando esta opción, pero asegúrese de
seleccionar una celda en la fila derecha para ingresar sus valores.
Exportar
Al igual que la opción Exportar datos en el menú Archivo, puede exportar
un conjunto de datos en formato .csv cuando selecciona esta opción.
Generador de gráficos
Similar a la función Generador de gráficos en el menú Visualizar, puede
seleccionar esta opción para crear un gráfico de su elección.
Encontrar y reemplazar
Puede ubicar datos en cualquier celda usando esta opción. Esto realmente te
será útil si tienes varias variables y casos por los que pasar.
Aquí hay un resumen de lo que estas acciones relacionadas con los cuadros
pueden ayudarlo con:
Eliminar celda
Como es evidente, esta opción elimina un solo cuadro, pero debe resaltar
una celda en ese caso. También puede seleccionar varias celdas en casos
consecutivos y eliminarlas como resultado.
Deshacer rehacer
La mayoría de los usuarios de computadoras estarían familiarizados con
estas dos opciones. El primero le permite deshacer la acción anterior,
mientras que el último repite la acción.
Además, otro menú se abre con las siguientes opciones y solo cubriremos
algunas básicas por ahora:
Insertar variable
Esta opción le permite insertar una variable.
Calcular variable
Esta opción le permite agregar una nueva variable con datos que se han
computado como aritméticos, trigonométricos o incluso estadísticos.
Buscar y reemplazar
Use esta opción para encontrar un punto de datos y reemplazarlo con los
datos correctos.
Quitar variable
Puede utilizar esta opción para eliminar una variable completa.
Claro
Utilice esta opción para borrar los datos de una variable seleccionada.
Por supuesto, solo decir esto no significaría nada sin ejemplos concretos,
donde el análisis de datos utiliza estadísticas descriptivas.
1: Dado que una empresa como Google o Microsoft tiene que publicar
informes trimestrales de ganancias o pérdidas generadas, una serie de
estadísticas desarrolladas en estos informes son generalmente de naturaleza
descriptiva.
5: Esta lista no estaría completa sin los bloggers que hacen listas de
clasificación sobre las estrellas de cine, futbolistas y CEO de tecnología
mejor pagados, y así sucesivamente hoy en día.
Dicho esto, examinemos el conjunto de datos una vez más, pero a la luz de
las estadísticas descriptivas.
Examinando conjuntos de datos y su distribución
Como se definió anteriormente, un conjunto de datos limpios consta de
variables y casos con puntos de datos que son auténticos y válidos. Casi
cualquier conjunto de datos contendrá una lista de valores que se
encuentran dentro de un rango, con la excepción de unos pocos valores.
Media
También conocido como el promedio de los valores, obtenemos esta
estadística al dividir la suma de todos los valores por el número de valores
para una sola variable.
Digamos que tenemos una variable que consta de 5 valores, a saber 10, 12,
8, 16 y 6. Cuando sumamos los valores, obtenemos un total de 52.
Mediana
Por definición, la mediana es el valor que se encuentra en el centro de un
conjunto de valores y que se identifica una vez que el conjunto se ordena en
orden ascendente.
Por ejemplo, veamos la misma lista de cinco valores que usamos para
calcular la media que es 10, 12, 8, 16, 6.
Modo
Esta medida nos dice qué valor ocurre más en un conjunto de valores. Por
ejemplo, si nuestro conjunto de datos consta de diez puntajes de estudiantes
en una prueba de inglés como 90, 89, 97, 84, 90, 69, 73, 90, 99, 90.
Entonces, ¿qué puntaje de inglés fue más común aquí? 90, como puedes
ver.
Medidas de propagación
Mientras que las medidas de tendencia central encuentran el valor medio o
el promedio de un conjunto de valores, las medidas de propagación tienden
a mirar la distribución de los valores desde el valor más bajo hasta el valor
más alto del conjunto. Esta medida importante llamada varianza define qué
tan cerca o alejados están todos los valores de un conjunto.
Rango intercuartil
El término "cuartil" se define como una de las cuatro partes iguales en que
se puede dividir un conjunto de valores. Los valores de estos cuartiles son
el valor medio o la mediana de cada una de estas partes y se suele
denominar Q1, Q2 y Q3.
Cuartiles, como se representa visualmente
Tomemos un conjunto de 10 valores como 30, 32, 32, 35, 38, 42, 46, 48, 50,
50.
Del aprendizaje previo, ¿cuál sería la mediana aquí? Podemos calcular que
sea 38 + 42/2, que es igual a 40.
Dicho esto, dado que la fórmula para encontrar el rango intercuartil es Q3-
Q1, realizamos el siguiente cálculo: 49-32 = 17.
De acuerdo con la teoría de la curva de campana que vimos al principio, se
dice que la mayoría de los valores de un conjunto de datos se encuentran en
el medio. Entonces, cuando calculamos el rango intercuartil, podemos ver
dónde se encuentran la mayoría de nuestros valores.
Diferencia
Para calcular la varianza, primero encontramos la diferencia entre cada
valor en el conjunto y la media aritmética, que es cuadrada para compensar
las diferencias positivas y negativas. Después de esto, obtenemos la suma
de los valores al cuadrado y la dividimos por el número de valores de datos
menos uno en el conjunto.
Donde x es la variantecalculada
En el ejemplo anterior, eso equivale a 1.29. Entonces, ¿por qué necesitamos
este valor?
Medidas de forma
Al observar este aspecto de las estadísticas descriptivas, nos preocupa sobre
todo si nuestros valores observados adoptan la forma de una distribución
normal o sesgada.
Asimetria
Curtosis
La curtosis es otra medida de la forma que se ocupa de las colas de una
distribución. Si recuerda la distribución normal que vimos por primera vez,
se dice que las dos líneas que parecen cumplir con el eje x en un punto dado
son las colas de la distribución.
Cómo cada una de las colas tiene forma de contar una historia
Hay otra razón por la que el uso de gráficos ayuda. Digamos que los datos
son complejos de entender simplemente en términos de números o texto.
Una representación visual puede ayudarnos a obtener información si existe
una relación entre dos variables o si podemos ver una tendencia. En otras
palabras, si un gráfico nos ayuda a comprender la información con claridad,
sería prudente utilizarla. O si no, no sería necesario en absoluto, ¿no?
Otro aspecto a considerar sería el uso del tipo correcto de gráfico para
mostrar información que sería útil para el espectador. Existen varios tipos
de gráficos que se utilizan para tipos específicos de experimentos, que es
algo que vale la pena considerar, dadas las variables dependientes e
independientes de las que ha recopilado datos en dicho experimento.
Por último, hay algunos errores que se deben tener en cuenta al crear un
gráfico. Los datos duplicados son un no-no, mientras que la falta de
leyendas y etiquetas puede hacer que el lector malinterprete lo que está
tratando de transmitir. Aún así, la mayoría de estos errores se pueden
eliminar al usar SPSS, ya que el cuadro que crea requiere información
detallada.
Gráficos circulares
Este es otro gráfico común que se utiliza cuando desea agrupar datos
cualitativos de una manera que produzca resultados cuantitativos. Dado que
el pastel generalmente se corta en trozos grandes y pequeños y nos da un
sentido visual de la proporción, uno puede hacer lo mismo fácilmente
cuando se usa un gráfico circular. Digamos que quería averiguar la
separación de los clientes jóvenes, de mediana edad o ancianos que visitan
su tienda en línea todos los días.
Sin embargo, la diferencia entre los dos es que el primero muestra los datos
utilizando intervalos numéricos continuos como contenedores, mientras que
el segundo no lo hace.
Diagrama de caja
A medida que se acerca la idea de cómo los datos forman una distribución
normal, el diagrama de caja es otro método gráfico que puede revelar la
distribución de valores para dicho conjunto de datos. Si bien las medidas de
la tendencia central son pocas, encontrar la distribución de estos valores
también importa.
Gráfico de caja para los puntajes de las pruebas de matemáticas
Dicho esto, el uso del diagrama de caja no solo le dará la mediana, sino que
también proporcionará información visual sobre el rango intercuartil, los
bigotes, los valores atípicos y los valores mínimo y máximo de la
distribución.
Gráfico de dispersión
Por último, pero no menos importante, observamos el diagrama de
dispersión que también traza las variables de manera similar al gráfico de
líneas donde la variable independiente generalmente está en el eje x y la
variable dependiente se traza a lo largo del eje y.
Ventas de limonada utilizando un gráfico de dispersión
Ahora, dependiendo de los datos que está analizando, puede calcular cada
una de las medidas en estadísticas descriptivas en SPSS y generar un
gráfico junto con él. Sin embargo, dado que puede parecer un poco confuso
a la hora de usar el paquete de software, aprendamos cómo calcular cada
una de estas estadísticas aprendidas una por una.
Frecuencia
Una vez que haya abierto su conjunto de datos en SPSS, abra el menú
Analizar, seleccione Estadísticas descriptivas y luego seleccione
Frecuencias.
Seleccione las frecuencias
Una vez que haya seleccionado las Frecuencias como se muestra arriba,
seleccione el nombre de la variable que se debe contar. En este caso,
seleccionaremos la variable disponible conocida como nombre de escuela
para averiguar a qué escuelas asisten estos estudiantes. Presione la flecha
derecha seleccionada en rojo para mover la Variable disponible a la
columna Variable seleccionada.
Presione la flecha hacia la derecha en el motor para la Variable disponible
a la columna.
Una vez que haya confirmado que la variable está en la sección Variable
seleccionada, seleccione Ejecutar análisis, como se muestra a continuación:
Seleccione Ejecutar análisis para generar el resultado
Guardar salida
Una vez que selecciones el icono que aparece debajo, tu estarás tomando un
dialogo familiar .
Guardar un archivo de salida
Media
Como aprendimos anteriormente, la media, en relación con este conjunto de
datos de estudiantes universitarios, puede resultar útil al ayudarnos a
determinar el promedio de todas las asignaturas calificadas por cada
alumno.
Dicho esto, puede realizar estos cálculos una vez que comience a generar
informes utilizando la función Resumen de casos.
Mediana
La mediana, como aprendimos, es el valor que ocupa la posición más
central en la distribución de valores en la muestra que estamos evaluando.
Si dos valores comparten esta posición, tomamos la media de estos dos
valores y consideramos que es la mediana.
Una vez más, calcular la mediana usando SPSS es muy simple. Pero antes
de comenzar, debemos recordar que el cálculo de la mediana implica contar
y organizar los valores en orden ascendente.
La mediana es de 80.500.
Dicho esto, a pesar de que estamos analizando cada una de las medidas una
por una, no tiene que calcular cada una de estas estadísticas de esta manera.
A medida que te acostumbras a SPSS, estarás generando una serie de
estadísticas de una sola vez.
Modo
Por definición, el modo de cualquier variable seleccionada implica
determinar qué valor ha ocurrido la mayor cantidad de veces. Entonces,
para calcular el modo, comenzamos seleccionando el menú de Frecuencias.
que se encuentra en Estadísticas descriptivas en el menú Analizar.
Seleccione la opción de Frecuencias para calcular el Modo
El modo es 85.00+
Como puede ver, el valor de 85 aparece tres veces, por lo que ha sido
seleccionado como el Modo de esta variable en particular. Mire la tabla de
frecuencias a continuación y descubrirá por qué la cantidad de 85 se
considera el modo.
La cantidad 85.00 se produce tres veces en la Salida.
One last thing: you can select the Format section under Variables so as to
rearrange the display to ascending or descending order.
Rango intercuartil
Para esto, tenemos que volver al submenú de Frecuencias donde puede
calcular una serie de estadísticas relacionadas con la dispersión o
dispersión. Entonces, comencemos con el cálculo del rango y el rango
intercuartil de una Variable seleccionada.
Frecuencias.
Una vez que siga esta ruta, mueva una de las Variables disponibles a la
sección Variables seleccionadas. Ahora, seleccione el estándar. Casillas de
verificación Desviación y Desviación en el menú Estadísticas como se
resalta en rojo a continuación. Después de esto, seleccione Ejecutar análisis
para calcular estos dos valores.
Una vez que se genera la salida, puede ver los valores de la variación y la
desviación estándar como se muestra en la siguiente imagen:
Valores de variación y std. desviación
Cuando calcula las puntuaciones z del rango intercuartil (Q1 y Q3), puede
determinar si los valores de la puntuación de prueba en la variable analizada
forman una distribución normal dependiendo de qué tan cerca están los
valores de Q1 y Q3 a -0.67 y +0.67.
Por más difícil que parezca, podemos usar los cálculos del puntaje z para
hacer predicciones sobre qué puntaje se debe obtener para ser considerado
parte del 10 por ciento superior de la clase. Por supuesto, esto depende del
conjunto de valores que está utilizando para analizar y si forma o no una
distribución normal.
Dicho esto, hay una característica más ingeniosa de SPSS que podemos
usar para verificar si los valores que estamos analizando forman una
distribución normal o no. Para ello, seleccione la opción Gráficos, resaltada
en rojo a continuación. Después de esto, seleccione el botón de radio
Histogramas junto con la casilla de verificación titulada Mostrar curva
normal en el histograma.
Asimetria
Para calcular la asimetría de cualquier variable analizada, seleccionamos los
menús Analizar y Estadísticas descriptivas, así como el submenú
Frecuencias. Como siempre, tenemos que seleccionar la variable que
queremos analizar y moverla a la sección Variable seleccionada, como se
muestra a continuación.
Seleccione Estadísticas y la casilla de verificación etiquetada asimetría
(skewness)
Según el valor, que es -1.505, podemos decir que tiene una cola izquierda
más larga. Cuando calculamos el valor de asimetría para la variable
Sistemas informáticos, obtenemos la salida que se muestra a continuación:
Pero hay un aspecto más que aún no hemos tomado en consideración. Hay
una estadística llamada Error estándar de sesgo que también se ha calculado
aquí, y también por una buena razón. En estadística, cuando analizamos una
pequeña muestra, esto da lugar a errores. Para asegurarnos de que
obtengamos valores precisos, tenemos que calcular una estadística de
prueba que no sea más que una relación de los valores de sesgo y de Error
estándar de sesgo aquí.
En otras palabras, cuando dividimos 0.057 / 0.512 obtenemos una asimetría
de 0.1113 para la variable de Sistemas de Computación. Entonces, ¿qué
indica este valor de sesgo?
Curtosis
Curtosis, leemos en un capítulo anterior, tiene mucho que ver con las colas
de la distribución. Cuantos más valores atípicos tenga en un conjunto de
valores, más larga será la cola de su distribución. Ahora, como lo hicimos al
ejecutar un análisis que calculó la asimetría, comenzamos seleccionando los
menús Analizar y Estadísticas descriptivas, así como el submenú
Frecuencias.
Como prueba de si los datos siguen una forma de una distribución normal,
dividimos el valor de la curtosis con su error estándar, al igual que el
cálculo seguido para la asimetría.
Usando la variable Sistemas de Computación, generamos un valor de
-0.451. ¿Entonces, qué significa esto? Si generamos un valor menor que -2
y mayor que +2, la distribución no es normal. Entonces, uno puede decir
que estamos dentro de esos límites para este conjunto de valores de datos.
Dicho esto, hay una cosa más que debemos discutir para generar todas las
estadísticas descriptivas que hemos analizado en este capítulo.
Una vez que seleccione Resumen de casos, mueva una variable numérica a
las Variables seleccionadas para su análisis y una variable que tenga una
naturaleza categórica para agrupar y analizar los datos generales en mayor
profundidad. En el ejemplo que se muestra, los tres puntajes de prueba de
Computer Systems, College Algebra y Python Programming se agruparán
según el género.
Otra opción que se consideró como una variable de agrupación para generar
un resumen del caso fue poder examinar los datos en función de la escuela
en la que estudian. Suponiendo, por supuesto, que las pruebas que se dieron
a todos los estudiantes eran idénticas.
Dicho esto, esta sección busca resumir todas las medidas de estadísticas
descriptivas que hemos estudiado hasta ahora, que se pueden ver en la
imagen de arriba.
Como hemos aprendido hasta ahora, uno puede comprender mucho acerca
de un conjunto de valores en variables, pero los gráficos pueden llevar esa
comprensión al siguiente nivel. La visualización de los datos es muy
poderosa, ya que puede ayudarnos a ver las tendencias y las correlaciones
de manera vívida. Entendemos dónde hemos estado y dónde estamos y,
como resultado, comenzamos a considerar qué acción tomar como
resultado.
SPSS es muy útil en este sentido, ya que nos brinda una amplia gama de
gráficos para usar. Desde simples histogramas hasta complejos gráficos Q-
Q. De modo que podamos visualizar nuestros datos para resumirlos o
incluso utilizarlos con fines de análisis predictivo.
Hay otra forma de acceder al menú del generador de gráficos, que consiste
en seleccionar el ícono de acceso rápido, como se muestra en el siguiente
menú:
Gráfico de linea
Supongamos que dirige una tienda de ropa y necesita determinar a qué hora
del día necesita que los miembros de su personal trabajen. No tiene sentido
tener a todos adentro si no hay clientes, ¿correcto?
Estas son dos variables de SPSS que usaremos para registrar los datos:
Una vez que seleccione la opción Gráfico de líneas, seleccione las variables
para los ejes X e Y al agregar un título y subtítulo principal, como se
muestra a continuación.
Puede seleccionar la opción Área para mostrar el área que cubren los puntos
de datos en el gráfico. Aparte de esto, puede suavizar la línea seleccionando
la opción Suavizar
Agregue los detalles del gráfico de líneas
Una vez que haya agregado todos los detalles del gráfico de líneas, puede
ver el siguiente gráfico de líneas que se muestra:
Una vez que haya ingresado los detalles, encontrará el siguiente cuadro
de series múltiples donde puede encontrar el mes durante el cual el
desempleo estuvo en su nivel más alto y más bajo durante los dos años.
En el cuadro se puede ver que durante los dos años, las cifras más bajas de
desempleo se registraron en enero de 2011. mientras que las cifras más altas
de desempleo se registraron en abril de 2010. Hay una tendencia que puede
encontrar y que involucra las más bajas de desempleo en cada año. .
Desempleo más alto y más bajo: abril de 2010 y enero de 2011
Pase lo que pase, usar un cuadro de series múltiples aquí puede ayudarlo a
ver una tendencia para ambos conjuntos de datos. Puede configurar varias
líneas y compararlas entre sí.
Gráfico circular
Cada rebanada de una ronda completa de pastel o pizza representa un
porcentaje. Si bien es justo para todos que haces partes iguales al compartir,
esto no siempre es así en la realidad.
Ahora, hay que tener en cuenta que ya hemos contado cuántas unidades de
fruta se han vendido. Si tiene datos para cada unidad de fruta que ha
vendido, primero deberá contarlos.
Uno debe señalar que la variable Fruta vendida es una que enumera
categorías discretas, al igual que las Horas y Meses que usamos en los
gráficos de Línea y Multi-Series. Sin embargo, el uso de un gráfico circular
le brinda una imagen clara en términos de porcentaje respecto a cuál de
estas categorías se desempeña mejor.
Entonces, puedes ver en este gráfico circular que la mayoría de las unidades
vendidas fueron las de limones y plátanos. Una conclusión general a la que
puede llegar, como comerciante, es que necesita concentrarse en mantener
más unidades de bananas y limones en comparación con guayabas y
cerezas.
No muy diferente, si está tratando de analizar conjuntos de datos con
categorías discretas, otra opción que nos ayuda a ver claramente los conteos
es el gráfico de barras, que es lo que cubriremos a continuación.
Gráfico de barras
Si uno quisiera saber cuántos estudiantes de una lista de 20 asisten a
Harvard, Yale y Stanford, el gráfico de barras considera a cada una de estas
universidades categorías discretas y realiza un conteo.
Una vez que haya seleccionado Barra, es hora de ingresar los detalles del
gráfico de barras como se muestra a continuación. Asegúrese de seleccionar
la variable que desea contar aquí. En el conjunto de datos que se muestra
arriba, seleccionaremos Nombre de la escuela en la sección Detalles del
gráfico de barras a la izquierda de su pantalla.
Asegúrese de que el tipo de Resumen seleccionado sea Count
Una vez que haya ingresado los detalles, complete el Título del gráfico y el
subtítulo como se muestra a continuación:
Introduzca más información sobre el
estudio en la nota a pie de página.
Una vez hecho esto, puede ver el gráfico de barras que cuenta el número de
estudiantes que van a Harvard, Yale o Stanford, como se muestra a
continuación:
Ahora, hay otra pequeña característica que se puede usar para incluir otras
categorías que podrían arrojar más luz sobre su análisis usando este tipo de
tabla. Se llama la opción Dividir por que se puede encontrar en la sección
Detalles del gráfico de barras.
Como puede ver, Stanford tiene la mayoría de las alumnas, mientras que
Harvard y Yale tienen el mismo número de alumnas.
Histograma
Si bien el histograma se ve muy similar al gráfico de barras, hay una
diferencia significativa. En el caso de los primeros, utilizaremos datos que
caen en intervalos o intervalos numéricos y continuos.
Ahora, puede usar la opción Dividir por aquí también para desglosar los
datos para este análisis. En este caso, contaremos cuántos estudiantes de
cada universidad obtuvieron entre 50 y 100.
Diagrama de caja
El gráfico de caja, como encontramos, es un gráfico que se usa
comúnmente para mostrar la distribución de los valores de una distribución,
es decir, el mínimo, primer cuartil, mediana, tercer cuartil y el máximo. Aún
otro valor que se mostrará son los valores atípicos presentes en el conjunto
de valores elegidos para el análisis.
Usemos el conjunto de datos que contiene los puntajes de los estudiantes
para demostrar cómo podemos usar este cuadro para comprender mejor la
distribución de los datos:
Una vez que haya seleccionado Box Plot, debe ingresar los detalles en la
sección Detalles de la gráfica de Box Plot como se muestra a continuación.
NO use las opciones Dividir por y Agregar otra columna todavía.
A Como puede ver a la derecha de su pantalla, el diagrama de caja se ha
preparado, como se muestra a continuación: ¿
El diagrama de caja con dos valores atípicos
Cuando pase el puntero del mouse sobre los bigotes, los dos puntos y el
cuadro mismo, encontrará los cinco valores que aprendimos en Mediciones
de dispersión o dispersión calculados aquí.
Si desea ver los datos más detenidamente, puede agregar otra columna de
datos para analizar dos puntajes a la vez. Para esto, agregaremos Sistemas
de Computación como otra columna en el campo que se muestra a
continuación:
Ahora, agregue otra columna para el análisis de forma similar a los sistemas
informáticos aquí:
Ahora, deberías encontrar dos diagramas de caja lado a lado y que tengan
distintos colores como una forma de diferenciar entre los dos. Además, pase
el mouse sobre los diagramas de caja para encontrar las cinco medidas de
propagación y valores atípicos, si los hay.
Dos diagramas de caja separados que puedes analizar para los valores de
lado a lado
Finalmente, puede usar la función Dividir por cuando explore una columna
de datos para separar aún más los datos. En este caso, dividiremos los datos
en forma escolar y observaremos las medidas de propagación que se
generan para los puntajes de programación de Python.
Gráfico de dispersión
En este tipo de gráfico, graficará dos variables entre sí y sacará
conclusiones en función de si el SPSS encuentra una correlación positiva,
negativa o no.
Una vez que haga esto, seleccione la variable independiente para el eje X y
la variable dependiente para el eje Y. También, ingrese el título primario y
el subtítulo también.
Se puede decir que existe una relación positiva entre la temperatura y las
ventas de limonada, como se muestra arriba.
Hasta ahora, hemos visto gráficos que se utilizan comúnmente en las
estadísticas. Por lo tanto, sigamos analizando algunos otros que ofrece
SPSS y que podrían ser útiles al realizar el análisis de datos.
Una vez que haga esto, seleccione las variables que desea comparar y
agréguelas tanto al eje x como al eje y. Para este análisis, estamos
comparando la edad y el género de los estudiantes en Yale, Harvard y
Stanford. Además, asegúrese de agregar un título primario y un subtítulo
apropiados.
Seleccione el gráfico de la pirámide de población
Una vez que haga clic aquí, seleccione las variables que desea comparar y
desarrollar las agujas. Para este análisis, estamos comparando la edad y el
género de los estudiantes en Yale, Harvard y Stanford. Además, asegúrese
de agregar un título primario y un subtítulo apropiado.
Análisis de edad vs. género
De los datos, podemos ver que seis mujeres asisten a la universidad entre la
edad de 20 a 22 años, mientras que cinco hombres asisten a estas
universidades entre las edades de 18 a 20. En general, no hay mujeres en la
universidad después de los 22 años, mientras que hay cinco hombres que
siguen una educación después de esa edad.
Mapa de treemap
Este tipo de gráfico puede ayudarnos a visualizar los datos y la jerarquía
que existe dentro del conjunto de datos. Usando el conjunto de datos de
puntajes de los estudiantes de Ciencias de la Computación, podríamos
querer saber cuántos hombres o mujeres van a cada universidad.
Conjunto de datos de los estudiantes de informática
Una vez que lo haga, seleccione las variables cuya jerarquía desea ver.
Entonces, según las variables en el conjunto de datos dado, seleccione las
variables de Nombre de la escuela y Género, como se muestra a
continuación:
Cuenta el número de hombres y mujeres en cada universidad.
Una vez hecho esto, encontrará el Treemap con la siguiente jerarquía que
cuenta el número de hombres y mujeres en cada universidad en este
conjunto de datos:
El gráfico TreeMap que muestra el género en cada universidad
Gráfico paralelo
Comúnmente usado en la profesión académica para analizar la correlación
entre variables, es mejor usarlo para variables que contienen datos
numéricos. Usaremos el conjunto de datos que contiene la información de
los puntajes de los estudiantes de informática en sistemas informáticos,
programación en Python y álgebra universitaria.
Conjunto de datos de estudiantes de informática
Una vez que haga esto, ingrese las columnas que consisten en datos
numéricos para dibujar las líneas a través de sus respectivos ejes. En este
caso, vamos a seleccionar College Algebra, Computer Systems y Python
Programming, como se muestra a continuación. No olvide ingresar un
Título y Subtítulo Primarios. Además, no seleccione ningún tipo de variable
categórica en la sección Mapa de color.
Gráfico paralelo - Detalles
Al hacer esto, se usan varios colores para diferentes líneas según la edad
individual de cada estudiante cuyas calificaciones se están analizando.
Las diferentes líneas de color muestran la edad
En otras palabras, podemos segregar las líneas según los intervalos de edad
e inspeccionarlos para detectar patrones dentro de ese grupo de edad. Dicho
esto, este es un ejemplo de análisis multivariado porque comparamos dos
variables pero refinamos aún más el análisis al seleccionar una variable que
es de naturaleza categórica.
Sin embargo, uno debe tomar nota del hecho de que nuestra comprensión de
las estadísticas inferenciales y sus métodos para determinar la precisión de
los parámetros de la población depende de nuestra comprensión de las
estadísticas descriptivas. Como se mencionó en un capítulo anterior, el
objetivo de las estadísticas inferenciales es sacar conclusiones sobre toda la
población a partir de las muestras que analizamos.
Solo un caso en una muestra de datos de los fanáticos del fútbol.
Esto se debe a que si quería saber con seguridad si a todos los hombres de
Europa les gustaba el fútbol o no, simplemente no puede realizar una
encuesta que recoja todos sus puntos de vista sobre este asunto.
Simplemente no es factible. Como resultado, las muestras son seleccionadas
y analizadas por sus parámetros. Para llevar a cabo estos cálculos, se deben
hacer ciertas suposiciones aparte de la necesidad de incluir la probabilidad
como un factor en la inferencia final. Aún así, uno debe admitir que nunca
calcularemos con precisión cuáles serán estos parámetros, a menos que
sigamos adelante y recabemos información de cada miembro de la
población.
Cuando calcule las estadísticas para estas muestras, debe esperarse que no
produzca exactamente el mismo valor que la media poblacional, sino que
sea más o menos el mismo. Esto se debe a que la muestra no es más que un
subconjunto de la población con su propia desviación estándar única y
media. Dicho esto, los datos recopilados en cada muestra están
influenciados por el azar, por lo que incluir la probabilidad como un factor
cuantitativo juega un papel importante para ayudarnos a hacer inferencias
en estudios sobre toda la población.
Distribuciones de probabilidad
Ahora, la distribución Normal no es la única distribución de probabilidad
que existe. Hay varios otros que se usan comúnmente, que se clasifican en
dos categorías: valores cuantitativos discretos y continuos.
Un ejemplo de valores discretos.
Incluso si este es un libro que cubre los aspectos básicos de las estadísticas
y trata de ayudar a los principiantes a utilizar SPSS, no estaría completo sin
cubrir las características de las estadísticas inferenciales que SPSS ofrece a
sus suscriptores.
Estimación
Como se mencionó en un capítulo anterior, hay dos tipos de estimaciones,
que incluyen la estimación de puntos e intervalos. Mientras que la
estimación puntual intenta encontrar el valor exacto del parámetro, la
estimación de intervalo no solo encontrará un valor, sino que la salida
también le proporcionará un intervalo de confianza mayor y menor en valor
que ese parámetro.
Una vez que haya seleccionado Ejecutar análisis, espere la salida como se
muestra a continuación:
Dicho esto, hay más que podemos hacer con esto, lo que implica introducir
un factor que nos ayude a encontrar la verdadera media de la población
basada en este mismo factor. En este caso, encontremos el promedio de
años pasados en la universidad por empleados en función del género.
Para esto, tendremos que agregar otra variable para dividir la información
en dos secciones diferentes. En otras palabras, esperamos calcular la media
real de la población de los años promedio pasados en la universidad para
hombres y mujeres.
Como se muestra a continuación, agregue el género a la Lista de factores y
seleccione Ejecutar análisis.
Agregar una variable categórica a la lista de factores
Una vez que lo haga, espere los resultados como se muestra en la sección de
Salida a continuación:
Prueba de hipótesis
Ahora, las estadísticas inferenciales no son solo para calcular parámetros,
sino también para probar una hipótesis utilizando métodos estadísticos que
se han desarrollado a lo largo del tiempo. En particular, queremos saber si
existe una relación entre dos variables, pero lo más importante, queremos
saber si esta relación es real o no.
Incluso si las pruebas de hipótesis están bien configuradas para que pueda
determinar si existe una relación basada en el valor p que calcula, todavía
existe la posibilidad de un error humano, ya que no siempre obtenemos un
valor p que nos ayude hacer conclusiones sólidas. Especialmente en el caso
donde se encuentra marginalmente alrededor del valor de 0.05 p.
Clasificado como error Tipo I y II, el primer tipo de error es cuando uno
rechaza la hipótesis nula a pesar de ser verdadero, mientras que el segundo
tipo de error implica no rechazar la hipótesis nula cuando es falsa. Los
expertos concluyen que el error de tipo I es mucho más serio que el de un
error de tipo II que generalmente ocurre debido al análisis de tamaños de
muestra pequeños.
Hipótesis alternativa: esta hipótesis establece que existe una diferencia entre
la media de la población y el valor de prueba seleccionado.
Una vez que seleccionamos esta opción, lo siguiente que debe hacer es
ingresar el Valor de prueba y seleccionar Ejecutar análisis, como se muestra
a continuación:
Ingrese la Variable de prueba y el Valor de prueba resaltados en rojo
Una vez que haga esto, espere los resultados donde puede ubicar el valor p.
Puedes encontrar el valor obtenido.
Análisis de correlación
El análisis de correlación trata de probar la relación entre dos variables
continuas para ver si existe una relación o no. Mejor aún, también verifica
en qué dirección se dirige la relación. En otras palabras, si es positiva o
negativa. La fuerza de la relación en tal prueba se expresa como el
coeficiente r de Pearson que oscila entre +1 y -1. Cuanto más cerca están
los valores de +1 o -1, la fuerza de la relación tiende a ser perfecta. A
medida que el coeficiente se acerca a cero, reduce su fuerza. En pocas
palabras, si obtiene un valor de r de cero de Pearson, no hay relación.
Análisis factorial
El análisis factorial nos ayuda a determinar la estructura entre la correlación
de varias variables en nuestro conjunto de datos. Esto es muy útil si
tenemos un gran número de variables en nuestro conjunto de datos y eso se
puede reducir a dimensiones.
Para llevar a cabo este análisis, debe verificar si se cumplen las siguientes
condiciones: variables continuas, asociaciones lineales entre sí, un tamaño
de muestra grande y no valores atípicos. Sin entrar en demasiados detalles,
las dos pruebas que generalmente se realizan para el análisis factorial
incluyen la Medida de Adecuación de Muestreo Kaiser-Meyer-Olkin y la
Prueba de Esfericidad de Bartlett.
Análisis de regresión
Finalmente, analizamos el análisis de regresión y los tipos más comunes
disponibles en SPSS. Los análisis lineal, logístico, multinomial, ordinal y
de regresión de Poisson son los tipos que podemos usar según los tipos de
variables que desea usar en su análisis, así como el resultado deseado. Una
vez más, este tipo de análisis también busca confirmar la existencia de una
relación entre una variable dependiente y una cantidad de otras variables
independientes.
Cuando usamos esta técnica predictiva, examinamos cómo cada una o una
combinación de estas variables independientes afectan la variable
dependiente. No solo podemos usar este tipo de análisis para el pronóstico y
el modelado de series de tiempo, sino también para establecer relaciones
causales. Dicho esto, dados los numerosos modelos de regresión
disponibles para su uso, uno debe tener cuidado de seleccionar uno de estos
tipos para cumplir con los objetivos establecidos antes de utilizar esta
técnica de estadística inferencial.
Al concluir nuestro viaje con IBM SPSS, hay un último tema que debemos
cubrir. Incluso si algunas personas no están familiarizadas con la escritura
de código. son los comandos de Sintaxis que se pueden utilizar para
automatizar el análisis de datos.
Imagínese utilizando SPSS en una empresa que requiere que realice un
análisis de datos y envíe sus supervisores informes semanales, mensuales y
trimestrales. Ahora, esto podría ser simple, como resumir las ventas de la
semana. O incluso hacer predicciones para las próximas semanas por venir.
Sin los comandos de Sintaxis, tendrá que apuntar y hacer clic, apuntar y
hacer clic y apuntar y hacer clic semana tras semana. ¿No es eso
simplemente triste? Por lo tanto, para aliviar a los usuarios de SPSS de esta
fuente de dolor, guardar ciertas acciones de apuntar y hacer clic en las suyas
en forma de comandos de Sintaxis le facilita la ejecución de un largo
procedimiento de comandos sin tener que hacer nada en absoluto.
Piense en esto como ejecutar un archivo por lotes en Windows o incluso un
script de Linux que le permite ejecutar una serie de comandos que
generalmente ejecuta cada dos días. Sin embargo, es genial!
Realmente no tiene que saber cómo codificar, ya que con cada acción de
apuntar y hacer clic que hace, SPSS genera un código que puede guardar en
un archivo .sps.
Para acceder a este código, todo lo que tiene que hacer es esperar a que la
Salida termine de ejecutarse para poder copiar y pegar los comandos de
Sintaxis en un archivo. Al igual que el conjunto de datos y los archivos de
salida, también podemos crear y ejecutar archivos de sintaxis.
Ahora, digamos que queremos calcular estas estadísticas para una variable
de sistemas informáticos que consta de decenas de estudiantes de ciencias
de la computación en Yale, Harvard y Stanford. Como de costumbre,
iríamos a los menús Analizar y Estadísticas descriptivas y seleccionaríamos
Descriptivos, como se muestra a continuación:
Seleccione Analizar, Estadística Descriptiva y Descriptivos.
Ahora, una vez que haya hecho esto, seleccione Ejecutar análisis y espere
los resultados. Busque la opción Editar sintaxis, como se resalta en rojo en
la imagen a continuación:
Seleccione Editar sintaxis como resaltado en rojo
Una vez que seleccione Editar sintaxis, se abrirá una nueva pantalla con una
serie de comandos de sintaxis, como se muestra a continuación:
Para pegar este código, deberá abrir un nuevo archivo de sintaxis utilizando
la siguiente ruta, como se muestra a continuación:
Ahora, una vez que haga esto, pegue el código en este archivo y guárdelo
seleccionando Guardar como en el menú Archivo.
Para que usted mismo escriba estos comandos de Sintaxis, necesita saber
qué palabras clave se utilizan para crear una lista de comandos de Sintaxis
que funcionarán tan bien como poder apuntar y hacer clic a través de los
menús.
Para concluir
Hemos cubierto los conceptos básicos absolutos de guardar y ejecutar
comandos de Sintaxis. En cuanto a nuestra discusión sobre las
características de SPSS, estamos casi listos. Solo una cosa más: en cuanto
esté familiarizado con la sintaxis de SPSS, puede intentar integrar Python 2
o 3 con este increíble paquete de software.
Pensamientos finales
Admitamos una cosa: SPSS es difícil de usar al principio. Sin embargo,
dado que sus funciones están disponibles tanto para estadísticas descriptivas
como para inferenciales, se puede usar esta herramienta para mejorar su
conocimiento de las estadísticas en general, pero también para usar el poder
de la tecnología para calcular grandes cantidades de datos con facilidad.
Por divertida que sea esta tarea, desarrollar esa mentalidad estadística nos
ayudará no solo a recopilar buenos datos, sino también a aprender a usarlos
de manera inteligente con una herramienta tan poderosa a nuestra
disposición. Aún mejor, si puede aprender a usar los comandos de Sintaxis
y guardarlos para usarlos en el futuro, esto reducirá la cantidad de esfuerzo
y tiempo que tiene que invertir, especialmente a medida que avanza hacia
tipos más complejos de análisis de datos.
Al leer este libro, has hecho exactamente eso. Nunca dejes de aprender.
Nunca dejes de mejorar. Para la carrera a la perfección realmente no tiene
línea de meta!
Bibliografía
Textos Académicos
Isotala, J. (n.d.). Basics of Statistics. Tampere, Finland: University of
Tampere.
McCormick, K & Salcedo, J. (2015). SPSS for Dummies (3rd ed.). Hoboken,
NJ: Wiley Publishing.
Fuentes en linea
Anderson, D.R., Sweeney, D.J., & Williams, T.A. (2019). Statistics.
Encyclopædia Britannica. Retrieved from
https://www.britannica.com/science/statistics
What is SPSS and How Does It Work? (2019). Educba. Retrieved from
https://www.educba.com/what-is-spss-and-how-does-it-work/
IBM SPSS Statistics. (2019). IBM. Retrieved from
https://www.ibm.com/products/spss-statistics
Petersen, R. (2019). 37 Big Data Case Studies with Big Results. Businesses
Grow. Retrieved from https://businessesgrow.com/2016/12/06/big-
data-case-studies/
Ma, X., Hummer, D., Golden, J.J., Fox, P.A., Hazen, R.M., Morrison, S.M.,
Downs, R.T., Madhikarmi, B.L., Wang, C., & Meyer, M.B. (2017).
Using Visual Exploratory Data Analysis to Facilitate Collaboration
and Hypothesis Generation in Cross-Disciplinary Research.
International Journal of Geo-Information, 6(11), 368.
https://doi.org/10.3390/ijgi6110368
Types of Data & Measurement Scales: Nominal, Ordinal, Interval and Ratio.
(2019). My Market Research Methods. Retrieved from
https://www.mymarketresearchmethods.com/types-of-data-nominal-
ordinal-interval-ratio/
Jain, D. (2018). Skew and Kurtosis: 2 Important Statistics terms you need to
know in Data Science. Code Burst. Retrieved from
https://codeburst.io/2-important-statistics-terms-you-need-to-know-
in-data-science-skewness-and-kurtosis-388fef94eeaa
French, K. (n.d.). Why Your Brain Loves Visual Content [Infographic].
Column Five Media. Retrieved from
https://www.columnfivemedia.com/why-your-brain-loves-visual-
content-infographic
Slutsky, D.J. (2014). The Effective Use of Graphs. Journal of Wrist Surgery,
3(2), 67-68. https://10.1055/s-0034-1375704
Z-table (Right of Curve or Left). (2019). Statistics How To. Retrieved from
https://www.statisticshowto.datasciencecentral.com/tables/z-table/
Williams, T.A., Sweeney, D.J., Anderson, D.R., Gaur, A., Higgins, J., Lotha,
G., Sampaolo, M & The Editors of Encyclopaedia Britannica.
Random variables and probability distributions. Encyclopædia
Britannica. Retrieved from
https://www.britannica.com/science/statistics/Random-variables-and-
probability-distributions#ref367442
Rumsey, D.J. (2019). What a p-Value Tells You about Statistical Data.
Dummies. Retrieved from
https://www.dummies.com/education/math/statistics/what-a-p-value-
tells-you-about-statistical-data/
Imagenes
Froztbyte. (Photographer). (2010). The logo of SPSS [Digital Image].
Retrieved from
https://commons.wikimedia.org/wiki/File:SPSS_logo.svg
WALKER SCHMIDT
Introducción
Este libro pretende dar un paso sabio para guiar al lector en el proceso de
análisis de datos utilizando IBM SPSS como herramienta. Lo que diferencia
a este libro de otros libros de estadística es que no aburre al lector con los
rigores matemáticos que conlleva el análisis estadístico. En su lugar, se
centra en cómo el software IBM SPSS puede ayudarte a despejar el
desorden y llegar a un resultado fiable y válido.
Desde que la empresa SPSS Inc. fue adquirida completamente por IBM en
octubre de 2009, el producto se llama IBM SPSS Statistics. Así que el
antiguo nombre está (casi) de vuelta. Sin embargo, predominantemente
seguimos utilizando el nombre SPSS Statistics, que entonces siempre se
entiende como "IBM SPSS Statistics". Desde el 10.01.2010, la compañía
SPSS está completamente integrada en IBM.
¿Quién utiliza este sistema de programas? Los usuarios son todas las
instituciones que se ocupan de la evaluación y presentación de datos. Por lo
tanto, no es de extrañar que SPSS no sólo se utilice en las universidades,
sino también en el sector privado y en las administraciones públicas.
Los datos son tan buenos como la información que los proporciona.
—Daniel Jimi
Los instrumentos de toma de datos deben ser adecuados para el estudio que
has diseñado. El diseño del estudio se basa en los instrumentos que se
utilizan para recopilar información. La información obtenida al realizar el
estudio debe codificarse en el software IBM SPSS. Para comunicarte
eficazmente con el software, debes hablar en el lenguaje que éste entiende
—los códigos. Por lo tanto, necesitas un libro de códigos que te ayude a
convertir la información en datos o códigos. Conseguir estos fundamentos
correctamente te dará una base sólida cuando navegues por algunos
aspectos más complejos de los análisis. Y lo que es más importante, los
resultados que obtengas serán válidos y fiables porque has gestionado bien
los aspectos básicos.
El primer trabajo preliminar y que hay que hacer es afinar los determinantes
de la calidad de los datos que se obtienen para el análisis. Estos
determinantes son el diseño general del estudio, la elección de las escalas y
las medidas y los instrumentos utilizados para recoger la información.
Hay diferentes enfoques de la investigación. Se puede emplear un enfoque
experimental o un enfoque cuasi-experimental (con encuestas, cuestionarios
y observación). Estos enfoques no son superiores entre sí. Tu pregunta de
investigación determinará el diseño de investigación más adecuado.
Consultar a personas que ya han investigado en tu área de investigación
puede proporcionar información valiosa sobre el diseño de investigación
qué debes utilizar.
Hay dos criterios básicos para elegir una escala para tu investigación:
1. ¿Es fiable?
2. ¿Es válida?
Una escala es fiable si está libre de errores aleatorios. Una escala es fiable si
tiene estabilidad temporal y consistencia mental. La estabilidad temporal se
refiere a la fiabilidad de una escala con respecto a la prueba. Se administra
la escala o la medida a las mismas personas en diferentes intervalos
(normalmente no más de dos semanas) y se calcula la correlación entre las
puntuaciones. Si la correlación es alta, la escala es fiable. La medida de
estabilidad temporal es fiable sólo cuando mide características estables que
probablemente no cambien en un periodo de tiempo tan corto.
Ordinal (ordenada)
Escalas (puntuaciones continuas con muchos valores)
En IBM SPSS, existen reglas para asignar nombres a las variables. Éstas
son:
El Editor de Datos
El Visualizador
El Editor de Gráficos
El Editor de Sintaxis
2. Borrar la salida
3. Copiar la salida
4. Guardar la salida
Para crear gráficos, haz doble clic en la tabla y pulsa el botón derecho del
ratón para obtener más opciones, una de las cuales es la opción Crear
gráfico. Mantén pulsada la tecla Ctrl y selecciona las partes de la tabla que
deseas ver gráficamente.
Hay muchas opciones del menú que vienen con IBM SPSS Windows. Estas
opciones aparecen como menús desplegables e iconos. Ve poco a poco.
Aprende primero los iconos más importantes y desarrolla tu habilidad a
partir de ahí.
Pegar se utiliza para transferir los comandos generados por IBM SPSS al
Editor de Sintaxis para mantener un registro o para un análisis que se
repetirá muchas veces.
Reiniciar limpia el cuadro de diálogo de todos los comandos anteriores para
generar una pizarra limpia para un nuevo análisis. Es como cancelar una
orden anterior para hacer una nueva.
Cancelar básicamente cancela todos los comandos que has dado para un
procedimiento en particular. También cierra el cuadro de diálogo.
Este capítulo está dirigido a los estudiantes que tienen poca experiencia con
los sistemas Microsoft® Windows® y funciones básicas de SPSS Statistics.
La llamada a SPSS puede variar dependiendo de la instalación. Sin
embargo, lo siguiente debería funcionar (casi) siempre.
Llamar a SPSS Statistics
Para Windows 10, utiliza el botón de Windows (INICIO) en la barra de
tareas para localizar IBM SPSS Statistics, IBM SPSS Statistics 25 y espera
hasta que se cargue SPSS Statistics. En la primera ventana que aparece, se
decide el procedimiento a seguir. Ahora se puede empezar a trabajar con
SPSS Statistics.
SPSS Statistics suele trabajar con tres ventanas: Editor de datos y sintaxis y
el visualizador:
En cada una de estas tres ventanas están disponibles los elementos de menú
ARCHIVO, EDITAR, VER, DATOS, TRANSFORMAR, ANALIZAR,
DIAGRAMAS, EXTRAS, VENTANAS y AYUDA.
Visualizador
El visualizador es de particular importancia cuando se trabaja con SPSS
Statistics es del visualizador. Muestra los resultados de todos los cálculos,
que son la preocupación central del trabajo con SPSS.
Editor de Sintaxis
En el editor de sintaxis, que no se inicia automáticamente, se introducen y
ejecutan los comandos del SPSS. El editor de sintaxis se llama con FILE
�� NEW �� SYNTAX.
En la ventana de Abrir Archivo, aparecen ahora todos los archivos del tipo
correspondiente (es decir, todos los archivos de datos, todos los archivos de
sintaxis del SPSS o todo los archivos de salida del SPSS) que están
almacenados en el soporte de datos. Selecciona el nombre del archivo
deseado y haz clic en Abrir.
Desde la versión SPSS 14, se pueden abrir varios registros de datos dentro
de una sesión de SPSS. Para ello, se repiten los pasos anteriores hasta que
se hayan abierto todos los registros de datos necesarios. Los análisis se
refieren al llamado "conjunto de datos activo" cuando hay varios conjuntos
de datos abiertos. Se trata del registro cuya ventana está actualmente en
primer plano. Alternativamente, en la ventana de sintaxis, puedes utilizar el
comando:
CONJUNTO DE DATOS datasetname
Un determinado registro puede convertirse en el "registro activo", donde el
nombre del conjunto de datos representa el nombre del "conjunto de datos"
o en inglés "dataset" en la cabecera de la ventana del conjunto de datos
(como DataSet0).
La Asistencia
Básicamente, el programa SPSS Statistics ofrece numerosas opciones de
ayuda. Éstas se tratan con más detalle en la siguiente unidad. Además,
existe un gran número de manuales que acompañan a la literatura para
apoyar el uso de SPSS. Por ello, en el siguiente capítulo se enumeran
brevemente los más importantes con el fin de proporcionar al lector una
visión general.
Documentación en línea:
https://www.ibm.com/support/knowledgecenter/SSLVMB_26.0.0/statistics_
kc_ddita/spss/product_landing.html
Para que la introducción al paquete SPSS Statistics sea lo más clara posible,
este libro utiliza muchos ejemplos de trabajo práctico con SPSS Statistics.
Estos ejemplos se basan en los datos de la investigación y la encuesta. Este
conjunto de datos ha sido acortado por nosotros de tal manera que sigue
permitiendo una amplia gama de opciones de análisis, pero no está
sobrecargado de preguntas innecesarias. El término "nuestro registro" se
refiere al registro abreviado y utilizado.
Recolección de Datos
Una encuesta contiene las respuestas de los encuestados de una muestra de
la población adulta de Estados Unidos. Para el muestreo se utilizó un
procedimiento de sorteo de personas en dos etapas. En la primera etapa de
selección, se extrajo una muestra de municipios proporcional al tamaño. En
la segunda etapa de selección, se tomaron las direcciones personales de los
registros de población de los municipios en cuestión de forma aleatoria y
con igual probabilidad. Los entrevistadores entrevistaron a las personas así
determinadas. Recibieron un cuestionario a partir del cual elaboramos el
extracto.
1 1 2 1964 12 ... 1
2 2 3 1972 3 ... 1
3 3 1 1960 3 ... 1
4 4 3 1976 9 ... 1
5 5 2 1962 8 ... 1
… … … … … ... ..
N N 3 1961 1 ... 1
Capítulo Cuatro
Definición de Datos
Si el archivo está guardado en otro formato que SPSS Statistics puede leer,
se selecciona el formato correspondiente (.sys, .por, .xls, .w, .slk, .dbf, .dta)
en formato de archivo, se busca el archivo y se confirma con Abrir. Los
datos aparecen entonces en el editor de datos. Aquí hay que comprobar si el
programa fuente utiliza formatos de datos (fecha, fórmulas, entre otros) que
no son conocidos por SPSS Statistics.
ETIQUETAS DE VALOR
Valores faltantes
Un problema particular de todos los estudios empíricos son los llamados
valores faltantes. SPSS Statistics distingue entre "valor faltante por el
sistema" y "valor faltante por el usuario", pero maneja ambas variantes de la
misma manera para los análisis, a menos que esto cambie explícitamente.
Nota: Los espacios en blanco en los datos pueden leerse como números
arbitrarios si se hace con el comando: SET BLANKS=number es
requerido.
Valores faltantes por el Usuario
No es raro que las encuestas de datos empíricos muestren que, en algunos
casos, faltan los valores de las variables individuales. Esto puede deberse a
muchas razones. A continuación se exponen brevemente algunas de ellas:
¿Qué hay que hacer aquí? En el primer ejemplo, las razones por las que una
pregunta queda sin respuesta residen probablemente en el valor real
(desconocido). Algunas personas no quieren dar a terceros ninguna
información sobre sus ingresos.
Tal vez porque es muy alto o muy bajo según nuestra propia valoración, en
el segundo ejemplo (hospital del siglo XV), no hay tal razón para la
ausencia de valor: la ilegibilidad de los registros no depende de las
características del paciente. En este caso se trata de influencias aleatorias,
como consecuencia de las cuales no se realizan mediciones.
Valor1 y valor2 son números. Todos los números desde el valor1 hasta el
valor2 (valor1 ≤ "valores faltantes por el usuario" ≤ valor2) se declaran
valores faltantes. El valor más grande y el más pequeño se direccionan por
el MÁS ALTO y el MÁS BAJO (abreviatura HI, LO). Los rangos de
valores no están permitidos para las variables de cadena.
En nuestros datos de ejemplo, tenemos valores faltantes para casi todas las
variables. En el caso de "v9", por ejemplo, todos los valores superiores a 8
son valores faltantes. 0 significa "NO RECOGIDO". Esto ocurre cuando
alguien no responde o no sabe la respuesta a la pregunta. Estos valores se
marcan como "faltantes" mediante el siguiente comando:
MISSING VALUESvarlist ( ).
¿Cómo se procesan los valores faltantes y qué valores deben usarse como
valores faltantes por el usuario?
Los casos con valores faltantes suelen excluirse simplemente del cálculo.
Mediante el uso de especificaciones, normalmente es posible desviarse de
esto y controlar si los valores faltantes se incluyen en las evaluaciones y
cómo. El tratamiento de los valores faltantes debe aclararse antes del
análisis.
SPSS puede ser licenciado con varios módulos. Ciertos módulos pueden
crear otros puntos de entrada bajo ANALIZAR o en la barra de menú
(como en la figura el punto MERCADO DIRECTO).
Como ejemplo del procedimiento con el control del menú, este sirve para la
producción de una distribución de frecuencia absoluta, relativa y
acumulada. Desde los menús se puede hacer lo siguiente
SPSS puede tener licencia para varios módulos. Algunos módulos pueden
cambiar la apariencia de los cuadros de diálogo secundarios. Cuando se
licencia el módulo "SPSS Bootstrapping", por ejemplo, algunos cuadros de
diálogo para los análisis tienen el botón adicional Bootstrap...
Hay que respetar una estructura específica (sintaxis) para los comandos
para que SPSS Statistics pueda interpretarlos. Esto se describe en detalle en
la unidad que sigue a la siguiente ("Estructura y sintaxis de los comandos"
de este capítulo).
Por ejemplo, los flujos de trabajo similares al trabajar con menús suelen
recrearse cada vez con gran esfuerzo. Desde nuestro punto de vista, esta es
la ventaja de las órdenes. Pueden almacenarse y, por lo tanto, son
reproducibles en cualquier momento. Cuando se trabaja con órdenes,
terceras personas pueden ver lo que se ha hecho, por lo que también se
pueden descubrir los errores más rápidamente.
Nombres,
Números,
Cadenas,
Nombres
Los nombres son necesarios para nombrar las variables para SPSS
Statistics. Esto se hace al principio de la evaluación para redefinir las
variables una vez o durante la evaluación para crear variables adicionales.
Desde la versión del programa SPSS 16.0, los nombres pueden tener una
longitud máxima de 64 caracteres (antes eran sólo de 8 líneas) y comenzar
con uno de los caracteres A-Z, @, # o $. Cualquier letra, número puede
seguir al primer carácter de un nombre, los caracteres @, #, $, . y _. Los
nombres no deben terminar con . o _.
Variable Información
$CASENUM Número de reclamo
$SYSMIS Valor faltante por el
sistema
$DATE Fecha
$TIME Hora y Fecha
Palabras Clave
Las palabras clave son de especial importancia para SPSS Statistics.
Además de las "palabras clave de comando" (como SHOW) que identifican
un comando, hay otras palabras clave que son elementos de especificación
(como LOCAL u ALL para SHOW). Estas palabras clave hacen que SPSS
Statistics realice acciones específicas.
Números y Cadenas
● Los números y las cadenas están permitidos en muchos lugares de
los programas de SPSS Statistics:
● Cuando se refieren a valores de variables (como nme = 2000),
Los números están formados por los dígitos del 0 al 9. Son importantes por
su valor numérico. Si se trata de números decimales, un punto (decimal)
sustituye a la coma habitual en Estados Unidos (ejemplo: 0.5 significa 0.5
en lugar de 0.5). Como primer carácter de un número, también se admiten
"+" y "-". Los números pueden contener cualquier número de cifras. Sin
embargo, hay que tener en cuenta que la precisión de cálculo de una PC es
limitada. En consecuencia, los números permitidos son, por ejemplo
Las cadenas de caracteres están formadas por cualquier carácter: las letras
A-Z, los números 0-9, el espacio y los caracteres especiales, como !
§@$%&/()=? ^. También se permiten las diéresis. Las cadenas de
caracteres deben ir entre comillas si se utilizan como especificación:
"HANS", "12-35-89", "§ XXX".
En lugar de las comillas (') [no confundir con los acentos ('`)], se pueden
escribir comillas (") siempre que no se empiece con una comilla y se
termine con una comilla o viceversa. Si incluyes cadenas de caracteres con
comillas, la comilla es un carácter permitido dentro de la cadena de
caracteres.
Operador Significancia
+ suma
- resta
* multiplicación
/ división
** potenciación
El signo de igualdad (=) se relaciona con las expresiones aritméticas para la
asignación de valores como A = A+B+C. Esto significa: Primero se
determina el valor del lado derecho (A+B+C) y luego se asigna a la variable
del lado izquierdo del signo igual (A) (es decir, A se deriva de A+B+C). Por
tanto, ¡no es una ecuación en el sentido matemático!
()'"/=
Estos valores por defecto pueden ser cambiados por los subcomandos
apropiados:
DESCRIPTIVESv707
/MISSING=INCLUDE
/STATISTICS=MEAN, VARIANCE
MISSING=INCLUDE hace que los valores faltantes se incluyan en el
cálculo. STATIS- TICS=MEAN, VARIANCE significa que sólo se debe
emitir el valor medio y la varianza.
Procedimientos Importantes
Nota para los lectores que utilizan el script de autoaprendizajes de SPSS
Statistics:
Todos los ejemplos se calcularon con datos de análisis ponderados para
contrarrestar las distorsiones sistemáticas. La ponderación se basó en la
"Ponderación Personal Este-Oeste" de la v1564. Para obtener detalles sobre
la ponderación, consulta las secciones intermedias de este capítulo.
LISTAR o LIST
El procedimiento LIST enumera los valores de las variables enumeradas en
la "varlist" en un formato estándar para cada caso.
LIST [[VARIABLES=] {varlist} {ALL}]
LIST VARIABLES = v3 to v9
/CASES = 10.
El siguiente resultado aparece entonces en el visualizador:
v3
v4
v5
v6
v7
v8
v9
1
1
2
2
2
2
4
2
2
1
1
2
2
4
1
3
2
1
2
2
3
…
…
…
…
…
…
…
2
10
1
1
2
2
3
Número de casos leídos: 10 Números de casos enumerados: 10
Vemos que las variables y sus valores se enumeran columna por columna.
Cada fila, por tanto, contiene un caso con sus valores característicos.
Frecuencias (FRECUENCIAS)
FRECUENCIAS calcula las frecuencias absolutas, relativas y acumuladas
de las expresiones de las listadas.
FREQUENCIES varlist
[/STATISTICS=[MEAN][STDDEV][VARIANCE][MODE]
[MEDIAN]...[ALL]].
STATISTICS indica qué medidas estadísticas se calculan para caracterizar
las distribuciones de frecuencias. Algunas medidas importantes:
MEAN media
STDDEV desviación estándar
VARIANCE varianza
FASHION moda
MEDIAN mediana
ALL los 15 estadísticos disponibles
Ejemplo: Para la variable "Frecuencia de la iglesia", se calculan las
frecuencias absolutas, relativas y relativas acumuladas a partir de los datos
del ejemplo. Además, se solicita la moda (valor modal), es decir, el valor
más frecuente. El comando para ello es el siguiente:
[/STATISTICS=[PHI]]
Ejemplo: Para los datos de nuestro ejemplo, se solicita una tabla cruzada
que representa las distribuciones de frecuencia bidimensionales entre la
variable de clasificación género de los encuestados ("v556") y la variable
comparativa certificado de estudios de los encuestados ("v563").
El orden es:
CROSSTABS v556 BY v563
/STATISTICS=PHI.
Una tabla cruzada suele dar la primera impresión de si existe una relación
entre dos variables.
La tabla cruzada contiene las frecuencias absolutas (número) solicitadas con
COUNT. Por ejemplo, 483 encuestados son hombres y tienen un certificado
de estudios secundarios o elementales. La tabla cruzada también contiene
los porcentajes de columna solicitados con COLUMN (frecuencias relativas
condicionales) (% dentro del certificado general de estudios secundarios):
por ejemplo, el 47,9% de los encuestados con certificado de estudios
secundarios son hombres.
DESCRIPTIVES varlist
MEAN media
STDDEV desviación estándar
VARIANCE varianza
MIN mínimo
MAX máximo
ALL TODO los 11 estadísticos disponibles
A partir de los datos del ejemplo para las variables "edad encuestado<r>"
"v554" e "ingresos netos preguntados<r>" "v707" se calcula el valor medio,
la desviación estándar, la varianza, el mínimo y el máximo.
El orden es:
El orden es:
CORRELATIONSv707 v554.
SUM suma
COUNT número
Ejemplo: Para los datos del ejemplo, se calculan algunas medidas
disponibles a través de MEANS para las variables "edad encuestada<r>"
("v554") y "ingresos netos encuestados<r>" ("v707"), separadas por sexo
("v556").
El orden es:
Ejemplo 1:
RECODE v707 (LO THRU 4000=1) (4000 THRU HI=2).
En este caso, el ingreso neto se recodifica de 4000 a 1.
Ejemplo 2:
RECODE v707 (4000 THRU HI=2) (LO THRU 4000=1).
En este caso, los ingresos netos se recodifican de 4000 a 2.
Cuando se utiliza THRU, el valor más bajo del rango de valores debe estar
a la izquierda, por ejemplo (4 THRU 9). (9 THRU 4) es incorrecto. En lugar
de la "lista de valores", se permiten las palabras clave ELSE, MISSING y
SYSMIS.
MISSING= sirve para recodificar los "valores que faltan del usuario" y los
"valores que faltan del sistema". Si se utiliza MISSING para la
recodificación, los nuevos valores no son automáticamente valores
faltantes.
Sin embargo, COPY como "valor" y ELSE como "lista de valores" ofrecen
la posibilidad de transmitir simplemente todos los valores que no se pueden
recodificar sin cambiarlos. (ELSE=COPY) es entonces la última regla de
recodificación. COPY también transfiere los "valores faltantes por el
usuario" y los "valores faltantes por el sistema". El estado de faltante de los
"valores faltantes por el usuario" se pierde.
RECODE
v707
(MISSING=9)
(LOW THRU 2000 = 1)
(2001 THRU 3000 = 2)
(3001 THRU 4000 = 3)
(4001 THRU 5000 = 4)
(5001 THRU HI = 5)
INTO nmekl.
VARIABLE LABEL
nmekl
'klassiertes Einkommen'.
VALUE LABELS
nmekl
1 'bis 2000'
2 '2001 bis 3000'
3 '3001 bis 4000'
4 '4001 bis 5000'
5 'über 5000'.
MISSING VALUES
nmekl (9).
FREQUENCIES
nmekl.
El resultado de la recodificación sólo puede representarse mediante un
análisis (como FRECUENCIAS):
Porcentajes Porcentaje
Válidos Acumulado
Frecuencia Porcentaje
a
1835 64,9 80,9 80,9
2000
2001
a 279 9,9 12,3 93,2
3000
3001
a 86 3,0 3,8 97,0
Válido
4000
4001
a 42 1,5 1,8 98,8
5000
sobre
27 ,9 1,2 100,0
5000
Total 2269 80,2 100,0
Faltantes 9,00 558 19,8
Total 2827 100,0
Con el comando
El comando COMPUTE
En este punto hay que destacar que el comando COMPUTE funciona caso
por caso: los cálculos de la expresión aritmética se realizan uno por uno
para cada caso. Aunque el comando consta de una sola línea, los cálculos se
realizan para todos los casos.
Operadores Aritméticos
Los operadores aritméticos combinan los componentes de una expresión
aritmética. Por lo tanto, están "entre" los nombres de las variables y las
constantes. Los operadores aritméticos y su significado son:
Operador significado
+ Suma
- Resta
* Multiplicación
/ división
** potenciación
El orden es:
0*missing =0
0/missing =0
missing**0 =1
0**missing =0
MOD(0,missing) = 0
Las funciones con múltiples argumentos se evalúan siempre que sea posible
con información proporcionada por los argumentos. Por lo tanto, una
función puede generar resultados numéricos aunque algunos de los
argumentos tengan un valor faltante. Por ejemplo, una variable con
información válida es suficiente para calcular la función estadística SUM
(x1, x2, x3). Sin embargo, las funciones estadísticas controlan cuántos
argumentos válidos deben estar presentes para que la función sea evaluada,
SUM.n (fraud list) significa que al menos n argumentos deben proporcionar
información válida para que la suma sea calculada. SUM.2 (x1, x2, x3)
significa: Al menos dos variables no deben tener valores de "usuario" o
"valores faltantes por el sistema" para que la función sea evaluada.
Calcular a través de un Menú
Para realizar cálculos a través de un menú, se debe seleccionar,
TRANSFORM �� VARIABLE CALCULATE… y aparecerá la ventana
Calcular variable. Los campos variables de destino, expresión numérica y
funciones ya han sido tratados en detalle en los primeros apartados de este
capítulo.
El comando COUNT
Otro comando para modificar variables numéricas es el comando COUNT.
COUNT cuenta cuántas veces, en un caso, un valor de la "lista de valores"
ocurre en las variables de la "varlist" y si es necesario, asignar el resultado a
un variable objetivo. Así, se cuenta en cada caso sobre las variables de la
"var list."
Ejemplo:
COUNT new = a b c d (1).
A B C D → New
=
0 0 0 0 0
0 1 0 0 1
1 0 0 1 2
1 1 0 1 3
1 1 1 1 4
COUNT ignora los "valores faltantes por el usuario" y los trata como
valores normales. COUNT nunca devuelve un valor faltante como
resultado, porque si ningún valor de la "value list" aparece en las variables
de la "varlist", el resultado del recuento es 0. En la lista de valores, las
palabras clave MISSING o SYSMIS pueden utilizarse para contar todos los
valores faltantes con MISSING ("usuario" y "valores faltantes por el
sistema") o solo los "valores faltantes por el sistema" con SYSMIS.
A partir de los datos del ejercicio, se aclara una vez más el efecto de
COUNT: La nueva variable "improved" o "mejora" recibe en un caso un 2,
si en opinión del encuestado o de su propia situación económica ("v14") o
de su situación económica en Estados Unidos. ("v12 "Vcount" se asigna un
1 si considera que su situación personal o económica está mejorando y
aquellos encuestados que no vean ninguna mejora en ambas preguntas
recibirán un 0, las variables se casan por casos, pero CASES = 10 restringe
este listado a los diez primeros casos.
Para especificar los valores a contar, hay que activar el botón Define
valores… este botón está activo si se especifica al menos una variable de la
lista en el campo Variables.
TEMPORAL o en inglés TEMPORARY
En relación con las modificaciones de datos, el comando TEMPORARY es
de gran importancia. Este comando sólo está disponible a través de la
sintaxis y no a través del control de menú.
TEMPORARY
TEMPORARY señala el inicio de una secuencia de las llamadas
"modificaciones temporales" .20 se trata de órdenes de modificación (como
COMPUTE, RECODE) cuyo efecto es detenerse sólo hasta la siguiente
orden de procedimiento. Por lo tanto, las variables que se forman de nuevo
después de un comando TEMPORARY también existen sólo hasta el
siguiente procedimiento. Sin embargo, están disponibles para estos. Del
mismo modo, las modificaciones de las variables "antiguas" "old" tras una
orden TEMPORARY solo están disponibles hasta el siguiente
procedimiento. Todas las transformaciones que no están entre una orden
TEMPORARY y el siguiente procedimiento son transformaciones
"permanentes" y se aplican a toda la siguiente ejecución de evaluación.
TEMPORARY.
(2 THRU 3=1) (4
RECODE v563
THRU 5=2) (1,6,7=3).
VALUE
v563 1 low degree
LABELS
2 higher degree
3 other.
FREQUENCIES VARIABLES = v563. FREQUENCIES VARIABLES =
v563.
Modificaciones Dependiendo de las Condiciones
En el curso del análisis de datos, con frecuencia es necesario realizar
modificaciones en las variables sólo si existen determinadas constelaciones
en los valores de las variables. Para este tipo de modificaciones
dependiendo de las condiciones se utilizan los siguientes comandos:
Una relación está formada por dos expresiones aritméticas, entre las que se
sitúa un operador relacional:
La primera línea de esta tabla debe interpretarse como sigue: Si, para una
combinación de dos relaciones, la primera relación es "verdadera" y al
mismo tiempo (Y) la segunda relación es "verdadera", entonces el resultado
de la combinación también es "verdadera". La interpretación de las líneas
restantes debe realizarse de forma análoga.
Si SPSS Statistics encuentra una sentencia IF, comprueba en cada caso si la
expresión lógica completa es verdadera, falsa o faltante. Si la expresión
lógica es "verdadera", se ejecuta la "instrucción de cálculo" (variable =
expresión aritmética). Por el contrario, si la expresión lógica es "falsa" o
"faltante", no se realiza ningún cálculo para el caso en cuestión y la variable
de destino situada a la izquierda del signo igual permanece sin cambios. Si
un caso se evalúa de este modo SPSS Statistics continua comprobando la
expresión lógica para el siguiente caso.
Ejemplos:
IF (a = 1 AND (b = 1 OR c = 1)) z = 1.
En este caso, se examina primero la expresión lógica del nivel de corchetes
interior. Esta puede ser verdadera o falsa. Sin embargo, debido a la relación
"AND" de la primera relación (a = 1) con la expresión parentética, la
expresión lógica completa sólo puede ser verdadera si "a" es igual a 1 y, al
mismo tiempo, la relación en el paréntesis interior es "verdadera".
DO IF (logical condition).
Modificación de Datos.
Modificación de Datos.
[ELSE.]
Data modification.
END IF.
DO IF (v556 = 1).
RECODE v563 (1,2 = 0) (3,4 = 1) (ELSE = 9).
END IF.
DO IF (v556 = 1).
COMPUTE y = 1.
ELSE.
COMPUTE y = 2
END IF.
DO IF (v556 = 1).
COMPUTE y = 1.
COMPUTE y = 2.
ELSE.
COMPUTE y = 9.
END IF
Para los casos en los que "v556" es 1, a "y" se le asigna un 1. Para los casos
en los que la variable "v556" toma el valor de 2, a "y" se le asigna un 2. En
todos los demás casos, a "y" se le asigna un 9 como expresión. Si "v556"
toma un valor faltante, "y" no cambia.
DO IF (x = 1).
DO IF (v556 = 1).
COMPUTE y = 1.
COMPUTE y = 2.
END IF.
COMPUTE y = 3.
END IF.
Si una expresión lógica es verdadera para un caso, la estructura DO IF-END
IF se abandona siempre en cuanto se realizan las modificaciones
correspondientes, incluso si una expresión lógica siguiente es también
verdadera para el caso en cuestión
DO IF (x = 1).
COMPUTE y = 1.
END IF.
SAVE OUTFILE='datei'
[/KEEP=varlist] [/DROP=varlist]
Para guardar los datos con ayuda del menú se realiza a través de la ruta
FILE �� SAVE, que guarda el registro de datos activos directamente o a
través de SAVE FILE �� SAVE AS... La ventana Guardar datos aparece
como con la posibilidad de introducir un (nuevo) nombre de archivo - ben.
Ahora que las variables han sido el centro de atención, pasemos a los casos.
En el curso de un proyecto de investigación experimental, a menudo es
necesario analizar sólo cantidades parciales de los objetos de examen
(casos). Los comandos de selección de datos FILTER y SELECT IF son
útiles para eso. Permiten seleccionar los casos según determinados criterios.
Filtro
FILTER ordena los casos usando una variable lógica (variable de filtro).
Una variable lógica sólo tiene los valores 0, 1, o "sistema-faltante".
Un ejemplo, con un filtro para las mujeres del registro del ejercicio, podría
ser el siguiente:
RECODE v556 (2=1) (1=0) INTO v556filter.
FILTER BY v556filter.
DESCRIPTIVES v707
FILTER OFF.
Resultados DESCRIPTIVES:
Select If o Seleccionar If
El siguiente comando selecciona partes del registro. Las partes no
seleccionadas pueden perderse permanentemente al ser almacenadas.
Correspondencia de Menú:
DATA �� CHOOSE CASES...
Ejemplo:
Sólo se seleccionan los casos que tienen el valor 2 (mujer) para la variable
"v556" (género) y un valor superior a 1000 para la variable "v707"
(ingresos netos mensuales).
Si hay comandos de procedimientos entre los comandos de selección, la
vinculación AND implícita de los comandos de selección sucesivos no
suele tenerse en cuenta.
Ejemplo:
TEMPORARY.
Correspondencia de Menú:
Cada comando que sigue al SPLIT-FILE se ejecuta por separado para los
diferentes subgrupos. Sin embargo, siempre afecta a todos los subgrupos.
Por lo tanto, las modificaciones de un comando SPLIT FILE siempre
funcionan en todos los casos.
Correspondencia al Menú:
El comando es:
DESCRIPTIVES v707
En primer lugar, los casos se clasifican por género. Luego, SPLIT FILE
divide el registro en los subgrupos "masculino" y "femenino". A
continuación, se ejecutan las estadísticas descriptivas, que se ejecutan por
separado por los subgrupos. Al convertirse en SPLIT FILE OFF se vuelven
a solicitar las mismas estadísticas, que ahora se entregan para el registro en
su totalidad.
Los distintos objetos del gráfico, como los ejes, las barras y las superficies,
pueden editarse ahora. Por ejemplo, al hacer doble clic en el eje de escala
(eje Y) se abre la ventana Propiedades, que contiene varias pestañas en las
que es posible realizar los siguientes cambios en el diagrama.
Por ejemplo, la pestaña Tamaño del diagrama permite determinar el tamaño
del gráfico. Para cambiar los títulos de los ejes, se puede hacer
manualmente en el editor del diagrama, simplemente sobrescribiendo el
nombre anterior.
Nombre
En esta primera columna de la vista de variables se debe introducir el
nombre por el que se conocerá cada variable de la matriz de datos. En
general, se utilizan nombres cortos para identificar las variables o
elementos. Al nombrarlas, se debe tener cuidado de no comenzar con
números, ya que el programa no lo permite y emite un cuadro de diálogo en
el que menciona que "el primer carácter del nombre de la variable no es
válido".
Por otro lado, hay que tener en cuenta que no se deben dejar espacios entre
los caracteres, y si estos son necesarios, se recomienda utilizar guiones. En
versiones anteriores del programa, había un número límite de caracteres
para esta primera columna que iba de 8 a 11, pero esto ya no es un
problema.
Para nombrar la variable, basta con situarse en la celda correspondiente de
la primera columna y escribir el nombre con el que se identificará la
variable. Hay que tener en cuenta que es precisamente esto lo que se verá en
la parte superior de la columna en la vista o matriz de datos.
Escribir
En la segunda columna de la misma pantalla de la variable, se debe definir
el tipo de elemento o variable al que corresponde. Por defecto, aparecerá
"Numérico". Sin embargo, se puede modificar pulsando el cuadro gris con
tres puntos suspensivos que aparece a la derecha de la celda al cambiar. Al
pulsar los puntos suspensivos aparecerá un cuadro de diálogo que permite
definir el tipo de información que se va a capturar y utilizar.
Ancho
Esta columna tiene la misma función que la opción de ancho en el cuadro
de diálogo donde se selecciona el tipo de variable. Como ya se ha
comentado, por defecto el programa establece el tipo de información como
numérica y, en muchas ocasiones, no es necesario cambiarlo por lo que en
el ancho de columna de la vista de datos también se puede indicar el
número máximo de caracteres que permitirá el programa, que está
predefinido en 8. En este caso, el SPSS aceptaría números como 000000el
01 (8 caracteres) o el nombre de una colonia como "La Cruz" (7 caracteres
contando el espacio).
Decimales
Al igual que en la columna anterior, tiene la misma función que la opción
de decimales en el cuadro de diálogo en el que se selecciona el tipo de
variable, pero por la misma razón explicada en el atributo anterior (ancho),
se ofrece la opción de modificar esta información directamente en la vista
de las variables. Por defecto, el programa considera dos decimales. Sin
embargo, esto se puede modificar de la misma manera que la opción de
ancho.
Etiqueta
Como se menciona en el tutorial de SPSS, además de especificar los tipos
de datos, el programa ofrece la posibilidad de definir etiquetas para las
variables, que se utilizan y muestran en los gráficos e informes estadísticos.
La etiqueta podría ser la misma pregunta o ítem si el instrumento de
recolección fuera un cuestionario, aunque también se puede utilizar una
definición de lo que representa la variable.
Para escribir o nombrar la etiqueta de la variable, basta con posicionarse en
la celda correspondiente y escribir el título o la etiqueta requerida para esa
variable, por ejemplo "Edad" o "Por favor, ¿podrías indicar tu edad?"
Valores
La siguiente columna de la vista de variables corresponde al atributo de la
variable conocido como valores o también como etiquetas de valor. Este
espacio proporciona el método que permite relacionar ciertos valores
definidos por la persona que realiza el análisis con una etiqueta de texto. En
otras palabras, aquí se introducen los valores que se asignarán a las
categorías del elemento o variable considerada (codificación).
Para realizar esta acción, haz clic en los tres puntos suspensivos que
aparecen a la derecha de la celda correspondiente y donde se editarán los
values1. Al hacerlo, se abrirá automáticamente un cuadro de diálogo en el
que se definirán los valores que corresponden a cada categoría.
Faltantes (valores)
Al aplicar un instrumento de medición (por ejemplo, un cuestionario en una
encuesta), con frecuencia se presentan valores faltantes o no válidos, lo que
puede deberse a que los participantes no respondan a determinadas
preguntas por desconocimiento o las respondan de forma errónea. En estos
casos, si no se filtra la información obtenida, el análisis de los datos podría
conducir a resultados inexactos o confusos.
Los datos numéricos erróneos, los campos de datos vacíos o los campos con
entradas no válidas son convertidos por el programa en lo que el sistema
denomina valores faltantes y se identifican en las celdas de la vista de datos
como puntos. Para identificar la razón por la que se perdieron esos datos, el
programa incluye la opción "faltante", que ayuda a diferenciar la razón
específica en el análisis de los datos (por ejemplo, separa los datos faltantes
porque los encuestados se negaron a responder a la pregunta de los que no
lo hicieron porque no les correspondía).
Para definir los datos que el sistema no debe considerar para el análisis, haz
clic en la celda correspondiente a la columna "Lost"1 , donde aparecerá de
nuevo un cuadro gris con puntos suspensivos a la rigth2 , en el que deberás
hacer clic para abrir el cuadro de diálogo missing values o valores faltantes.
En él se definen aquellos valores que el programa debe identificar como no
válidos y excluirlos de los análisis.
Columnas
El atributo que sigue es el que se refiere a las Columnas, en esta opción se
define el ancho que tendrá la columna correspondiente a esa pregunta o
ítem en la matriz o vista de los datos. El valor por defecto de este atributo es
ocho. Sin embargo, puede ser modificado de la misma manera que los
atributos Ancho o Decimal.
Alineación
Esta propiedad se refiere a la alineación que mantendrá el contenido o los
valores en las celdas de la matriz o vista de datos. Por defecto, los números
se alinean a la derecha y el texto a la izquierda, lo que puede modificarse
haciendo clic en la casilla Alineación y seleccionando entre la opción
izquierda, derecha o centro.
Medida
Este atributo se edita introduciendo las variables o elementos que serán
analizados con la ayuda del programa. La medida depende del nivel de
medición de la variable. El programa sólo considera tres tipos:
Una vez copiadas las celdas de Excel, será necesario pegarlas en la vista de
datos del SPSS cuidando que al hacerlo, las celdas copiadas correspondan
con las celdas donde se están pegando (recuerda que la matriz de Excel
debe ser idéntica a la matriz del SPSS). Para eso, se sugiere posicionarse en
la primera celda del primer case1 y allí instruir para pegar.
Tras esto se abrirá un nuevo cuadro de diálogo con el título Abrir fuente de
datos de Excel, debemos asegurarnos de que la opción Leer nombre de
variable de la primera fila de data y pulsar OK2, esto abrirá la matriz de
datos en el SPSS incluyendo los títulos de las variables. No olvides que
después de esto, deberás editar las propiedades de las variables en la Vista
de variables.
Capítulo Diez
Análisis Estadístico
Para comenzar, debemos abrir la matriz o vista de los datos que serán
analizados con la ayuda del programa, sin olvidar que debe tener los valores
recopilados y que previamente, las variables1 tuvieron que ser editadas en
la vista de variables. En la parte superior de cualquiera de las dos vistas del
SPSS, se puede ver la barra de herramientas en la que se incluye el botón
Analizar,2 al pulsar sobre él se despliegan una serie de opciones entre las
que se encuentra la denominada estadística descriptiva3, al seleccionarla se
abrirán más opciones y se pulsará sobre Frecuencias4.
Estadísticas
El SPSS presenta la información estadística en forma de tabla. En la
primera columna de ésta (de izquierda a derecha) se incluyen las etiquetas
de los datos válidos, los faltantes y, posteriormente, los nombres de los
estadísticos solicitados (por ejemplo, media, mediana y moda). Los
encabezados del resto de las columnas serán las etiquetas de las variables
analizadas, mientras que los valores obtenidos mediante el análisis se
encontrarán en el cruce de las etiquetas de la primera columna con la
variable correspondiente.
Tabla de Frecuencias
Las tablas de frecuencias que se muestran en la Vista de Resultados tienen
siempre la siguiente información (ver figura 34)9:
Estilo y Bootstrap
SPSS versión 22 y posteriores incluyen dos nuevas opciones en el análisis
descriptivo. El botón de estilo se utiliza para especificar las condiciones
para cambiar automáticamente las propiedades de la tabla dinámica en
función de condiciones específicas. Por ejemplo, puede convertir en negrita
todos los valores de significación inferiores a .05.
Por otro lado, el comando Bootstrap se utiliza para hacer uso del
Bootstrapping, que es un método excelente para derivar estimaciones
sólidas de intervalos de confianza y errores estándar en estimaciones como
la media, la mediana, la moda, las proporciones, la correlación, las
relaciones de probabilidad o los coeficientes de regresión, e incluso para
construir las pruebas de hipótesis.
Cálculo de la Confiabilidad
Otro ejemplo de las muchas ventajas que ofrece SPSS es la posibilidad de
calcular la fiabilidad de un instrumento, que, como se comenta en el libro,
se determina mediante diversas técnicas o métodos. El programa ofrece
diferentes coeficientes para realizar el cálculo. Sin embargo, la elección de
los mismos dependerá de nuevo del nivel de mediación utilizado en el
instrumento de recolección de datos.
Correlación
Como se explica en el capítulo 10 del texto impreso "Análisis de datos
cuantitativos", la correlación se utiliza para analizar la relación entre las
variables. Esta prueba también se puede realizar con el SPSS siguiendo los
pasos que se describen a continuación.
Análisis de Factores
Analizar → Reducción de tamaño → Factor → Seleccionar las variables a
incluir en el análisis.→ Ajustar opcionalmente Descriptiva, Extracción,
Rotación, Puntuaciones, Opciones → Aceptar.
Chi Cuadrado
Analizar → Pruebas no paramétricas → Cuadros de diálogo antiguos →
Chi cuadrado → Generar lista de variables de prueba → Especificar rango
esperado → Seleccionar valores esperados → Ajustar opcionalmente
Opciones → Aceptar.
Regresión lineal
Analizar → Regresión → Lineal → Asignación de variables Dependientes
→ Determinar variables independientes → Seleccionar Método → Elegir
Variable de selección → Escribir Etiquetas de caso → Determinar
Ponderación MCP → Ajustar opcionalmente Estadísticas, Gráficos,
Guardar, Opciones → Aceptar.
Diagramas de Dispersión
Gráficos → Generador de Gráficos → Dispersión / Puntos → El programa
ofrece seis opciones gráficas a la derecha de donde se eligió el tipo de
gráfico, arrastra el icono de Dispersión simple al lienzo en la parte superior
del cuadro de diálogo (vista previa del gráfico) → Arrastra una variable de
escala a la zona de colocación del eje x → Arrastra otra variable de escala a
la zona de colocación del eje y → Modifica opcionalmente las demás
opciones que ofrece el cuadro de diálogo → Aceptar.
Conclusión
Pero estas no son las únicas ventajas de IBM SPSS, sino que hay que
destacar el apoyo del proveedor en cuanto a documentación y material de
soporte que pone a disposición de los usuarios en su página web, de forma
gratuita. Desde un centro de aprendizaje dedicado a SPSS, hasta una
completa colección de videos sobre aspectos prácticos a los que aplicar el
uso de IBM SPSS, incluyendo:
Cómo mejorar los índices de fidelización y retención de clientes.
Las ventajas de utilizar IBM SPSS son muchas y, cada vez más, según
anuncian sus novedades.
Una de las ventajas mejor valoradas por los usuarios del SPSS
Extension Hub es la experiencia del catálogo de aplicaciones que
simplifica acciones tan necesarias como la descarga gratuita de
productos, la búsqueda de nuevas extensiones o la actualización de
extensiones, entre otras.
Aquellos que entren en contacto con IBM SPSS por primera vez
descubrirán que ofrece soporte para Phyton 3, les permite ponerse en
contacto con la comunidad para las extensiones y los foros y, pone a su
disposición la funcionalidad "revertir lo guardado". Los usuarios con
experiencia en la herramienta también pueden beneficiarse de los cambios a
mejor, como los relacionados con la nueva imagen de las tablas, la nueva
pantalla de bienvenida con acceso directo a la comunidad o al gestor de
licencias y los nuevos formatos de fecha y hora.
IBM SPSS
WALKER SCHMIDT
Introducción
Este libro está dividido en dos partes principales. La primera parte del libro
se centra en el trabajo con el SPSS Client con el lenguaje de programación
Python y los capítulos que siguen a este tema cubren más de la mitad de
todo el libro. Esto se debe a que no sólo Python es un lenguaje de
programación muy popular, sino que las correspondientes técnicas y formas
de implementar las funciones, clases, métodos y otros recursos de este
lenguaje son demasiado grandes como para ignorarlas. En la actualidad,
donde las computadoras son normales en prácticamente todos los hogares y
empresas, aprender a programar se ha convertido más en un pasatiempo que
en una profesión. Como tal, es seguro decir que la mayoría de la gente que
no tiene una capacitación en ciencias de la computación se inclinaría por el
autoaprendizaje de Python como su primer lenguaje de programación. Esto
es porque Python es relativamente fácil de codificar en comparación con
otros lenguajes y la sintaxis junto con las funciones generales simplemente
tiene más sentido. Por eso, los capítulos en los que vemos la
implementación de los bloques de programa de Python (sintaxis de los
comandos del bloque de programa del SPSS Client que implementan el
código de Python) tienen explicaciones detalladas y extensas. La razón es
que es la oportunidad perfecta para que el lector se familiarice con el
lenguaje de programación lo mejor posible. Además, tener una explicación
paso a paso de lo que ocurre en cada línea del bloque de programa aumenta
las posibilidades de que el lector comprenda y aprenda algo nuevo.
Reunir lo Esencial
Antes de que podamos aprender a programar y sumergirnos en proyectos
detallados, debemos asegurarnos de que tenemos todo, el software y los
complementos necesarios instalados en el sistema que vamos a usar. Antes
de poder instalar el complemento de integración de Python, debemos
instalar el propio software de IBM SPSS Statistics. El paquete de software
puede ser descargado fácilmente desde el enlace:
https://software.usc.edu/spss/
Otra cosa importante que hay que aclarar dentro de esta sintaxis es
cuándo y dónde usar el comando ‘import spss’. Tradicionalmente,
necesitamos importar todas las bibliotecas que vamos a usar dentro
del programa al principio. Además, la instrucción importar sólo
tiene que usarse una vez por sesión de programación. Por ejemplo, si
has terminado de codificar un programa y quieres trabajar en otro, lo
harás abriendo otra sesión y en ella deberás importar de nuevo las
bibliotecas que quieras usar. Recuerda que mientras la instrucción
importar haya sido definida explícitamente al principio del
comando, hacerlo de nuevo no cambiará nada.
Cuando se usan las instrucciones que dan una salida externa (el resultado se
muestra en una consola o en cualquier otra ventana), como el comando
print() en Python, la salida es manejada por el visor de la aplicación SPSS
que muestra este resultado como un 'log item' (elemento de registro). Por
ejemplo, a continuación se ha mostrado el uso del comando print():
BEGIN PROGRAM.
print "Hello, world!"
END PROGRAM.
Completar la sintaxis
Depuración de programas
Una cosa que hay que recordar cuando se utiliza la función Submit() para
que el SPSS Client procese el comando correspondiente es que una sola
cadena puede ocupar sólo un comando. Especificar varios comandos dentro
de la misma lista no funciona. El Client identifica cada lista identificando el
corchete que lo encierra. Una cadena encerrada entre dos corchetes se
considera una lista individual. Del mismo modo, si otra cadena va seguida
de sus propios corchetes, se considerará como una cadena independiente de
la anterior. Por lo tanto, si quieres enviar varios comandos, puedes hacerlo
encerrando cada comando entre corchetes separados.
Sin embargo, cada sintaxis de comando que creamos dentro del bloque de
programa necesita seguir ciertas reglas. Si estamos enviando varias sintaxis
de comandos, es importante colocar un punto (.) al final. Aunque si sólo se
introduce una sintaxis de comando en la función Submit(), ya no es
necesario utilizar el punto final. Otras reglas se aplican al uso del comando
'INSERT' donde el usuario debe implementar este comando en lugar del
comando 'INCLUDE' cuando se agrega un archivo de comando completo a
la sesión en vivo actual. No es necesario discutir explícitamente toda la lista
de reglas ya que sólo son aplicables en ciertos escenarios. Sin embargo, a
medida que exploramos diferentes temas, también aprenderemos sobre las
convenciones que deben seguirse (si es necesario).
El diccionario de datos
Los valores
Por ejemplo, el siguiente bloque de programa presenta una sintaxis de
comandos personalizada que está utilizando un procedimiento conocido
como 'DESCRIPTIVES' para dirigirse a un valor de datos específico en el
conjunto de datos que se está utilizando en la sesión del SPSS Client en
vivo. Esta categoría de valor de datos es 'variables de escala' o 'scale
variables'.
*python_desc_on_scale_vars.sps.
BEGIN PROGRAM.
import spss
spss.Submit("GET FILE='/examples/data/Employee data.sav'.")
varList=[ ]
for i in range(spss.GetVariableCount()):
if spss.GetVariableMeasurementLevel(i)=='scale':
varList.append(spss.GetVariableName(i))
if len(varList):
spss.Submit("DESCRIPTIVES"+" ".join(varList) + ".")
END PROGRAM.
3. Una vez que los datos de salida del procedimiento han sido enviados
al espacio de trabajo XML y son procesados, no podemos
simplemente sacarlos del espacio de trabajo. Siempre que los
usuarios quieran capturar los datos del espacio de trabajo XML,
tienen que proporcionar ciertos argumentos a la función
'GetValuesFromXMLWorkspace()' también porque usar esta función
sola no hará nada. Una razón válida para esto es que la función por
sí sola no sabe qué valor quiere capturar del espacio de trabajo
XML. Por eso, un requisito para recuperar la salida del espacio de
trabajo XML es proporcionar a la función
'GetValuesFromXMLWorkshop()' el valor correspondiente del
identificador OMS del asociado a la salida. En esta demostración, el
valor del identificador se almacena en la variable 'desc_table'. Así,
para recuperar la salida, la función incluye esta variable como
primer argumento.
4. Además, tenemos que especificar otros identificadores también para
recuperar la salida correcta del espacio de trabajo XML. En este
caso, especificamos los nombres de la tabla, la fila y la columna que
sirven como identificadores adicionales para la salida que deseamos
recuperar. Puedes averiguar esta información visualizando la salida
del procedimiento 'Descriptives' en la pestaña del visualizador del
SPSS Client. En esta demostración, podemos suponer que el usuario
ha analizado la salida del procedimiento y ha asignado el nombre de
la tabla (Estadísticas descriptivas o Descriptive Statistics), el
nombre de la fila (Salario Actual o Current Salary) y el nombre de
la columna (Media o Mean). De este modo, la función dará el
conjunto exacto de valores que el usuario desea. Sin embargo, si los
identificadores no coinciden con ningún valor de la salida del
procedimiento, la función dará un resultado vacío.
Para entender cómo utilizar los métodos del módulo spss para personalizar
una tabla dinámica, primero veremos un script de Python que lo demuestra
y luego lo desglosaremos y discutiremos las partes importantes.
#ChangePivotTableTextStyle.py
import SpssClient
SpssClient.StartClient()
OutputDoc = SpssClient.GetDesignatedOutputDoc()
OutputItems = OutputDoc.GetOutputItems()
FREQUENCIES !catvars.
DESCRIPTIVES !scavars.
The file we just inserted is a command syntax file that has the following
program block:
BEGIN PROGRAM PYTHON.
import spss
<Enter Python code>
END PROGRAM.
Manejo de Errores
Encontrarse con errores es algo común en la programación y esto también
es cierto para Python. Cuando un error aparece durante la ejecución del
código en el IDE de Python, se genera una "excepción" en respuesta a este
error por el intérprete. Mientras que el intérprete de Python puede capturar
las excepciones, el módulo spss también es capaz de capturar otros tipos de
errores, tres en particular, y generar las excepciones correspondientes. Estos
tres tipos de errores son los siguientes;
Desde la versión 17.0, el IBM SPSS Client incluye una función que permite
a los usuarios crear sus propias GUIs (Interfaz Gráfica de Usuario)
personalizadas, esta función se conoce como "Custom Dialog Builder".
Básicamente, se definen las dimensiones, los elementos, los aspectos y las
acciones de la GUI en un código Python. No importa si este código que
contiene la información estructural para la GUI se implementa dentro de
otro comando o en el bloque de programa del SPSS Client (El que usamos
los comandos Begin Program y End Program).
Para mantener las cosas simples y nítidas, entenderemos los diversos pasos
en la construcción de una GUI usando ejemplos demostrativos. Los
ejemplos mostrados en esta sección son compatibles tanto con programas
de Python como con scripts de Python.
dlg.Destroy()
app.Destroy()
END PROGRAM.
Por último, una vez que el usuario pulsa un botón, no queremos que
el cuadro de diálogo persista. En cambio, queremos que desaparezca
una vez que haya hecho su trabajo. Para eso, incluimos un método
que terminará esta instancia del cuadro de diálogo y este es el
método 'Destroy()'. Sin embargo, terminar sólo la GUI no será
suficiente. En su lugar, tenemos que terminar dos instancias en
ejecución que pertenecen a diferentes clases. Tenemos que terminar
una instancia que pertenece a la clase wxPython y una instancia que
pertenece a la clase MessageDialog. Por eso usamos el método
'Destroy()' dos veces.
Como estamos trabajando con IBM SPSS, haremos algunos cambios para
que vayas con el tema de este libro. Cuando elijas cargar una imagen,
observa que el explorador de archivos tiene una lista de filtros de tipo de
archivo específicos para imágenes. Del mismo modo, este cuadro de
diálogo del explorador de archivos tendrá un filtro específico para los
archivos de datos de SPSS (.sav). En la siguiente demostración de cómo
crear dicho cuadro de diálogo, utilizaremos otra clase del módulo
wxPython que es 'FileDialog'. El siguiente bloque de programa demuestra
la creación de un explorador de archivos:
*python_simple_file_chooser.sps.
BEGIN PROGRAM.
import wx, os, spss
app = wx.PySimpleApp()
fileWildcard = "sav files (*.sav)|*.sav|" \
"All files (*.*)|*.*"
dlg = wx.FileDialog(None,
message="Choose a data file",
defaultDir=os.getcwd(),
defaultFile="",
wildcard=fileWildcard,
style=wx.OPEN)
if dlg.ShowModal() == wx.ID_OK:
filespec = dlg.GetPath()
else:
filespec = None
dlg.Destroy()
app.Destroy()
if filespec:
spss.Submit("GET FILE='" + str(filespec) + "'.")
END PROGRAM.
spssaux.OpenDataFile("/examples/data/Employee data.sav")
vardict = spssaux.VariableDict(variableLevel=['scale'])
choicelist = vardict.variables
if choicelist:
app = wx.PySimpleApp()
dlg = wx.MultiChoiceDialog(None,
"Select one or more variables\nfor analysis",
"Descriptive Statistics",
choices=choicelist)
if dlg.ShowModal() == wx.ID_OK:
vars = dlg.GetSelections()
else:
vars = None
dlg.Destroy()
app.Destroy()
if vars:
varlist = [choicelist[i] for i in vars]
spss.Submit("DESCRIPTIVES"+" ".join(varlist))
END PROGRAM.
BEGIN PROGRAM.
import samplelib
print samplelib.VarsWithFormat("TIME")
END PROGRAM.
La Clase Cursor
Cuando usamos la clase de 'Cursor', se nos da la opción de usar esta clase
en uno de los tres modos:
Cuando usamos esta sentencia (ya sea con el argumento de tipo de acceso o
sin él), el programa asume que el usuario requiere los datos de caso para
cada variable dentro del conjunto de datos especificado. La razón por la que
mencionamos esto es porque además del argumento de tipo de acceso,
también podemos pasar al método spss.Cursor() un argumento adicional
que especifica las variables que queremos que recupere. Este argumento es
básicamente el valor índice que representa la posición de las variables
correspondientes dentro del conjunto de datos especificado. Por ejemplo,
digamos que estamos trabajando con un archivo de datos con el nombre
‘demodata.sav’. Cargamos este archivo de datos en el SPSS Client para
que sea el conjunto de datos actualmente activo. Ahora, queremos leer los
datos de caso de las variables, pero no queremos hacerlo para cada variable,
sino que queremos utilizar el modo lectura en un número selecto de
variables. Para eso, pasamos el valor índice de las variables, en este caso,
las variables en la posición 2 y 9, que queremos leer como argumento al
método Cursor():
dataCursor = spss.Cursor([2,9])
Datos Faltantes
No todos los conjuntos de datos que utilicemos estarán completos y no
tendrán valores faltantes en los datos de casos. Para recrear este escenario,
usaremos un conjunto de datos que tenga datos faltantes y luego crearemos
un bloque de programa que obtendrá los datos de casos de este conjunto de
datos. Este bloque de programa es el siguiente:
*python_get_missing_data.sps.
DATA LIST (',') /numVar (f) stringVar (a4).
BEGIN DATA
1,a
,b
3,,
9,d
END DATA.
MISSING VALUES numVar (9) stringVar (' ').
BEGIN PROGRAM.
import spss
dataCursor=spss.Cursor()
data=dataCursor.fetchall()
dataCursor.close()
print "Case data with missing values:\n", data
END PROGRAM.
# Calculate the cutpoint salary value for each percentile for each
# employment category
percentiles={}
for jobcat in salaries:
cutpoints = [int(math.ceil(counts[jobcat]*f)) for f in [.25, .50, .75]]
tempcount=0; pctindex=0
percentiles[jobcat]=[]
salarylist=sorted(salaries[jobcat].keys())
for salary in salarylist:
tempcount+=salaries[jobcat][salary]
if tempcount>=cutpoints[pctindex]:
percentiles[jobcat].append(salary)
pctindex+=1
if pctindex == 3:
break
Nota: El objeto VariableList no puede ser referido como una lista de Python
pero muestra algunas similitudes con ella. Puede hacer que el usuario sea
capaz de añadir e insertar elementos, iterar sobre los elementos y otorga el
soporte de la función Python. La clase VariableList tiene una instancia que
sólo es capaz de funcionar dentro del paso de datos donde fue generada.
Obtener o Configurar las Propiedades de las Variables
El usuario accede a las variables que ya existen a través del objeto
VariableList tras lo cual es posible recuperar o cambiar la propiedad
asociada a esa variable que puede ser el nivel de medición de la variable de
sus atributos personalizados. Especificando el nombre de la variable, el
usuario accede a las variables dentro del objeto VariableList, lo que puede
entenderse como:
variable = variableList['salary']
Añadir Variables
El objeto VariableList incluye el método append o añadir que se utiliza para
permitir al usuario editar el conjunto de datos añadiendo una variable
completamente nueva en él. Esta variable se incluye entonces tanto en el
objeto VariableList como en el conjunto de datos asociado.
Añadir una Variable
El método append del objeto VariableList se utiliza para añadir una nueva
variable como la newvar1 del siguiente ejemplo. La posición de esta nueva
variable se encuentra al final de la lista de variables.
variableList.append ( name='newvar1', type=0 )
Este programa puede ejecutarse para obtener ayuda para la función 'R
paste()'. Del mismo modo, utilizando el siguiente bloque de programa,
podemos acceder fácilmente a la página web del manual de ayuda de R:
Visualización de la Salida de R
Cualquier salida mostrada desde R para la versión 18 de SPSS Statistics y la
salida de la consola y los gráficos se redirigen al visualizador de SPSS
Statistics.
Por ejemplo:
var1 <- var2+1
Estas dos líneas separadas se leen como “var1 <- var2+ 3” lo que significa
que R continuará leyendo la entrada hasta que el comando esté
sintácticamente completo. Por otro lado, si el comando se escribe como:
var1 <- var2
+3
Convenciones de Comillas en R
En el lenguaje de programación R, las cadenas se encierran entre
comillas simples (‘) o dobles (“) como cuando se utilizan en IBM®
SPSS® Statistics.
Ejemplo
*R_multiple_program_blocks.sps.
DATA LIST FREE /var1.
BEGIN DATA
1
END DATA.
DATASET NAME File1.
BEGIN PROGRAM R.
File1N <- spssdata.GetCaseCount()
END PROGRAM.
DATA LIST FREE /var1.
BEGIN DATA
1
2
END DATA.
DATASET NAME File2.
BEGIN PROGRAM R.
File2N <- spssdata.GetCaseCount()
{ if (File2N > File1N)
message <- "File2 has more cases than File1."
else if (File1N > File2N)
message <- "File1 has more cases than File2."
else
message <- "Both files have the same number of cases."
}
cat(message)
END PROGRAM.
Resultado
age income car employ
1 55 72 36.2 23
2 56 153 76.9 35
3 28 28 13.7 4
Resultado
Datos de casos con valores faltantes:
numVar stringVar
1 1 a
2 NaN b
3 3 <NA>
4 NaN d
Resultado
Case data with user-missing values treated as valid:
numVar stringVar
1 1 a
2 NaN b
3 3
4 9 d
Result
bdate
1 2009-05-02
Resultado
Split variable values:
jobcat : 1
Cases in Split: 2
Split variable values:
jobcat : 2
Cases in Split: 2
Split variable values:
jobcat : 3
Cases in Split: 3
Los nombres de las variables de división en el conjunto de datos
activos se devuelven con la ayuda de la función
GetSplitVariableNames.
Para reconocer si la división que se está leyendo es la última en el
conjunto de datos activos, se utiliza la función IsLastSplit que
devuelve TRUE si es la última.
Durante la ejecución, los datos de casos son recuperados por la
función GetSplitDataFromSPSS para el siguiente grupo de división
y devueltos como el marco de datos R que es similar al devuelto por
el GetDataFromSPSS. Una vez que los grupos de división terminan
en el conjunto de datos activos, la función devuelve el valor como
NULL.
Una vez leídos los grupos de división necesarios, se llama a la
función CloseDataConnection. Se utiliza para cerrar la conexión de
datos para evitar el inicio implícito de una conexión de datos para la
lectura de archivos divididos por el GetSplitDataFromSPSS.
Resultado
id gender training
1 18 Male Beginning
2 37 Female Intermediate
3 10 Female Advanced
4 22 Male Intermediate
Nombre de la variable
Tipo de variable como 0 para una variable numérica, un entero para una
longitud definida con 32, 767 es el valor máximo para una variable de
cadena
Las variables del nuevo conjunto de datos se colocan según el orden dado
en el marco de datos. El ejemplo muestra que la nueva variable ‘meansal’
está precedida por todas las variables originales escritas desde el Employee
data.sav.
El nuevo conjunto de datos tiene sus datos de caso llenados por una
función R llamada SetDataToSPSS. Los argumentos utilizados en
esta función llevan el nombre del conjunto de datos que se va a
llenar y el marco de datos representa los datos de casos. Las filas del
marco de datos representan los casos mientras que las columnas
especifican las variables en orden del archivo.
1). Programación y Gestión de Datos para IBM SPSS Statistics 20: Una Guía
para Usuarios de IBM SPSS Statistics y SAS (Por el autor: Raynald
Levesque e IBM Corp.)