Documentos de Académico
Documentos de Profesional
Documentos de Cultura
IV-
SOFTWAR
E DE
ANÁLISIS
Profesora: Ing. Annys Silva
Catedra: Estadística Aplicada al Mantenimiento.
ESTADÍST
ICO T.S.U:
García Leisdiannys C.I.: 19.940.499
González Maryorie C.I.: 18.228.716
APLICADO Trayecto: III Fase: 1 Sección: MM-01
Grupo #2 – Grupo de trabajo #13
AL
El Tigre, Julio del 2023
MANTENI
MIENTO
(SPSS).
Introducción
Los SPSS se utiliza para una amplia gama de análisis estadísticos, como las
estadísticas descriptivas (por ejemplo, medias, frecuencias), las estadísticas bivariadas
(por ejemplo, análisis de la varianza, prueba t), regresión, el análisis de factores, y la
representación gráfica de los datos. Aunque originalmente fue diseñado y nombrado
para las ciencias sociales, puede ser utilizado para muchos tipos de conjuntos de datos
experimentales o de observación, incluyendo las ciencias ambientales y ecológicas.
Es una interface sencilla similar a Excel, los datos pueden ser introducidos o
importados manualmente desde una hoja de cálculo, un archivo de texto u otro
formato de archivo. Donde difiere de las hojas de cálculo más familiares es que el
análisis no se hace en la hoja de cálculo en sí, sino mediante comandos en los menús
desplegables. El usuario selecciona la prueba estadística, y la salida se produce en una
nueva ventana y una vez que las pruebas o los gráficos estadísticos han sido
especificados por el usuario, SPSS proporciona resultados completos.
2
análisis, interpretación y presentación de datos. Las estadísticas empresariales les
ayudan a descubrir los patrones y tendencias de los clientes y otra información útil
que les ayuda a tomar decisiones. La calidad de los datos depende de la calidad de las
herramientas utilizadas, así como de la habilidad del analista.
2. Aplicaciones y ejecución.
3
Proceso 1: Ingrese al sistema SPSS y en la vista de variables, determine el
nombre y características de la variable que permitirá el ingreso de los datos
respectivos.
4
Proceso 4: En la ventana que se muestra a continuación, procesar las variables
en estudio.
5
Proceso 6: Después de realizar el chequeo de lo antes indicado dar clic en
Continuar en la siguiente ventana en la parte inferior derecha desmarcar mostrar
tablas de frecuencias y Aceptar.
6
o La Media: La media aritmética corresponde a un valor representativo de un
conjunto de datos numéricos. La media aritmética también se puede
desarrollar como el promedio, pues el procesamiento aritmético es igual. La
media aritmética solo se aplica para el desarrollo de datos numéricos
cuantitativos.
Dónde:
𝒇𝒊 = frecuencia absoluta.
𝑿í= Marca de clase.
7
Desde el punto de vista representación de datos en la aplicación SPSS, vamos a
distinguir únicamente dos tipos de variables que son:
o Variables numéricas: Se representan como números, independientemente de
su nivel de medida.
o Variables alfanuméricas: Están compuestas por combinaciones de números
y letras. No suelen ser usadas excepto para labores de identificación de casos, como
por ejemplo el nombre del encuestado.
Vista de variables: La Vista de variables contiene descripciones de las
propiedades de cada variable del archivo de datos. En la Vista de variables: Las filas
son variables; Las columnas son las características de las variables. Las filas son
variables; Las columnas son las características de las variables.
Nombres de variable:
8
Numérico: Una variable cuyos valores son números, se muestran en formato
numérico estándar.
Coma: Una variable numérica cuyos valores se muestran con comas que
delimitan cada tres posiciones y con el punto como delimitador decimal.
Punto: Una variable numérica cuyos valores se muestran con puntos que
delimitan cada tres posiciones y con la coma como delimitador decimal. Los
valores no pueden contener puntos a la derecha del indicador decimal.
Notación científica: Una variable numérica cuyos valores se muestran con
una E intercalada y un exponente con signo que representa una potencia de
base diez. El Editor de datos acepta para estos variables valores numéricos
con o sin el exponente.
Fecha: Una variable numérica cuyos valores se muestran en uno de los
diferentes formatos de fecha-calendario u hora-reloj. Es necesario seleccionar
un formato de la lista. Para introducir la fecha se pueden utilizar: barras,
guiones, puntos, comas o espacios.
Dólar: Una variable numérica que se muestra con un signo dólar inicial ($),
comas que delimitan cada tres posiciones y un punto como delimitador
decimal. Se pueden introducir valores de datos con o sin el signo dólar inicial.
Moneda personalizada: Una variable numérica cuyos valores se muestran en
uno de los formatos de moneda personalizados que se hayan definido
previamente en la pestaña Moneda del cuadro de diálogo Opciones. Los
caracteres definidos en la moneda personalizada no se pueden emplear en la
introducción de datos, pero sí se mostrarán en el Editor de datos.
Cadena: Una variable cuyos valores no son numéricos y, por lo tanto, no se
utilizan en los cálculos. Las mayúsculas y las minúsculas se consideran
diferentes. Este tipo también se conoce como variable alfanumérica.
4. Registros y Codificación.
9
código (valor numérico) a los valores faltantes (aquellos que no han sido registrados u
observados). Ejemplo: Si la base de datos incluye la variable Sexo, hay que asignar
un número a las mujeres y otro a los hombres. Si se trata de variables cuantitativas,
hay que definir el número de decimales que van a ser registrados.
10
El paso siguiente consiste en introducir las características de variables y datos.
En SPSS hay que activar la ventana "Vista de variables" clicando en la parte inferior
de la pantalla. A continuación, hay que introducir las características de cada variable
en la fila:
a) Ajustar decimales.
b) Etiquetar las variables (en su caso).
c) Etiquetar los valores de las variables (en su caso).
d) Definir valores perdidos (en su caso).
e) Señalar la escala de medida.
Registros del SPSS: Los nodos de operaciones de registro resultan útiles para
realizar cambios en los datos en el nivel de registro. Estas operaciones son
importantes durante las fases de comprensión de los datos y de preparación de los
datos de la minería de datos, ya que permiten adaptar los datos a las necesidades
particulares de su negocio. Por ejemplo, según los resultados de la auditoría de datos
realizada con el nodo de auditoría de datos (paleta Resultados), podría decidir que
desea fusionar los registros de las compras de realizadas por los clientes durante los
últimos tres meses. Con el nodo Fusionar, puede fusionar registros basándose en los
valores de un campo clave, como el ID de cliente. Así mismo, puede descubrir que es
imposible administrar una base de datos con información sobre visitas al sitio web
con más de un millón de registros. Con el nodo Muestrear, puede seleccionar un
subconjunto de datos para utilizarlo en el modelado.
11
el nodo Ordenar para organizar los datos agregados en el orden descendente
del recuento de registros. Si se muestran estos resultados en una tabla, se
facilita la exploración de los datos y la toma de decisiones, como la selección
de registros de los 10 mejores clientes.
iv. Nodo Equilibrar: Los nodos Equilibrar se pueden usar para corregir los
desequilibrios de los conjuntos de datos de modo que cumplan determinados
criterios de comprobación.
v. Nodo Distinguir: Los registros duplicados en una base de datos deben
eliminarse antes de comenzar con la minería de datos. Por ejemplo, en una
base de datos de marketing, las personas pueden aparecer muchas veces con
diferentes direcciones o diferente información de empresas. El nodo
Distinguir puede utilizarse para buscar o eliminar registros en los datos o para
crear un registro compuesto único a partir de un grupo de registros duplicados.
vi. Nodo Agregar: La agregación es una tarea de preparación de datos que se usa
con frecuencia para reducir el tamaño de un conjunto de datos. Antes de
comenzar a añadir elementos, debe dedicar un tiempo a limpiar los datos,
concentrándose especialmente en los valores perdidos. Una vez que haya
realizado la agregación, es posible que se pierda información potencialmente
útil sobre valores perdidos.
vii. Nodo Fusionar: La función de un nodo Fusionar, es tomar varios registros de
entrada para crear un registro de salida que contenga todos o algunos de los
campos de entrada. Se trata de una operación útil cuando se desean fusionar
datos de diferentes orígenes, como datos de clientes internos y datos
demográficos adquiridos.
viii. Nodo Añadir: Los nodos Añadir se pueden usar para concatenar conjuntos de
registros. A diferencia con los nodos Fusionar, que une registros de diferentes
orígenes, los nodos Añadir leen y pasan a la parte de abajo todos los registros
de un único origen hasta que no quede ninguno. A continuación, los registros
procedentes del siguiente origen se leen usando la misma estructura de datos
(número de registros, número de campos, etc.) que la entrada primera (o
primaria). Cuando el origen primario contiene más campos que otro registro
de entrada, se usa la cadena de valor nulo del sistema ($null$) para los valores
incompletos.
ix. Nodo Generación de análisis de serie temporal: Utilice el nodo Serie
temporal de modalidad continua para generar y puntuar modelos de serie
temporal en un solo paso. Por cada campo de destino se construye un modelo
de series temporales independiente; sin embargo, no se añaden nuggets de
modelo a la paleta de modelos generados y la información del modelo no
puede examinarse.
x. Nodo SMOTE: El nodo SMOTE (Synthetic Minority Over-sampling
Technique) proporciona un algoritmo de sobre muestreo para tratar con
conjuntos de datos desequilibrados. Proporciona un método avanzado para
equilibrar los datos. El nodo SMOTE en Watson Studio se implementa en
Python y necesita la biblioteca de Python imbalanced-learn©.
12
xi. Nodo RFM Aggregate: El nodo RFM (Recency, Frequency, Monetary)
Aggregate le permite obtener datos históricos de transacciones de los clientes,
eliminar los datos no utilizados y combinar todos los datos de sus
transacciones restantes en una sola fila (utilizando su ID de cliente exclusivo
como clave) en la que se muestra cuándo se ha realizado la última transacción
con su empresa (recency), el número de transacciones realizadas (frequency) y
el valor total de estas transacciones (monetary).
xii. Nodo Cajas-Espacio-Tiempo (STB): Las cajas-espacio-tiempo (STB) son
una extensión de las ubicaciones espaciales demarcadas mediante Geohash.
En concreto, una STB es una serie alfanumérica que representa una región de
forma regular de espacio y tiempo.
xiii. Nodo Transformación de extensión: Con el nodo Transformación de
extensión, puede tomar datos de un flujo de SPSS Modeler y aplicar
transformaciones a los datos utilizando scripts R o scripts Python para Spark.
xiv. Nodo Optimización de CPLEX: Con el nodo Optimización de CPLEX
puede utilizar la optimización basada en CPLEX (matemática compleja)
mediante un archivo de modelo OPL (Optimization Programming Language).
13
El cuadro de dialogo de este procedimiento es bastante simple:
14
Codificación dicotómica: En el esquema de codificación dicotómica,
creamos tantas variables como respuestas posibles, por ejemplo, si la pregunta es:
“¿Qué estudias?”, vamos a crear tantas variables como trabajos. Todas estas variables
se codifican de la siguiente forma:
• 0 - No trabajo.
• 1 - Si trabajo.
Este esquema de codificación está indicado cuando el número de categorías no
es muy amplio.
Este esquema está indicado cuando el número de respuestas puede ser muy
amplio, pero sólo tendrán interés las primeras respuestas. Para aclarar las diferencias
entre estos esquemas vamos a mostrar un mismo ejemplo, pero con los dos tipos de
codificaciones. Supongamos que se pregunta a los encuestados cuantos trabajos
hacen, es evidente que, dependiendo de cada persona, variara el número de
respuestas.
15
El cuadro de diálogo del módulo Tablas de contingencia es el siguiente:
Aquí deberemos indicar que variables deseamos que definan las filas y cuales
las columnas. Este módulo también pude crear diagramas de barras apiladas para
facilitar la interpretación de la tabla Si deseamos controlar la información que
aparecerá en las casillas de la tabla pulsando el botón Casillas y accediendo al cuadro
desde el cual podemos especificar qué información deseamos que muestren las
casillas de la tabla.
16
o Histogramas: Con este procedimiento obtendremos un histograma para una
variable cuantitativa, para obtener un histograma en su forma más elemental
seguimos los siguientes pasos:
17
o Diagrama de Barras: El gráfico de barras es un gráfico de una variable
categórica en el que la barra correspondiente a cada categoría es proporcional al
número de casos que contiene. Para acceder al procedimiento Diagrama de barras
seguimos las siguientes opciones:
18
El diagrama obtenido tendrá el siguiente aspecto:
19
Automáticamente nos va a solicitar que clase de gráfico de dispersión
deseamos. Como queremos obtener un gráfico de dispersión simple marcamos dicha
opción.
20
La opción Establecer marcas por, hace referencia a la posibilidad de introducir
una variable de agrupación de casos, como por ejemplo el género de las personas, de
forma que cada punto se coloree de una forma que permita distinguir a que grupo
pertenece cada caso. También podemos indicar una variable que nos permita
identificar cada caso individualmente mediante la opción Etiquetar casos mediante.
21
El grafico obtenido tendrá el siguiente aspecto:
22
En el menú que aparece a continuación indicamos que deseamos realizar un
gráfico de dispersión matricial:
23
Al igual que con el módulo de Diagramas de dispersión simples podemos
establecer marcas por colores y usar una variable para identificar los casos, al pulsar
aceptar el gráfico obtenido se muestra en la siguiente figura:
24
larga_distancia_mes, llamadas_gratuitas_mes, equipo_mes, tarjeta_mes,
inalámbrico_mes, líneas_múltiples, mensaje_voz, servicio_busca, internet,
identificador_llamada, llamadas_espera, desvío_llamadas, llamada_a_tres,
facturación_electrónica.
25
Pulsar Continuar y en el cuadro de diálogo Análisis de conglomerados
jerárquico, en Método de conglomeración seleccionar Vinculación inter-grupos; en
Medida seleccionar Binaria y dentro de Binaria, elegir Concordancia simple. Dado
que las variables en el análisis son indicadores de si un cliente tiene un servicio, se
debe elegir entre las medidas binarias.
26
Pulsar Continuar y Aceptar
27
El dendrograma muestra que los patrones de uso de Líneas múltiples y Servicio
de tarjeta de llamadas son distintos de los otros servicios. Estos otros se agrupan en
tres grupos. Un grupo incluye inalámbrico, servicio_busca y mensaje_voz. Otro
incluye alquiler_equipo, internet, y facturación_electrónica. El último grupo contiene
las variables llamadas_gratuitas, llamadas_espera, identificador_llamada,
desvío_llamadas y llamada_a_tres. El grupo servicio inalámbrico está más cerca del
grupo de Internet que el grupo LlamEsp.
El analizar datos cuantitativos es una necesidad que viene en aumento desde los
años 80, sobre todo por las encuestas educativas, en cada nivel que se presenta, más
aún ahora que existe abundancia de información disponible para cada una de las
28
instituciones y temáticas que se quiera abordar. Es de considerar a la estadística como
herramienta importante dentro del ámbito, social, empresarial, educacional,
ambiental, militar entre otros. Para poder trabajar con una gran cantidad de datos
existe una vorágine de programas estadísticos, que permite realizar tareas en
diferentes temáticas para registrar datos, depurarlos, tratamiento de los mismos,
transformación de variables aplicando las técnicas necesarias para el procesamiento
de cálculos estadísticos y representarlos de forma gráfica.
Es aquí donde con el nacimiento del software informático SPSS, creado por
Norman H. Nie, C. Hadlai (Tex) Hull y Dale H. Bent, fue de gran ayuda para los
estadista y hoy utilizado para el análisis cualitativo de datos, siendo aplicado en casi
todas las ramas de la Ciencia, destacándose en su utilidad, manejo adecuado y
comprensión fácil, teniendo en su interior una gran variedad de temas estadísticos
orientados en su mayoría a las ciencias sociales, cubriendo todas las necesidades del
cálculo estadístico de investigadores y profesionales en el campo al cual se aplique.
El SPSS más conocido es el de IBM el cual compite con softwares licenciados como
lo son: SAS, MATLAB, Statistica, Stata, pero en los últimos años el software de
código abierto y libre, de los cuales el más destacado es el Lenguaje R., y
recientemente uno llamado PSPP, con una interfaz llamada PSPPire que ha sido
compilada para diversos sistemas operativos como Linux, Windows y OS X, el cual
puede considerarse un clon de código abierto que emula todas las posibilidades del
SPSS.
El SPSS es similar visualmente a Excel, pero difiere en otros puntos, las formas
de introducir o leer los datos se realizan de manera manual, en formatos SPSS, desde
Excel, y un fichero ASCII, son las maneras con las que trabaja. Los datos pueden ser
codificados y recodificados dependiendo si se quiere trabajar sobre un trabajo ya
realizado o modificar algún valor que se ha introducido erróneamente.
29
puede conocer, la media, mediana, moda, frecuencia, máximo y mínimo de una serie
de datos cualquiera, además que estos se pueden presentar gráficamente por medio de
barras, histogramas y diagramas de dispersión según sea lo que se esté buscando.
30
Bibliografía
Rojo José. (2023). Primeros pasos en SPSS. [Página web en línea]. Disponible en:
http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/SPSSIniciacion.
pdf
31
Uv.es (2023). Codificación de SPPS. [Página web en línea]. Disponible en:
https://www.uv.es/webgid/Descriptiva/21_codificacin_.html#:~:text=Codificar
%20datos%20es%20asignar%20números,han%20sido%20registrados%20u
%20observados).
Uv.es (2023). Características de las variables. [Página web en línea]. Disponible en:
https://www.uv.es/innovamide/spss/SPSS/SPSS_0102a.pdf
32