Está en la página 1de 32

UNIDAD

IV-
SOFTWAR
E DE
ANÁLISIS
Profesora: Ing. Annys Silva
Catedra: Estadística Aplicada al Mantenimiento.
ESTADÍST
ICO T.S.U:
García Leisdiannys C.I.: 19.940.499
González Maryorie C.I.: 18.228.716
APLICADO Trayecto: III Fase: 1 Sección: MM-01
Grupo #2 – Grupo de trabajo #13
AL
El Tigre, Julio del 2023
MANTENI
MIENTO
(SPSS).
Introducción

El SPSS es una potente aplicación de análisis estadísticos de datos, dotada de


una intuitiva interfaz gráfica que resulta muy fácil de manejar. Respecto a su
capacidad de procesamiento de datos, baste decir que es capaz de manejar ficheros de
datos con más de 30000 variables y cualquier tamaño de casos, únicamente limitada
por la capacidad de almacenamiento de los discos de nuestros ordenadores.

Los SPSS se utiliza para una amplia gama de análisis estadísticos, como las
estadísticas descriptivas (por ejemplo, medias, frecuencias), las estadísticas bivariadas
(por ejemplo, análisis de la varianza, prueba t), regresión, el análisis de factores, y la
representación gráfica de los datos. Aunque originalmente fue diseñado y nombrado
para las ciencias sociales, puede ser utilizado para muchos tipos de conjuntos de datos
experimentales o de observación, incluyendo las ciencias ambientales y ecológicas.

La variedad de análisis incluidos es amplia, si bien lleva un cierto retraso


respecto a otras aplicaciones en el mercado, en cualquier caso, están incluidas las
técnicas más habituales.

Es una interface sencilla similar a Excel, los datos pueden ser introducidos o
importados manualmente desde una hoja de cálculo, un archivo de texto u otro
formato de archivo. Donde difiere de las hojas de cálculo más familiares es que el
análisis no se hace en la hoja de cálculo en sí, sino mediante comandos en los menús
desplegables. El usuario selecciona la prueba estadística, y la salida se produce en una
nueva ventana y una vez que las pruebas o los gráficos estadísticos han sido
especificados por el usuario, SPSS proporciona resultados completos.

1. Definición del SPSS.

Son los programas informáticos estadísticos conocidos como herramientas


claves que se utilizan para el análisis estadístico de la recopilación, organización,

2
análisis, interpretación y presentación de datos. Las estadísticas empresariales les
ayudan a descubrir los patrones y tendencias de los clientes y otra información útil
que les ayuda a tomar decisiones. La calidad de los datos depende de la calidad de las
herramientas utilizadas, así como de la habilidad del analista.

Afortunadamente, los desarrolladores han creado muchos paquetes de software


de datos asombrosos. Pero probar cada herramienta para establecer su potencia y
adecuación es un proceso que requiere mucho tiempo. La siguiente lista (con suerte)
hace que la búsqueda de la herramienta de análisis de datos perfecta sea fácil y
rápida.

Existen múltiples lenguajes de producción y análisis de datos. Para quienes leen


este documento nombres como: SPSS, Microsoft Excel, Stata o Python quizá no sean
desconocidos: varias de estas herramientas computacionales son ampliamente
utilizadas en el campo de las Ciencias Sociales.

Si bien presentan características disimiles en cuanto a atributos como en su


facilidad de uso, generalidad o especificidad de las herramientas de análisis que
incorporan y el costo asociado a su utilización, es posible afirmar que su
incorporación en los procesos de investigación - profesional o académica - ha
contribuido de manera positiva al facilitar el procesamiento computacional de
conjuntos extensos de datos y la ejecución de análisis estadísticos que en general
resultan de una elevada complejidad ante volúmenes elevados de información.

2. Aplicaciones y ejecución.

El software de aplicación tiene como función principal asistir y ayudar a un


usuario de una computadora para ejecutar tareas específicas. Los programas de
aplicación se pueden desarrollar con diferentes lenguajes y herramientas de software.
Además, y respecto al software de aplicación se describe; “Los programas (como
software de aplicación) que realizan tareas concretas, nóminas, contabilidad, análisis
estadístico, etc., es decir, los programas que podrá escribir en Cu otros lenguajes de
programación, se denominan programas de aplicación. Con la aplicación del Software
SPSS se puede hallar la media, la moda, la mediana, el valor máximo y mínimo.

2.1. Aplicación con Software SPSS.

2.1.1. Para Datos No Agrupados:

Con la aplicación del Software SPSS. Calcular: la Media, la Moda, la Mediana,


el cuartil 1 y el percentil 75 de las edades de 9 trabajadores: 35, 36, 22, 45, 27, 48, 35,
38, 29

3
Proceso 1: Ingrese al sistema SPSS y en la vista de variables, determine el
nombre y características de la variable que permitirá el ingreso de los datos
respectivos.

Proceso 2: Después del ingreso de la variable, ingrese en vista de datos los


elementos respectivos que forman parte de la información descrita.

Proceso 3: A continuación ingresar en Analizar / Estadístico, Descriptivos /


Frecuencias.

4
Proceso 4: En la ventana que se muestra a continuación, procesar las variables
en estudio.

Proceso 5: En las opciones que se muestran en la parte derecha, hacer clic en el


botón de Estadísticos y en la nueva ventana que se muestra activar con check en
Media, Mediana, Moda y en la parte derecha dar a la opción porcentiles.

5
Proceso 6: Después de realizar el chequeo de lo antes indicado dar clic en
Continuar en la siguiente ventana en la parte inferior derecha desmarcar mostrar
tablas de frecuencias y Aceptar.

Proceso 7: En la siguiente ventana se muestra el resultado de este proceso es la


tabla que se muestra a continuación.

2.1.2. Para Datos No Agrupados:

6
o La Media: La media aritmética corresponde a un valor representativo de un
conjunto de datos numéricos. La media aritmética también se puede
desarrollar como el promedio, pues el procesamiento aritmético es igual. La
media aritmética solo se aplica para el desarrollo de datos numéricos
cuantitativos.

Dónde:
𝒇𝒊 = frecuencia absoluta.
𝑿í= Marca de clase.

o La Mediana(Me): La mediana es el valor del término medio que divide un


conjunto de datos ordenados en forma ascendente, es decir; que el dato
mediano se posiciona en el 50% de los datos.

Para los datos corresponde la siguiente explicación:


𝑴𝒆 = Mediana.
𝒍𝒊 = Límite inferior del intervalo de la clase donde se ubica la mediana.
𝒏 = Tamaño de la muestra.
𝑭𝒊 − 𝟏 = Frecuencia absoluta acumulada anterior de la ubicación de
donde se ubica la mediana.
𝑨𝒄 = Amplitud de clase.
𝒏 / 𝟐 = Ubicación de la Mediana.

3. Estudio de las Variables


Desde el punto de vista puramente estadístico vamos a distinguir cuatro
niveles de medida de las variables:
o Nominal: Cada valor de la variable nominal se corresponde con una categoría
de la variable, este emparejamiento es por lo general arbitrario, como ejemplos de
variables nominales podemos considerar el sexo de una persona, lugar de nacimiento
etc.
o Ordinal: Cada valor representa la ordenación o el ranking, por ejemplo, el
lugar de llegada a meta de los corredores, 1 significaría el primero, 2 significaría el
segundo... etc.
o Intervalo: En variables de intervalo un incremento de una unidad en el valor
numérico representa el mismo cambio en la magnitud medida, con independencia de
donde ocurra en la escala.
o Razón: Las variables de Razón tienen las mismas propiedades que las de
intervalo, pero además tienen un punto cero significativo, dicho punto representa una
ausencia completa de la característica medida, por ejemplo, la edad o las ganancias
anuales de una persona.

7
Desde el punto de vista representación de datos en la aplicación SPSS, vamos a
distinguir únicamente dos tipos de variables que son:
o Variables numéricas: Se representan como números, independientemente de
su nivel de medida.
o Variables alfanuméricas: Están compuestas por combinaciones de números
y letras. No suelen ser usadas excepto para labores de identificación de casos, como
por ejemplo el nombre del encuestado.
Vista de variables: La Vista de variables contiene descripciones de las
propiedades de cada variable del archivo de datos. En la Vista de variables: Las filas
son variables; Las columnas son las características de las variables. Las filas son
variables; Las columnas son las características de las variables.

Además de la definición de propiedades de variables en la Vista de variables,


existe la opción “Copiar propiedades de datos” que está disponible en el menú Datos
en la ventana Editor de datos.

Nombres de variable:

Para los nombres de variable se aplican las siguientes normas:

 El nombre debe comenzar por una letra.


 Los nombres de variable no pueden terminar en punto.
 No se pueden utilizar espacios en blanco ni caracteres especiales.
 Cada nombre de variable debe ser único; no se permiten duplicados.
 Los nombres de variable se pueden definir combinando de cualquier manera
caracteres en mayúsculas y en minúsculas, esta distinción entre mayúsculas y
minúsculas se conserva en lo que se refiere a la presentación.

Tipos de Variables: La propiedad del tipo de variable especifica los tipos de


datos de cada variable. Por defecto se asume que todas las variables nuevas son
numéricas. Los tipos de variable disponibles son los siguientes:

8
 Numérico: Una variable cuyos valores son números, se muestran en formato
numérico estándar.
 Coma: Una variable numérica cuyos valores se muestran con comas que
delimitan cada tres posiciones y con el punto como delimitador decimal.
 Punto: Una variable numérica cuyos valores se muestran con puntos que
delimitan cada tres posiciones y con la coma como delimitador decimal. Los
valores no pueden contener puntos a la derecha del indicador decimal.
 Notación científica: Una variable numérica cuyos valores se muestran con
una E intercalada y un exponente con signo que representa una potencia de
base diez. El Editor de datos acepta para estos variables valores numéricos
con o sin el exponente.
 Fecha: Una variable numérica cuyos valores se muestran en uno de los
diferentes formatos de fecha-calendario u hora-reloj. Es necesario seleccionar
un formato de la lista. Para introducir la fecha se pueden utilizar: barras,
guiones, puntos, comas o espacios.
 Dólar: Una variable numérica que se muestra con un signo dólar inicial ($),
comas que delimitan cada tres posiciones y un punto como delimitador
decimal. Se pueden introducir valores de datos con o sin el signo dólar inicial.
 Moneda personalizada: Una variable numérica cuyos valores se muestran en
uno de los formatos de moneda personalizados que se hayan definido
previamente en la pestaña Moneda del cuadro de diálogo Opciones. Los
caracteres definidos en la moneda personalizada no se pueden emplear en la
introducción de datos, pero sí se mostrarán en el Editor de datos.
 Cadena: Una variable cuyos valores no son numéricos y, por lo tanto, no se
utilizan en los cálculos. Las mayúsculas y las minúsculas se consideran
diferentes. Este tipo también se conoce como variable alfanumérica.

4. Registros y Codificación.

Codificación: Codificar datos es asignar números a las modalidades observadas


o registradas de las variables que constituyen la base de datos, así como asignar

9
código (valor numérico) a los valores faltantes (aquellos que no han sido registrados u
observados). Ejemplo: Si la base de datos incluye la variable Sexo, hay que asignar
un número a las mujeres y otro a los hombres. Si se trata de variables cuantitativas,
hay que definir el número de decimales que van a ser registrados.

Introducción de datos: La primera cuestión a considerar es la disposición las


variables y las unidades de observación (generalmente los individuos de los que se
recoge los datos). Hay dos grandes disposiciones generales, la más frecuente consiste
en disponer los casos (generalmente los individuos) por filas y las variables por
columnas.

La disposición anterior es típica de los diseños transversales o estáticos (los


datos representan observaciones realizadas en un solo momento temporal). Si el
diseño es transversal pondremos las variables por columnas (una variable por
columna) y si hay más de un grupo hay que decidir entre dos posibilidades en función
de los análisis que queremos hacer: La primera consiste en introducir los datos de los
grupos en columnas (una para los datos de cada grupo) y la segunda posibilidad
consiste en introducir los datos de todos los grupos en la misma columna y definir
una nueva variable donde introducimos los códigos de identificación de los grupos. Si
el diseño es longitudinal lo habitual es que en las columnas representen los momentos
temporales en que se observa las variables.

10
El paso siguiente consiste en introducir las características de variables y datos.
En SPSS hay que activar la ventana "Vista de variables" clicando en la parte inferior
de la pantalla. A continuación, hay que introducir las características de cada variable
en la fila:
a) Ajustar decimales.
b) Etiquetar las variables (en su caso).
c) Etiquetar los valores de las variables (en su caso).
d) Definir valores perdidos (en su caso).
e) Señalar la escala de medida.

Recodificación: Recodificar una variable consiste en cambiar los valores de


una variable por otros mediante un proceso que no es numérico sino de especificación
de las reglas que producirán el cambio. Hay dos procedimientos que realizan la
recodificación:
 El procedimiento Recodificar variables: Está indicado cuando vamos a
recodificar variables con nivel de medida Nominal u Ordinal.
 El procedimiento Categorización visual: Está más indicado cuando
vamos a recodificar variables con nivel de medida Escala.

Registros del SPSS: Los nodos de operaciones de registro resultan útiles para
realizar cambios en los datos en el nivel de registro. Estas operaciones son
importantes durante las fases de comprensión de los datos y de preparación de los
datos de la minería de datos, ya que permiten adaptar los datos a las necesidades
particulares de su negocio. Por ejemplo, según los resultados de la auditoría de datos
realizada con el nodo de auditoría de datos (paleta Resultados), podría decidir que
desea fusionar los registros de las compras de realizadas por los clientes durante los
últimos tres meses. Con el nodo Fusionar, puede fusionar registros basándose en los
valores de un campo clave, como el ID de cliente. Así mismo, puede descubrir que es
imposible administrar una base de datos con información sobre visitas al sitio web
con más de un millón de registros. Con el nodo Muestrear, puede seleccionar un
subconjunto de datos para utilizarlo en el modelado.

i. Nodo Seleccionar: Puede usar el nodo Seleccionar para elegir o descartar un


subconjunto de registros de la ruta de datos basándose en una condición
especial, como PS (presión sanguínea) ="HIGH" (alta).
ii. Nodo Muestrear: Puede utilizar los nodos Muestrear para seleccionar un
subconjunto de análisis o especificar una proporción de registros que
descartar. Se admite una variedad de tipos de muestras, entre las que se
incluyen las muestras estratificadas, agrupadas en clústeres y no aleatorias
(estructuradas).
iii. Nodo Ordenar: Los nodos Ordenar se pueden usar para organizar registros
en orden ascendente o descendente atendiendo a los valores de uno o varios
campos. Por ejemplo, los nodos Ordenar se usan con frecuencia para ver y
seleccionar registros con los valores de datos más comunes. Generalmente,
primero se añaden los datos usando el nodo Agregar y, a continuación, se usa

11
el nodo Ordenar para organizar los datos agregados en el orden descendente
del recuento de registros. Si se muestran estos resultados en una tabla, se
facilita la exploración de los datos y la toma de decisiones, como la selección
de registros de los 10 mejores clientes.
iv. Nodo Equilibrar: Los nodos Equilibrar se pueden usar para corregir los
desequilibrios de los conjuntos de datos de modo que cumplan determinados
criterios de comprobación.
v. Nodo Distinguir: Los registros duplicados en una base de datos deben
eliminarse antes de comenzar con la minería de datos. Por ejemplo, en una
base de datos de marketing, las personas pueden aparecer muchas veces con
diferentes direcciones o diferente información de empresas. El nodo
Distinguir puede utilizarse para buscar o eliminar registros en los datos o para
crear un registro compuesto único a partir de un grupo de registros duplicados.
vi. Nodo Agregar: La agregación es una tarea de preparación de datos que se usa
con frecuencia para reducir el tamaño de un conjunto de datos. Antes de
comenzar a añadir elementos, debe dedicar un tiempo a limpiar los datos,
concentrándose especialmente en los valores perdidos. Una vez que haya
realizado la agregación, es posible que se pierda información potencialmente
útil sobre valores perdidos.
vii. Nodo Fusionar: La función de un nodo Fusionar, es tomar varios registros de
entrada para crear un registro de salida que contenga todos o algunos de los
campos de entrada. Se trata de una operación útil cuando se desean fusionar
datos de diferentes orígenes, como datos de clientes internos y datos
demográficos adquiridos.
viii. Nodo Añadir: Los nodos Añadir se pueden usar para concatenar conjuntos de
registros. A diferencia con los nodos Fusionar, que une registros de diferentes
orígenes, los nodos Añadir leen y pasan a la parte de abajo todos los registros
de un único origen hasta que no quede ninguno. A continuación, los registros
procedentes del siguiente origen se leen usando la misma estructura de datos
(número de registros, número de campos, etc.) que la entrada primera (o
primaria). Cuando el origen primario contiene más campos que otro registro
de entrada, se usa la cadena de valor nulo del sistema ($null$) para los valores
incompletos.
ix. Nodo Generación de análisis de serie temporal: Utilice el nodo Serie
temporal de modalidad continua para generar y puntuar modelos de serie
temporal en un solo paso. Por cada campo de destino se construye un modelo
de series temporales independiente; sin embargo, no se añaden nuggets de
modelo a la paleta de modelos generados y la información del modelo no
puede examinarse.
x. Nodo SMOTE: El nodo SMOTE (Synthetic Minority Over-sampling
Technique) proporciona un algoritmo de sobre muestreo para tratar con
conjuntos de datos desequilibrados. Proporciona un método avanzado para
equilibrar los datos. El nodo SMOTE en Watson Studio se implementa en
Python y necesita la biblioteca de Python imbalanced-learn©.

12
xi. Nodo RFM Aggregate: El nodo RFM (Recency, Frequency, Monetary)
Aggregate le permite obtener datos históricos de transacciones de los clientes,
eliminar los datos no utilizados y combinar todos los datos de sus
transacciones restantes en una sola fila (utilizando su ID de cliente exclusivo
como clave) en la que se muestra cuándo se ha realizado la última transacción
con su empresa (recency), el número de transacciones realizadas (frequency) y
el valor total de estas transacciones (monetary).
xii. Nodo Cajas-Espacio-Tiempo (STB): Las cajas-espacio-tiempo (STB) son
una extensión de las ubicaciones espaciales demarcadas mediante Geohash.
En concreto, una STB es una serie alfanumérica que representa una región de
forma regular de espacio y tiempo.
xiii. Nodo Transformación de extensión: Con el nodo Transformación de
extensión, puede tomar datos de un flujo de SPSS Modeler y aplicar
transformaciones a los datos utilizando scripts R o scripts Python para Spark.
xiv. Nodo Optimización de CPLEX: Con el nodo Optimización de CPLEX
puede utilizar la optimización basada en CPLEX (matemática compleja)
mediante un archivo de modelo OPL (Optimization Programming Language).

5. Vista de Datos Descriptivos y Gráfico.

En el paquete SPSS todos los procedimientos estadísticos se encuentran en la


opción Analizar de la barra de menú del editor de datos, así mismo para acceder a los
procedimientos gráficos deberemos de seleccionar el menú Gráficos.
o Tablas de Frecuencias: El procedimiento Frecuencias proporciona
estadísticos y representaciones gráficas que resultan útiles para describir muchos
tipos de variables. En general sólo solicitaremos tablas de frecuencias para variables
ordinales o nominales (categóricas). Para solicitar una tabla de frecuencias elegiremos
las siguientes opciones desde la barra de menú:

13
El cuadro de dialogo de este procedimiento es bastante simple:

El botón estadístico permite solicitar estadísticos específicos como: frecuencias,


porcentajes, porcentajes acumulados, media, mediana, moda, suma, desviación típica,
varianza, amplitud, valores mínimo y máximo, error típico de la media, asimetría y
curtosis (ambos con sus errores típicos), cuartiles y percentiles.

El botón Gráficos permite solicitar gráficos de barras, gráficos de sectores e


histogramas. En general cuando la variable tenga nivel de medida nominal no
solicitaremos ningún estadístico y tampoco solicitaremos el histograma, si
solicitaremos en cambio la tabla de frecuencias y el diagrama de barras.

o Tablas de Variables Multirespuesta:

a) Variables Multirespuesta: Las variables vistas hasta este momento se


caracterizan por asignar un único valor a cada caso u observación. Existen
situaciones donde una variable puede ofrecer más de un único valor. Por ejemplo, si
preguntamos a un individuo su edad obtendremos un único valor numérico; sin
embargo; si preguntamos a una persona que deportes práctica, nos podrá dar un
número indeterminado de deportes. Este tipo de variables recibe el nombre de
variables multirespuesta o de respuesta múltiple.

b) Codificación de las Variables Multirespuesta: Es evidente que, si una


persona puede dar más de una respuesta, tendremos que tener más de una variable
para almacenar dichas respuestas. Existen dos formas o esquemas de codificación
para almacenar estas respuestas:

14
 Codificación dicotómica: En el esquema de codificación dicotómica,
creamos tantas variables como respuestas posibles, por ejemplo, si la pregunta es:
“¿Qué estudias?”, vamos a crear tantas variables como trabajos. Todas estas variables
se codifican de la siguiente forma:
• 0 - No trabajo.
• 1 - Si trabajo.
Este esquema de codificación está indicado cuando el número de categorías no
es muy amplio.

 Codificación categórica: En el esquema de codificación categórica se hace


una pequeña concesión que consiste en estimar el número máximo de respuestas, y se
crean tantas variables como el máximo de respuestas posibles y todas estas variables
con los mismos códigos para especificar cada respuesta.

Este esquema está indicado cuando el número de respuestas puede ser muy
amplio, pero sólo tendrán interés las primeras respuestas. Para aclarar las diferencias
entre estos esquemas vamos a mostrar un mismo ejemplo, pero con los dos tipos de
codificaciones. Supongamos que se pregunta a los encuestados cuantos trabajos
hacen, es evidente que, dependiendo de cada persona, variara el número de
respuestas.

o Tablas de Doble Entrada: Las tablas de Doble Entrada también llamadas


tablas de contingencias, son aquellas tablas de datos referentes a dos variables
nominales o categóricas, formada en las cabeceras de las filas, por las categorías o
valores de una variable y en las de las columnas por los de la otra, y en las casillas de
la tabla, por las frecuencias que reúnen a la vez las dos categorías o valores de las dos
variables que se cruzan en cada casilla.
Si bien el SPSS tiene varios módulos para realizar tablas, el que vamos a ver es
el módulo Tablas de contingencia, que proporciona una serie de pruebas y medidas de
asociación.
Para invocar al módulo seleccionamos desde la barra de menú las siguientes
opciones:

15
El cuadro de diálogo del módulo Tablas de contingencia es el siguiente:
Aquí deberemos indicar que variables deseamos que definan las filas y cuales
las columnas. Este módulo también pude crear diagramas de barras apiladas para
facilitar la interpretación de la tabla Si deseamos controlar la información que
aparecerá en las casillas de la tabla pulsando el botón Casillas y accediendo al cuadro
desde el cual podemos especificar qué información deseamos que muestren las
casillas de la tabla.

Gráficos: Una parte importante a la hora de presentar informes o estudiar las


características de las variables son los gráficos. El SPSS en general tiene una amplia
variedad de gráficos, aunque es bastante rígido en cuanto a sus posibilidades de
personalización. En la barra de menú hay una entrada específica para acceder a todos
los procedimientos gráficos:

16
o Histogramas: Con este procedimiento obtendremos un histograma para una
variable cuantitativa, para obtener un histograma en su forma más elemental
seguimos los siguientes pasos:

Seleccionamos el procedimiento gráfico Histograma:

En el cuadro de dialogo indicamos de que variable deseamos obtener su


histograma, además, también podemos solicitar que superponga la curva de densidad
de la distribución normal:

La siguiente figura muestra el histograma obtenido:

17
o Diagrama de Barras: El gráfico de barras es un gráfico de una variable
categórica en el que la barra correspondiente a cada categoría es proporcional al
número de casos que contiene. Para acceder al procedimiento Diagrama de barras
seguimos las siguientes opciones:

El cuadro de dialogo de este procedimiento es bastante completo; posee varias


opciones. Vamos a elegir las siguientes opciones:

18
El diagrama obtenido tendrá el siguiente aspecto:

o Nubes de Puntos o Gráficos de Dispersión: El gráfico de dispersión o nube


de puntos se utiliza para estudiar la relación entre dos variables cuantitativas, aunque
el SPSS ofrece múltiples posibilidades sólo vamos a ver los gráficos de dispersión
simple y los gráficos de dispersión matriciales.

Para invocar al módulo de Gráficos de dispersión elegimos la siguiente opción:

19
Automáticamente nos va a solicitar que clase de gráfico de dispersión
deseamos. Como queremos obtener un gráfico de dispersión simple marcamos dicha
opción.

El cuadro de dialogo de este procedimiento es el siguiente:

20
La opción Establecer marcas por, hace referencia a la posibilidad de introducir
una variable de agrupación de casos, como por ejemplo el género de las personas, de
forma que cada punto se coloree de una forma que permita distinguir a que grupo
pertenece cada caso. También podemos indicar una variable que nos permita
identificar cada caso individualmente mediante la opción Etiquetar casos mediante.

Como ejemplo vamos a realizar un gráfico de Porcentaje de personas


alfabetizadas versus Tasa de mortalidad infantil, además vamos a establecer marcas
por la región económica a la que pertenece cada país.

Rellenamos el cuadro como se muestra a continuación:

21
El grafico obtenido tendrá el siguiente aspecto:

o Gráficos Matriciales: El gráfico de dispersión matricial representa todas las


combinaciones posibles de dos o más variables numéricas, un respecto a otra. Para
solicitar un gráfico matricial realizamos las siguientes elecciones desde la barra de
menú:

Invocamos el procedimiento Gráficos de dispersión desde la barra de menú:

22
En el menú que aparece a continuación indicamos que deseamos realizar un
gráfico de dispersión matricial:

En el menú que aparece a continuación indicamos que variables queremos


representar, aunque no es necesario indicar sobre que eje va representada cada
variable, pues este módulo representa todas las combinaciones posibles:

23
Al igual que con el módulo de Diagramas de dispersión simples podemos
establecer marcas por colores y usar una variable para identificar los casos, al pulsar
aceptar el gráfico obtenido se muestra en la siguiente figura:

Para interpretar este gráfico matricial utilizamos la siguiente regla: fijado un


gráfico de la matriz, el eje X representa la variable cuya etiqueta está situada en la
parte inferior de la tabla y el eje Y representa a la variable cuya etiqueta está situada a
la izquierda de la tabla. Por ejemplo, el gráfico situado en la casilla marcada de verde
representa las variables Esperanza de Vida Masculina versus Esperanza de Vida
Femenina.

6. Aplicación de Caso Práctico Relacionado al Mantenimiento para El Análisis


de Datos Estadísticos Programados (Cuantitativos y Cualitativos).

Una compañía de telecomunicaciones realiza un estudio con el fin de reducir el


abandono de sus clientes. Para ello dispone de un archivo de datos, donde cada caso
corresponde a un cliente distinto del que registra diversa información demográfica y
del uso del servicio. El objetivo es segmentar su base de clientes por patrones de uso
del servicio. Si los clientes se pueden clasificar por el uso, la empresa puede ofrecer
paquetes más atractivos para sus clientes. Las variables que indican el uso y no uso de
los servicios están contenidas en el archivo Telecomunicaciones1.sav.

El archivo de datos telecomunicaciones1.sav contiene 1000 datos y está


formado por las siguientes variables: región, permanencia, edad, estado_civil,
dirección, ingresos_familiares, nivel_educativo, empleo, género, n-pers_hogar,
llamadas_gratuitas, alquiler_equipo, tarjeta_llamada, inalámbrico,

24
larga_distancia_mes, llamadas_gratuitas_mes, equipo_mes, tarjeta_mes,
inalámbrico_mes, líneas_múltiples, mensaje_voz, servicio_busca, internet,
identificador_llamada, llamadas_espera, desvío_llamadas, llamada_a_tres,
facturación_electrónica.

Utilizar el procedimiento Análisis de conglomerados jerárquico para estudiar


las relaciones entre los distintos servicios.

Para ejecutar el análisis de conglomerados, elija en los menús: Analizar/


Clasificar/Conglomerados Jerárquicos…

Seleccionar para Variables: Servicio de llamadas gratuitas, Alquiler de equipo,


Servicio de tarjeta de llamada, Servicio inalámbrico, Líneas múltiples, mensajes de
voz, servicio de busca, internet, Identificador de llamadas, llamadas en espera, Desvío
de llamadas, llamadas a tres, Facturación electrónica.

Seleccionar Variables en Conglomerar

Pulsar Gráficos…. Seleccionar Dendrograma y en Témpanos seleccionar


Ninguna

25
Pulsar Continuar y en el cuadro de diálogo Análisis de conglomerados
jerárquico, en Método de conglomeración seleccionar Vinculación inter-grupos; en
Medida seleccionar Binaria y dentro de Binaria, elegir Concordancia simple. Dado
que las variables en el análisis son indicadores de si un cliente tiene un servicio, se
debe elegir entre las medidas binarias.

26
Pulsar Continuar y Aceptar

En las medidas binarias, la columna de los coeficientes informa de las medidas


de similitud, por lo tanto, los valores de este coeficiente van disminuyendo en cada
etapa del análisis. Es difícil interpretar los resultados, por lo que recurrimos al
Dendrograma.

27
El dendrograma muestra que los patrones de uso de Líneas múltiples y Servicio
de tarjeta de llamadas son distintos de los otros servicios. Estos otros se agrupan en
tres grupos. Un grupo incluye inalámbrico, servicio_busca y mensaje_voz. Otro
incluye alquiler_equipo, internet, y facturación_electrónica. El último grupo contiene
las variables llamadas_gratuitas, llamadas_espera, identificador_llamada,
desvío_llamadas y llamada_a_tres. El grupo servicio inalámbrico está más cerca del
grupo de Internet que el grupo LlamEsp.

Análisis García Leisdiannys C.I.: 19.940.499

El analizar datos cuantitativos es una necesidad que viene en aumento desde los
años 80, sobre todo por las encuestas educativas, en cada nivel que se presenta, más
aún ahora que existe abundancia de información disponible para cada una de las

28
instituciones y temáticas que se quiera abordar. Es de considerar a la estadística como
herramienta importante dentro del ámbito, social, empresarial, educacional,
ambiental, militar entre otros. Para poder trabajar con una gran cantidad de datos
existe una vorágine de programas estadísticos, que permite realizar tareas en
diferentes temáticas para registrar datos, depurarlos, tratamiento de los mismos,
transformación de variables aplicando las técnicas necesarias para el procesamiento
de cálculos estadísticos y representarlos de forma gráfica.

Es aquí donde con el nacimiento del software informático SPSS, creado por
Norman H. Nie, C. Hadlai (Tex) Hull y Dale H. Bent, fue de gran ayuda para los
estadista y hoy utilizado para el análisis cualitativo de datos, siendo aplicado en casi
todas las ramas de la Ciencia, destacándose en su utilidad, manejo adecuado y
comprensión fácil, teniendo en su interior una gran variedad de temas estadísticos
orientados en su mayoría a las ciencias sociales, cubriendo todas las necesidades del
cálculo estadístico de investigadores y profesionales en el campo al cual se aplique.
El SPSS más conocido es el de IBM el cual compite con softwares licenciados como
lo son: SAS, MATLAB, Statistica, Stata, pero en los últimos años el software de
código abierto y libre, de los cuales el más destacado es el Lenguaje R., y
recientemente uno llamado PSPP, con una interfaz llamada PSPPire que ha sido
compilada para diversos sistemas operativos como Linux, Windows y OS X, el cual
puede considerarse un clon de código abierto que emula todas las posibilidades del
SPSS.

El SPSS es similar visualmente a Excel, pero difiere en otros puntos, las formas
de introducir o leer los datos se realizan de manera manual, en formatos SPSS, desde
Excel, y un fichero ASCII, son las maneras con las que trabaja. Los datos pueden ser
codificados y recodificados dependiendo si se quiere trabajar sobre un trabajo ya
realizado o modificar algún valor que se ha introducido erróneamente.

Además, esta herramienta permite mediante códigos, aplicaciones y opciones


de menú, ordenar y analizar los datos para realizar las proyecciones concernientes a
los temas de investigación, potencializando la aplicación y ejecución de lenguajes
informáticos para la obtención e interpretación de los análisis de los datos ingresados;
siendo su uso fácil y su utilidad es notable ante la aplicación de cualquier técnica con
su tratamiento respectivo. El manejo de estos programas informáticos ha permitido
una solución rápida y la mejor toma de decisiones en problemas que se presentan en
el ámbito comercial e internacional, por la que puede pasar una organización no solo
en la producción, operación sino también en servicios como el de mantenimiento.
Análisis González Maryorie C.I.: 18.228.716

La lógica secuencial que muestra el paquete estadístico SPSS, dentro de un


proceso analítico, inicia desde la planificación y producción de datos, siguiendo el
proceso de gestión y análisis, finalizando hasta su presentación y distribución de los
resultados. Si los datos van ser puramente estadístico se pueden clasificar en cuatro
tipos como son nominal, ordinal, intervalo y de razón. Con este tipo de software se

29
puede conocer, la media, mediana, moda, frecuencia, máximo y mínimo de una serie
de datos cualquiera, además que estos se pueden presentar gráficamente por medio de
barras, histogramas y diagramas de dispersión según sea lo que se esté buscando.

En este sentido, hay varios métodos estadísticos que se pueden realizar en


SPSS, como es la estadística descriptiva y la estadística bivariada, que incluyen
metodologías como análisis de varianza, medias, correlación y pruebas no
paramétricas. Los SPSS son paquetes estadísticos que contiene programas capaces de
realizar desde un simple análisis descriptivo hasta diferentes tipos de análisis
multivariantes de datos y también permite obtener tablas de frecuencias.

Los SPSS facilitan la creación de un archivo de datos en una forma estructurada


y también organizar una base de datos que puede ser analizada con diversas técnicas
estadísticas. A pesar de que existen otros programas (como Microsoft Excel) que se
utilizan para organizar datos y crear archivos electrónicos, SPSS permite capturar y
analizar los datos sin necesidad de depender de otros programas. Por otro lado,
también es posible transformar un banco de datos creado en Microsoft Excel en una
base de datos SPSS.

En cuanto al análisis de datos, el programa SPSS tiene opciones de menú que se


pueden utilizar para analizar el procesamiento de datos de acuerdo con los requisitos
de los investigadores en su trabajo estadístico, utilizando las opciones de
procesamiento de datos (datos y transformar) y análisis (analizar y gráficos) en las
opciones. menú Se pueden crear tablas, gráficos y anotaciones de texto para los
resultados de estas operaciones, que son los mismos que se muestran en el Visor de
resultados.

Los SPSS desarrolla una serie de opciones de comunicación constante que


permiten, de manera creciente, determinar los procesos siguientes y continuos y
seleccionar los que son útiles para el análisis del proceso en desarrollo. Pero se debe
considerar el conocimiento según el nivel determinado del usuario en referencia al
uso del software, porque se puede convertir en un buen aliado si hay conocimientos
previos, y en un problema potencial si no existe el conocimiento básico del uso de
este.

La gestión de programas informáticos ha permitido resolver rápidamente y


tomar las mejores decisiones para problemas emergentes en el ámbito empresarial e
internacional, a través de los cuales la organización puede pasar por servicios como
mantenimiento además de producción y uso. Otro aspecto importante de SPSS es que
nos ayuda a tener a mano el sistema de gestión de datos y las herramientas de edición,
y podemos dibujar, trazar, informar y presentar funciones para mayor claridad. Todo
esto le permite analizar el resultado exacto de los datos con estadísticas detalladas.

30
Bibliografía

Agurrie Jonathan. (2023). SPPS. [Página web en línea]. Disponible en:


https://es.slideshare.net/jonathanaguirre/aplicacin-spss

Rojo José. (2023). Primeros pasos en SPSS. [Página web en línea]. Disponible en:
http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/SPSSIniciacion.
pdf

Ugrs.es. (2023). Practicas SPSS [Página web en línea]. Disponible en:


http://wpd.ugr.es/~bioestad/guia-spss/practica-8/

Ugrs.es. (2023). Practicas SPSS [Página web en línea]. Disponible en:


nttps://www.ugr.es/~curspss/archivos/AFactorial/PracticasSPSS.pdf

31
Uv.es (2023). Codificación de SPPS. [Página web en línea]. Disponible en:
https://www.uv.es/webgid/Descriptiva/21_codificacin_.html#:~:text=Codificar
%20datos%20es%20asignar%20números,han%20sido%20registrados%20u
%20observados).

Uv.es (2023). Características de las variables. [Página web en línea]. Disponible en:
https://www.uv.es/innovamide/spss/SPSS/SPSS_0102a.pdf

32

También podría gustarte