Está en la página 1de 35

Introducción al Paquete Estadístico en SPSS

Módulo 3 - Clase 5 - Explorar datos I

En esta clase nos dedicaremos a explorar los datos utilizando el SPSS. En el marco de lo que da a
llamarse estadística descriptiva, comenzaremos por ver las formas en las que se puede mostrar la
distribución de datos a través de tablas de frecuencias y gráficos de barras, sectores, líneas,
histogramas y de otros tipos. Luego identificaremos los diversos modos de describir
resumidamente una distribución de datos y las medidas descriptivas más utilizadas.

5.1 Introducción a la estadística. Estadística descriptiva y estadística inferencial


La estadística puede definirse como un método para el manejo de datos. Esta definición implica
que es una herramienta para la recopilación, organización y análisis de hechos numéricos o de
observaciones. Las técnicas matemáticas de la estadística descriptiva tienen por objeto la
presentación de la información en una forma cómoda, utilizable y comprensible. Por su parte, la
estadística inferencial se ocupa de la generalización de esta información o, dicho en otras palabras,
de sacar conclusiones acerca de las poblaciones basándose en muestras tomadas de ellas.
Utilizando el método inductivo, el objetivo de la estadística es realizar inferencias que se apliquen
al conjunto de la población. Para ello parte, en principio, de algunas herramientas que son
utilizadas en la estadística descriptiva.

Es preciso recordar algunas definiciones comúnmente utilizadas en estadística:


- POBLACIÓN/UNIVERSO: total de sujetos o unidades de análisis de interés en el estudio.
- MUESTRA: cualquier subconjunto de los sujetos o unidades de análisis de la población, en
el cual se recolectarán los datos. Usamos una muestra para conocer o estimar
características de la población.
- MUESTRA ALEATORIA: subconjunto de la población seleccionada de tal manera que cada
miembro de la población tiene igual probabilidad de ser elegido y por ello este tipo de
muestra puede considerarse representativa de dicha población.
- PARÁMETRO: una medida resumen calculada sobre la población. En general los
parámetros poblacionales son desconocidos y utilizamos la estadística para estimarlos.
- ESTADÍSTICO: una medida resumen calculada sobre la muestra. A partir de estos valores
estimamos (con cierto margen de error) los parámetros poblacionales desconocidos.

Las medidas (estadísticos) de la estadística descriptiva brindan información resumida de la


distribución de los datos. En primer lugar, nos encontramos con las frecuencias. Luego tenemos las
medidas de tendencia central/posición (el o los valores centrales en torno a los cuales se agrupan
los datos), las medidas de dispersión/variabilidad (la distancia de los valores respecto de dicho
centro) y las medidas de forma (que señalan cómo se distribuye el conjunto de datos y se comparan
con un modelo de referencia, la curva normal).

1
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Ejercicio 1 - Estadística descriptiva/inferencial


Elegir el término correcto para completar el enunciado:
a. Si tomando los datos de una muestra representativa de empleados de empresas de
software identifico que solo el 8 por ciento de la muestra son mujeres, estoy haciendo
estadística descriptiva/inferencial.
b. Si a partir de dichos datos de la muestra concluyo que la industria del software solo se
emplea a entre un 6 y el 11 por ciento de mujeres, estoy haciendo estadística
descriptiva/inferencial.
c. La Encuesta Permanente de Hogares se hace a una población/muestra de hogares.
d. El promedio de ingresos mensuales obtenidos por quienes trabajan en la industria del
software es una medida de tendencia central/dispersión/forma.
e. El rango de ingresos mensuales obtenidos por quienes trabajan en la industria del
software es una medida de tendencia central/dispersión/forma.

5.2 Cálculo manual de frecuencias


La frecuencia de una variable es la agrupación de datos para ofrecer información sobre cuántas
veces aparecen cada uno de los valores. La forma manual de hacerlo es ordenar los resultados en
forma ascendente o descendente y colocar una línea vertical al lado del valor cada vez que se
presente. El número de rayas representa la frecuencia con que aparece cada resultado. Por
ejemplo, si se encuesta a 110 personas respecto de sus conocimientos de idiomas, podemos
realizar las siguientes tablas de frecuencias:
¿Cuál es su segunda lengua? ¿Cuál es su nivel de manejo de dicha ¿Cuántas lenguas habla?
(nominal) lengua? (ordinal) (de escala)

valor frecuencia valor frecuencia valor frecuencia

Español 20 básico 40 1 16

Inglés 34 intermedio 29 2 50

Francés 9 avanzado 21 3 21

Alemán 3 bilingüe 20 4 14

Guaraní 14 5 6

Italiano 5 6 3

Catalán 2

Portugués 7

No tiene 16

2
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

En variables con muchos valores posibles o en aquellas en las que hay valores con frecuencia baja o
nula, se pueden agrupar los valores en rangos y sumar las frecuencias de cada valor que es parte
del rango. Los rangos pueden ser iguales o desiguales, según el criterio que se elija para
representar la frecuencia de la variable.

¿Cuál es su segunda lengua? ¿Cuál es su nivel de manejo de dicha ¿Cuántas lenguas habla?
lengua?

valor frecuencia valor frecuencia valor frecuencia

Español 20 básico. - interm. 79 1-2 66

Inglés 34 avanzado.-biling. 31 3-4 35

Francés 9 Más de 4 9

Guaraní 14

Otros 17

No tiene 16

La frecuencia acumulada se obtiene sumando la cantidad de valores que se encuentran dentro de


cada intervalo hasta el total (N):

¿Cuál es su segunda lengua?

valor frecuencia Frecuencia acum.

Español 20 20

Inglés 34 54

Francés 9 63

Guaraní 14 77

Otros: 17 94

No tiene 16 110

El porcentaje se obtiene tomando los valores que se encuentran dentro de cada intervalo
dividiéndolos por el total y multiplicándolos por 100:

3
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

¿Cuál es su segunda lengua?

valor frecuencia porcentaje

Español 20 18,2%

Inglés 34 30,9%

Francés 9 8,2%

Guaraní 14 12,7%

Otros: 17 15,5%

No tiene 16 15,5%

El porcentaje acumulado se obtiene dividiendo cada entrada de la columna de frecuencias


acumuladas por el total (N) y multiplicando el resultado por 100, hasta llegar al 100%:

¿Cuál es su segunda lengua?

valor frecuencia Frecuencia Porcentaje


acumulada acumulado

Español 20 20 18,2%

Inglés 34 54 49,1%

Francés 9 63 57,3%

Guaraní 14 77 70%

Otros: 17 94 85,5%

No tiene 16 110 100%

5.3 Cálculo de frecuencias en SPSS


En el SPSS, el procedimiento Frecuencias proporciona estadísticos (medidas) y representaciones
gráficas que resultan útiles para describir muchos tipos de variables. Es un buen procedimiento
para una inspección inicial de los datos.

Para ejecutar el procedimiento, elegir en el menú Analizar - Estadísticos descriptivos - Frecuencias.

4
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

En la ventana, seleccionar una o más variables de escala, ordinales o nominales, cliqueando en la


columna de la izquierda y luego en la flecha. La o las variables a analizar aparecerán en la lista de
variables. Si se quiere sacar alguna variable de la lista, elegir la variable y cliquear en la flecha que la
devolverá a la columna izquierda.

El botón Restablecer permite restablecer todas las opciones por defecto del sistema y elimina de la
ventana todas las asignaciones hechas con las variables. El botón Continuar permite aceptar las
asignaciones, el botón Cancelar permite ignorarlas y el botón Pegar envía la sintaxis del
procedimiento a la ventana de sintaxis (si es que hay una ventana de sintaxis abierta).

El botón Estadísticos permite seleccionar las medidas a tomar (media, moda, desviación, etc.). Esto
es opcional. Se puede solicitar al programa solo las frecuencias. Nota: Veremos esta opción más
adelante.

5
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

El botón Gráficos permite seleccionar el tipo de gráfico (barras, sectores, histograma, etc.). Esto es
opcional, se puede solicitar al programa solo las frecuencias.

El botón Formato permite determinar el orden en que se mostrarán los resultados:

6
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Nota: En versiones actuales del SPSS también se encuentra la opción Bootstrap, que permite
estimar la distribución de muestreo de un estimador. Permite estimar los errores estándares e
intervalos de confianza de un parámetro de población tal como una media, mediana, proporción,
odds ratio, coeficiente de correlación, coeficiente de regresión u otros.

Cliquear en Aceptar para obtener los resultados del procedimiento. Se desplegará el visor de
resultados. En la columna izquierda del visor se pueden ir seleccionando los distintos tipos de
resultados haciendo clic sobre ellos. Los resultados también pueden verse desplazándose a lo largo
de la pantalla.

Ejercicio 2 - Cálculo de frecuencias


a. Abrir la base de datos de Latinobarómetro, año 2018.
b. Elegir 10 de las variables listadas y asignarles el nivel de medición que corresponda (se
recomienda elegir variables con distintos niveles de medición). Calcular las frecuencias
de las 10 variables.
c. Elegir una variable y modificar el modo de presentación de los datos (Formato).
d. Elegir dos variables, recodificarlas para crear categorías, unificar categorías o dejar de
contar determinados valores y calcular las frecuencias.
e. Guardar los cambios.

7
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

5.4 Gráficos
En SPSS se pueden realizar la mayoría de los tipos de gráficos que se utilizan asiduamente en
estadística y en las ciencias sociales. El programa contiene el menú Gráficos, con una variedad
amplia de gráficos.

Hay tres modos de generar gráficos: a) elegir la opción Generador de gráficos en el menú Gráficos; b)
seleccionar en el menú Gráficos - Cuadros de diálogo antiguos; y c) cliquear en el botón gráficos
cuando pedimos al SPSS una tabla de frecuencias. De este modo, a la tabla de frecuencias la
seguirá un gráfico que aparecerá en el visor de resultados. En esta sección explicaremos cómo
utilizar el generador de gráficos y en las siguientes utilizaremos el modo de cuadros de diálogo
para probar las diferentes alternativas.

Los gráficos aparecerán en la ventana del visor de resultados. Para editarlos (cambiar colores,
agregar o quitar etiquetas, superponer líneas, agregar elementos) es preciso cliquear dos veces
sobre el gráfico y se abrirá el Editor de gráficos en una ventana emergente.

Se pueden generar gráficos a medida seleccionando en el menú Gráficos - Generador de gráficos.


Encontrará una columna con las variables, las categorías y un lienzo en la parte superior de la
ventana. En la parte inferior se verá la galería con los tipos de gráficos, sus elementos, propiedades y
opciones.

8
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Paso 1: Se puede crear un gráfico arrastrando y colocando el gráfico elegido de la galería (primera
pestaña) o los elementos básicos (segunda pestaña) en el lienzo de la parte superior. A medida que
se genere el gráfico, el lienzo mostrará una presentación preliminar del gráfico. Aunque la
presentación preliminar utiliza etiquetas de variable definidas y niveles de medida, no muestra los
datos reales, sino que proporciona un esbozo aproximado de la apariencia del gráfico.

Paso 2: Al añadir un elemento a la galería se crea automáticamente un conjunto de ejes. También


se puede elegir uno en elementos básicos. Cada eje incluye una zona para arrastrar y colocar las
variables. Cada gráfico requiere que se añada al menos una variable en la zona de colocación del
eje X.

Paso 3: La lista de variables muestra las variables disponibles. Si la variable seleccionada es


categórica, la lista categorías mostrará las categorías definidas para la variable (si no ve la lista
categorías, arrastrar la barra que separa las listas categorías y variables). También se puede usar la
lista categorías para ver las variables que componen un conjunto de respuestas múltiples. Se puede
cambiar temporalmente el nivel de medida de una variable cliqueando con el botón derecho del
mouse en el nombre de la variable en la lista de variables y seleccionando el nivel de medida
deseado.

Paso 4: Además de la zona de colocación de los ejes, algunos gráficos (los de barras apiladas o
agrupadas) incluyen otras zonas de colocación. También se pueden añadir zonas de colocación,

9
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

zonas de colocación de creación de paneles y zonas de colocación de etiquetado de puntos desde


la pestaña Grupos/ID puntos.

Paso 5: La ventana derecha presenta las propiedades del elemento (gráfico). Según el tipo de gráfico
se puede modificar la escala (lineal, logaritmo, etc.), las etiquetas y otros aspectos del gráfico como
el ancho de columnas. Cliquear en Aplicar una vez definidas las propiedades.

Paso 6: Cliquear en Aceptar para ejecutar el gráfico. Se abrirá el visor de resultados con el gráfico
solicitado. En el siguiente ejemplo puede verse el modo de visualización del gráfico:

5.5 Gráficos de barras y sectores


Para representar una variable categórica (nominal u ordinal) se utiliza típicamente un gráfico de
barras o sectores. A continuación se explica el modo de crear cada tipo de gráfico disponible.

Gráficos de barras
Cada barra tiene una altura proporcional a la frecuencia absoluta del valor de cada categoría a la
que corresponda.

10
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Paso 1: Seleccionar Gráficos - Cuadros de diálogo antiguos - Barras. Aparecerá la ventana Gráficos de
barras.

Paso 2: Se puede hacer un gráfico simple para una sola variable o un gráfico agrupado o apilado para
comparar varias variables sobre los mismos ejes.

Paso 3: Si se elige la opción agrupado se abrirá la ventana Definir barras agrupado: resúmenes para
grupos de casos. Situar la variable de origen en el Eje de categorías.

11
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Paso 4: Cliquear en Aceptar para obtener el gráfico de barras. Se abrirá el visor de datos con un
gráfico de un estilo semejante al del ejemplo:

Gráficos de barras 3-D


Este tipo de gráficos se utiliza generalmente para representar el cruce de los valores de dos
variables categóricas (nominales u ordinales) que incluso pueden graficarse según los valores de
una variable de agrupación.

Al elegir en el menú Gráficos - Cuadros de diálogo antiguos - Barras 3-D, aparecerá la opción para que
el Eje X y el Eje Z representen grupos de casos, variables distintas o casos individuales. Luego se
elegirán las variables de ambos ejes en la ventana para definir barras, con la posibilidad de apilar y
agrupar hasta 2 variables.

12
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Gráficos de sectores
El gráfico de sectores (también llamado gráfico de torta) se utiliza para representar una variable
categórica (nominal u ordinal) con sectores cuyas superficies son proporcionales a la frecuencia
absoluta del valor de cada categoría de la variable.

Al elegir en el menú Gráficos - Cuadros de diálogo antiguos - Sectores se abre una ventana para elegir
si se trata de resúmenes para grupos de casos, para distintas variables o para valores individuales de los
casos.

13
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Luego se definen los sectores por la variable elegida, como en el resto de las opciones de gráficos.
Se generará un gráfico en el visor de resultados, similar el del ejemplo:

5.6 Gráficos de líneas y áreas


También hay gráficos más adecuados para representar los valores de variables cuantitativas (de
escala), como los gráficos de líneas y áreas, que permiten representar la evolución de series
temporales.

Gráficos de líneas
Al elegir en el menú Gráficos - Cuadros de diálogo antiguos - Líneas se abrirá una ventana para elegir
un gráfico de líneas simple, múltiple o de líneas verticales y definir si se trata de un resumen para
grupos de casos, para distintas variables o para valores individuales de los casos. Al cliquear en Definir
se abrirá una nueva ventana para seleccionar qué representan las líneas (número de casos,
porcentajes, otras medidas), elegir una variable del eje de categorías y la definición de las líneas por..

14
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Gráficos de áreas
Este tipo de gráfico se utiliza generalmente para representar la evolución de los valores de una
variable cuantitativa (de escala) que puede apilarse según los valores de otra variable
habitualmente cualitativa (nominal u ordinal).

Al elegir en el menú Gráficos - Cuadros de diálogo antiguos - Áreas se abrirá una ventana con
opciones de gráfico simple o apilado, como en las demás opciones de gráficos. Una vez que se abra
la ventana para definir las áreas, el procedimientos es similar al del gráfico de líneas.

Ejercicio 3 - Creación de gráficos


a. Tomar la base de datos de Latinobarómetro.
b. Elegir 5 variables del ejercicio anterior y hacer un gráfico diferente con cada una.
c. Guardar la base de datos y el archivo del visor de datos.

5.7 Histograma, curva, diagrama de caja y de bigotes


Ya vimos anteriormente que para variables nominales se pueden crear gráficos de barras o
sectores. En el caso de las barras, estas quedan separadas entre sí para no suponer continuidad en
la distribución (como en una variable de intervalos o de razón).

En cambio, para las variables de escala por intervalo y de razones se admite que las barras estén en
contacto. Este tipo de gráfico se llama histograma. Las representaciones que ofrece el histograma

15
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

pueden ser por el área de la barra o por su altura ordenada. Si bien se pueden emplear intervalos
de clase iguales o desiguales, la segunda opción es menos fiel a la distribución de los datos.

En general se prefiere usar el histograma para distribuciones discretas. Para distribuciones de


variables de escala continuas, se prefiere graficar curvas. El SPSS permite superponer una curva a
los histogramas.

También existen otros tipos de gráficos o diagramas que permiten identificar las características
resumidas de la distribución de una variable de escala. Aquí veremos los diagramas de caja o
bigotes y los gráficos de dispersión.

Histograma
Para generar un histograma, así como para otros gráficos, hay tres opciones:
- Elegir la opción Generador de gráficos en el menú Gráficos y luego seleccionar la opción de
gráfico histograma.
- Seleccionar en el menú Gráficos - Cuadros de diálogo antiguos - Histograma.
- Cliquear en el botón gráficos (y seleccionando un histograma) cuando pedimos al SPSS una
tabla de frecuencias. De este modo, a la tabla de frecuencias la seguirá un gráfico que
aparecerá en el visor de resultados.

El histograma tiene propiedades que se pueden modificar en la ventana propiedades del elemento
que aparece a la derecha de la ventana del generador de gráficos. Para establecer los parámetros
del histograma, cliquear en establecer parámetros. Se puede cliquear en mostrar curva normal para
superponer la curva al gráfico. Es preciso cliquear en aplicar para que las nuevas propiedades se
apliquen al gráfico.

16
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Una vez definidas las propiedades, se cliquea en aceptar en la ventana principal para crear el
gráfico. Recordemos que la presentación preliminar del gráfico no es representativa del gráfico
real, sino solo una aproximación de lo que aparecerá en el visor de resultados, como en el ejemplo a
continuación:

17
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Diagrama de caja o bigotes


El diagrama de caja nos permite interpretar los datos para las variables observando cuartiles,
valores mínimo y máximo, mediana y valores atípicos.

Para crear un diagrama de caja ir al menú Gráficos - Generador de gráficos y elegir en la galería la
opción diagrama de caja. Luego arrastrar el gráfico al lienzo y elegir la variable que corresponde al
eje de las x. El resultado será el siguiente:

Se puede elegir una variable nominal para el eje de las y, de modo de tener un gráfico con dos
dimensiones.

18
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Diagrama de dispersión
Este tipo de gráfico es el más utilizado para ver la relación entre dos o más variables. Puede ayudar
a determinar posibles relaciones entre las variables de escala. Hay varias opciones disponibles:
- Un diagrama de dispersión simple utiliza un sistema de coordenadas 2-D para representar
dos variables.
- Un diagrama de dispersión 3-D utiliza un sistema de coordenadas 3-D para representar
tres variables.
- Cuando necesite representar más variables, puede probar a utilizar diagramas de
dispersión y diagramas de dispersión matriciales (SPLOMs).
- Un diagrama de dispersión superpuesto muestra pares superpuestos de variables x e y
distinguiendo cada par con colores o formas distintas.
- Un SPLOM crea una matriz de diagramas de dispersión 2-D y representa cada variable
respecto a la otra variable en el SPLOM.

Para crear un diagrama de dispersión ir al menú Gráficos - Generador de gráficos y elegir en la galería
la opción dispersión/puntos.

Para crear un diagrama de dispersión simple:

1. Cliquear en la pestaña Galería y seleccionar Dispersión/Puntos en la lista Elija entre.


2. Arrastrar el ícono de dispersión simple al lienzo.
3. Arrastrar una variable de escala a la zona de colocación del eje X.
4. Arrastrar otra variable de escala a la zona de colocación del eje Y. No es necesario
especificar un estadístico, ya que los diagramas de dispersión suelen mostrar los valores
brutos.

Para crear un diagrama de dispersión superpuesto:

1. Cliquear en la pestaña Galería y seleccione Dispersión/Puntos en la lista Elija entre.


2. Arrastrar el ícono de dispersión simple al lienzo.
3. Arrastrar una variable de escala a la zona de colocación del eje X.
4. Arrastrar varias variables de escala a la zona de colocación del eje Y. Es posible seleccionar
varias variables manteniendo pulsada la tecla Ctrl mientras se seleccionan las variables. La
última acción crea pares de variables que se representan como un grupo. La variable del eje
X se empareja con cada variable del eje Y.
5. Para editar los pares, cliquear en la pestaña Propiedades del elemento y seleccionar Punto1
en la lista Editar propiedades de. También se pueden seguir añadiendo más variables al eje Y.

Para crear un diagrama de dispersión matricial:

1. Cliquear en la pestaña Galería y seleccionar Dispersión/Puntos en la lista Elija entre.

19
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

2. Arrastrar el ícono de diagrama de dispersión matricial al lienzo.


3. Arrastrar varias variables de escala a la zona de colocación Matriz de dispersión. Cada
variable de la zona de colocación se representará respecto a todas las demás variables para
crear una matriz de diagramas de dispersión individuales.
4. Para editar las variables, cliquear en la pestaña Propiedades del elemento y seleccionar
Matriz de dispersión1 en la lista Editar propiedades de.

También se puede elegir la opción en Gráficos - Cuadros de diálogo antiguos - Diagrama de dispersión.
Se puede elegir una de las opciones antes mencionadas:

Si, por ejemplo, se elige la opción dispersión simple, se abrirá una ventana para definir las variables.
Pueden modificarse los títulos y las opciones de visualización del gráfico cliqueando en los botones
correspondientes.

20
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

El resultado se verá en el visor de resultados:

Ejercicio 4 - Crear gráficos para variables de escala


a. Tomando 1 de las variables de escala de la base de datos de la clase, crear 2 histogramas
con diferencias en el ancho de columnas y superposición de la curva normal.
b. Tomando otra variable de escala, crear un diagrama de caja.
c. Tomando dos variables de escala, crear un gráfico de dispersión.

5.8 Medidas descriptivas


Como ya vimos, una distribución de frecuencias representa una organización de los datos, pero no
nos permite establecer proposiciones cuantitativas, para
- describir la distribución
- comparar dos o más distribuciones

Existen tres características principales de la distribución de los datos para las cuales se han
desarrollado métodos cuantitativos de descripción:
1) A menudo los datos se acumulan alrededor de un valor central situado entre los dos valores
extremos de la variable que se estudia (tendencia central).
2) Los datos pueden distribuirse en un rango mayor o menor, encontrarse concentrados en los
extremos o distribuirse de modo uniforme (posición).
3) Los datos pueden tender a dispersarse y distribuirse alrededor del valor central en forma tal
que esta tendencia puede ser especificada cuantitativamente (dispersión).

IMPORTANTE: Estas medidas son solo aplicables a variables cuantitativas (de intervalos o razones).

21
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

5.9 Medidas de tendencia central


Constituyen el índice de localización central empleado en la descripción de las distribuciones de
frecuencias. Dado que el “centro” de una distribución puede definirse de diferentes maneras,
también habrá diferentes medidas de tendencia central.
Las tres medidas de tendencia central empleadas más frecuentemente son:
- La media
- La mediana
- La moda

Media
La media aritmética (promedio) es igual a la suma de los datos o valores de una variable dividida
por su número. La siguiente es su expresión algebraica:

Podemos tomar el ejemplo de una variable en la que contemos la cantidad de veces a la semana
que los individuos realizan actividad física. Supongamos que tenemos una muestra de 10 casos y
que estas son las respuestas: 5, 6, 2, 2, 3, 1, 0, 3, 2, 0. Podemos calcular la media sumando todos los
valores y dividiéndolos por n: 24/10 = 2,4. Con esta medida podemos decir que, en promedio, las
personas realizan ejercicio 2,4 veces por semana.

Para no sumar cada vez los valores repetidos se puede multiplicar cada valor de la variable por la
cantidad de veces que se repite y sumar los resultados de las multiplicaciones:

Siguiendo el ejemplo, un modo más rápido de calcular la media de acuerdo con las frecuencias de
cada valor sería la siguiente: ( 5 + 6 + 3*2 + 2* 3 + 2*0 + 1 ) / 10 = 24/10 = 2,4

Propiedades de la media:
1) Es el punto en una distribución de medidas o datos respecto del cual la suma de las
desviaciones es igual a cero. De la demostración de esta propiedad se deriva que la
sumatoria de valores es igual a multiplicar la media por N. Siguiendo con el ejemplo, a lo que
nos referimos es 24 = 2,4*10 = 24

2) Es muy sensible a las mediciones extremas cuando estas no están equilibradas a ambos lados
de ella. Si en nuestro ejemplo tuviéramos un valor 10 en lugar de 6, la suma daría 28 y el
promedio sería 2,8, elevando la media pero solo porque hay un caso muy alejado del resto.

22
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

3) La suma de los cuadrados de las desviaciones respecto de la media es menor que la suma de
los cuadrados de las desviaciones respecto a cualquier otro dato o dato potencial. Puede
decirse entonces que es la medida de tendencia central que hace mínima la suma de los
cuadrados de las desviaciones respecto a ella. El método de localización de la media
mediante la búsqueda del valor mínimo de la suma de los cuadrados se llama método de los
mínimos cuadrados. Este método es muy importante para la estadística, especialmente
cuando se aplica al ajuste de curvas. Tomando nuestro ejemplo, la suma de los cuadrados de
las desviaciones respecto de la media sería la distancia que tiene cada caso particular
respecto de la media, y estos valores se elevan al cuadrado porque si no se anularían entre sí.
Estos son los desviaciones respecto de la media para nuestro ejemplo:

(6-2,4)2+(5-2,4)2+(2-2,4)2+(2-2,4)2+(3-2,4)2+(1-2,4)2+(0-2,4)2+(3-2,4)2+(2-2,4)2+(0-2,4)2

12,96 + 6,76 + 0,16 + 0,16 + 0,36 + 1,96 + 5,76 + 0,36 + 0,16 + 5,76 = 34,4

Si se prueba el mismo cálculo con cualquier otro valor, el resultado será mayor a la
desviación respecto de la media. Este cálculo es útil para el cálculo de la varianza y la
desviación estándar y se utiliza para estimar la recta de regresión, que veremos más
adelante.

También existe la media ponderada, que considera en diferente proporción las medias de distintos
grupos para calcular la media total, de acuerdo con el tamaño del conjunto del que forma parte. Se
expresa como la suma de los productos de la media de cada grupo, multiplicada por su ponderación
respectiva (la N de cada grupo), dividida por la suma de las ponderaciones (N).

Mediana
La mediana es el dato o dato potencial de una distribución, por arriba y por abajo del cual caen la
mitad de las frecuencias. Es un caso especial del rango percentil (corresponde al percentil 50).

La fórmula para calcularla es la siguiente:

El procedimiento más fácil consiste en convertir la ordenación de datos en una distribución de


frecuencias no agrupadas y aplicar la fórmula. Se puede eliminar la i del denominador por ser igual
a 1.

Para nuestro ejemplo de cantidad de veces por semana que se realiza ejercicio, el orden sería el
siguiente: 0, 0, 1, 2, 2, 2, 3, 3, 5, 6. El valor que se encuentra en el medio de la distribución es el que
está en el puesto 5 y 6 porque la cantidad de casos es par. Entonces corresponde el 2. Si hubiera un
2 en el lugar 5 y un 3 en el lugar seis, la mediana sería 2,5. Si la cantidad de casos es impar, entonces

23
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

la media se corresponderá con el valor que se encuentre exactamente en el medio, es decir que
deje el 50% de los casos a su izquierda y el 50% a su derecha.

Una característica destacada de la mediana es su insensibilidad a los valores extremos. Esta


característica la hace muy útil para describir la tendencia central en distribuciones en las cuales la
media no sirve de mucho por estar sesgada.

Retomando el ejemplo, la mediana es 2 tanto para una distribución 0, 0, 1, 2, 2, 2, 3, 3, 5, 6 como


para una distribución 0, 0, 1, 2, 2, 2, 3, 3, 5, 10. Vemos que el 10 no altera el resultado, como sí
ocurre con el valor de la media.

Moda
La moda es simplemente la calificación que se presenta con mayor frecuencia. Es la medida de
tendencia central que se determina más fácilmente, pues se obtiene a simple vista. En el caso de
datos agrupados, la moda se designa como el punto medio del intervalo al que corresponde la
mayor frecuencia.

En nuestro ejemplo la moda es 2, porque aparece 3 veces.

En algunas distribuciones podrá haber dos puntos de frecuencia máxima que en un gráfico
produzcan la apariencia de dos jorobas. Tales distribuciones se denominan bimodales. Una
distribución con más de dos jorobas se llama multimodal.

5.10 Comparación de la media, la mediana y la moda


En general, la media es la medida preferida para representar la tendencia central, porque su
función es más versátil.
- Pertenece a un sistema matemático que permite su uso en análisis estadísticos más
avanzados.
- Las desviaciones respecto de la media proporcionan información valiosa acerca de las
distribuciones, no así las desviaciones respecto de la mediana.
- Es la más estable o fiable de las medidas de tendencia central. Si se tomaran muestras
repetidas de una población dada, la media generalmente mostraría una menor fluctuación que
la mediana o la moda. Esto significa que la media proporciona una mejor estimación del
correspondiente parámetro poblacional.

24
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Hay ciertos casos en los que se prefiere la mediana:


- Cuando una distribución es simétrica, la media y la mediana son idénticas. En esos casos
deberá emplearse la media. Pero cuando la distribución es marcadamente asimétrica, la
media proporciona una estimación inadecuada de la tendencia central.
Ejemplo: Distribución del ingreso anual del hogar.
- La mediana también se elige en las distribuciones en las que hay valores indeterminados.

La moda es la medida apropiada cuando se desea una estimación aproximada y rápida de la


tendencia central, o cuando interese únicamente el caso típico. La moda rara vez se utiliza en las
ciencias sociales.

Existe un método para determinar si una distribución es o no sesgada y para determinar la


dirección del sesgo, si es que existe. Debe tenerse en cuenta que la media se desplaza en la
dirección del sesgo, lo que no ocurre con la mediana que no queda afectada por los valores
extremos.

- Cuando la media es mayor que la mediana, la distribución es positivamente sesgada; y


- Cuando la media es menor que la mediana, la distribución es negativamente sesgada.

5.11 Medidas de posición


Percentiles
El rango percentil representa el porcentaje de los casos dentro de un grupo que alcanzaron valores
iguales o menores que el citado. Entonces, para un valor dado de una variable, es posible calcular
qué porcentaje del resto de los valores se encuentra por debajo o por encima del mismo.

Retomando la distribución de frecuencias acumuladas y de porcentajes acumulados, se pueden


leer los rangos percentiles, ya que el porcentaje acumulado de un valor dado de la variable es lo
mismo que su rango percentil.

Un rango percentil carece por sí mismo de sentido abstracto. Debe estar siempre relacionado con
algún grupo de referencia. La pregunta es ¿en comparación con qué otros sujetos, eventos, hechos,
condiciones, etc. se posiciona el valor obtenido?

Los cuartiles, quintiles y deciles son casos especiales de los percentiles, así como la mediana, que
corresponde al rango percentil 50.

25
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Obtención del rango percentil de un valor de la variable


El rango percentil se define simbólicamente como:

Si nosotros tenemos el rango percentil de los rangos, tenemos que encontrar al interior del rango
el percentil que corresponde al valor, mediante la siguiente fórmula:

Obtención de un valor de la variable para un rango percentil


Ahora haremos el procedimiento contrario, es decir, sabiendo el percentil buscamos el valor de la
variable correspondiente. Primero debemos obtener la frecuencia acumulada correspondiente al
percentil:

Ahora debemos pasar de la frecuencia acumulada al valor de la variable correspondiente al


percentil:

26
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

5.12 Medidas de dispersión


También llamadas medidas de variabilidad, son medidas que indican la dispersión de los datos (cómo
se distribuyen respecto del centro). Mientras las medidas de tendencia central son valores
(puntos), las medidas de dispersión son intervalos. Los intervalos pueden designar distancias o un
número de unidades en la escala de medición.

Medidas de dispersión más usadas:


- Rango
- Rango semi-intercuartil
- Desviación media
- Varianza – utilizada en la estadística inferencial avanzada (ej. análisis de varianza - ANOVA)
- Desviación estándar (o típica) – es la medida más útil en la estadística descriptiva e
inferencial.

Rango
Es la medida más sencilla y directa de las medidas de dispersión. Es la distancia en la escala entre
los valores mayor y menor. Aunque tiene un significado muy claro, se utiliza poco por su marcada
inestabilidad. Si hay un valor extremo en la distribución, se dará la impresión de que la dispersión
es grande cuando, en realidad, si no se contara esa calificación extrema, se podría contar a la
distribución como “compacta” (concentrada). El rango puede reflejar solamente dos valores
extremos en la distribución.

En nuestro ejemplo, el rango sería 0-6. Si consideráramos la distribución con el valor 10, entonces
el rango sería 0-10.

Rango semi-intercuartil
Se calcula restando el valor correspondiente al percentil 25 (primer cuartil) al valor
correspondiente al percentil 75 (tercer cuartil) y dividiendo el resultado por 2. Esta medida
frecuentemente acompaña a la mediana cuando la presencia de valores extremos hace poco
recomendable el uso de la media como medida de tendencia central y de la desviación estándar
como medida de dispersión (sesgos). También son medidas utilizadas en datos de escala ordinal.

Tienen dos defectos:


- Como el rango, no permite hacer una interpretación precisa de un valor dentro de la distribución.
- Como la mediana, no puede usarse en los análisis estadísticos inferenciales “importantes”.

En nuestro ejemplo, teniendo una distribución 0, 0, 1, 2, 2, 2, 3, 3, 5, 6, el primer cuartil


corresponde al valor 0,5 (entre 0 y 1) y el último cuartil corresponde al 4 (entre el 3 y el 5).

(4 - 0,5)/2 = 1,75 es el rango semi intercuartil

27
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Desviación media
Cuando se trabaja con datos de poblaciones distribuidas normalmente, la desviación media
respecto de la media es la medida de dispersión más adecuada (así como la medida de tendencia
central más adecuada es la media).

La desviación media, en principio, se obtendría sumando todas las desviaciones respecto de la


media (sumatoria de cada valor menos la media) y dividiendo por la cantidad total de valores (N).
Pero dado que sabemos que la suma de las desviaciones respecto de la media es igual a 0 (porque
justamente la media compensa los valores mayores y menores a ella), deberíamos sumar las
desviaciones sin considerar el signo (+ o -), obteniendo una medida basada en el valor absoluto de
las desviaciones.

si los valores están ordenados por frecuencias:

|6-2,4| +|5-2,4|+|2-2,4|+|2-2,4|+|3-2,4|+|1-2,4|+|0-2,4|+|3-2,4|+|2-2,4|+|0-2,4|

3,6 + 2,6 + 0,4 + 0,4 + 0,6 + 1,4 + 2,4 + 0,6 + 0,4 + 2,4 = 14,8

A este resultado se lo divide por n: 14,8/10 = 1,48

¿Cómo interpretar la desviación media?

Sirve para la comparación de la dispersión de varias distribuciones, en tanto cuanto mayor sea la
desviación media, más grande será la dispersión de los valores. Sin embargo, no es muy útil para
interpretar los valores dentro de una distribución porque no existe relación matemática precisa
entre la desviación media y la posiciones de los valores dentro de la distribución.

Varianza (s2) y desviación estándar (s)


Para eliminar el signo de las desviaciones respecto de la media, también podemos elevarlas al
cuadrado y sumar los cuadrados de las desviaciones.

Varianza: suma de los cuadrados de las desviaciones respecto de la media, dividida por N.

Desviación estándar: raíz cuadrada de la varianza

La desviación estándar es muy valiosa en tres sentidos:


- Refleja la dispersión de los valores de modo que se puede comparar la variabilidad de
diferentes distribuciones en términos de ella.
- Permite interpretar de modo preciso los valores dentro de una distribución.
- Como la media, pertenece a un sistema matemático que permite su uso en cálculos más
avanzados de estadística inferencial.

28
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Método de la desviación media

SC: suma de los cuadrados de las desviaciones respecto de la media

En nuestro ejemplo retomamos la suma hecha más arriba, con la corrección de que, por tratarse de
una muestra, el cociente será por n-1 en lugar de N:

(6-2,4)2+(5-2,4)2+(2-2,4)2+(2-2,4)2+(3-2,4)2+(1-2,4)2+(0-2,4)2+(3-2,4)2+(2-2,4)2+(0-2,4)2

12,96 + 6,76 + 0,16 + 0,16 + 0,36 + 1,96 + 5,76 + 0,36 + 0,16 + 5,76 = 34,4 / 9 = 3,822

La varianza es 3,822 y la desviación estándar es su raíz, es decir 1,955

Método que se utiliza para calcular a partir de la suma de cuadrados utilizando el teorema del
cuadrado de la suma:

Si realizamos el cálculo por esta vía (así se hace en los programas estadísticos), hacemos lo
siguiente.

Elevamos todos los valores al cuadrado y los sumamos para obtener el primer término:

02 + 02 + 12 + 22 + 22 + 22 + 32 + 32 + 52 + 62 = 0+0+1+4+4+4+9+9+25+36 = 92

Sumamos todos los valores, luego los elevamos al cuadrado y los dividimos por n para obtener el
segundo término:

(0+0+1+2+2+2+3+3+5+6)2 = 242 = 576 / 10 = 57,6

29
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Realizamos la cuenta 92 - 57,6 = 34,4

La varianza es la sumatoria de cuadrados dividida por n, es decir 34,4 /9 = 3,822

La desviación estándar es la raíz cuadrada de la varianza, es decir 1,955

5.13 Medidas de forma


Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis.

Asimetría
Las medidas de asimetría tienen como finalidad elaborar un indicador que permita establecer el
grado de simetría (o asimetría) que presenta una distribución sin necesidad de llevar a cabo su
representación gráfica.

Las medidas más comunes son el coeficiente de asimetría de Fisher, el coeficiente de asimetría de
Fisher estandarizado, el coeficiente de asimetría de Pearson, el coeficiente de asimetría de Bowley,
el coeficiente absoluto de asimetría, el coeficiente de curtosis y el coeficiente de curtosis
estandarizado.

Curtosis
Las medidas de curtosis estudian la distribución de frecuencias en la zona central de la misma. La
mayor o menor concentración de frecuencia alrededor de la media y en la zona central de la
distribución dará lugar a una distribución más o menos en punta. Las medidas de curtosis se
aplican a distribuciones con forma de campana, es decir, unimodales simétricas o con poca
asimetría. Para estudiar la curtosis de una distribución es necesario definir previamente una
distribución tipo, que se toma como modelo de referencia. Esta distribución es la Normal, que
corresponde a fenómenos muy corrientes en la naturaleza, y cuya representación gráfica es una
campana de Gauss.

30
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Decimos que una distribución puede ser más puntiaguda que la normal (leptocúrtica) o menos
puntiaguda (platicúrtica). A la distribución normal, desde el punto de vista de la curtosis se la llama
mesocúrtica.

5.14 Calcular manualmente medidas descriptivas


A partir de la teoría vista sobre medidas descriptivas, calcularemos los estadísticos descriptivos
para una nueva variable de escala de ejemplo: cantidad de veces que el/la encuestado/a consulta
su perfil de Instagram por día. Si se consulta una aplicación que cuenta la frecuencia en 20
celulares, se podría obtener la siguiente distribución ordenada:

1, 3, 6, 6, 6, 7, 7, 8, 10, 10, 10, 11, 12, 22, 23, 23, 24, 30, 33, 50

Para calcular la media, sumamos todos los valores y los dividimos por la cantidad de valores (N).
Podemos calcular antes las frecuencias para no repetir los valores (por ejemplo 3 x 6, 2 x 7, 3 x 10,
etc.). 302 / 20 = 15,1.

Obtenemos la mediana identificando el valor que se encuentra en la mitad de la distribución.


Cuando se trata de pocos valores, podemos identificar los valores que se encuentran en la mitad
en la escala ascendente (el valor 10 y el valor 11). Cuando el N es mayor, usamos el cálculo de
estimación que aparece en la sección teórica. Cuando el N es par, sumamos los dos valores
centrales y los dividimos por 2. Cuando el N es impar, el valor que está en el medio será la mediana.
En este caso, en el medio de la distribución hay dos valores 10, por lo tanto la mediana es 10.

La moda es el valor de mayor frecuencia. En la distribución del ejemplo tenemos dos valores que
tienen una frecuencia de 3: el 6 y el 10. Por lo tanto, podemos decir que se trata de una
distribución bimodal.

Podemos calcular también diferentes percentiles. En este caso, como lo hicimos con la mediana,
los podemos ubicar visualmente por tratarse de un N pequeño. Si queremos identificar deciles,
dividimos la distribución en 10 intervalos, que en este caso serán intervalos de 2 valores (20/10 =
2). El primer decil será entre 3 y 6 (4.5) porque 3 y 6 son el segundo y tercer valor de la
distribución ordenada. El segundo decil será 6, el tercero 7, el cuarto entre 8 y 10 (9), etc. El primer
quintil (20/5 = 4) será 6, el segundo será 9, etc. El primer cuartil (20/4 = 5) será 6.5, el segundo será
10 (la mediana), el tercero será 23.

Para calcular el rango tomamos el valor máximo que adopta la variable (50) y le restamos el valor
mínimo (1): el rango será 49. El rango semi-intercuartil se obtiene restando al tercer cuartil
(percentil 75) el primer cuartil (percentil 25) y dividiendo el resultado por 2: (23 - 6.5)/2 = 16.5/2 =
8.25.

Para calcular la varianza: 1) sumamos los cuadrados de los valores; 2) le restamos la suma de todos
los valores al cuadrado dividido N; como mencionamos antes, por tratarse de una muestra y no de
una población dividimos el resultado por n-1.

31
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

1) 1, 3, 6, 6, 6, 7, 7, 8, 10, 10, 10, 11, 12, 22, 23, 23, 24, 30, 33, 50
1, 9, 36, 36, 36, 49, 49, 64, 300, 121, 144, 484, 529, 529, 576, 900, 1089, 2500 = 7452

2) 1, 3, 6, 6, 6, 7, 7, 8, 10, 10, 10, 11, 12, 22, 23, 23, 24, 30, 33, 50 = 3022 = 91204
91204/20 = 4560.2
7452 - 4560.2 = 2891.2

3) 2891.2 / 19 = 152,2

Por último, la desviación estándar (típica) la obtenemos calculando la raíz cuadrada de la varianza:
√152.2 = 12.337

Con estas medidas podemos ver que la distribución es bimodal, que tiene un sesgo (la mitad de los
valores son iguales o menores a 10, por lo que a la izquierda de la media -15.1 se encuentran más
de la mitad de los valores) porque hay un valor extremo (50), que el 90 por ciento de los valores se
encuentra entre 4.5 y 31.5 (primer y último decil), que el 50 por ciento de los valores se encuentra
entre 6.5 y 23.

Ejercicio 5 - Medidas de tendencia central, posición y dispersión

a. Calcular manualmente la media, la mediana y la moda de la siguiente distribución de


frecuencias de calificaciones de un curso de matemática:

1, 1, 1, 3, 4, 4.5, 5, 5, 5, 5, 5, 6, 8, 9.5, 10

b. Identificar el primer y último decil, y el rango semi intercuarteril en la siguiente


distribución de frecuencias de cantidad de horas trabajadas en un día:

1, 2, 2, 4, 4, 4, 4, 4, 4, 4, 5, 6, 6, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 10, 11, 12

c. Calcular la varianza y la desviación estándar de la siguiente distribución de frecuencias


de consumo de alcohol semanal (lts):

0, 0, 0, 0.3, 0.5, 0.5, 1, 1, 1, 1, 1, 1, 2, 3, 5, 5, 5, 5, 5, 5, 7, 9, 13

5.15 Medidas descriptivas en SPSS


Una vez que vimos qué son y cómo se calculan manualmente las diferentes medidas disponibles en
estadística descriptiva, podemos utilizar los comandos de SPSS para que el programa haga los
cálculos y nos brinde información más precisa y resumida sobre la distribución de valores de una
variable.

Para obtener los valores de la media, mediana, moda, etc. es preciso ir al menú Analizar -
Estadísticos descriptivos - Descriptivos:

32
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Se abrirá una ventana para seleccionar la o las variables a analizar. Cliqueando en opciones, se
abrirá una ventana para tildar las medidas requeridas. Una vez seleccionadas, pulsar en continuar, y
al volver a la ventana de selección de variables, elegir la opción aceptar. Las medidas solicitadas
aparecerán en el visor de resultados.

También es posible abrir la ventana de estadísticos accediendo primero a la de frecuencias y


cliqueando sobre el botón estadísticos. De este modo se pueden pedir las frecuencias y las medidas
al mismo tiempo:

33
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Una vez seleccionadas todas las medidas requeridas, se pulsa en continuar, aceptar y los resultados
aparecerán en la ventana del visor de resultados:

34
Introducción al Paquete Estadístico en SPSS
Módulo 3 - Clase 5 - Explorar datos I

Ejercicio 6 - Medidas de tendencia central, posición y dispersión en SPSS


a. Abrir la base de datos del proyecto PNUD Desiguales (Chile).
b. Con ayuda del diccionario de variables buscar 2 variables de escala. Verificar que no
haya valores correspondientes a “ns/nc”, “no aplica”, etc. Si los hubiere, computarlos
como valores perdidos.
c. Pedir al programa que brinde los estadísticos descriptivos de tendencia central, de
posición, dispersión y forma para ambas variables.

35

También podría gustarte