Está en la página 1de 92

Estadística Aplicada a las

Ciencias del Deporte


Análisis con SPSS

© ESTADÍSTICA APLICADA A LAS CIENCIAS DEL DEPORTE: ANÁLISIS CON SPSS


© Juan José Salinero Martín
ISBN papel
ISBN ebook 978-84-686-1093-1
Impreso en España
Editado por Bubok Publishing S.L.
Juan José Salinero Martín

2
Estadística aplicada a las ciencias del deporte

Índice

Introducción .................................................................................................................................. 5
Capítulo 1. Estadística Básica. Análisis descriptivo ....................................................................... 7
1. Medidas de tendencia central y de dispersión ................................................................. 7
Medidas de tendencia central........................................................................................... 7
Cuantiles. ........................................................................................................................... 8
Medidas de dispersión .................................................................................................... 10
2. Frecuencias...................................................................................................................... 14
Tablas de contingencia .................................................................................................... 17
Capítulo 2. Contraste de medias ................................................................................................. 20
1. Contrastes paramétricos ................................................................................................. 20
Prueba t para una muestra ................................................................................................. 20
Prueba t para dos muestras independientes ...................................................................... 21
Prueba t para dos muestras relacionadas ........................................................................... 24
Análisis de la varianza (ANOVA) .......................................................................................... 26
ANOVA de un factor con medidas repetidas ...................................................................... 31
2. Contrastes no paramétricos ............................................................................................ 36
Normalidad de las variables ................................................................................................ 36
Dos muestras independientes............................................................................................. 40
Dos muestras dependientes................................................................................................ 42
Varias muestras independientes ......................................................................................... 44
Varias muestras dependientes ............................................................................................ 47
Capítulo 3. Análisis de correlación y regresión ........................................................................... 50
Análisis de correlación ............................................................................................................ 50
Análisis de regresión ............................................................................................................... 53
Gráficos con SPSS ........................................................................................................................ 58
Gráficos de barras ................................................................................................................... 59
Gráficos de líneas .................................................................................................................... 72
Gráfico de sectores ................................................................................................................. 76
Gráfico de dispersión .............................................................................................................. 79
Histograma .............................................................................................................................. 83
Diagrama de caja ..................................................................................................................... 85
Ejes dobles............................................................................................................................... 91

3
Juan José Salinero Martín

4
Estadística aplicada a las ciencias del deporte

Introducción

El presente libro trata de ser un manual de apoyo al estudiante de Ciencias de la Actividad


Física y del Deporte, por lo que los procedimientos estadísticos se han simplificado,
asesorando sobre las técnicas estadísticas idóneas para las diferentes situaciones que pueden
plantearse y su ejecución con el programa estadístico SPSS, sin entrar en explicar los detalles
del origen de estas técnicas estadísticas. De la misma forma, la interpretación de las mismas se
encamina a dotar de herramientas de decisión al lector para poder leer con facilidad las tablas
y obtener la información precisa a partir de los estadísticos y sus niveles de significación.

Se ha elegido el programa estadístico SPSS por su creciente expansión en la última década y su


avance en el acercamiento de la estadística al usuario final, facilitando tanto la ejecución de las
técnicas como la interpretación de los resultados sin necesidad de grandes conocimientos de
estadística e informática.

5
Juan José Salinero Martín

6
Estadística aplicada a las ciencias del deporte

Capítulo 1. Estadística Básica. Análisis descriptivo

Dependiendo del tipo de variable que estemos trabajando, un análisis u otro nos
aportará más información. Si tenemos una variable cuantitativa (peso, talla,…), las
medidas de tendencia central y de dispersión nos dan una idea clara de la información
contenida en esa variable. Por el contrario, si la variable es nominal o cualitativa (sexo,
país de nacimiento,…), un análisis de frecuencias nos aporta una información más
relevante, pues las medidas de tendencia central no tienen interés en este tipo de
variable.

1. Medidas de tendencia central y de dispersión

Las medidas de tendencia central hacen referencia a un número representativo del


grupo. Suele emplearse la media, la mediana o la moda. Estos términos son la manera
de expresar la tendencia central de los datos. Dentro del grupo de datos, cada valor
presenta algún grado de diferencia con la medida de tendencia central. El grado de
diferencia es la variabilidad de la medida. Para describir la variabilidad de los valores,
suele emplearse la desviación estándar y la varianza.

Medidas de tendencia central


Media. Es probablemente el término estadístico más utilizado y que suele ser más
conocido. La media es el resultado del sumatorio de todos los valores, dividido por el
número de valores.

Media= ΣX/N

En ocasiones, la media no es el valor más representativo de los casos, como cuando


tenemos algún valor extremo. Imaginemos esta serie de datos: 2, 3, 3, 4, 2, 4, 15.

La media sería (2+3+3+4+2+4+15)/7= 4.7; un número superior a todos los casos


excepto el 15. En estas ocasiones, otras medidas de tendencia central aportan una
información más interesante.

7
Juan José Salinero Martín

Mediana. La mediana representa el valor situado en el centro de los datos, dejando a


ambos lados la misma cantidad de casos. Una vez ordenados los valores de menor a
mayor, la mediana sería el valor que ocupa la posición (N+1)/2.

En el ejemplo anterior, los datos ordenados quedarían así: 2, 2, 3, 3, 4, 4, 15; y la


mediana ocuparía la posición (7+1)/2= 4, por lo que la mediana sería el valor 3 (que
ocupa la 4ª posición). Este valor es más representativo de los datos de esta serie
(exceptuando el valor extremo).

Moda. Otra medida de tendencia central es la moda. Se define como aquel valor de la
variable al que corresponde máxima frecuencia. En el ejemplo anterior, tendríamos
tres modas, pues el 2, 3 y 4 aparecen dos veces cada uno.

Cuantiles.
Algunos autores incluyen éstos como medidas de posición y otros como medida de
dispersión al ser medidas de posición no centrales.

Su cálculo se basa en las frecuencias acumuladas de los valores de la variable. Sobre


estas frecuencias se calcula el porcentaje.

Las medidas de posición no centrales permiten conocer otros puntos característicos de


la distribución que no son los valores centrales. Entre otros indicadores, se suelen
utilizar una serie de valores que dividen la muestra en tramos iguales:

Cuartiles: hacen referencia a 3 valores (4 si incluimos el 100%) que distribuyen


nuestros datos, previa ordenación de forma creciente o decreciente, en cuatro tramos
iguales, en los que cada uno de ellos concentra el 25% de los datos. El cuartil 1
englobaría el 25%, el 2 el 50%, el 3 el 75% y el cuartil 4 sería el 100% de los casos.

Deciles: de la misma forma que los cuartiles, sólo que en esta ocasión se trata de 9
valores, en los que cada uno de ellos concentra el 10% de los resultados.

Percentiles: el más habitual, en este caso son 99 valores que divide los datos en
tramos del 1%.

8
Estadística aplicada a las ciencias del deporte

Edad
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 9 6 2,9 2,9 2,9
10 34 16,4 16,4 19,3
11 39 18,8 18,8 38,2
12 30 14,5 14,5 52,7
13 23 11,1 11,1 63,8
14 31 15,0 15,0 78,7
15 29 14,0 14,0 92,8
16 8 3,9 3,9 96,6
17 6 2,9 2,9 99,5
19 1 ,5 ,5 100,0
Total 207 100,0 100,0

Cuartiles

1º cuartil (percentil 25): es el valor 11 años, ya que por debajo suya se sitúa el 25% de
la frecuencia (tal como se puede ver en la columna de la frecuencia relativa
acumulada).

2º cuartil (percentil 50): es el valor 12 años, ya que entre este valor y el 1º cuartil se
situa otro 25% de la frecuencia.

3º cuartil (percentil 75): es el valor 14 años, ya que entre este valor y el 2º cuartil se
sitúa otro 25% de la frecuencia. Además, por encima suya queda el restante 25% de la
frecuencia.

Cuando un cuartil recae en un valor que se ha repetido más de una vez (como ocurre
en el ejemplo en los tres cuartiles) la medida de posición no central sería realmente
una de las repeticiones.

9
Juan José Salinero Martín

Medidas de dispersión
Las medidas de dispersión tienen como propósito estudiar lo concentrada que está la
distribución en torno a algún promedio.

• Desviación estándar
• Varianza
• Mínimo
• Máximo
• Rango (también llamado amplitud o recorrido)
• Coeficiente de variación de Pearson

Desviación estándar. Es una estimación de la variabilidad de los valores en relación


con la media. Su fórmula es la siguiente:

Varianza. La varianza es el cuadrado de la desviación estándar (o la desviación


estándar es la raíz cuadrada de la varianza).

Mínimo. Es el valor más bajo dentro de la distribución.

Máximo. Es el valor más alto dentro de la distribución.

Rango (también llamado amplitud o recorrido). Es la distancia entre el mayor valor y el


menor dentro de la distribución. La principal ventaja del rango es la de proporcionar
una medida de la dispersión de los datos fácil y rápida de calcular.

En el ejemplo anterior de la variable edad, el rango sería: 19-9= 10.

Coeficiente de variación de Pearson. La desviación estándar sirve para medir la


dispersión de un conjunto de datos en torno a la media. Sin embargo, esta medida
puede resultar engañosa cuando tratamos de comparar la desviación de dos conjuntos
de datos. No es lo mismo una desviación típica de dos segundos en una prueba de 100
metros que en una prueba de 400. Evidentemente, en el segundo caso existiría una
menor dispersión de los datos. El coeficiente de variación de pearson elimina esa
posible confusión al ser una medida de la variación de los datos pero en función de su
media. Se define como (s/M)*100, siendo s la desviación típica y M la media.

10
Estadística aplicada a las ciencias del deporte

Prueba Media (M) Desviación Coeficiente de


típica (s) variación de Pearson
100 metros 11.5 1.2 10.4
400 metros 55.5 1.2 2.16

Para calcular las medidas de dispersión en SPSS, tenemos varias opciones. La más
habitual, es seleccionando Analizar => Estadísticos descriptivos => Descriptivos, donde
introduciremos en el cuadro de la derecha la/s variable/s que queramos analizar.

Si pinchamos el botón “opciones”, podemos elegir que estadísticos nos arrojará SPSS.

Estadísticos descriptivos
N Mínimo Máximo Media Desv. típ.
Edad 207 9 19 12,56 2,089
N válido (según lista) 207

11
Juan José Salinero Martín

Si elegimos la ruta Analizar => Estadísticos descriptivos => Frecuencias (si no queremos
la frecuencia, lo indicaremos desactivando el recuadro de la esquina inferior
izquierda).

Aquí, pinchamos el botón “Estadísticos”, donde podremos elegir entre un número


mayor de estadísticos de dispersión, además de incluir los cuartiles, deciles y
percentiles.

12
Estadística aplicada a las ciencias del deporte

Estadísticos
Edad
N Válidos 207
Perdidos 0
Media 12,56
Error típ. de la media ,145
Mediana 12,00
Moda 11
Desv. típ. 2,089
Varianza 4,364
Rango 10
Mínimo 9
Máximo 19
Percentiles 10 10,00
20 11,00
25 11,00
30 11,00
33 11,00
40 12,00
50 12,00
60 13,00
70 14,00
75 14,00
80 15,00
90 15,00

Existen otras rutas para obtener estos estadísticos, como Analizar => Estadísticos
descriptivos => Explorar, donde además de los estadísticos descriptivos más comunes,
podemos obtener estimadores robustos centrales y valores atípicos, entre otros.

13
Juan José Salinero Martín

2. Frecuencias

Frecuencia absoluta y relativa. Una distribución de frecuencias informa sobre los


valores concretos que presenta una variable y el número de veces que se repite cada
uno de esos valores. Esta sería la frecuencia absoluta. Si establecemos estas
frecuencias en función del número de casos (porcentaje), estaríamos hablando de
frecuencias relativas. Así, por ejemplo, en la variable sexo, nos indicaría cuántos
hombres y cuántas mujeres hay en la muestra.

SEXO
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos mujer 107 51,7 51,7 51,7
hombre 100 48,3 48,3 100,0
Total 207 100,0 100,0

La columna “Porcentaje válido” se diferencia de “porcentaje” en que en la primera el


porcentaje se calcula sobre el total de casos que tenemos en la base de datos, mientras
que en “porcentaje válido” se calcula sobre el total de respuestas (es decir, se excluyen
los casos perdidos). Veamos un ejemplo en el que se han borrado los valores de sexo
de cuatro participantes.

Sexo
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos mujer 103 49,8 50,7 50,7
hombre 100 48,3 49,3 100,0
Total 203 98,1 100,0
Perdidos Sistema 4 1,9
Total 207 100,0

Intervalos de frecuencia. Si hay un rango amplio de valores, se suele utilizar una


distribución agrupada de frecuencias donde los valores se agrupan en rangos llamados
intervalos de frecuencia. El mayor inconveniente de una distribución agrupada de
frecuencias es la pérdida de información en el sentido de que un lector no puede saber
cuántos individuos presentan un valor dado dentro de un intervalo determinado. En el
siguiente ejemplo, vemos cuántos participantes en el estudio se encuentran en la
franja de edad de 9-11 años, 12-14 y más de 15 años. Evidentemente, no podemos
saber la edad exacta de los 79 participantes de la franja 9-11 años, sólo que su edad
oscila entre esos valores.

14
Estadística aplicada a las ciencias del deporte

Intervalos de edad
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 9-11 79 38,2 38,2 38,2
12-14 84 40,6 40,6 78,7
Más de 15 44 21,3 21,3 100,0
Total 207 100,0 100,0

Frecuencia acumulada. Una vez ordenados los datos de menor a mayor, se suma la
frecuencia (o porcentaje) de cada valor a todos los anteriores, obteniéndose el valor
acumulado desde el valor más bajo hasta ese valor concreto. Como podemos observar,
SPSS arroja este dato por defecto, como porcentaje acumulado.

Edad
Porcentaje Porcentaje
Frecuencia Porcentaje válido acumulado
Válidos 9 6 2,9 2,9 2,9
10 34 16,4 16,4 19,3
11 39 18,8 18,8 38,2
12 30 14,5 14,5 52,7
13 23 11,1 11,1 63,8
14 31 15,0 15,0 78,7
15 29 14,0 14,0 92,8
16 8 3,9 3,9 96,6
17 6 2,9 2,9 99,5
19 1 ,5 ,5 100,0
Total 207 100,0 100,0

Para obtener estas tablas en SPSS, seleccionamos Analizar =>Estadísticos descriptivos


=> Frecuencias, incluyendo en el cuadro de la derecha la variable elegida (nominal,
generalmente).

15
Juan José Salinero Martín

Pinchando en el botón “Gráficos”, podemos obtener al mismo tiempo los datos de


forma gráfica, bien en barras o sectores. También podemos elegir frecuencia absoluta o
relativa (porcentaje):

16
Estadística aplicada a las ciencias del deporte

Tablas de contingencia

Es bastante frecuente encontrarse con variables categóricas (sexo, deporte, lugar de


procedencia, cumplimiento o no de algún aspecto de interés,…). Estas variables solo
aportan información nominal, y para su estudio es muy útil el uso de las tablas de
contingencia. Si tenemos dos (o más variables categóricas), podemos organizar los
datos de estas variables en tablas de doble entrada, en las que cada entrada
representa un criterio de clasificación (los valores de las variables categóricas). Como
resultado de esta clasificación, las frecuencias (número o porcentaje de casos)
aparecen organizadas en casillas que contienen información sobre los casos que
presentan ambos criterios. A estas tablas de frecuencias se les llama tablas de
contingencia.

Tabla de contingencia Categorías IMC * SEXO


Recuento
SEXO
mujer hombre Total
Categorías IMC Normal 73 83 156
Sobrepeso 27 14 41
Total 100 97 197

En las filas, se encuentra la variable Categorías IMC, y en columnas, el sexo de cada


participante. En cada cuadrante, se refleja la frecuencia de casos que cumplen ambos
requisitos (73 mujeres con normopeso, 27 mujeres con sobrepeso,…etc.). En los
extremos de filas y columnas, se muestran los totales de filas y columnas.

El grado de relación que existe entre estas variables no puede establecerse con la
simple observación de las frecuencias de la tabla de contingencia, sino que se debe
emplear algún estadístico que nos permita afirmar con un margen de error si existe o
no una relación de dependencia entre las variables.

El estadístico más utilizado es Chi cuadrado (χ χ2). Este estadístico se basa en la


comparación de las frecuencias observadas (las que aparecen en los datos) con las
frecuencias esperadas (las que debería haber si ambas variables fuesen
independientes). Un valor más próximo a 0 estará asociado a independencia entre las
variable. No obstante, para afirmar esto, tendremos que observar su significación. Si
ésta es muy pequeña (habitualmente inferior a 0,05), podemos afirmar que sí existe
una relación de dependencia entre estas variables (rechazamos la hipótesis nula de
independencia, que es la que contrasta el estadístico).

17
Juan José Salinero Martín

Para obtener una tabla de contingencia con SPSS, seleccionamos Analizar =>
Estadísticos descriptivos => Tablas de contingencia, colocando una variable cualitativa
en el cuadro “Filas” y otra en “Columnas”. Al mismo tiempo, en la esquina inferior
izquierda podemos solicitar el gráfico de barras agrupadas.

Para obtener el estadístico Chi2, u otros empleados con este tipo de datos (Phi de
Cramer, Coeficiente de contingencia,…etc.), pinchamos en el botón “Estadísticos”.

18
Estadística aplicada a las ciencias del deporte

Con los valores de sexo y categorías IMC del ejemplo anterior, obtendríamos los
siguientes datos:

Pruebas de chi-cuadrado
Sig. asintótica Sig. exacta Sig. exacta
Valor gl (bilateral) (bilateral) (unilateral)
a
Chi-cuadrado de Pearson 4.718 1 .030
b
Corrección por continuidad 3.987 1 .046
Razón de verosimilitudes 4.790 1 .029
Estadístico exacto de Fisher .035 .022
Asociación lineal por lineal 4.694 1 .030
N de casos válidos 197
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es
20.19.
b. Calculado sólo para una tabla de 2x2.

Como podemos observar en la significación del estadístico Chi cuadrado de Pearson,


ésta es inferior a 0,05 (0,030), por lo que existe relación de dependencia entre las
variables sexo y categoría IMC (rechazamos la hipótesis nula de independencia), es
decir, el sobrepeso tiene una incidencia diferente en los hombres que en las mujeres.

19
Juan José Salinero Martín

Capítulo 2. Contraste de medias

1. Contrastes paramétricos

Prueba t para una muestra

Esta prueba se emplea para contrastar hipótesis en relación a la media de una


población. Si tenemos una muestra, a través de esta prueba podemos contrastar la
hipótesis nula de igualdad de la muestra con respecto a la población de la que se
extrae. Para esto, tendríamos que conocer la media de la población, y esto pocas veces
es posible. Por ello, este tipo de prueba t es el menos utilizado. Pongamos un ejemplo.
Tenemos un grupo de deportistas y queremos contrastar si existen diferencias entre
nuestro grupo y el total de deportistas de esa modalidad, cuyo dato conocemos (19,5).

Para ejecutar este análisis en SPSS, seleccionamos Analizar => Comparar medias =>
prueba t para una muestra (y en valor de prueba la media poblacional, en este caso
19,5)

En primer lugar, nos arroja esta tabla, que incluye los estadísticos descriptivos de
nuestra muestra.

Estadísticos para una muestra

Error típ. de la
N Media Desviación típ. media
IMC 200 20.5952 3.43318 .24276

20
Estadística aplicada a las ciencias del deporte

A continuación, el resultado de la prueba t para una muestra, donde podemos


observar el valor del estadístico (4,511), así como el nivel de significación asociado al
mismo (0,000). Como este nivel de significación (probabilidad) es inferior a 0,05,
podemos afirmar que existen diferencias significativas entre nuestra muestra (nuestro
grupo de deportistas) y la población (todos los deportistas de esa modalidad). Dicho de
otra forma, rechazamos la hipótesis nula de igualdad entre muestra y población con
una probabilidad de error inferior al 5% (0,05). El intervalo de confianza para la
diferencia es otra forma de comprobar este hecho. Al no incluirse el 0 en este intervalo,
quiere decir que la diferencia entre muestra y población no puede ser 0 (al 95% de
intervalo de confianza, la diferencia oscilará entre 0,62 y 1,57).

Prueba para una muestra

Valor de prueba = 19.5

95% Intervalo de confianza para

Diferencia de la diferencia

t gl Sig. (bilateral) medias Inferior Superior


IMC 4.511 199 .000 1.09520 .6165 1.5739

Prueba t para dos muestras independientes

Permite contrastar hipótesis referidas a dos muestras independientes. Es decir, si


tenemos dos muestras, permite contrastar si existen diferencias en una variable entre
estas dos muestras. Por ejemplo, puede ser de interés contrastar si existen diferencias
en una variable determinada (IMC, fuerza, velocidad,…) entre hombres y mujeres,
entre profesionales y amateur, entre corredores de medio fondo y fondo,…etc.
Si tenemos dos grupos (hombres y mujeres), con dos medias en número de pasos
diarios, por ejemplo de 9600 y 10300, podemos ver que sus medias son diferentes,
pero ¿son estadísticamente diferentes de forma significativa? Para esto debemos
realizar una prueba t para muestras independientes.

Para realizar una prueba t para muestras independientes en SPSS, seleccionamos


Analizar => comparar medias => prueba t para muestras independientes.
Aquí, incluimos en el campo “Variable para contrastar” nuestra variable dependiente,
es decir, la que queremos comprobar si presenta diferencias entre los dos grupos (steps
en este ejemplo). En “Variable de agrupación”, incluimos la variable que nos define los
grupos (sexo, en este ejemplo).

21
Juan José Salinero Martín

Como la prueba t sólo nos permite comparar dos grupos, SPSS no solicita que
indiquemos el código de los dos grupos que queremos contrastar. En este caso sólo
tenemos dos grupos (hombre=1, mujer =2), pero podríamos tener más, y por eso es
obligatorio definirlos pinchando en el botón “Definir grupos” para indicar al programa
que grupos queremos comparar.

Si aceptamos con la configuración del ejemplo anterior, obtenemos en primer lugar


una tabla con los estadísticos descriptivos de ambos grupos, donde ya podemos
observar las medias de ambos grupos.

Estadísticos de grupo

SEXO Error típ. de la


N Media Desviación típ. media
Steps mujer 85 9609.97 2799.25408 303.62173

hombre 80 11308.38 3110.26158 347.73782

22
Estadística aplicada a las ciencias del deporte

Para poder afirmar o rechazar la hipótesis nula de igualdad de medias entre ambos
grupos, debemos analizar la t de student. Como podemos observar en la tabla, SPSS
nos arroja dos valores de t con su correspondiente significación, en función de la
asunción de igualdad o no de varianzas, por lo que el primer paso será comprobar este
punto. Para ello, debemos consultar el resultado de la Prueba de Levene. Esta prueba
es previa al contraste de medias. Su misión es estudiar la varianza de la medias. Si la
significación de la prueba de levene es <0,05, existen diferencias entre varianzas, por lo
que elegiríamos el resultado de la prueba t indicado como No se han asumido
varianzas iguales. Como es superior (0,647), no hay diferencias entre varianzas por lo
que elegimos la primera fila, Se han asumido varianzas iguales. Como podemos ver, la
significación de t es inferior a 0,05 (0,000), por lo que afirmamos que existen
diferencias significativas entre ambos grupos en el número de pasos diarios
(rechazamos la hipótesis nula de igualdad de medias entre hombres y mujeres en esta
variable). Esto se refrenda observando el intervalo de confianza para la diferencia, que
no incluye el cero (la diferencia entre las medias no puede ser igual a 0).

Prueba de muestras independientes


Prueba de
Levene para la
igualdad de
varianzas Prueba T para la igualdad de medias
95% Intervalo
de confianza
para la
Diferencia Error típ. diferencia
Sig. de de la Supe
Steps F Sig. t Gl bilateral medias diferencia Inferior rior
Se han asumido .210 .647 -3.69 163 .000 -1698 460 -2607 -789
varianzas iguales
No se han -3.68 158 .000 -1698 461 -2610 -786
asumido varianzas
iguales

23
Juan José Salinero Martín

Prueba t para dos muestras relacionadas

En este caso, se contrastan dos medias pertenecientes al mismo grupo, en dos


momentos o variables relacionadas (por ejemplo, la medida en un test determinado al
principio y al final de la temporada, o el peso deseado y el peso real). Con esto
contrastamos si existen diferencias entre el valor obtenido en el primer test y el
segundo.

Para realizar este cálculo con SPSS, seleccionamos Analizar => comparar medias =>
prueba t para muestras relacionadas.
Introducimos en el cuadro de “variables emparejadas” las dos variables que queremos
comparar (pasos laborables y pasos festivos, en este ejemplo). Sólo permite comparar
pares de variables (2 muestras relacionadas), pero sí podemos realizar a la vez la
comprobación de varios pares, incluyéndolo en filas sucesivas (Par 1, Par 2,…).

Aceptando con la configuración indicada, obtendríamos en primer lugar, como en la


pruebas t anteriores, una tabla con los estadísticos descriptivos, de ambas variables en
este caso.

Estadísticos de muestras relacionadas

Error típ. de la
Media N Desviación típ. media
Par 1 Pasos laborables 11274.6574 45 3131.06088 466.75100

Pasos festivos 8267.4111 45 3606.95958 537.69379

24
Estadística aplicada a las ciencias del deporte

A continuación, se muestra la correlación entre ambas variables, que puede resultar de


utilidad si nuestro objetivo es la validación de dos instrumentos para medir la misma
variable, pero que se explicará en el capítulo Análisis de correlación.

Correlaciones de muestras relacionadas

N Correlación Sig.

Par 1 Pasos laborables y Pasos 45 .429 .003


festivos

En tercer lugar, la prueba t para muestras relacionadas, donde podemos contrastar la


hipótesis nula de igualdad entre los pasos laborables y los pasos festivos. Como el nivel
de significación del estadístico es inferior a 0,05 (0,000), podemos afirmar que sí
existen diferencias significativas entre ambas variables (pasos laborables – pasos
festivos). Como vimos en la tabla de estadísticos, podemos afirmar ahora que los días
laborables se realizan más pasos que los días festivos de forma significativa. Igual que
en el anterior procedimiento, aquí también se muestra el intervalo de confianza para
la diferencia y vemos como en este intervalo no se incluye el cero (la diferencia entre
pasos laborables y festivos no puede ser cero).

Prueba de muestras relacionadas

Diferencias relacionadas

95% Intervalo de
confianza para la

Desv. ET de la diferencia Sig.


Media típ. media Inferior Superior t gl bilateral
Par 1 Pasos laborables 3007 3623 540 1918 4095 5.57 44 .000
- Pasos festivos

25
Juan José Salinero Martín

Análisis de la varianza (ANOVA)

El análisis de la varianza (ANOVA) permite la evaluación de la hipótesis nula entre las


medias de dos o más grupos. La prueba t es un caso especial de ANOVA donde solo hay
dos grupos. Por tanto, siempre que tengamos más de dos grupos, debemos emplear
este análisis.
Tenemos una variable categórica (nominal u ordinal) que define los grupos que se
desean comparar, a la que llamaremos factor o independiente. La variable cuantitativa
en la que se desea comparar los grupos se llama dependiente. Al igual que en el caso
de la prueba t para muestras independientes, la hipótesis a contrastar es que no
existen diferencias entre las medias de los grupos en la variable dependiente.
Al igual que en la prueba t, debemos contrastar en primer lugar la homogeneidad de
las varianzas (homocedasticidad) mediante la prueba de Levene. En el caso de mostrar
varianzas diferentes, una alternativa al ANOVA son las pruebas robustas. El estadístico
de Welch es una opción alternativa al ANOVA en este caso.
El problema que se nos plantea a continuación es saber qué medias difieren y cuáles
no, ya que tanto el ANOVA como las pruebas robustas (Welch) sólo informan de que
existen diferencias entre las medias, pero no aclaran entre qué grupos se establecen
estas diferencias (tan solo que al menos un grupo difiere de al menos otro grupo). Para
esto debemos recurrir a las pruebas post hoc o comparaciones a posteriori.
Existen multitud de pruebas post hoc, asumiendo varianzas iguales (DMS, Bonferroni,
Sidak, Scheffé, Tukey, Duncan,…) o no asumiendo varianzas iguales (T2 de Tamhane, T3
de Dunnett, Games-Howell, C de Dunnett). Solo es necesario utilizar uno. El más
utilizado entre los primeros es el de Tukey (y el de Scheffé), y de los últimos, Games-
Howell.

Para realizar un ANOVA de un factor en SPSS, seleccionamos Analizar => comparar


medias => ANOVA de un factor

En el cuadro “Factor”, incluimos la variable que nos define los grupos (variable
independiente) y en el cuadro “Lista de dependientes”, la variable en la que queremos
comprobar si existen diferencias entre los grupos.

26
Estadística aplicada a las ciencias del deporte

En el botón “opciones”, elegimos “Descriptivos”, “Prueba de homogeneidad de


varianzas” y “Welch”.

Aceptando con estas indicaciones, obtenemos en primer lugar los estadísticos


descriptivos de los tres grupos en la variable elegida (steps en este ejemplo). Aquí
podemos observar que los chicos de primaria tienen la mayor media y los de 2º de
secundaria la más baja.

27
Juan José Salinero Martín

Descriptivos
Steps
Intervalo de confianza
para la media al 95%
Desviación Error Límite Límite
N Media típica típico inferior superior Mínimo Máximo
Primaria 56 11017,7 3222,1 430,5 10154,8 11880,6 5070 21733
1º Secundaria 56 10325,3 3178,6 424,7 9474,1 11176,6 3337 20052
2º Secundaria 56 9792,4 2699,2 360,7 9069,5 10515,2 4940 16348
Total 168 10378,5 3065,8 236,5 9911,5 10845,5 3337 21733

A continuación, la prueba de homogeneidad de varianzas nos indica que no existen


diferencias entre las varianzas de los grupos, al ser la significación mayor que 0,05, y
por tanto rechazando la hipótesis nula de igualdad de varianzas.

Prueba de homogeneidad de varianzas


Steps
Estadístico de
Levene gl1 gl2 Sig.
,455 2 165 ,635

Al no existir diferencias entre las varianzas, el siguiente paso es consultar la tabla de


ANOVA (si hubiese diferencias de varianzas, consultaríamos la tabla de la prueba de
Welch, que se interpretaría de la misma forma que ANOVA). Como la significación de
ANOVA es mayor que 0,05 (0,105), podemos afirmar que no existen diferencias
significativas entre las medias de los grupos en “steps”. Es decir, ningún grupo realiza
un mayor número de pasos de forma significativa (aceptamos la hipótesis nula de
igualdad de medias).

ANOVA
Steps
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 4,228E7 2 2,114E7 2,283 ,105
Intra-grupos 1,527E9 165 9257402,935
Total 1,570E9 167

En el caso de encontrar diferencias significativas en ANOVA, como el caso del siguiente


ejemplo con la variables IMC (sig. 0,000), podemos afirmar que existen diferencias en
el IMC, al menos entre dos de los grupos (rechazamos la hipótesis nula de igualdad de
medias entre los grupos).

28
Estadística aplicada a las ciencias del deporte

Prueba de homogeneidad de varianzas


IMC
Estadístico de
Levene gl1 gl2 Sig.
6,171 2 197 ,003

ANOVA
IMC
Suma de Media
cuadrados gl cuadrática F Sig.
Inter-grupos 236,473 2 118,236 11,044 ,000
Intra-grupos 2109,091 197 10,706
Total 2345,564 199

Para saber entre qué grupos se establecen estas diferencias, ya que tenemos 3 grupos,
debemos realizar las pruebas post hoc. Como no existen diferencias entre las varianzas
(sig. Levene 0,003), utilizaremos la prueba de Tukey. Para ello, volvemos a ejecutar el
ANOVA, pero en esta ocasión, en el botón “Post hoc” seleccionaremos Tukey.

29
Juan José Salinero Martín

Ahora, junto a los anteriores resultados, además arroja la siguiente tabla, donde
podemos observar el contraste de medias para cada par de grupos. Observamos que la
significación para el par Primaria-1º secundaria arroja una significación de 0,985, y por
tanto no existen diferencias significativas entre ellos. Sí existen diferencias, por el
contrario, entre 2º secundaria y los otros dos ciclos (sig.=0,000 en ambos casos).

Comparaciones múltiples
IMC
HSD de Tukey
(I) Ciclos Primaria - (J) Ciclos Primaria - Intervalo de confianza al
Secundaria Secundaria 95%
Diferencia de Error Límite Límite
medias (I-J) típico Sig. inferior superior
Primaria 1º Secundaria
dimension3
-,09 ,56 ,985 -1,42 1,24
*
2º Secundaria -2,37 ,55 ,000 -3,68 -1,06
1º Secundaria
dimension2
Primaria
dimension3
,09 ,56 ,985 -1,24 1,42
*
2º Secundaria -2,28 ,58 ,000 -3,66 -,88
*
2º Secundaria Primaria
dimension3
2,37 ,55 ,000 1,06 3,68
*
1º Secundaria 2,28 ,58 ,000 ,88 3,66
*. La diferencia de medias es significativa al nivel 0.05.

30
Estadística aplicada a las ciencias del deporte

ANOVA de un factor con medidas repetidas

El diseño más simple de medidas repetidas consiste en medir dos variables en una
misma muestra de sujetos. Ya vimos anteriormente que esto se trataba con la prueba t
para muestras relacionadas. Cuando tenemos más de dos medidas, debemos emplear
un modelo de análisis de la varianza con medidas repetidas. Por tanto, los datos que
permite analizar este modelo son los procedentes de un diseño con un solo grupo y un
único factor cuyos niveles (medidas) se aplican a todos los sujetos.

Este es el caso más simple del ANOVA de medidas repetidas, ya que también podemos
encontrarnos con casos de más de un factor (inter-grupo o intra-grupo), pero eso
escapa a los contenidos de este capítulo.

Ilustremos esto con un ejemplo. Tenemos un grupo de deportistas, a los que hemos
realizado tres test de flexibilidad en condiciones diferentes (inicial, tras calentamiento,
y tras estiramiento). Para contrastar si existen diferencias entre el resultado de los test,
emplearemos el ANOVA de un factor con medidas repetidas.

Para realizar este procedimiento con SPSS, Analizar => modelo lineal general =>
medidas repetidas

Asignamos un nombre al factor (flexibilidad en este ejemplo) y le indicamos el número


de niveles (medidas) que presenta, tres en este caso, y pinchamos en definir.

31
Juan José Salinero Martín

Introducimos las tres medidas del test en la ventana de variables intra-sujetos, y


aceptamos.

Para que se nos muestren los estadísticos descriptivos de las diferentes medidas,
pinchamos el botón “Opciones” y añadimos el factor (Flexibilidad en este caso) al
cuadro de la derecha, y seleccionamos la opción “Estadísticos descriptivos” del
cuadro de visualización.

32
Estadística aplicada a las ciencias del deporte

De los resultados que nos ofrece SPSS, en primer lugar aparecen los estadísticos
descriptivos de las tres medidas.

Estadísticos descriptivos
Desviación
Media típica N
Flex_frío 17,973 7,7864 26
Flex_calentamiento 21,1250 7,04320 26
Flex_estiramiento 21,277 7,4783 26

En la siguiente tabla nos muestra información sobre diferentes estadísticos


multivariados para contrastar la hipótesis nula de igualdad de medias entre las tres
medidas. Como vemos, todos presentan una significación de 0,000, inferior a 0,05, por
lo que podemos rechazar la hipótesis de igualdad de medias (las medias de al menos
dos de las medidas son estadísticamente diferentes).

33
Juan José Salinero Martín

b
Contrastes multivariados
Efecto Gl de la Gl del
Valor F hipótesis error Sig.
a
Flexibilidad Traza de Pillai ,751 36,126 2 24 ,000
a
Lambda de Wilks ,249 36,126 2 24 ,000
a
Traza de Hotelling 3,011 36,126 2 24 ,000
a
Raíz mayor de Roy 3,011 36,126 2 24 ,000
a. Estadístico exacto
b. Diseño: Intersección
Diseño intra-sujetos: Flexibilidad

Para saber entre qué medidas se establecen las diferencias, no disponemos de pruebas
post hoc, como en el caso de ANOVA de un factor. No obstante, pinchando en el botón
“opciones”, podemos indicarle a SPSS que “compare los efectos principales”, lo cual
sirve para comparar dos a dos los distintos niveles del factor, y seleccionaremos el
ajuste del intervalo de confianza mediante la corrección de Bonferroni.

34
Estadística aplicada a las ciencias del deporte

Al aceptar de nuevo, ahora, junto a los anteriores resultados, nos muestra la siguiente
tabla, donde podemos ver como existen diferencias significativas entre la primera
medida y las otras dos (1-2, 1-3), al ser la significación menor que 0,05 (y no incluir el 0
el intervalo de confianza para la diferencia). Por el contrario, entre 2 y 3, no existen
diferencias significativas.

Comparaciones por pares


Medida:MEASURE_1
(I)Flexibilidad (J)Flexibilidad Intervalo de confianza al 95 %
a
Diferencia de Error para la diferencia
a
medias (I-J) típ. Sig. Límite inferior Límite superior
*
1 2
dimension2
-3,152 ,416 ,000 -4,2 -2,08
*
3 -3,304 ,429 ,000 -4,4 -2,20
*
2
dimension1
1
dimension2
3,152 ,416 ,000 2,1 4,22
3 -,152 ,400 1,000 -1,2 ,87
*
3 1
dimension2
3,304 ,429 ,000 2,2 4,40
2 ,152 ,400 1,000 -,87 1,18
Basadas en las medias marginales estimadas.
*. La diferencia de medias es significativa al nivel ,05.
a. Ajuste para comparaciones múltiples: Bonferroni.

Para identificar a qué medidas corresponden los números 1 a 3, se muestra una tabla
de equivalencia al principio de los resultados.

Factores intra-sujetos
Medida:MEASURE_1
Flexibilidad Variable dependiente
1 Flex_frío
2
dimension1

Flex_calentamiento
3 Flex_estiramiento

35
Juan José Salinero Martín

2. Contrastes no paramétricos

Normalidad de las variables

Los contrastes de medias vistos hasta ahora (prueba t, ANOVA, medidas repetidas)
requieren que exista una distribución normal en las variables contrastadas. Cuando no
se cumple este supuesto de normalidad, debemos recurrir a los Contrastes No
Paramétricos.
Por tanto, el primer paso será comprobar la normalidad de las variables a contrastar, y
posteriormente utilizar el contraste de medias adecuado.
Para esto, se suele emplear un estadístico denominado K-S (Kolmogorov-Smirnov para
una muestra) o la prueba de Shapiro-Wilk. Por norma general, el primero es más
adecuado para muestras más numerosas (a partir de 30-40 participantes), mientras
que el segundo se emplea en mayor medida para muestras pequeñas.

Ambas son una prueba de bondad de ajuste: sirven para contrastar la hipótesis nula de
que la distribución de una variable se ajusta a una determinada distribución teórica de
probabilidad (la distribución normal en el caso que nos ocupa). Por lo tanto, si la
significación asociada a estos estadísticos es inferior a 0,05, podremos rechazar la
igualdad entre la distribución normal y la distribución de la variable analizada, por lo
que podremos rechazar la normalidad de esa variable.

Para poder calcular ambas en SPSS, debemos selección Analizar => Estadísticos
descriptivos => Explorar, e incorporamos la/s variable a contrastar en el cuadro “Lista
de dependientes”. Dentro de este cuadro, elegir el botón “Gráficos” y pinchar en
“Gráficos con pruebas de normalidad”.

36
Estadística aplicada a las ciencias del deporte

Ejecutando con estas condiciones, entre otros resultados obtenemos esta tabla, donde
se muestran ambas pruebas de bondad de ajuste, con su correspondiente nivel de
significación. En ambos casos, podemos comprobar que sí existen diferencias
significativas entre la distribución de las variables “Días más de 60’ actividad
moderada’” y “Días más de 20’ actividad intensa’” y la distribución normal, al ser la
significación inferior a 0,05, por lo que podemos afirmar que estas variables no tienen
una distribución normal.

Pruebas de normalidad
a
Kolmogorov-Smirnov Shapiro-Wilk
Estadístico gl Sig. Estadístico gl Sig.
Días más de 60' actividad ,151 169 ,000 ,931 169 ,000
moderada
Días más de 20' actividad ,480 169 ,000 ,448 169 ,000
intensa
a. Corrección de la significación de Lilliefors

Para ejecutar sólo la prueba de K-S, podemos hacerlo en otra ruta. Analizar => pruebas
no paramétricas => Una muestra. Por defecto SPSS nos incluye todas las variables de
nuestra base de datos en el cuadro “Campos de prueba”. Por tanto, cambiaremos al
cuadro de la izquierda todas las variables que no queramos analizar, dejando sólo la/s
de nuestro interés.

37
Juan José Salinero Martín

Si no modificamos nada más y ejecutamos, obtendremos la prueba K-S de una muestra


si hemos elegido una variable medida en nivel de escala (representada por el icono de
la regla amarilla en SPSS). No obstante, en la pestaña configuración, podemos
configurar manualmente la prueba que queremos ejecutar, si bien si dejamos la opción
automática, se ejecuta correctamente.

38
Estadística aplicada a las ciencias del deporte

Cabe mencionar que desde esta ruta, se calcula K-S sin la corrección de Lilliefors, de ahí
que sea menos exigente y el nivel de significación para la misma variable sea diferente
(más elevado). Además, cabe mencionar que desde la opción de pruebas no
paramétricas, se muestra tanto la hipótesis de partida (hipótesis nula), como la
significación encontrada y la decisión a tomar en función de este nivel de significación.

39
Juan José Salinero Martín

Dos muestras independientes

En el caso de que tengamos que comparar las medias de dos muestras independientes
y no podamos utilizar la prueba t por el incumplimiento de la normalidad, o porque la
variable sea de carácter ordinal, existen pruebas no paramétricas, como es la U de
Mann-Whitney. Por ejemplo, si queremos contrastar si existen diferencias entre sexos
(2 grupos) en la variable “Días más de 60’ de actividad moderada”, emplearemos este
análisis, ya que hemos comprobado que esta variable no presenta distribución normal.

Para emplear esta prueba con SPSS, seleccionamos Analizar => Pruebas no
paramétricas => Muestras independientes. Aquí, incluimos la variable dependiente en
“Campos de prueba” y la variable que define los grupos (variable independiente) en
“Grupos”. Al igual que para el cálculo de la prueba K-S, si no modificamos ningún
parámetro más, obtendremos el cálculo de la U de Mann-Whitney, alternativa no
paramétrica de la prueba t para muestras independientes.

Si pinchamos la pestaña “Configuración”, podemos modificar manualmente la prueba a


realizar, pero en la opción automática se ejecutará correctamente.

40
Estadística aplicada a las ciencias del deporte

Como podemos observar en la siguiente tabla, SPSS nos arroja, al igual que en la
prueba de K-S, la hipótesis nula de partida (la igualdad entre ambos grupos), la
significación de la prueba ejecutada (0,151) y la decisión a tomar (aceptar la hipótesis
nula), concluyendo que no existen diferencias significativas entre hombres y mujeres
en los días de práctica de más de 60 minutos de actividad física moderada.

41
Juan José Salinero Martín

Dos muestras dependientes

Permiten analizar datos provenientes de diseños con medidas repetidas. La prueba de


Wilcoxon sirve para contrastar hipótesis sobre igualdad de medianas y representa una
alternativa no paramétrica a la prueba t para muestras relacionadas. Por ejemplo, si
queremos contrastar si existen diferencias entre los días que los chicos de nuestra base
de datos cumplen las recomendaciones oficiales de 60 minutos de actividad moderada
y los días que cumplen las recomendaciones de 20 minutos de actividad intensa,
emplearemos este análisis, ya que hemos comprobado que estas variables no tienen
distribución normal.

Para realizar este análisis en SPSS, Analizar => Pruebas no paramétricas => Muestras
relacionadas. Al incluir dos variables en el campo de prueba, ejecutará
automáticamente la prueba de Wilcoxon. Si incluímos más variables, realizaría la
prueba de Kruskall-Wallis que veremos a continuación.

Como podemos observar en la siguiente tabla, rechazamos la hipótesis nula y


afirmamos que existen diferencias significativas entre los días de práctica de 60
minutos de actividad moderada y los días de 20 minutos de actividad intensa.

42
Estadística aplicada a las ciencias del deporte

43
Juan José Salinero Martín

Varias muestras independientes

Alternativa al ANOVA cuando las variables no tienen distribución normal. Empleadas


para contrastar las diferencias entre más de dos grupos en variables medidas al menos
a nivel ordinal. Al igual que ocurría con ANOVA, sólo nos informa de si existen
diferencias entre los grupos, pero no nos indica entre qué grupos se dan estas
diferencias. Para determinar esto, aquí no existen pruebas post hoc, por lo que la
alternativa es realizar la prueba para dos muestras independientes (U de Mann-
Whitney vista anteriormente) para cada par de grupos. Deberemos entonces aplicar
una corrección para el nivel de significación (corrección de Bonferroni), que consiste
en dividir el nivel de significación establecido por el número de combinaciones dos a
dos posibles con el número de grupos que tengamos. Por ejemplo, si tenemos 3
grupos, se pueden hacer tres combinaciones dos a dos (1-2, 1-3 y 2-3), por lo que si el
nivel de significación lo tenemos establecido en 0,05, habría que establecer un nivel
corregido a 0,05/3= 0,017.

Para calcularlo con SPSS, Analizar => Pruebas no paramétricas => Muestras
independientes. En la pestaña “Campos”, al igual que en la U de Mann-Whitney,
incluimos la variable dependiente en “Campos de prueba” y la variable que define los
grupos en “Grupos”, solo que en esta ocasión esta variable debe definir más de dos
grupos (si esta variable define dos grupos, SPSS automáticamente calcula U de Mann-
Whitney, mientras que si define tres o más grupos, ejecuta H de Kruskall-Wallis).

44
Estadística aplicada a las ciencias del deporte

En la siguiente tabla podemos comprobar que la decisión a tomar es rechazar la


hipótesis nula, afirmando por tanto que existen diferencias significativas entre al
menos dos de los grupos que define la variable introducida, si bien, como hemos
comentado anteriormente, no podemos saber entre qué grupos se establecen estas
diferencias.

Para poder realizar el contraste por pares, debemos realizar 3 pruebas U de Mann-
Whitney (1-2, 1-3, 2-3). De la forma explicada anteriormente, SPSS no permite indicar
los grupos con los que debe realizarse el cálculo, por lo que debemos entrar por la ruta
Analizar => Pruebas no paramétricas => Cuadro de diálogos antiguos => 2 muestras
independientes.
Aquí, introducimos la variable dependiente en “lista contrastar variables” y la variable
de agrupación en el recuadro inferior.

45
Juan José Salinero Martín

Tendremos que realizar este proceso 3 veces, indicando cada vez un contraste de pares
diferente, pinchando sobre el botón “Definir grupos”, para indicar qué grupos de los 3
que define esa variable debe comparar.

Por este procedimiento, obtenemos esta tabla, donde podemos observar el nivel de
significación del estadístico y afirmar en este caso que sí existen diferencias
significativas entre esos dos grupos, al ser la significación inferior a 0,017 (corrección
de Bonferroni).

a
Estadísticos de contraste
Días más de 60'
actividad
moderada
U de Mann-Whitney 984,000
W de Wilcoxon 2524,000
Z -3,565
Sig. asintót. (bilateral) ,000
a. Variable de agrupación: Ciclos Primaria
- Secundaria

46
Estadística aplicada a las ciencias del deporte

Varias muestras dependientes

Permiten analizar datos provenientes de diseños con medidas repetidas y más de dos
medidas. Para datos ordinales emplearemos la prueba de Friedman.
Al igual que en el anterior apartado (prueba para varias muestras independientes),
estas pruebas solo nos informan de diferencias entre medidas, pero no de qué medidas
se trata, por lo que si aparecen diferencias, debemos realizar una prueba para dos
muestras relacionadas (prueba de Wilcoxon) con todos los pares de medidas posibles y
establecer la corrección de Bonferroni para el nivel de significación.

Para calcularlo con SPSS, Analizar => Pruebas no paramétricas => Muestras
relacionadas. En la pestaña “Campos”, al igual que en la W de Wilcoxon, en “Campos
de prueba” incluimos las tres o más variables que queremos contrastar (si sólo
incluimos dos, calcularía W de Wilcoxon).

47
Juan José Salinero Martín

En la siguiente tabla, podemos comprobar que nos indica rechazar la hipótesis nula de
igualdad entre las tres medidas y concluir por tanto que existen diferencias
significativas al menos entre dos de ellas.

Para poder realizar el contraste por pares, debemos realizar 3 pruebas W de Wilcoxon
(1-2, 1-3, 2-3). De la forma explicada anteriormente, SPSS no permite realizar el cálculo,
por lo que debemos entrar por la ruta Analizar => Pruebas no paramétricas => Cuadro
de diálogos antiguos => 2 muestras relacionadas.
Aquí, introducimos las variables en “contrastar pares” de dos en dos y aceptamos.

48
Estadística aplicada a las ciencias del deporte

En la tabla de estadísticos de contraste, podemos observar que existen diferencias


significativas entre todos los pares posibles, rechazando por tanto la hipótesis nula de
igualdad entre variables.

b
Estadísticos de contraste
ApoyoIguales - ApoyoProfesor - ApoyoProfesor -
ApoyoFamilia ApoyoFamilia ApoyoIguales
a a a
Z -4,427 -7,277 -4,246
Sig. asintót. (bilateral) ,000 ,000 ,000
a. Basado en los rangos positivos.
b. Prueba de los rangos con signo de Wilcoxon

49
Juan José Salinero Martín

Capítulo 3. Análisis de correlación y regresión

Análisis de correlación

Cuando hablamos de correlación bivariada, estamos haciendo referencia a la variación


conjunta entre dos variables. Si hablamos de más de dos variables, entramos en el
campo de la regresión lineal, aspecto que escapa de los contenidos de este libro.
La forma más simple de hacer una primera aproximación hacia la posible relación entre
dos variables es utilizar un gráfico de dispersión, en el que cada una de las variables se
ubica en un eje del gráfico.

Esta representación, aunque es muy útil para ver como se distribuyen los datos, no nos
ofrece una información práctica, es decir, no nos permite saber si la relación entre
ambas variables (peso y talla en este ejemplo) es lo suficientemente “fuerte” para
tenerla en cuenta. No siempre la nube de puntos presenta un agrupamiento tan claro
como el ejemplo anterior, por lo que debemos calcular algún coeficiente de correlación
que nos permita cuantificar el grado en que se da esa correlación.

Coeficiente de correlación de Pearson. El coeficiente de correlación más empleado


para medir la relación entre dos variables es el coeficiente de correlación de Pearson
(también llamado r de Pearson, correlación interclases, y coeficiente producto-
momento). Este coeficiente requiere que la correlación esperada sea lineal. Este
coeficiente toma valores entre -1 y 1, representando estos extremos una relación
perfecta (negativa y positiva, repectivamente), donde los puntos del gráfico de
50
Estadística aplicada a las ciencias del deporte

dispersión se situarían agrupados en forma de línea recta. Una relación lineal nula
equivaldría a un valor del coeficiente de 0.

Coeficiente de correlación rho de Spearman. Cuando las variables sean ordinales, o se


incumplan los supuestos de normalidad, el coeficiente de pearson no es adecuado.
Para estas circunstancias, el coeficiente más empleado es el coeficiente de correlación
rho de Spearman. Toma valores entre -1 y 1 y se interpreta exactamente igual que r de
Pearson.

Coeficiente de determinación (r2). El coeficiente de correlación está muy influido por


el tamaño de la muestra, por lo que grandes muestras pueden determinar
correlaciones significativas aún cuando estas correlaciones son bajas. El coeficiente de
determinación se emplea para interpretar la significación de las correlaciones. Nos
indica la porción de asociación común de los factores que afectan a las dos variables.
En otras palabras, el coeficiente de determinación indica la porción del total de la
varianza de un parámetro que puede ser explicado o ponderado por la varianza del
otro parámetro. Así, por ejemplo, para una correlación r= 0,7, el coeficiente de
determinación sería de 0,49 (49%), por lo que podría decirse que solo el 49% de la
varianza de una de las variables se asocia con la varianza de la otra.

Para calcular la correlación entre dos variables en SPSS, Analizar => Correlaciones =>
Bivariadas. En el cuadro “Variables” introducimos las variables a relacionar. Si éstas
tienen distribución normal, dejamos la opción por defecto (Pearson). En caso contrario,
marcaríamos Spearman.

51
Juan José Salinero Martín

Al aceptar con esas indicaciones, debemos observar tanto el nivel de significación


como el propio coeficiente de correlación. En primer lugar, el nivel de significación
inferior a 0,05 nos indica que existe correlación significativa entre ambas variables. A
continuación, el valor del coeficiente, bastante alto, nos indica que existe una buena
correlación entre estas variables, lo que refrenda lo próximos que se encuentran los
puntos en el anterior gráfico de dispersión. Por último, el signo positivo del coeficiente
nos informa de que valores más elevados en la variable talla conllevan valores elevados
en la variable peso. Si la correlación fuese negativa, se interpretaría de tal forma que
valores elevados en una variable se corresponderían con valores bajos en la otra.

Correlaciones
TALLA PESO
**
TALLA Correlación de Pearson 1 ,764
Sig. (bilateral) ,000
N 201 200
**
PESO Correlación de Pearson ,764 1
Sig. (bilateral) ,000
N 200 203
**. La correlación es significativa al nivel 0,01 (bilateral).

En el análisis, se pueden incorporar un número mayor de variables, pero siempre se


correlacionarán dos a dos (correlación bivariada). En la siguiente tabla, se puede
observar que existe correlación entre talla y peso, talla y calorías, peso y calorías, y
pasos y calorías.

Correlaciones
TALLA PESO Steps Calorías
** **
TALLA Correlación de Pearson 1 ,764 -,136 ,526
Sig. (bilateral) ,000 ,081 ,000
N 201 200 167 165
** **
PESO Correlación de Pearson ,764 1 -,073 ,712
Sig. (bilateral) ,000 ,348 ,000
N 200 203 168 166
**
Steps Correlación de Pearson -,136 -,073 1 ,429
Sig. (bilateral) ,081 ,348 ,000
N 167 168 168 164
** ** **
Calorías Correlación de Pearson ,526 ,712 ,429 1
Sig. (bilateral) ,000 ,000 ,000
N 165 166 164 166
**. La correlación es significativa al nivel 0,01 (bilateral).

52
Estadística aplicada a las ciencias del deporte

Análisis de regresión

Análisis de regresión simple. El análisis de regresión simple es una técnica estadística


empleada para estudiar la relación entre variables cuantitativas (variable dependiente
e independiente). El análisis de la correlación visto en el anterior capítulo analiza la
fuerza de esta relación, mientras que el análisis de regresión estudia la forma en que se
produce esta relación.
Mediante el análisis de regresión, se pretende predecir el comportamiento de la
variable dependiente a través de la variable independiente. La predicción se basa en la
correlación. Si la relación entre dos variables es muy grande, se puede predecir una a
partir de la otra de manera muy precisa. Si la correlación es perfecta, se puede predecir
con absoluta precisión. En una situación ideal, en la que todos los puntos de un gráfico
de dispersión se encontraran en una línea recta, a través de la ecuación de regresión,
podríamos saber el valor que correspondería a cualquier valor en la variable
dependiente a partir del valor de la variable independiente. Simplemente uniendo los
puntos se obtendría la recta.

Pero en las situaciones más comunes, es posible trazar más de una recta diferente.
Obviamente, no todas ellas se ajustarán con la misma fidelidad a la nube de puntos. Se
trata, por tanto, de encontrar la recta capaz de convertirse en el mejor representante
del conjunto total de puntos. Existen diferentes procedimientos para ajustar una
función simple, cada uno de los cuales intenta minimizar una medida diferente del
grado de ajuste. La opción más utilizada es la recta que hace mínima la suma de los
cuadrados de las distancias verticales entre cada punto y la recta (método de mínimos
cuadrados). Esto significa que, de todas las rectas posibles, existe una y sólo una que
consigue que las distancias verticales entre cada punto y la recta sean mínimas (se
elevan al cuadrado para que no se anulen las positivas con las negativas).

La línea resultante de la nube de puntos (cuando la relación es lineal), se corresponde


con una ecuación del tipo y= a + bx.

Para ejecutar este procedimiento con SPSS, Analizar => Regresión => Lineal
Introducimos nuestra variable dependiente e independiente en los respectivos cuadros
y aceptamos.

53
Juan José Salinero Martín

La tabla de ANOVA muestra información sobre si existe una relación significativa entre
variable dependiente e independiente. (ANOVA contrasta que el valor obtenido de R es
significativamente diferente de 0, que en el caso de la regresión simple equivale a decir
que la pendiente de la recta es 0; por lo que con este resultado descartamos esta
hipótesis, la pendiente es significativamente distinta de cero).

b
ANOVA
Modelo Suma de Media
cuadrados gl cuadrática F Sig.
a
1 Regresión 17844,513 1 17844,513 277,705 ,000
Residual 12722,907 198 64,257
Total 30567,420 199
a. Variables predictoras: (Constante), PESO
b. Variable dependiente: TALLA

54
Estadística aplicada a las ciencias del deporte

Los coeficientes no estandarizados de la siguiente tabla, serían a y b de la ecuación de


regresión:

Talla= 118,85 + 0,730*peso

La significación de los estadísticos t contrastan la hipótesis de que estos coeficientes


valen 0 en la población. Al ser inferiores a 0,05, rechazamos esta hipótesis y concluimos
que son significativamente diferentes de 0.

a
Coeficientes
Modelo Coeficientes
Coeficientes no estandarizados tipificados
B Error típ. Beta t Sig.
1 (Constante) 118,85 2,29 51,97 ,000
PESO ,730 ,044 ,764 16,66 ,000
a. Variable dependiente: TALLA

Regresión múltiple. En la regresión múltiple tenemos una variable dependiente y dos o


más variables independientes. Esto, habitualmente, favorecerá que la predicción de la
variable dependiente sea más precisa que en el caso de la regresión simple (es lógico,
si disponemos de más información). Si quieres predecir el porcentaje de grasa de una
persona, será más preciso si empleas 5 medidas de pliegues cutáneos que si sólo
empleas 2.

En un análisis de regresión múltiple, la ecuación de regresión ya no define una recta en


un plano, sino que ya entramos en modelos multidimensionales (dos variables
independientes, un espacio tridimensional; tres variables independientes, cuatro
dimensiones;…etc.). Es por esto que con más de una variable independiente, la
representación gráfica resulta muy compleja y de poca utilidad.

Por tanto, lo que se busca es la mejor combinación de variables que permita establecer
el pronóstico más preciso de la predicción. También nos interesa saber en qué medida
contribuye cada uno de las variables independientes en el total de la varianza
explicada. Desde el punto de vista práctico, es aconsejable encontrar el menor número
de variables independientes que nos den la mayor cantidad de varianza explicada de la
variable dependiente.

55
Juan José Salinero Martín

Un ejemplo claro de ecuaciones de regresión múltiple son las ecuaciones para el


cálculo del componente graso de una persona a través de la medida de varios pliegues
cutáneos. Evidentemente, estas fórmulas buscan la mejor predicción (menor error de
predicción), pero también será más útil que empleen el menor número posible de
medidas, pues se ahorrará tiempo y esfuerzo para conseguir el resultado buscado.
Ahora la ecuación de regresión será del tipo:

Y= a + bx1 + cx2 + dx3…

Cabe decir que estos modelos de regresión tienen una gran especificidad poblacional.
Las ecuaciones desarrolladas a partir de una muestra concreta a menudo pierden una
precisión considerable cuando se aplican a otras muestras, lo que recibe el nombre de
reducción. Si calculamos una ecuación de regresión en una muestra de hombres
adultos para el cálculo de la composición corporal, no podríamos extrapolar esta a
mujeres o a adolescentes, por ejemplo, pues seguramente perdería mucha precisión.

Para ejecutar la regresión múltiple en SPSS, Analizar => Regresión => Lineal
En dependiente, introducir la variable que queremos estimar a partir de las variables
independientes (más de una).

56
Estadística aplicada a las ciencias del deporte

Tomadas juntas, las variables independientes explican un 81,8% de la varianza de la


variable dependiente.

Resumen del modelo


Modelo R cuadrado Error típ. de la
R R cuadrado corregida estimación
a
1 ,906 ,820 ,818 78,24779
a. Variables predictoras: (Constante), Steps, PESO

Al igual que en el análisis de regresión simple, la significación de ANOVA nos informa


sobre si existe una relación significativa entre variable dependiente e independientes.
De nuevo en este caso, esta relación sí es significativa.

b
ANOVA
Modelo Suma de Media
cuadrados gl cuadrática F Sig.
a
1 Regresión 4501856,110 2 2250928,055 367,636 ,000
Residual 985757,355 161 6122,716
Total 5487613,465 163
a. Variables predictoras: (Constante), Steps, PESO
b. Variable dependiente: Calorías

Los coeficientes no estandarizados nos aportan los coeficientes de la ecuación de


regresión:
Calorías= -540,2 +11,2*peso +0,029*steps.

La significación de éstos indican la relevancia de estos coeficientes en la ecuación


(aquellos cuya significación sea inferior a0,05 serán significativos). Los coeficientes
estandarizados nos dan información sobre el peso de cada coeficiente sobre la
predicción de la variable dependiente. Así, podemos observar que las calorías se
explican en mayor medida por el peso del sujeto que por los pasos realizados.

a
Coeficientes
Modelo Coeficientes
Coeficientes no estandarizados tipificados
B Error típ. Beta t Sig.
1 (Constante) -540,179 33,499 -16,125 ,000
PESO 11,202 ,469 ,799 23,880 ,000
Steps ,029 ,002 ,482 14,396 ,000
a. Variable dependiente: Calorías

57
Juan José Salinero Martín

Gráficos con SPSS

Para ejecutar gráficos en SPSS, además de diferentes rutas que permiten pedirlos
conjuntamente con el análisis estadístico (Frecuencias, Explorar, Tablas de
contingencia,…etc.) tiene una herramienta específica para este propósito. Para
acceder, debemos seguir la siguiente ruta: Gráficos => Generador de gráficos

Desde aquí, podemos desarrollar diferentes tipos de gráfico de forma intuitiva,


arrastrando hacia el cuadro superior las variables y los tipos de gráfico elegidos. En el
cuadro superior donde se muestra la presentación preliminar, como bien se indica en
el rótulo superior “utiliza datos de ejemplo”, por lo que no visualizaremos las
proporciones de las barras, sectores, líneas,…etc. reales hasta que no ejecutemos el
gráfico. Esto sólo es una aproximación visual al tipo de gráfico que estamos
manipulando.

A continuación, haremos una exposición de la forma de obtener los gráficos más


habituales.

58
Estadística aplicada a las ciencias del deporte

Gráficos de barras

Introduciendo en un gráfico de barras en el eje x una variable de escala,


automáticamente nos crea un histograma, que es un gráfico de frecuencias
acumuladas en los intervalos que elige de forma automática en función de los datos
(aunque podríamos modificar estos intervalos posteriormente).

59
Juan José Salinero Martín

60
Estadística aplicada a las ciencias del deporte

Si en lugar de esto, introducimos en el eje x una variable nominal, nos genera un


gráfico de frecuencias, en el que podemos ver, por ejemplo, cuantos sujetos tenemos
de cada ciclo educativo.

61
Juan José Salinero Martín

62
Estadística aplicada a las ciencias del deporte

Una vez introducida una variable nominal en el eje x, si introducimos una variable de
escala en el eje y, nos muestra la media de esta variable de cada uno de los grupos
definidos por la variable nominal.

63
Juan José Salinero Martín

64
Estadística aplicada a las ciencias del deporte

Si en lugar de la media quisiéramos otro estadístico, lo podemos cambiar en el


recuadro de propiedades, pinchando en aplicar tras elegir el estadístico.

65
Juan José Salinero Martín

De la misma forma, si añadimos una segunda variable de escala en el eje y, nos


convierte el gráfico de barras agrupado, mostrando con diferente color ambas
variables del eje y. Es conveniente que ambas variables estén medidas al mismo nivel
de escala de forma que se aprecien correctamente en el mismo gráfico (de lo
contrario, utilizar gráfico de ejes dobles).

66
Estadística aplicada a las ciencias del deporte

67
Juan José Salinero Martín

También podemos generar un gráfico de barras agrupado utilizando dos variables


nominales para diferencias los grupos y una variable de escala sobre la que se
mostrarán las medias de los subgrupos. Para esto, colocamos una de las variables
nominales en el eje x y la otra en el cuadro de la parte superior derecha (agrupar en x).
En el eje y colocaríamos la variable de escala sobre la que nos mostrará las medias de
los grupos. (La media de peso al nacer de madres fumadoras hipertensas, la media de
peso al nacer de madres fumadoras no hipertensas, no fumadoras hipertensas y no
fumadoras no hipertensas)

68
Estadística aplicada a las ciencias del deporte

69
Juan José Salinero Martín

Una última opción es incorporar dos variables nominales en el eje x, dejando libre el
eje y. Entonces, se mostrará un gráfico de frecuencias en el que se mostrarán los casos
que cumplen ambos criterios de clasificación (representación gráfica de una tabla de
contingencia).

70
Estadística aplicada a las ciencias del deporte

71
Juan José Salinero Martín

Gráficos de líneas

Su realización es idéntica a los gráficos de barras, con la excepción de que se suele


emplear cuando la variable que colocamos en el eje x, es ordinal o de escala y por
tanto interesa conocer cómo evoluciona la media de la variable del eje y conforme
avanza la variable del eje x.

Puede ser simple:

72
Estadística aplicada a las ciencias del deporte

73
Juan José Salinero Martín

O múltiple, si incorporamos una segunda variable como leyenda (nominal).

74
Estadística aplicada a las ciencias del deporte

75
Juan José Salinero Martín

Gráfico de sectores
Introduciendo una variable nominal en el recuadro inferior (sectores por) nos ofrece
un gráfico de sectores, en el que se muestra el número de casos que tenemos dentro
de cada grupo de la variable nominal.

76
Estadística aplicada a las ciencias del deporte

77
Juan José Salinero Martín

También podemos indicar si queremos la frecuencia relativa (porcentaje) en lugar de


frecuencia absoluta, en el cuadro de propiedades:

78
Estadística aplicada a las ciencias del deporte

Gráfico de dispersión

Tras elegir el gráfico dispersión simple, introducimos una variable de escala en el eje x
y otra en el eje y, con lo que obtenemos un gráfico que nos representa el peso y la talla
de cada uno de los participantes.

79
Juan José Salinero Martín

80
Estadística aplicada a las ciencias del deporte

También podemos elegir un gráfico de dispersión agrupado, donde podemos


incorporar una variable nominal para distinguir en colores diferentes a los grupos que
distingue esta variable (hombres y mujeres):

81
Juan José Salinero Martín

82
Estadística aplicada a las ciencias del deporte

Histograma

De las cuatro opciones de histograma, el más habitual es el último de la izquierda, donde


incorporando una variable dicotómica (hombre-mujer, habitualmente) en el cuadro superior y
una variable de escala en el eje vertical obtenemos el histograma.

83
Juan José Salinero Martín

84
Estadística aplicada a las ciencias del deporte

Diagrama de caja

Este gráfico es muy útil porque aporta información de interés, como cuartiles y valores atípicos
y extremos. Los bordes superiores e inferiores de la caja son el cuartil 1 y 3, y la franja central
representa la mediana (cuartil 2). Los “bigotes”, las líneas que se desplazan arriba y abajo,
representan los valores más grandes (arriba) y los más bajos (arriba) que no llegan a ser
atípicos. Los valores atípicos y extremos son aquellos alejados más de 1,5 (3 para extremos)
longitudes de caja del percentil 75 si es por arriba, o del 25 si es por abajo.

El diagrama de caja más sencillo consiste en introducir una variable de escala en el eje vertical.

85
Juan José Salinero Martín

Aquí podemos observar que tenemos un caso atípico (los extremos se representan con un *),
así como visualizar dónde se sitúan los cuartiles 2, 3 y 4.

86
Estadística aplicada a las ciencias del deporte

Si además incorporamos una variable cualitativa en el eje x, obtendremos una caja para cada
categoría definida por esa variable.

87
Juan José Salinero Martín

88
Estadística aplicada a las ciencias del deporte

Además, podemos elegir el tipo múltiple, incorporando una segunda variable


cualitativa en la leyenda, diferenciando por colores los grupos definidos por esta
variable.

89
Juan José Salinero Martín

90
Estadística aplicada a las ciencias del deporte

Ejes dobles

Por último, este tipo de gráfico resulta de utilidad cuando queremos representar las medias de
dos variables simultáneamente, pero ambas están en dos escalas muy diferentes, por lo que si
representamos ambas en el mismo eje, la de escala menor no se percibiría con claridad. En
este gráfico, ubicaremos cada variable dependiente en un eje vertical, colocando nuestra
variable independiente (medida a nivel nominal) en el eje horizontal. En este ejemplo, en el eje
de la derecha, el IMC oscila en torno a 20, mientras que el número de pasos está cerca de
10.000, por lo que una representación en un solo eje provocaría que los valores de IMC fuesen
inapreciables.

91
Juan José Salinero Martín

La que ubiquemos en el eje de la izquierda se representa con barras, mientras que la


del eje de la derecha emplea una línea para unir los puntos de las medias en los
diferentes grupos de la variable independiente (ciclos en este ejemplo)

92

También podría gustarte