Está en la página 1de 524

Práctica 1

Objetivos
• Familiarizarse con el entorno del editor de datos de SPSS
• Definir variables en SPSS
• Crear variables a partir de otras ya existentes
• Seleccionar variables según un condicional, de forma aleatoria, según rango o
según una variable filtro
• Crear una variable que pondere otra existente.

El Editor de Datos
Al iniciar SPSS se muestra la siguiente ventana donde se puede seleccionar ¿Qué
desea hacer? Así, si se desea analizar un conjunto de datos nuevo, se marca la
opción Introducir datos

Ventana de bienvenida

Elegida esta opción y pulsando Aceptar se muestra el Editor de datos de SPSS.


El Editor de datos de SPSS es el marco de trabajo inicial que se utiliza para
introducir los datos y elegir el procedimiento adecuado para el análisis. Esta ventana
está formada por:
• La Barra de menú que contiene el Menú principal de SPSS con todas sus opciones

Cada una de estas opciones contiene distintos procedimientos que se muestran


pulsando en cada una de ellas.
• la Barra de herramientas, formada por diferentes iconos que permiten acceder
directamente a los procedimientos más comunes

El significado de cada uno de estos iconos, que se muestra posicionando el ratón


sobre el icono, de izquierda a derecha es el siguiente:
• Abrir documentos de datos
• Guardar este documento
• Imprimir
• Recuperar los cuadros de diálogo recientes
• Deshacer una acción del usuario
• Volver a hacer la acción del usuario
• Ir a caso
• Ir a variable
• Variables
• Buscar
• Insertar caso
• Insertar variable
• Segmentar archivo
• Ponderar casos
• Seleccionar casos
• Etiquetas de valor
• Utilizar conjuntos de variables
• Mostrar todas las variables
• Corregir ortografía.
• la Barra de presentación de los datos o de las variables

• la Barra de estado (Área del procesador)

El Editor de datos SPSS está formado por celdas. Cada fila representa un elemento
del conjunto de datos y cada columna representa una variable y se muestra cuando
se tiene activada la casilla Vistas de datos en la Barra de presentación

Marcando cada una de estas variables y pulsando el botón secundario del ratón se
muestran las opciones Insertar variables, Ordenar de forma
ascendente y Ordenar de forma descendente los datos.

Análogamente se pueden insertar casos marcando una de las filas y pulsando el


botón secundario del ratón.
El Editor de datos SPSS presenta dos pestañas:
• Vista de datos: Muestra los valores de los datos.
• Vista de variables: Muestra las características de las variables.

En Vista de variables cada una de las filas corresponde a una variable y cada
columna determina una característica de ésta.
• Nombre: Se introduce el nombre de la variable
• Tipo: Se escoge el tipo de variable entre las posibilidades que se ofrecen pulsando
en Tipo
• Numérica: Una variable cuyos valores son números. Los valores se muestran en
formato numérico estándar (se establece la Anchura y Cifras decimales)
• Coma: Una variable numérica donde las comas determinan los miles
• Punto: Una variable numérica donde los puntos determinan los miles
• Notación científica: Una variable numérica cuyos valores se muestran con una E
intercalada y un exponente con signo que representa una potencia de base diez
• Fecha, Dólar: Una variable numérica cuyos valores se muestran en uno de los
diferentes formatos de fecha y de dólar, respectivamente
• Moneda personalizada: Una variable numérica cuyos valores se muestran en uno
de los diferentes formatos de moneda personalizada que se hayan definido
previamente en la pestaña Moneda del cuadro de
diálogo Opciones (Edición/Opciones)
• Cadena: Variables cuyos valores no son numéricos. También se conocen como
variables alfanuméricas.
• Anchura: Determina el ancho de la columna

• Decimales: Determina el número de decimales que aparecen en pantalla.

• Etiqueta: Las variables pueden ser etiquetadas para que en los análisis posteriores
aparezca dicha etiqueta
• Valores: Permite introducir las modalidades de las variables tipo cadena
• Valores Perdidos: SPSS permite codificar los valores perdidos de forma discreta o

en un rango determinado
• Columnas: Permite introducir el ancho de la columna que también puede
cambiarse en la Vista de datos pulsando y arrastrando los bordes de la columna

• Alineación: Permite elegir entre alinear los datos introducidos a la Izquierda,

Derecha o Centrado
• Medida: Permite definir la variable como Ordinal o Nominal

• Ordinal: Los valores de los datos representan categorías con un orden intrínseco
(Ej: grande, medio, pequeño; suspenso, aprobado, notable, sobresaliente)
• Nominal: Los valores de los datos representan categorías sin un orden intrínseco
(Ej: rojo, amarillo, verde)
• Rol: Funciones, roles que se pueden asignar a las variables para el análisis

• Entrada: La variable se utiliza como una entrada (por ejemplo: predictor, variable
independiente)
• Objetivo: La variable se utiliza como salida o de destino (por ejemplo: variable
dependiente)
• Ambos: La variable se utiliza como entrada y salida
• Ninguna: La variable no tiene una asignación de funciones
• Partición: La variable se utiliza para dividir los datos en muestras separadas
• Segmentar: Las variables con este papel no se utilizan como variables de un archivo
segmentado.

Por defecto, a todas las variables se les asigna el papel de entrada. Esto incluye los
datos de los archivos externos y archivos de datos de versiones de SPSS Statistics
anteriores a la versión 18.

Barra del menú principal: Opciones


Desde la barra del Menú principal se puede acceder a todos los menús del Editor de
Datos. Los primeros menús: Archivo, Edición, Ver, Ventana y Ayuda son
habituales en los programas bajo Windows. El resto de menús son específicos de
SPSS, estos permiten realizar cambios en los datos, obtener resultados estadísticos,
numéricos, gráficos……A continuación se muestran los distintos menús
desplegables, así como la finalidad de alguna de las opciones.
El menú Archivo

• Nuevo: Abrir un archivo nuevo de datos, de sintaxis, de resultados o de proceso


• Abrir: Abrir un archivo existente de datos, de sintaxis, de resultados o de proceso
• Abrir base de datos: Crear, editar y ejecutar consultas a bases de datos
• Leer datos de texto: Abrir archivos de texto
• Cerrar: Cerrar el archivo actual
• Guardar: Guardar el archivos actual
• Guardar como: Guardar el archivo actual con otro nombre
• Mostar información del archivo de datos: (Archivo de trabajo o archivo externo)
• Caché de los datos: Crear una copia temporal de los datos puede mejorar el
rendimiento en el caso de que los archivos grandes de datos se lean desde una fuente
externa. Aunque el archivo activo virtual puede reducir considerablemente la
cantidad de espacio en disco temporal, la ausencia de una copia temporal del archivo
“activo” significa que la fuente de datos original tiene que releer para cada
procedimiento
• Repositorio: (Conectar, Almacenar desde SPSS Statistics, Publicar en Web, Añadir
archivo, Recuperar en SPSS Statistics, Descargar un archivo)
• Presentación preliminar: Muestra en pantalla completa la tarea actual
• Imprimir: Imprimir la tarea actual
• Datos usados recientemente: Muestra los datos usados recientemente
• Archivos usados recientemente: Muestra los archivos usados recientemente
• Salir: Salir de SPSS.
Los menús Edición y Ver presentan las siguientes opciones

Los menús Ventana y Ayuda presentan las siguientes opciones


Transformaciones de datos, operadores y funciones
En esta sección vamos a trabajar con un fichero de datos y vamos
a: Calcular nuevos valores de los datos a partir de transformaciones numéricas de
variables existentes:Recodificar variables, Ordenar casos, Transponer, Fusionar,
Agregar y Segmentar archivos, Ponderar casos.
Calcular
A continuación vamos a ver cómo transformar o crear nuevas variables a partir de
otras ya existentes. Para ello, en el Menú principal se elige Transformar/ Calcular
variable…

Eligiendo esta opción se despliega la siguiente ventana


En este Cuadro de diálogo se pueden generar nuevas variables a partir de las
existentes utilizando los operadores y funciones que se muestran. Las variables
disponibles se muestran en la ventana inferior izquierda, en nuestro
caso Ejemplo. En la ventana Expresión numérica se introduce la fórmula deseada
en función de las variables existentes. En la casilla Variable de destino se introduce
el nombre de la nueva variable.
Si se desea generar una nueva variable que sea el doble de la variable Ejemplo se
procede de la siguiente manera

Se pulsa Aceptar y se obtiene la siguiente salida


Selección de Casos
Esta opción permite seleccionar los valores de los datos observados que se quieren
utilizar de una variable. Para ello, en el Menú principal se elige Datos/Seleccionar

casos…

y se muestra la siguiente ventana


Esta ventana tiene las opciones de seleccionar todos los casos, aquellos que
satisfagan una condición, tomar una muestra aleatoria, tomar datos basándose en
un rango determinado o usar una variable de filtro.

A continuación se muestran algunos ejemplos:

• Seleccionar los datos que satisfagan la condición Ejemplo < 8: Elegir Si se


satisface la condición y pulsar la tecla Si…

Se muestra la siguiente pantalla


Donde se impone la condición Ejemplo < 8

Se pulsa Continuar y se muestra la siguiente ventana


Se pulsa Aceptar y se muestra el Editor de datos SPSS donde se ha creado una
nueva variable filter_$ que indica si el caso ha sido o no seleccionado. Además se
observa que las filas correspondientes a los datos que no cumplen la condición
aparecen tachadas.

Pulsando el icono Etiquetas de valor

se muestra la siguiente salida


La variable filter_$ está formada por ceros y unos (ceros: casos eliminados, unos:
considerados)
• Si se desea tomar una muestra aleatoria de, por ejemplo, 6 casos entre los 10
primeros, se elige la opción Muestra aleatoria de casos y se pulsa Ejemplo…

En la siguiente pantalla se elige Exactamente en cuya casilla se introduce 6 y


en casos de los primeros … casos se introduce 10.
Se pulsa Continuar y en el Editor de datos SPSS se muestran los 6 casos elegidos
entre los 10 primeros

• Si se desean seleccionar los casos que satisfagan un rango, por ejemplo valores
entre 6 y 8, en la ventana Seleccionar casos se elige Basándose en el rango del
tiempo o de los casos/Rango… Se introduce en Observación: Primer
caso un 6 y en Observación: Ultimo caso un 8.

Se
pulsa Continuar y Aceptar y en el Editor de datos SPSS se muestran los 3 valores
que están entre el 6 y el 8
• Finalmente se puede determinar la variable Filtro (mediante ceros y unos). Por
ejemplo se quieren los casos 4, 5, 6, 7 y 8, se define una variable Filtro con unos en
dichos casos y ceros en el resto.

A continuación en la
ventana Seleccionar casos se introduce la variable Filtro en la casilla que se
activa al marcar Usar variable de filtro:
Se pulsa Aceptar y se muestra
la siguiente salida

Ponderación de Casos
Cuando se tabulan los datos en tablas, en muchas ocasiones hay una serie de
observaciones que se repiten un número determinado de veces llamado frecuencia
absoluta. También en otras ocasiones las observaciones son ponderadas según
ciertos valores por estudios previos. SPSS permite introducir estas frecuencias o
ponderaciones en una variable que contenga las frecuencias. Para ello, en primer
lugar definimos una variable que llamamos Ponderaciones y que va a contener las
frecuencias absolutas de la variable Ejemplo
En el Menú principal se elige Datos/Ponderar casos…

se muestra la siguiente ventana


donde se elige Ponderar casos mediante y se introduce la
variable Ponderaciones

Finalmente se pulsa Aceptar. Y la variable Ejemplo ha quedado ponderada con las


datos la variable Ponderaciones.

Ejemplo
Los siguientes datos muestran información de un grupo de personas encuestadas

Se pide:
1. Añadir a la variable Peso dos veces la variable Estatura y el resultado
dividirlo por 3
En primer lugar creamos un fichero de datos en SPSS denominado Ejemplo1, que
recoge la siguiente información:
• La variable Nombre es de Tipo Cadena
• La variable Fecha es de Tipo fecha
• La variable Sexo es de Tipo Cadena con modalidades Mujer y Hombre codificadas
con los 1 y 2 repectivamente
• Las variables Peso, Estatura y Aciertos son de Tipo Numérico
• La variable Estado es de Tipo Cadena con las modalidades: Soltero, Casado,
Separado y Viudo, codificadas con los valores 1, 2, 3 y 4 respectivamente
• Se definen las variables Nombre, Fecha

Se define la variable Sexo

Se introduce en Valor: 1 y en Etiqueta: Mujer y pulsa Añadir


Se introduce en Valor: 2 y en Etiqueta: Hombre y pulsa Añadir

Se pulsa Aceptar y se definen las variables Peso y Estado

Se definen las variables Estatura y Aciertos


Se introducen los datos en el Editor de Datos

Una vez introducidos los datos el siguiente paso es guardar el fichero con el
nombre Ejemplo1, para ello elegir en el menú principal Archivo/Guardar (o
también Ctrl S)

Se pulsa Guardar
1. Calcular
Añadir a la variable Peso dos veces la variable Estatura y el resultado dividirlo por
3
Para resolver la cuestión planteada (añadir a la variable Peso dos veces la
variable Estatura y el resultado dividirlo por 3), en el Menú principal se
elige Transformar/ Calcular variable… En la ventana correspondiente se escribe
el nombre de una sola Variable de destino: Cálculo y en Expresión numérica se
introduce la operación a realizar

Se pulsa Aceptar y se obtiene la siguiente salida

Nuevo fichero de datos: Introducir los siguientes datos en otro fichero de datos
denominado Ejemplo2
Pulsar Archivo/Nuevo/Datos y proceder de modo similar al Ejemplo1 para
introducir las variables y los datos. Una vez introducidos los datos guardar el fichero
con el nombre Ejemplo2.
Se pide:
2. Fundir archivos
Generar un nuevo fichero de datos que contenga todos los datos de los
ficheros Ejemplo1 y Ejemplo2
Para Fundir archivos con las mismas variables y casos diferentes se procede de la
siguiente forma
• Abrir uno de los ficheros de datos, por ejemplo. Ejemplo2 (Los datos de este
fichero aparecerán primero en el nuevo archivo de datos fusionado)
• Elegir los menús Datos/Fundir archivos/Añadir casos…

Seleccionar Un archivo de datos de SPSS Statistics externo (Si no aparece en


pantalla, pulsar Examinar y elegir el archivo de datos Ejemplo1y pulsar Abrir).
Pulsar Continuar
La ventana Añadir casos en la parte inferior indica con (*) el archivo de datos
actual y con (+) el archivo de datos que vamos añadir. También informa de la
existencia de una variable desemparejada y nos indica con (+) que pertenece al
archivo Ejemplo1 (dicha variable la habíamos generado anteriormente en
el Ejemplo1). Si se desea se puede añadir la variable desemparejada al nuevo
fichero para ello se selecciona y se pulsa la flecha. Se pulsa Aceptar y se obtiene el
nuevo fichero de datos que llamamos Ejemplo3 y este nuevo fichero está formado
por todos los datos del Ejemplo2 y del Ejemplo1, en este orden

Se pide:
3. Seleccionar casos
En el fichero de datos Ejemplo3 seleccionar sólo los casos que sean mujeres,
filtrando los datos.
Se elige en los menús Datos/Seleccionar casos… y selecciona Si se satisface la
condición

Pulsar Si la op…
y seleccionamos los casos en que “sexo=1”. Se pulsa Continuar y Aceptar y se
muestra la siguiente salida

Al elegir la opción por defecto, Descartar casos no seleccionados, los casos que no
reúnen los criterios de selección, permanecen en el archivo de datos pero se
excluyen del análisis. Comprobamos que el fichero de datos tiene tachados los
casos que son hombres (sexo = 2) y que tiene una nueva variable
llamada filter_$ que indica si el caso ha sido o no seleccionado.
Se pide:
4. Seleccionar casos que cumplen dos condiciones
En el fichero de datos Ejemplo3 seleccionar sólo los casos que tengan
un Peso inferior a 69 y una Estatura inferior a 1.78.
Se elige en los menús Datos/Seleccionar casos… y selecciona Si se satisface la
condición

Pulsar Continuar y Aceptar y se muestra la siguiente salida

El fichero añade una nueva variable filtro que sustituye a la anterior y que indica si
el caso ha sido o no seleccionado. Si queremos conservar las variables de filtro para
sucesivos análisis, se deberá ir cambiando el nombre que por defecto da el Sistema,
ya que sólo conserva la variable que registra el último filtro hecho.
Se pide:
5. Dividir archivos
Dividir el fichero de datos Ejemplo3 con el fin de obtener resultados separados
para las mujeres y para los hombres.
Para dividir un archivo de datos según las modalidades de una o más variables, en
primer lugar se deben ordenar los casos según los valores de las variables de
agrupación.
Se elige el menú Datos/Ordenar casos… Se introduce la variable Sexo en la
ventana Ordenar por:

y se pulsa Aceptar

A continuación vamos a segmentar el archivo, para ello se elige los


menús Datos/Dividir archivo. Se puede elegir entre Comparar
grupos u Organizar los resultados por grupos.
Si se selecciona Comparar grupos: Los grupos se presentan juntos para poder
compararlos
Si se selecciona Organizar los resultados por grupos: Los resultados se
presentan por separado para cada grupo

Se pulsa Aceptar y los resultados de los análisis que se realicen con el fichero de
datos se presentaran por separado para las mujeres y para los hombres, sin mezclar.
Se pide:
6. Recodificar variables
Recodificar las variables Aciertos del fichero de datos Ejemplo3 en una nueva
variable de nombre Aciertos1 cuyos nuevos valores sean:
• 1 si Aciertos es menor que 3
• 2 si Aciertos es mayor o igual que 3 y menor que 9
• 3 si Aciertos es mayor o igual que 9
Para recodificar los valores de una variable en una variable nueva, se eligen los
menús Transformar/Recodificar en distintas variables. En la ventana resultante
seleccionar la variable que se va recodificar, Aciertos, y pasarla a la
ventana Variable numérica -> Variable resultado: e introducir en Nombre: el
nuevo nombre de la variable, Aciertos1, y a continuación pulsar Cambiar
Pulsar Valores antiguos y nuevos…. y especificar la nueva recodificación
• 1 si Aciertos es menor o igual que 3: Se activa Rango, INFERIOR hasta valor: y
se añade el 3, se pulsa Valor: en Valor nuevo y se añade 1. Se pulsa Añadir
• 2 si Aciertos es mayor que 3 y menor que 9: Se activa Rango, se añade el 3 y en
la ventana hasta se añade 9, en Valor: se añade 2 y se pulsa Añadir.
• 3 si Aciertos es mayor o igual que 9: Se activa Rango, valor hasta SUPERIOR: y
se añade el 9, en Valor: se añade 3 y se pulsa Añadir

Se pulsa Continuar y Aceptar

Ejercicios

Ejercicio Guiado
A continuación se va a proceder a iniciar una aplicación Java, comprueba que tengas instalada la Má
Virtual Java para poder ejecutar aplicaciones en Java.

Si no tienes instalada la Máquina Virtual Java (Java Runtime Environment – JRE) pincha en uno de l
para descargarla:

Instalación directa de la JRE 6 para Windows


Página oficial de Sun Microsystems, descarga de la JRE para cualquier
plataforma

Si ya tienes instalada la Máquina Virtual Java pincha en el


siguiente enlace para proceder a la ejecución del ejercicio guiado

IMPORTANTE: Si al descargar el archivo *.JAR del ejercicio tu gestor de


descargas intenta guardarlo como *.ZIP debes cambiar la extensión a .JAR para
poder ejecutarlo.

Enunciado del Ejercicio


Los siguientes datos muestran información sobre un grupo de opositores
Se pide:
a) Introducir los nombres y características de cada una de las variables en
Vista de variables (las variables sexo y estado civil tienen etiquetas de valor).
b) Introducir los datos de cada una de las variables en el Editor de datos SPSS
c) Presentar las variables con sus respectivas Etiquetas de valor en el Editor
de datos
d) Introducir una nueva variable con el nombre cálculo igual al doble de la
variable edad más el triple de la variable puntuación
e) Ordenar de forma creciente los datos según la edad de los individuos
f) Seleccionar en la variable puntuación aquellos casos que tengan un valor
mayor que 5.

Ejercicios Propuestos
Ejercicio Propuesto 1
Los siguientes datos proceden de un grupo de estudiantes
Se pide:
a) Introducir los nombres y características de cada una de las variables en
Vista de variables (las variables sexo, colorPelo y LugarNac tienen etiquetas
de valor)
b) Introducir los datos de cada una de las variables en el Editor de datos SPSS
c) Presentar las variables con sus respectivas Etiquetas de valor en el Editor
de datos SPSS
d) Introducir una nueva variable con el nombre cálculo igual al triple de la
variable Edad menos el doble de la variable Estatura
e) Ordenar de forma decreciente los datos según la Estatura de los
individuos
f) Seleccionar en la variable Estatura aquellos casos que tengan un valor
menor que 1.77
Ejercicio Propuesto 2
Los siguientes datos proceden de un grupo de opositores

Se pide:
a) Introducir los nombres y características de cada una de las variables en
Vista de variables (las variables Sexo y Calificación tienen etiquetas de valor)
b) Introducir los datos de cada una de las variables en el Editor de datos SPSS
c) Presentar las variables con sus respectivas Etiquetas de valor en el Editor
de datos SPSS
d) Introducir una nueva variable, en el fichero de Datos1, con el
nombre Media que recoja la media de las variables Puntuación1 y
Puntuación2. Guardar el nuevo fichero con el nombre de Datos3
e) Ordenar de forma creciente según la Edad de los individuos en el fichero de
Datos3
f) Generar un nuevo fichero de datos denominado Datos4 que contenga todos
los opositores de los ficheros Datos3 y Datos2
g) En el fichero Datos4 seleccionar sólo los casos en que los opositores estén
aprobados
h) Seleccionar en el fichero de Datos4 sólo los casos que tengan una
Puntuación1 superior a 6 y una Puntuación2 inferior a 8
i) Seleccionar en el fichero de Datos4 sólo los casos que tengan una
Puntuación1 superior a 6 o una Puntuación2 inferior a 8
j) En el fichero Datos4 seleccionar sólo los casos de los aprobados en que los
opositores sean hombres
k) Recodificar la variable Puntuación2 en una nueva variable de nombre
Puntuación3 cuyos nuvos valores sean:
• 1 Si Puntuación2 es menor o igual que 4
• 2 Si Puntuación2 es mayor que 4 y menor que 6
• 3 Si Puntuación2 es mayor o igual que 6

Ejercicio Propuesto 1 (Resuelto)

Los siguientes datos proceden de un grupo de estudiantes

Se pide:
a) Introducir los nombres y características de cada una de las variables en
Vista de variables (las variables sexo, colorPelo y LugarNac tienen etiquetas
de valor)
b) Introducir los datos de cada una de las variables en el Editor de datos SPSS
c) Presentar las variables con sus respectivas Etiquetas de valor en el Editor
de datos SPSS
d) Introducir una nueva variable con el nombre cálculo igual al triple de la
variable Edad menos el doble de la variable Estatura
e) Ordenar de forma decreciente los datos según la Estatura de los individuos
f) Seleccionar en la variable Estatura aquellos casos que tengan un valor
menor que 1.77.

Solución:
a) Introducir los nombres y características de cada una de las variables en
Vista de variables (las variables sexo, colorPelo y LugarNac tienen etiquetas
de valor)

b) Introducir los datos de cada una de las variables en el Editor de datos SPSS y
c) Presentar las variables con sus respectivas Etiquetas de valor en el Editor
de datos SPSS

d) Introducir una nueva variable con el nombre cálculo igual al triple de la


variable Edad menos el doble de la variable Estatura

e) Ordenar de forma decreciente los datos según la Estatura de los individuos


f) Seleccionar en la variable Estatura aquellos casos que tengan un valor
menor que 1.77

Ejercicio Propuesto 2 (Resuelto)

Los siguientes datos proceden de un grupo de opositores

Se pide:
a) Introducir los nombres y características de cada una de las variables en
Vista de variables (las variables Sexo y Calificación tienen etiquetas de valor)
b) Introducir los datos de cada una de las variables en el Editor de datos SPSS
c) Presentar las variables con sus respectivas Etiquetas de valor en el Editor
de datos SPSS
d) Introducir una nueva variable, en el fichero de Datos1, con el
nombre Media que recoja la media de las variables Puntuación1 y
Puntuación2. Guardar el nuevo fichero con el nombre de Datos3
e) Ordenar de forma creciente según la Edad de los individuos en el fichero de
Datos3
f) Generar un nuevo fichero de datos denominado Datos4 que contenga todos
los opositores de los ficheros Datos3 y Datos2
g) En el fichero Datos4 seleccionar sólo los casos en que los opositores estén
aprobados
h) Seleccionar en el fichero de Datos4 sólo los casos que tengan una
Puntuación1 superior a 6 y una Puntuación2 inferior a 8
i) Seleccionar en el fichero de Datos4 sólo los casos que tengan una
Puntuación1 superior a 6 o una Puntuación2 inferior a 8
j) En el fichero Datos4 seleccionar sólo los casos de los aprobados en que los
opositores sean hombres
k) Recodificar la variable Puntuación2 en una nueva variable de nombre
Puntuación3 cuyos nuvos valores sean:
• 1 Si Puntuación2 es menor o igual que 4
• 2 Si Puntuación2 es mayor que 4 y menor que 6
• 3 Si Puntuación2 es mayor o igual que 6

Solución:
d) Introducir una nueva variable, en el fichero de Datos1, con el
nombre Media que recoja la media de las variables Puntuación1 y
Puntuación2. Guardar el nuevo fichero con el nombre de Datos3

e) Ordenar de forma creciente según la Edad de los individuos en el fichero de


Datos3
f) Generar un nuevo fichero de datos denominado Datos4 que contenga todos
los opositores de los ficheros Datos3 y Datos2
g) En el fichero Datos4 seleccionar sólo los casos en que los opositores estén
aprobados
h) Seleccionar en el fichero de Datos4 sólo los casos que tengan una
Puntuación1 superior a 6 y una Puntuación2 inferior a 8
i) Seleccionar en el fichero de Datos4 sólo los casos que tengan una
Puntuación1 superior a 6 o una Puntuación2 inferior a 8
j) En el fichero Datos4 seleccionar sólo los casos de los aprobados en que los
opositores sean hombres
k) Recodificar la variable Puntuación2 en una nueva variable de nombre
Puntuación3 cuyos nuvos valores sean:
• 1 Si Puntuación2 es menor o igual que 4
• 2 Si Puntuación2 es mayor que 4 y menor que 6
• 3 Si Puntuación2 es mayor o igual que 6
………………………………………………………………………………………………………………..

Práctica 2
ESTADÍSTICA DESCRIPTIVA:
REPRESENTACIONES GRÁFICAS

Objetivos
1. Resumir, ordenar y analizar conjuntos de datos
2. Calcular diversas características de una variable estadística univariante
3. Representar gráficamente la distribución de frecuencias
4. Realizar análisis exploratorio de datos.

Introducción al Análisis Descriptivo


El primer paso en el análisis de datos, una vez introducidos los mismos, es realizar
un análisis descriptivo. Este análisis inicial proporciona una idea de la forma que
tiene la distribución de las observaciones y permite obtener estadísticos de
tendencia central (media, mediana y moda), de dispersión (varianza, desviación
típica, rango), de forma (asimetría, curtosis), de posición (percentiles), así como
gráficos de barras, de sectores e histograma.

El SPSS proporciona varias herramientas para realizar esta descripción, todas ellas
bajo el menú Analizar y, dentro de él, la opción Estadísticos descriptivos. Estos
procedimientos son: Frecuencias…, Descriptivos… y Explorar….

Procedimiento “Frecuencias…”
El procedimiento Frecuencias… proporciona representaciones estadísticas y
gráficas que son útiles para la descripción de distintos tipos de variables. Permite
obtener una descripción de la variable a partir de las tablas de frecuencias,
histogramas, gráficos de barras, percentiles, índices de tendencia central e índices
de dispersión.
Para acceder a este procedimiento se selecciona en el Menú principal Analizar/
Estadísticos descriptivos/ Frecuencias…

En el Cuadro de diálogo de Frecuencias, se introducen la variable o variables


(categóricas o cuantitativas) que se quieren analizar.
En esta ventana se presentan cuatro botones de comandos: Estadísticos… (para
obtener estadísticos descriptivos para las variables cuantitativas), Gráficos… (para
hacer gráficos de barras, gráficos de sectores e histogramas), Formato… (para
elegir el orden en el que se muestran los resultados) y Boostrap… (para realzar
muestreo boostrap). Además, se muestra la opción Mostrar tablas de frecuencias,
que por defecto aparece seleccionada.
Pulsando en Estadísticos… se obtiene el siguiente Cuadro de diálogo, donde se
muestra un conjunto de medidas descriptivas agrupadas en: Valores percentiles,
Tendencia central, Dispersión y Distribución.

En esta ventana se marcan los estadísticos descriptivos que se quieran estudiar y se


pulsa Continuar.
Nota: SPSS calcula por defecto la cuasivarianza, y cuasidesviación típica muestrales.
Pinchando en Gráficos… se obtiene el siguiente Cuadro de diálogo, en el que se
puede elegir el Tipo de gráfico y los Valores del gráfico.

En esta ventana se selecciona el gráfico que se desea realizar y se pulsa Continuar.


Pinchando en Formato… se obtiene el siguiente Cuadro de diálogo, que permite que
las tablas de frecuencias puedan ordenarse según los valores de la variable o según
las frecuencias observadas. Además, para aquellas variables con un gran número de
valores diferentes se puede optar por Suprimir tablas con más de n categorías o
por agrupar los datos en categorías.
Nota: Para analizar una parte de las observaciones seleccionadas según algún
criterio se debe elegir previamente en el Menú principal Datos/Seleccionar casos…
Pinchando en Boostrap… se obtiene el siguiente Cuadro de diálogo, que permite
realizar muestreo boostrap

Procedimiento “Descriptivos…”
El procedimiento Descriptivos… calcula estadísticos de tendencia central,
dispersión y distribución para varias variables, mostrándolos en una única tabla y
calcula valores tipificados (puntuaciones z).
Para acceder a este procedimiento se selecciona en el Menú principal Analizar/
Estadísticos descriptivos/ Descriptivos…
En el Cuadro de diálogo correspondiente, se introducen la variable o variables que
se quieren analizar.

Si selecciona Guardar valores tipificados como variables, se guardan las


puntuaciones z, éstas se añaden a los datos del Editor de datos, quedando
disponibles para posteriores análisis. Las transformaciones de
puntuación z permiten la comparación de variables que se registran en diferentes
unidades de medidas.

En todas las figuras el botón:

• Restablecer permite restablecer todas las opciones por defecto del sistema y
elimina del Cuadro de diálogo todas las asignaciones hechas con las variables
• Continuar permite aceptar las asignaciones hechas con las variables
• Cancelar permite ignorar todas las asignaciones hechas con las variables
• Pegar envía la sintaxis del procedimiento a la ventana de sintaxis
• Aceptar, elegidas las especificaciones, se pulsa el botón Aceptar para obtener los
resultados del procedimiento.
Pinchando en Opciones… se muestra el siguiente Cuadro de diálogo

que permite hallar características de tendencia central, de dispersión, de


distribución y ordenar las variables por el tamaño de sus medias (en orden
ascendente o descendente), alfabéticamente o por el orden en el que se seleccionen
las variables (el valor por defecto).

Procedimiento “Explorar…”
El procedimiento Explorar genera estadísticos de resumen y representaciones
gráficas como Diagrama de cajas, gráficos de tallo y hojas, histogramas, diagramas
de normalidad y diagramas de dispersión por nivel con pruebas de Levene.

Para explorar los datos se elige en el Menú principal Analizar/Estadísticos


descriptivos/Explorar…
y se muestra el siguiente Cuadro de diálogo

donde se selecciona una o más variables dependientes (Lista de dependientes:) Si


se desea, es posible seleccionar una o más variables de factor (Lista de
Factores:) cuyos valores definirán grupos de casos; o bien seleccionar una variable
de identificación para etiquetar casos (Etiquetar los casos mediante:).
En dicho cuadro de diálogo se presentan tres botones de
comandos: Estadísticos… (para: Intervalos de confianza para la media,
Estimadores robustos centrales, Valores atípicos y Percentiles), Gráficos… (para
Diagramas de cajas, de tallo y hojas, histogramas, pruebas y gráficos de
probabilidad normal y diagramas de dispersión por nivel con la prueba de
Levene), Opciones… (para el tratamiento de valores perdidos) y Boostrap… (para
realizar muestreo boostrap). Si en Visualización se marca la
opción Ambos muestra resultados estadísticos y gráficos; si se
marca Estadísticos muestra sólo los resultados estadísticos y si se
marca Gráficos muestra sólo resultados gráficos.
Pinchando en Estadísticos… se muestra el siguiente Cuadro de diálogo
Pinchando en Gráficos… se obtiene el siguiente Cuadro de diálogo

El Diagrama de cajas es una forma de representación gráfica para resumir la


distribución de los valores de una variable. En esta representación en vez de
visualizar los valores individuales, se representan estadísticos básicos de la
distribución: la mediana, el percentil 25, el percentil 75 y los extremos de la
distribución. Esta representación gráfica está basada en 5 medidas estadísticas. La
caja representa el 50% de las observaciones correspondientes a cada nivel del factor
y se construye desde el primer cuartil al tercer cuartil; dentro de ella se destaca la
posición de la mediana. Se construye un bigote desde hasta el mínimo y otro
bigote desde hasta el máximo, siempre que sus correspondientes longitudes no
superen 1.5 veces la longitud de la caja. En caso contrario, el correspondiente bigote
se construye hasta la observación más alejada del cuartil que diste como máximo 1.5
veces la longitud de la caja; si todas las observaciones distan del correspondiente
cuartil más de 1.5 veces la longitud de la caja se representan como valores aislados.

En la siguiente figura se muestra cómo se representan en un gráfico de cajas los


estadísticos anteriormente mencionados
• El diagrama de caja viene determinado por los valores de los cuartiles, y la línea que
aparece dentro del diagrama representa el valor de la mediana
• Los límites, a partir de los cuales se dibujan los bigotes del diagrama de caja y se
marcan los valores extremos, se calculan del siguiente modo:

donde y son el primer y el tercer cuartil, respectivamente.


• Los valores fuera de los límites están etiquetados (en SPSS por el número de caso al
que corresponden, cuando no se ha especificado ninguna variable para etiquetar).
En la figura anterior se representan con un círculo aquellos valores que sobrepasan
los límites LI y LS y con un asterisco los que sobrepasan los límites LI* y LS*, que se
calculan del siguiente modo:

En resumen:

• Se consideran dos categorías de casos extremos, en función de cuánto se alejan con


respecto del 50% central de la distribución. Aquellos casos con valores alejados más
de 3 veces el rango intercuartílico desde el extremo superior o inferior de la caja
(casos más extremos, representados con un (*) y aquellos valores que están alejados
entre 1.5 y 3 veces dicho rango, representados con un círculo.
• Los valores más pequeño y más grande que estén dentro de los límites primer cuartil
-1.5 y tercer cuartil +1.5 veces el rango intercuartílico constituyen los bigotes del
gráfico y aparecen representados mediante las dos líneas horizontales dibujadas a
ambos extremos de la caja central.

Información que podemos obtener de este tipo de gráfico:

• La posición de la mediana nos determina la tendencia central


• El ancho de la caja nos da idea de la variabilidad de las observaciones. Si la mediana
no está en el centro de la caja, podemos deducir que la distribución es asimétrica (si
está próxima al límite inferior de la caja, asimétrica positiva, y si está próxima al
límite superior, asimétrica negativa)
• Estos gráficos son especialmente útiles para comparar la distribución de los valores
entre diferentes grupos.
Diagrama de tallos y hojas: Una técnica que se utiliza para la observación de la
forma de la distribución de frecuencias es el diagrama de tallo y hojas, que es una
representación gráfica en la que los datos se colocan en dos niveles de tal modo
que podemos visualizar la forma de la distribución. Un diagrama de tallos y hojas
consiste en una serie de filas horizontales de números. En la primera columna se
escriben los llamados tallos, junto a ella se traza una línea vertical y, a su derecha,
en cada fila se escriben las correspondientes hojas. El número utilizado para
designar una fila es su tallo, el resto de números de la fila se denominan hojas. El
tallo es la mayor porción del número. Por ejemplo, en los números 1.0, 2.3, 1.4, 1.1,
3.5, 4.6, 5.1, 5.3, 5.7 y 5.9. Los primeros dígitos servirán como nombre de los tallos
(1, 2, 3, 4, 5). Las hojas dan una información secundaria acerca del número, en
nuestro ejemplo sería la cifra decimal. (Véase Estadística para Biología y Ciencias
Ambientales: Tratamiento Informático mediante SPSS. Ana Lara (2010) pág 47).
Gráficos con prueba de normalidad: Mediante este procedimiento se comprueba
si los datos proceden de una población normal y para ello se sirve de dos gráficos y
un contraste analítico. (Este procedimiento se utilizará en prácticas más avanzadas).
Pinchando en Opciones… se obtienen las siguientes opciones para el tratamiento
de Valores perdidos

Procedimiento “Gráficos”
Además de las gráficas producidas por los anteriores procedimientos descriptivos,
SPSS cuenta con un menú dedicado expresamente para la obtención de resultados
gráficos. Sirvan estas notas como una breve exposición de las características
generales en el manejo de los procedimientos gráficos. Una exposición más
detallada de estos procedimientos requeriría una extensión que sobrepasaría los
objetivos de este documento introductorio.

Seleccionando en el Menú principal Gráficos, se obtiene la siguiente ventana, donde


se muestran los distintos gráficos que se pueden realizar.

Para proceder a realizar algún tipo de gráfico interactivo se selecciona en el Menú


principal Gráficos/Generador de gráficos… y se muestra la siguiente figura
donde se selecciona el gráfico que se desee realizar (En el ejercicio guiado de esta
práctica se muestra como se realiza un histograma interactivo).

Seleccionando en el Menú principal Gráficos/Cuadros de diálogo antiguos se


muestra la siguiente figura

donde se elige el tipo de gráfico que se desee. Por ejemplo, si se


selecciona Gráficos/Cuadros de diálogo antiguos/Barras…, se muestra la
siguiente figura
donde se puede elegir entre realizar un Gráfico de
barras Simple, Agrupado o Apilado. Si se elige Agrupado se pulsa a
continuación Definir y se muestra la siguiente ventana

Para crear un gráfico de barras agrupado se debe seleccionar una variable de


categorías y una variable de agrupación. De esta forma, una vez pulsado el
botón Aceptar, se genera un gráfico de barras de las categorías elegidas agrupado
por la variable de agrupación elegida.
El procedimiento estándar de generación de gráficos se inicia con la elección, desde
el Menú principal, del tipo de gráfico deseado. Tras esta elección el programa solicita
mayor información acerca de las características del gráfico deseado. Esto
generalmente se realiza a través de un Cuadro de diálogo específico.
Evidentemente, a un mayor conocimiento de los datos que se analizan y con una idea
clara de las gráficas que se quieren obtener, se seguirá un mayor aprovechamiento
de las capacidades gráficas del SPSS. En este punto, es importante animar a la
experimentación, es decir, a la generación de distintas gráficas que pongan en
evidencia, desde distintos puntos de vista, la circunstancia que se quiera resaltar.
Posteriormente habrá tiempo de seleccionar aquella que se ajuste mejor a nuestros
objetivos.

Confirmada la definición del gráfico mediante el correspondiente botón de Aceptar,


en el Visor de resultados aparece el gráfico creado. Seleccionándolo con el ratón y
pulsando el boton derecho se muestra la siguiente figura donde se elige Editar
contenido /En otra ventana (O bien pulsando dos veces sobre el gráfico).

Se abre el Editor de gráficos, que permite realizar modificaciones en el gráfico. Para


seleccionar objetos en el gráfico se pulsa en ellos, o bien se utiliza el menú de la
ventana del Editor de gráficos

Ventana de Resultados
Se observa que la parte superior de la ventana muestra

que indica el nombre que SPSS da por defecto al fichero de


resultados, Resultados1 y el nombre de la ventana, IBM SPSS Statistics Visor
• Esta ventana de resultados presenta una Barra de menú similar a la que muestra
el Editor de datos, ampliada con dos nuevos menús: Insertar y Formato.

A continuación se muestra un menú de iconos que permite el acceso más rápido a


algunas de las opciones.
• La ventana de resultados se divide en dos paneles:
• El panel izquierdo muestra el listado de los contenidos.
• El panel derecho presenta los resultados.

Ejemplo
Con los datos almacenados en el fichero Datos1

Realizar un análisis estadístico unidimensional determinando diversos estadísticos


de tendencia central, de posición, de dispersión, de forma, tablas de frecuencias,
gráficos y análisis exploratorio de datos.

1. Gráficos de barras y sectores


Realizar tablas de frecuencias y representaciones gráficas (gráficos de barras
y sectores) con las variables cualitativas.
Tablas de frecuencias: Se selecciona en el Menú principal Analizar/ Estadísticos
descriptivos/ Frecuencias… Introducir las variables Sexo y Calificación en la
ventana Variables: y dejar por defecto Mostrar tablas de frecuencias
Pulsar Aceptar

Gráfico de barras: Seleccionando en el Menú principal Gráficos/Cuadros de


diálogo antiguos/Barras. En el cuadro de diálogo activar Simple y Resúmenes
para grupos de casos (ambas están activadas por defecto)

Pulsar Definir
En la ventana resultante introducir en la casilla Eje de categorías: la variable Sexo y
en Panel mediante filas: la variable Calificación. Pulsar el botón Títulos para
escribir el título del gráfico y notas al pie. Se puede seleccionar en Los barras
representan: frecuencias relativas y acumuladas, porcentajes relativos y
acumulados y otro estadístico.

En el Editor de
gráficos, que se muestra haciendo doble clik sobre el gráfico, hay diversos botones
que permiten distintas opciones de edición: se puede cambiar el color, cambiar el
tipo de letra, mover las leyendas de los ejes….
Gráfico de sectores: Seleccionando en el Menú principal Gráficos/Cuadros de
diálogo antiguos/Sectores. En el cuadro de diálogo activar Resúmenes para
grupos de casos (activada por defecto)
Pulsar Definir

En la ventana resultante introducir en la casilla Definir sectores por: la


variable Sexo y en Panel mediante filas: la variable Calificación. Se puede
seleccionar en Los sectores representan: frecuencias absolutas, % de casos y
Sumas de la variable.

2. Estadísticos e Histograma
Realizar tablas de frecuencias, representaciones gráficas (histograma),
calcular estadísticos de tendencia central, dispersión, forma, posición
(Percentiles 25, 50 y 75) con las variables cuantitativas.
Tablas de frecuencias: Se selecciona en el Menú principal Analizar/ Estadísticos
descriptivos/ Frecuencias… Introducir las variables correspondientes en la
ventana Variables: y dejar por defecto Mostrar tablas de frecuencias

Pulsar Estadísticos…Para calcular los percentiles pedidos se activa la


casilla Percentiles: es escribe el percentil correspondiente y se pula Añadir

Pulsar Continuar y Aceptar


En la misma salida se muestran las Tablas de frecuencias para cada variable
seleccionada.
Histograma: Seleccionando en el Menú principal Gráficos/Cuadros de diálogo
antiguos/Histograma. En Variable: introducir la variable Edad y activar Mostrar
curva normal

También se puede realizar seleccionando en el Menú principal Analizar/


Estadísticos descriptivos/ Frecuencias/Gráficos.
Se pulsa Aceptar

3. Gráficos de cajas simple y agrupado


Realizar el gráfico de cajas, para la población total y agrupando por sexos, para
las variables Puntuación1 y Puntuación2.
Para obtener el diagrama de cajas se selecciona en el Menú
principal Gráficos/Cuadros de diálogo antiguos/Diagrama de cajas
1. Realizamos un Diagrama de cajas Simple en las
variables Puntuación1 y Puntuación2 para el grupo total de individuos. Para ello,
seleccionar Simple y Resúmenes para distintas variables. Se pulsa Definir y en
el cuadro de diálogo resultante, introducir las
variables Puntuación1 y Puntuación2 en la casilla Las cajas representan:

Se pulsa Aceptar
2. Realizamos un Diagrama de cajas agrupado por la variable Sexo: Para ello,
seleccionar Agrupado y Resúmenes para distintas variables. Se pulsa Definir y
en el cuadro de diálogo resultante, introducir las
variables Puntuación1 y Puntuación2en la casilla Las cajas representan: y la
Variable Sexo en la casilla Eje de categorías:

Se pulsa Aceptar
4. Gráfico de barras agrupadas
Realizar el gráfico de barras para la variable Edad que compare hombres y
mujeres conjuntamente.
Se selecciona en el Menú principal Gráficos/Cuadros de diálogo
antiguos/Barras, en la ventana resultante elegir Agrupado y Resúmenes para
datos agrupados y se pulsa Definir. A continuación, introducir en la casilla Eje de
categorías: la variable Edady en Definir grupos por: la variable Sexo

Se pulsa Aceptar
Ejercicios
Ejercicio Guiado
A continuación se va a proceder a iniciar una aplicación Java, comprueba que tengas instalada la Máq
Java para poder ejecutar aplicaciones en Java.

Si no tienes instalada la Máquina Virtual Java (Java Runtime Environment – JRE) pincha en uno de l
para descargarla:

Instalación directa de la JRE 6 para Windows


Página oficial de Sun Microsystems, descarga de la JRE para cualquier
plataforma

Si ya tienes instalada la Máquina Virtual Java pincha en el


siguiente enlace para proceder a la ejecución del ejercicio
guiado
IMPORTANTE: Si al descargar el archivo *.JAR del ejercicio tu gestor de
descargas intenta guardarlo como *.ZIP debes cambiar la extensión a .JAR para
poder ejecutarlo.

Enunciado del Ejercicio


Para estudiar el efecto de las aguas residuales de las alcantarillas que afluyen
a un lago, se toman 40 muestras distintas en las que se mide la concentración
de nitrato en el agua. Los datos obtenidos son los siguientes:

Se pide:
1. Introducir los datos en el Editor de datos de SPSS
2. Determinar:
• Tabla de frecuencias
• Número de datos; Percentil 30; Valores máximo y mínimo; Media; Mediana;
Moda; Desviación típica; Varianza
• Histograma de frecuencias
• Histograma de frecuencias interactivo con las siguientes características:
• Representación horizontal
• Efecto 3D
• Considerar 5 clases
• Título : Histograma
• Subtítulo : Efecto 3D
• Pie : Concentracion
• Aspecto: Acero

Ejercicios Propuestos
Ejercicio Propuesto 1
Las autoridades sanitarias de un municipio están interesadas en evaluar la
calidad del agua para consumo, en términos de colonias de bacterias tróficas,
en un acuífero próximo a la ciudad. Se consideran dos zonas diferentes del
acuífero y se obtienen los siguientes resultados (número de colonias por 1000
mm de agua):
zona 1: 194 199 191 202 215 214 197 204 199 202 230 193 194 209
zona 2: 158 161 143 174 220 156 156 156 198 161 188 139 147 116
Se pide:
Un estudio comparativo de la calidad del agua en ambas zonas utilizando
medidas estadísticas y gráficos. Para ello realizar los siguientes apartados:
1. Estudiar media, varianza, moda, mediana, máximo y mínimo de ambas zonas.
2. Representar gráficamente los datos con un histograma para cada variable.
3. Representar gráficamente los datos con un diagrama de caja simple (donde
los datos del gráfico son resúmenes para distintas variables).

Ejercicio Propuesto 2
Un agrónomo mide el contenido de humedad en una variedad de trigo tras ser
secados especialmente. Para ello, hace las mediciones en 56 muestras de una
tonelada de trigo. Los resultados se muestran en la tabla adjunta

Se pide:
1. Resumen estadístico: Tabla de frecuencias, estadísticos de tendencia central,
de dispersión, de posición (Percentil 60)
2. Gráfico de tallo y hojas
3. Gráfico de cajas
4. Estratificar la población en tres grupos de Contenido de humedad
5. Determinar la media, mediana y desviación típica del Contenido de
humedad en cada grupo
6. Construir el gráfico de barras y de sectores para la variable de agrupación.

Ejercicio Propuesto 1 (Resuelto)


Las autoridades sanitarias de un municipio están interesadas en evaluar la
calidad del agua para consumo, en términos de colonias de bacterias tróficas,
en un acuífero próximo a la ciudad. Se consideran dos zonas diferentes del
acuífero y se obtienen los siguientes resultados (número de colonias por
1000 mm de agua):
zona 1: 194 199 191 202 215 214 197 204 199 202 230 193 194 209
zona 2: 158 161 143 174 220 156 156 156 198 161 188 139 147 116
Se pide:
Un estudio comparativo de la calidad del agua en ambas zonas utilizando
medidas estadísticas y gráficos. Para ello realizar los siguientes apartados:
1. Calcular media, varianza, moda, mediana, máximo y mínimo de ambas zonas.
2. Representar gráficamente los datos con un histograma para cada variable.
3. Representar gráficamente los datos con un diagrama de caja simple (donde
los datos del gráfico son resúmenes para distintas variables).

Solución:
1. Calcular media, varianza, moda, mediana, máximo y mínimo de ambas
zonas.
Los valores de la media, mediana y moda, para el nº de colonias de la zona 2 son
inferiores a los obtenidos para el nº de colonias de la zona 1, de lo que se deduce
que la calidad del agua en la zona 2 es claramente superior. Con respecto a los
valores obtenidos para la varianza en ambas variables, podemos ver que la
variabilidad es superior para el nº de colonias de la zona 2.
Para saber en que zona hay mayor dispersión se debe de calcular el Coeficiente de
Variación de Pearson, CV, (Cociente entre la desviación típica y la media) que
representa el número de veces que la desviación típica contiene a la media, por
tanto, cuanto mayor sea el coeficiente de variación de Pearson significa que mayor
número de veces contiene la desviación típica a la media y por tanto la media
aritmética es menos representativa.
CV(zona1) = 10.77 / 203.07 = 0.053
CV(zona2) = 26.07 / 162.36 = 0.161

Los resultados nos muestran que hay mayor dispersión en la zona 2 ya que el
coeficiente de variación es mayor que el de la zona 1

2. Representar gráficamente los datos con un histograma para cada variable.


Gráficamente son evidentes las diferencias existentes entre los valores de las
variables. Se observa como para el caso de nº de colonias de la zona 1, el grueso de
las observaciones se encuentra entre los valores 190 y 210, y para el nº de colonias
de la zona 2, entre 140 y 180. Lo que está en consonancia con los resultados
obtenidos anteriormente, los valores de la media, mediana y moda para el nº de
colonias de la zona 2 son inferiores a los obtenidos para el nº de colonias de la
zona 1.
3. Representar gráficamente los datos con un diagrama de caja simple
(donde los datos del gráfico son resúmenes para distintas variables).
Para obtener el diagrama de caja, seleccionamos en el Menú principal Gráficos/
Cuadros de diálogo antiguos/Diagramas de caja
En el Cuadro de diálogo resultante se marca la opción Simple y en Los datos del
gráfico son se marca la opción Resúmenes para distintas variables

A continuación se pulsa Definir y se muestra la siguiente ventana

donde las variables se pasan al cuadro denominado Las cajas representan: y se


pulsa Aceptar. Se muestra la siguiente representación gráfica
• En el eje de ordenadas se representan los valores de la variable en estudio, en
nuestro caso: nº de colonias.
• Este gráfico, de nuevo, pone de manifiesto las diferencias existentes entre los valores
de ambas variables, proporcionando más evidencias para afirmar que existe mayor
calidad del agua en la zona 2.
• Mediana: se aprecia que el valor de la mediana es inferior para el nº de colonias de
la zona 2.
• Rango intercuartílico: el 50% de los valores (determinados por la caja) del nº de
colonias de la zona 1 se encuentra por encima del 50% de los valores del nº de
colonias de la zona 2.
• Valor fuera de los límites: La variable nº de colonias de la zona 2 tiene un valor
fuera de los límites, que corresponde al caso 5.
• Recordemos que:
• El diagrama de caja viene determinado por los valores de los cuartiles, y la línea más
gruesa que aparece dentro del diagrama representa el valor de la mediana.
• Los límites, a partir de los cuales se dibujan las pestañas del diagrama de caja y se
marcan los valores extremos, se calculan del siguiente modo:

donde y son el primer y el tercer cuartil, respectivamente.


• Los valores fuera de los límites están etiquetados por el número de caso al que
corresponden, puesto que no se ha especificado ninguna variable para etiquetar. Se
representan con un círculo aquellos valores que sobrepasan los límites LIy LS y con
un asterisco los que sobrepasan los límites LI* y LS*, que se calculan del siguiente
modo:

Ejercicio Propuesto 2 (Resuelto)


Un agrónomo mide el contenido de humedad en una variedad de trigo tras ser
secados especialmente. Para ello, hace las mediciones en 56 muestras de una
tonelada de trigo. Los resultados se muestran en la tabla adjunta

Se pide:
a) Resumen estadístico: Tabla de frecuencias, estadísticos de tendencia
central, de dispersión, de posición (Percentil 60)
b) Gráfico de tallo y hojas
c) Gráfico de cajas
d) Estratificar la población en tres grupos de Contenido de humedad
e) Determinar la media, mediana y desviación típica del Contenido de
humedad en cada grupo
f) Construir el gráfico de barras y de sectores para la variable de agrupación.

Solución:
La columna Número indica las frecuencias. Es preciso, previo a realizar los análisis,
ponderar los valores de la variable Contenido mediante la
variable Número Datos/Ponderar casos

Se pulsa Aceptar y la variable Contenido ha quedado ponderada por la


variable Número.
a) Resumen estadístico: Tabla de frecuencias, estadísticos de tendencia
central, de dispersión, de posición (Percentil 60)
b) Gráfico de tallo y hojas
Analizar/Estadísticos Descriptivos/Explorar… Pulsar Gráficos y seleccionar
en Descriptivo: De Tallo y hojas

c) Gráfico de cajas
Gráficos/Cuadro de diálogos antiguos/Diagramas de cajas. En el cuadro
resultante activar Resúmenes para distintas variables.
d) Estratificar la población en tres grupos de Contenido de humedad
Forma una nueva variable con el nombre Contenido1 que se obtiene recodificando
la variable Contenido en tres categorías:
• Valor 1: Contenido de humedad menor que 6.9
• Valor 2: Contenido de humedad entre 6.9 y 7.4
• Valor 3: Contenido de humedad mayor que 7.4
Transformar/Recodificar en distintas variables
e) Determinar la media, mediana y desviación típica del Contenido de
humedad en cada grupo
Para efectuar análisis estadístico para cada grupo se elige en el Menú
principal Datos/Segmentar archivo

Para un resumen estadístico de los grupos: seleccionar Analizar/Estadísticos


descriptivos/Frecuencias (o Descriptivos o Explorar).
f) Construir el gráfico de barras y de sectores para la variable de agrupación.
Los gráficos se pueden hacer pulsando la opción
de Gráficos en Analizar/Estadísticos descriptivos/Frecuencias (o Descriptivos
o Explorar) o bien Gráficos/Cuadros de diálogos antiguos/Barras.
Selecciona Simple y activar Resúmenes para grupos de casos. Pulsar Definir
Si se selecciona Agrupado en vez de Simple los gráficos correspondientes no
cambian ya que está activado Datos/Segmentar archivo.
…………………………………………………………………………………………………………………………………………..

Práctica 3
REGRESIÓN Y CORRELACIÓN
Objetivos
1. Representar el diagrama de dispersión
2. Ajustar una recta de regresión a las observaciones
3. Analizar la bondad del ajuste lineal
4. Ajustar una curva parabólica a las observaciones
5. Analizar la bondad del ajuste parabólico
6. Comparar el ajuste lineal y el parabólico.

Introducción
En esta práctica estudiamos dos tipos de problemas. El primero es el de encontrar
una función que se ajuste lo mejor posible a un conjunto de puntos observados,
gráficamente equivale a encontrar una curva que aunque no pase por todos los
puntos esté lo más próxima posible de dichos puntos. El segundo es medir el grado
de ajuste entre la función teórica (función ajustada) y la nube de puntos.
Distinguimos así, entre Teoría de Regresión y Teoría de Correlación.
• Teoría de Regresión: Consiste en la búsqueda de una “función” que exprese lo
mejor posible el tipo de relación entre dos o más variables. Esta práctica sólo estudia
la situación de dos variables.Una de las aplicaciones más interesante que tiene la
Regresión es la de Predecir, es decir, conocido el valor de una de las variables,
estimar el valor que presentará la otra variable relacionada con ella.
• Teoría de Correlación: Estudia el grado de dependencia entre las variables es
decir, su objetivo es medir el grado de ajuste existente entre la función teórica
(función ajustada) y la nube de puntos.Cuando la relación funcional que liga las
variables X e Y es una recta entonces la regresión y correlación reciben el nombre
de Regresión Lineal y Correlación Lineal. Una medida de la Correlación Lineal la
da el Coeficiente de Correlación Lineal de Pearson.

Regresión y Correlación Lineal


En primer lugar se plantea el ajuste de una recta entre dos variables. Sea Y la
variable dependiente (variable cuyos valores se desea predecir), y X la variable
independiente (también llamada variable explicativa y que se utiliza para predecir
el valor de la variable dependiente).
En primer lugar, antes de realizar la regresión vamos a visualizar la nube de puntos.
Para ello se seleciona en el menú principal Gráficos/Cuadros de diálogo
antiguos/Dispersión/Puntos…

se muestra la siguiente ventana

Se selecciona la opción que se desee representar, que en nuestro caso es Dispersión


simple y se pulsa el botón Definir. En la ventana correspondiente se sitúan las
variables X e Y en su lugar correspondiente.
Se pulsa Aceptar y se muestra el gráfico de dispersión

El gráfico muestra una posible adecuación del modelo lineal y la tendencia creciente
del mismo.
Para obtener la recta de regresión mínima cuadrática de Y sobre X , y = b0 + b1 x, se
debe elegir el procedimiento Regresión lineal. Para ello se
selecciona Analizar/Regresión/Lineales…

Se muestra la siguiente ventana

Se desplazan las variables X e Y a su campo correspondiente


Se pulsa el botón Estadísticos…

donde se selecciona en Coeficientes de regresión: Estimaciones e Intervalos de


confianza y se marca Ajuste del modelo. Se pulsa Continuar.
Se pulsa el botón Gráficos…
donde se elige *ZRESID para Y y *ZPRED para X. Por último se marca la
opción Gráfico de prob. normal. Se pulsa Continuar
Las representaciones gráficas son una forma de juzgar visualmente la bondad de
ajuste y de detectar comportamientos extraños de observaciones individuales,
valores atípicos. Una visión global de la gráfica nos puede orientar sobre el
cumplimiento de los supuestos del modelo: Normalidad, Linealidad y
Homocedasticidad (Igualdad de las Varianzas) e Independencia de los Residuos.
Además de representar un Histograma y un Gráfico Probabilístico Normal, también
se pueden confeccionar diversos gráficos que aportan información sobre el
cumplimiento de las hipótesis del modelo. Así se pueden realizar Diagramas de
Dispersión para cualquier combinación de las siguientes variables: la variable
dependiente, los valores pronosticados (ajustados o predichos), residuos tipificados
(estandarizados), los residuos eliminados (sin considerar el caso), ajustados en
función de los valores pronosticados, residuos estudentizados, o residuos
estudentizados eliminados (sin considerar el caso).

Por ejemplo:

Gráfico de Residuos tipificados/Valores pronosticados tipificados o


simplemente Residuos/Valor predicho: Este gráfico se utiliza para comprobar las
hipótesis de Linealidad y de Homocedasticidad y estudiar si el modelo es
adecuado o no. Si en el gráfico observamos alguna tendencia, ésta puede ser indicio
de autocorrelación, de heterocedasticidad o falta de linealidad. En general no se
debe observar ninguna tendencia ni comportamiento anómalo.
Gráfico de Valores Observados/Valores predichos: Este gráfico incluye una línea
de pendiente 1. Si los puntos están sobre la línea indican que todas las predicciones
son perfectas. Como el gráfico anterior, también se utiliza para comprobar la
hipótesis de igualdad de varianzas, así se detecta los casos en que la varianza no es
constante y se determina si es preciso efectuar una transformación de los datos que
garantice la homocedasticidad.
Gráfico de Residuos/Variable X: Este gráfico que representa los residuos frente a
una variable independiente, permite detectar la adecuación del modelo con respecto
a la variable independiente seleccionada y también detecta si la varianza de los
residuos es constante en relación a la variable independiente seleccionada. Si en este
gráfico observamos alguna tendencia nos puede indicar el incumplimiento de la
hipótesis de homocedasticidad o falta de linealidad, así como autocorrelación.
Se pulsa el botón Guardar…
y en Valores pronosticados y Residuos se elige Tipificados. Se pulsa Continuar. En
la ventana del Editor de datos se han creado dos variables con los
nombres ZPR_1 (para los valores pronosticados tipificados) y ZRE_1 (para los
residuos tipificados).

Se pulsa Continuar y Aceptar. Y se obtienen, entre otros, los siguientes resultados


Esta tabla muestra los resultados del ajuste del modelo de regresión. El valor de R
cuadrado, que corresponde al coeficiente de determinación, mide la bondad del
ajuste de la recta de regresión a la nube de puntos, el rango de valores es de 0 a 1.
Valores pequeños de R cuadrado indican que el modelo no se ajusta bien a los
datos. R cuadrado = 0.481 indica que el 48.1% de la variabilidad de Y es explicada
por la relación lineal con X. El valor R (0.694) representa el valor absoluto
del Coeficiente de Correlación, es decir es un valor entre 0 y 1. Valores próximos a 1
indican una fuerte relación entre las variables. La última columna nos muestra
el Error típico de la estimación (raíz cuadrada de la varianza residual) con un valor
igual a 16.52243

En la Tabla ANOVA, se muestra la descomposición de la Variabilidad Total (SCT =


10000) en la Variabilidad debida a la Regresión (SCR_{reg = 4813.175) y la
Variabilidad Residual (SCR = 5186.825) es decir en Variabilidad explicada por el
modelo de regresión y la Variabilidad no explicada. SCT = SCR_{eg} + SCR. La Tabla
de Ánalisis de la Varianza (Tabla ANOVA) se construye a partir de esta
descomposición y proporciona el valor del estadístico F que permite contrastar la
hipótesis nula de que la pendiente de la recta de regresión es igual a cero contra la
alternativa de que la pendiente es distinta de cero, es decir:

donde H0 se conoce, en general, como hipótesis de no linealidad entre X e Y


La Tabla ANOVA muestra el valor del estadístico de contraste, F = 17.631, que se
define como el cociente entre el Cuadrado medio debido a la regresión (CMR_{eg} =
4813.175) y el Cuadrado medio residual (CMR = 272.991), por tanto cuanto mayor
sea su valor, mejor será la predicción mediante el modelo lineal. El p-valor asociado
a F, en la columna Sig, es menor que 0.001, menor que el nivel de significación α =
0.05, lo que conduce a rechazar la hipótesis nula, es decir existe una relación lineal
significativa entre Y y X. Esto indica que es válido el modelo de regresión
considerado, en este caso el modelo lineal simple. Sin embargo, esto no significa que
este modelo sea el único válido, puesto que pueden existir otros modelos también
válidos para predecir la variable dependiente.
La siguiente tabla muestra las estimaciones de los parámetros del modelo de
regresión lineal simple, la ordenada en el origen, ß0=375.252 y la pendiente ß1=
0.036
Por tanto, la ecuación de la recta estimada o ajustada es: y =375.252 + 0.036 x. Así
mismo, en esta tabla se presentan los resultados de los dos contrastes individuales
de la significación de cada uno de estos parámetros

• El primero de estos contrastes carece de interés en la mayoría de los casos ya que


raramente el punto de corte de la recta de regresión con el eje de ordenadas
(ordenada en el origen) será el punto (0,0). Además dicho punto de corte carece de
significado casi siempre. En nuestro caso, la interpretación de ß0 indica el valor de
Y que correspondería a un valor de X igual a 0.
• El segundo contraste, el contraste de la pendiente de la recta, es una alternativa
equivalente al contraste que acabamos de comentar en la Tabla ANOVA. El
estadístico de contraste que aparece en la columna t vale 4.199 tiene un p-valor
asociado, columna Sig, menor que 0.001, menor que el nivel de significación &alpha
= 0.05 que conduce al rechazo de la hipótesis nula y podemos afirmar que existe una
relación lineal significativa entre Y y X.
En la última columna de la tabla se muestran los intervalos de confianza para ß0 y
ß1, al 95%.
El intervalo para ß1 es (0.018, 0.054), puesto que el cero no pertenece al intervalo,
hay evidencia empírica para concluir que X influye en Y y por tanto al nivel de
confianza del 95% el parámetro ß1 no podría considerarse igual a cero.
Validación y diagnosis del modelo
En este apartado vamos a comprobar que se verifcan los supuestos del modelo de
regresión lineal (normalidad, homocedasticidad (igualdad de varianzas) y
linealidad) estos supuestos resultan necesarios para validar la inferencia respecto a
los parámetros. Utilizaremos el analisis de los residuos para realizar los contrastes
a posteriori de dichas hipótesis del modelo. Los residuos se definen como la
diferencia entre el valor observado y el valor predicho por el modelo.
Normalidad
El análisis de normalidad de los residuos lo realizaremos gráficamente (Histograma
y gráfico de probabilidad normal) y analiticamente (Contraste de Kolmogorov-
Smirnov)

Histograma

Representaremos los residuos mediante un histograma superponiendo sobre él una


curva normal de media cero. Si los residuos siguen un distribución normal las barras
del histograma deberán representar un aspecto similar al de dicha curva.

En primer lugar se guardan los residuos tipificados (realizado anteriormente), para


ello en el Cuadro de diálogo de Analizar/Regresión/Lineal… se pulsa el
botón Guardar… y en Residuos elegimos Tipificados. Clik Continuar y Aceptar.
En la ventana del Editor de datos se ha creado una variable con el nombre ZRE_1.
A continuación representamos el histograma, para ello elegimos Gráfico/Cuadros
de diálogo antiguos/Histograma… y en la ventana emergente seleccionamos la
variable que representa los residuos tipificados y marcamos la opción Mostrar
curva normal
Se pulsa Continuar y Aceptar y se muestra el siguiente histograma con la curva
normal superpuesta. Podemos apreciar, en este gráfico, que los datos no se
aproximan razonablemente a una curva normal, puede ser consecuencia de que el
tamaño muestral considerado es muy pequeño (Esta representación no es
aconsejable en tamaños muestrales pequeños).

Gráfico probabilístico normal


Es el procedimiento gráfico más utilizado para comprobar la normalidad de un
conjunto de datos. Para obtener dicho gráfico
seleccionamos Analizar/Estadísticos descriptivos/Gráficos Q-Q… en el Cuadro
de diálogo resultante se selecciona la variable que representa los residuos
tipificados
Se muestra el Gráfico siguiente que representa las funciones de distribución teórica
y empírica de los residuos tipificados. En el eje de ordenadas se representa la
función teórica bajo el supuesto de normalidad y en el eje de abcisas, la función
empírica. Desviaciones de los puntos del gráfico respecto de la diagonal indican
alteraciones de la normalidad. Observamos la ubicación de los puntos del gráfico,
estos puntos se aproximan razonablemente bien a la diagonal lo que confirma la
hipótesis de normalidad.

Contraste de normalidad: Prueba de Kolomogorov-Smirnov


El estudio analítico de la normalidad de los residuos lo realizaremos mediante el
contraste no-paramétrico de Kolmogorov-Smirnov.
Seleccionamos Analizar/Pruebas no paramétricas/Cuadros de diálogos
antiguos/K-S de 1 muestra…
en el Cuadro de diálogo resultante se selecciona la variable que representa los
residuos tipificados

La salida correspondiente la muestra la siguiente tabla


Esta tabla muestra la mayor diferencia entre los resultados esperados en caso de
que los residuos surgieran de una distribución normal y los valores observados. Se
distingue entre la mayor diferencia en valor absoluto, la mayor diferencia positiva y
la mayor diferencia negativa. Se muestra el valor del estadístico Z (0.861) y el valor
del p-valor asociado (0.448). Por lo tanto no se puede rechazar la hipótesis de
normalidad de los residuos.
Homocedasticidad
Comprobamos la hipótesis de homogeneidad de las varianzas gráficamente
representando los residuos tipificados frente a los tiempos de incubación estimados
tipificados. El análisis de este gráfico puede revelar una posible violación de la
hipótesis de homocedasticidad, por ejemplo si detectamos que el tamaño de los
residuos aumenta o disminuye de forma sistemática para algunos valores ajustados
de la variable Y, si observamos que el gráfico muestra forma de embudo… Si por el
contario dicho gráfico no muestra patrón alguno, entonces no podemos rechazar la
hipótesis de igualdad de varianzas.Se selecciona Analizar/Regresión/Lineal… se
pulsa el botón Gráficos… y en el Cuadro de diálogo correspondiente se selecciona la
variable *ZRESID para el eje Y (dicha variable representa los residuos tipificados) y
la variable *ZPRED (variable que representa los valores predichos tipificados) para
el eje X

Se pulsa Continuar y Aceptar y se muestra el siguiente gráfico


Si trazamos una línea horizontal a la altura de 0, la variación de los residuos sobre
esta línea, si las varianzas son iguales, debería ser semejante para los diferentes
valores de Y. En el gráfico podemos observar, razonablemente, dicho
comportamiento si exceptuamos algún residuo atípico que está por encima de 2. No
apreciamos tendencia clara en este gráfico, los residuos no presentan estructura
definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hipótesis de homocedasticidad.

Este mismo gráfico resulta muy útil para detectar indicios de falta de adecuación del
modelo propuesto a los datos, posibles desviaciones de la hipótesis de linealidad. Si
observamos trayectorias de comportamiento no aleatorio esto es indicio de que el
modelo propuesto no describe adecuadamente los datos.

Independencia de los residuos: Contraste de Durbin-


Watson
La hipótesis de independencia de los residuos la realizaremos mediante el contraste
de Durbin-Watson. Para ello se selecciona Analizar/Regresión/Lineal… y en la
ventana emergente pulsamos el botón Estadísticos… En el Cuadro de
diálogoresultante elegimos en Residuos Durbin-Watson y
hacemos Clik en Continuar y Aceptar

SPSS proporciona el valor


del estadístico de Durbin-Watson pero no muestra el p-valor asociado por lo que hay
que utilizar las tablas correspondientes. El estadístico de Durbin-Watson mide el
grado de autocorrelación entre el residuo correspondiente a cada observación y la
anterior. Si su valor está próximo a 2, entonces los residuos están incorrelados, si se
aproxima a 4, estarán negativamente autocorrelados y si su valor está cercano a 0
estarán positivamente autocorrelados. En nuestro caso, toma el
valor 1.747, próximo a 2 lo que indica la incorrelación de los residuos.
El Diagrama de dispersión y el valor de R cuadrado (0.481), nos muestra que el
ajuste lineal no es satisfactorio por lo que se deben considerar otros modelos.

Regresión Cuadrática y Correlación


Para ajustar un modelo cuadrático o parabólico, y = b0 + b1 x + b2 x^2, se
selecciona Analizar/Regresión/Estimación curvilínea…

se muestra la siguiente ventana

Se sitúan las variables X e Y en su campo correspondiente y se marca en Modelos la


opción Cuadrático. Para incluir en el modelo el término constante (b0) se deja
marcada la opción de Incluir constante en la ecuación. Si se desea obtener el
gráfico de la función ajustada junto con la nube de puntos hay que dejar marcada la
opción de Representar los modelos.

Se pulsa Aceptar y se obtienen las siguientes salidas

El
modelo ajustado tiene la siguiente expresión y = 442.883 – 0.007 x + 6.64E-006
x^2.

La representación gráfica de la función ajustada junto con el diagrama de


dispersión es:
Se aprecia que la
función curvilínea se ajusta moderadamente al diagrama de dispersión.
Para comparar las gráficas del ajuste lineal y del ajuste parabólico, se tienen que
dejar seleccionados ambos modelos en la ventana de Estimación curvilínea. Se
pulsa Aceptar y se obtienen los siguientes resultados

La
comparación del ajuste de ambos modelos se puede realizar a partir de los valores
del coeficiente de determinación de cada uno de ellos, en este caso R cuadrado
(lineal) = 0.481 y R cuadrado (cuadrático) = 0.488. Los resultados en el caso
lineal son un poco menos satisfactorios que el cuadrático.

Se aprecia, en el gráfico que el modelo cuadrático (línea discontinua) se aproxima


un poco mejor a la nube de puntos que el modelo lineal (línea continua).
También podemos realizar la comparación del ajuste de los dos modelos a partir de
las varianzas residuales. Para ello se debe marcar en la ventana de Estimación
curvilínea la opción Mostrar tabla de ANOVA

Y se muestran los siguientes resultados:

• Para el modelo lineal


• Para el modelo cuadrático

Los resultados en el caso lineal son un poco menos satisfactorios.

En la Tabla ANOVA se
muestra un p-valor = 0.002 menor que el nivel de significación α = 0.05, por lo que
se rechaza la hipótesis nula de no regresión curvilínea. Conviene puntualizar que la
elección de un modelo de regresión debe tener en cuenta no sólo la bondad del
ajuste numérico sino también la adecuación gráfica de los datos al mismo y,
finalmente, su adecuación o explicación biológica.

Ejercicios

Ejercicio Guiado
A continuación se va a proceder a iniciar una aplicación Java, comprueba que
tengas instalada la Máquina Virtual Java para poder ejecutar aplicaciones en
Java.

Si no tienes instalada la Máquina Virtual Java (Java Runtime Environment –


JRE) pincha en uno de los enlaces para descargarla:

Instalación directa de la JRE 6 para Windows


Página oficial de Sun Microsystems, descarga de la JRE para cualquier
plataforma
Si ya tienes instalada la Máquina Virtual Java pincha en el
siguiente enlace para proceder a la ejecución del ejercicio guiado

IMPORTANTE: Si al descargar el archivo *.JAR del ejercicio tu gestor de


descargas intenta guardarlo como *.ZIP debes cambiar la extensión a .JAR para
poder ejecutarlo.

Enunciado del Ejercicio


Se realiza un estudio para investigar la relación entre el nivel de humedad del
suelo y la tasa de mortalidad en lombrices de tierra. La tasa de mortalidad, y,
es la proporción de lombrices de tierra que mueren tras un periodo de dos
semanas. El nivel de humedad, x, viene medido en milímetros de agua por
centímetro cuadrado de suelo. Se obtuvieron los siguientes datos:

Se pide:
a) Diagrama de dispersión
b) Recta de regresión de la tasa de mortalidad en función del nivel de
humedad. Estudiar la bondad del ajuste
c) Regresión parabólica. Estudiar la bondad del ajuste.

Ejercicios Propuestos
Ejercicio Propuesto 1
Se realiza un estudio para establecer una ecuación mediante la cual se pueda
utilizar la concentración de estrona en saliva (x), para predecir la
concentración de estrona en plasma libre (y). Se obtuvieron los siguientes
datos de 14 hombres sanos:

Se pide:
a) Diagrama de dispersión
b) Recta de regresión de la concentración de estrona en plasma libre en
función de la concentración de estrona en saliva. Estudiar la bondad del ajuste
c) Regresión parabólica. Estudiar la bondad del ajuste.

Ejercicio Propuesto 2
Se realiza un estudio para investigar la relación entre el nivel de humedad del
suelo y la tasa de mortalidad en lombrices. La tasa de mortalidad, Y, es la
proporción de lombrices de tierra que mueren tras un periodo de dos
semanas; el nivel de humedad, X, viene medido en milímetros de agua por
centímetro cuadrado de suelo. Los datos se muestran en la siguiente tabla.
Se pide:
a) ¿Muestran los datos una tendencia lineal?
b) Determinar la recta de regresión Y/X, el grado de asociación lineal entre la
tasa de mortalidad y el nivel de humedad y la bondad del ajuste realizado en
la recta de regresión. ¿Cuánto explica el modelo?
c) Predecir el nivel de humedad del suelo si la tasa de mortalidad de las
lombrices es 0.7
d) Determinar el coeficiente de correlación lineal de las rectas de regresión
Y/X y X/Y
e) Ajustar los datos mediante una regresión curvilínea
d) ¿Qué ajuste es mejor ¿Lineal? ¿Curvilíneo?

Ejercicio Propuesto 1(Resuelto)


Se realiza un estudio para establecer una ecuación mediante la cual se pueda
utilizar la concentración de estrona en saliva (x), para predecir la
concentración de estrona en plasma libre (y). Se obtuvieron los siguientes
datos de 14 hombres sanos:

Se pide:
a) Diagrama de dispersión
b) Recta de regresión de la concentración de estrona en plasma libre en
función de la concentración de estrona en saliva. Estudiar la bondad del ajuste
c) Regresión parabólica. Estudiar la bondad del ajuste.

Solución:
a) Diagrama de Dispersión
b) Recta de regresión de la concentración de estrona en plasma libre en
función de la concentración de estrona en saliva. Estudiar la bondad del
ajuste.

Los
resultados muestran que
• El coeficiente de correlación lineal de Pearson (R) es igual a 0.954 y el coeficiente
de determinación, R cuadrado, es igual a 0.911. Este valor indica que el 91.1% de
la variabilidad de la concentración de estrona en plasma es explicada por el modelo
propuesto. El grado de ajuste es alto.
• La Tabla ANOVA muestra un valor del estadístico F = 122.880 y un p-valor asociado
menor que 0.001, lo que conduce a rechazar la hipótesis nula de no linealidad. Por
tanto, existe una relación lineal significativa entre Y y X
• La Tabla de los Coeficientes muestra:
• Las estimaciones de los parámetros del modelo de regresión lineal simple, la
ordenada en el origen, ß0=8.645 y la pendiente ß1= 2.727. Por
lo tanto, la ecuación de la recta estimada o ajustada es: y = 8.645 + 2.727 x
• El contraste de la pendiente de la recta que es una alternativa equivalente al
contraste que acabamos de comentar en la Tabla ANOVA. El estadístico de contraste
que aparece en la columna t vale 11.085 tiene un p-valor asociado, columna Sig,
menor que 0.001, menor que el nivel de significación 0.05 que conduce al rechazo
de la hipótesis nula y podemos afirmar que existe una relación lineal significativa
entre Y y X. En la última columna de la tabla se muestran los intervalos de confianza
para ß0 y ß1, al 95%. El intevalo para ß1 es (2.191, 3.263), puesto que el cero no
pertenece al intervalo, hay evidencia empírica para concluir que X influye en Y y por
tanto al nivel de confianza del 95% el parámetro ß1 no podría considerarse igual a
cero.

El gráfico muestra un buen ajuste lineal y una tendencia creciente.


Este gráfico representa las funciones de distribución teórica y empírica de los
residuos tipificados. En el eje de ordenadas se representa la función teórica bajo el
supuesto de normalidad y en el eje de abcisas, la función empírica. Desviaciones de
los puntos del gráfico respecto de la diagonal indican alteraciones de la normalidad.
Observamos la ubicación de los puntos del gráfico, estos puntos se aproximan
razonablemente a la diagonal lo que puede confirmar la hipótesis de normalidad. A
continuación vamos a realizar el estudio analítico de la normalidad de los residuos
mediante el contraste no-paramétrico de Kolmogorov-Smirnov.

Esta tabla muestra la mayor


diferencia entre los resultados esperados en caso de que los residuos surgieran de
una distribución normal y los valores observados. Se distingue entre la mayor
diferencia en valor absoluto, la mayor diferencia positiva y la mayor diferencia
negativa. Se muestra el valor del estadístico Z (0.603) y el valor del p-valor
asociado (0.861). Por lo tanto no se puede rechazar la hipótesis de normalidad de
los residuos.
La homocedasticidad de las varianzas la comprobamos gráficamente: Para ello
representamos los residuos tipificados frente a los valores de y estimados
tipificados. El análisis de este gráfico puede revelar una posible violación de la
hipótesis de homocedasticidad, por ejemplo si detectamos que el tamaño de los
residuos aumenta o disminuye de forma sistemática para algunos valores ajustados
de la variable Y, si observamos que el gráfico muestra forma de embudo… Si por el
contario dicho gráfico no muestra patrón alguno, entonces no podemos rechazar la
hipótesis de igualdad de varianzas.

No apreciamos tendencia clara en este gráfico, los residuos no presentan estructura


definida respecto de los valores predichos por el modelo por lo que no debemos
rechazar la hipótesis de homocedasticidad.

La
hipótesis de independencia de los residuos la realizamos mediante el contraste
de Durbin-Watson. El estadístico de Durbin-Watson mide el grado de
autocorrelación entre el residuo correspondiente a cada observación y la anterior.
Si su valor está próximo a 2, entonces los residuos están incorrelados, si se aproxima
a 4, estarán negativamente autocorrelados y si su valor está cercano a 0 estarán
positivamente autocorrelados. En nuestro caso, toma el valor 2.524,
próximo a 2 lo que indica la incorrelación de los residuos.
c) Regresión parabólica. Estudiar la bondad del ajuste

El modelo ajustado
tiene la siguiente expresión: y = -0.951 + 4.237 x – 0.053 x^2

La representación gráfica de la función ajustada junto con la nube de puntos es


Se aprecia que la función curvilínea se ajusta moderadamente al diagrama de
dispersión.

La comparación del ajuste de ambos modelos se puede realizar a partir de los


valores del coeficiente de determinación de cada uno de ellos, en este caso R
cuadrado (lineal) = 0.911 y R cuadrado (cuadrático) = 0.918. Los resultados en
el caso lineal son un poco menos satisfactorios que el cuadrático.

Se aprecia, en el gráfico que el modelo cuadrático (línea discontinua) se aproxima


un poco mejor a la nube de puntos que el modelo lineal (línea continua).
También podemos realizar la comparación del ajuste de los dos modelos a partir de
las varianzas residuales. Para ello se debe marcar en la ventana de Estimación
curvilínea la opción Mostrar tabla de ANOVA

En la tabla ANOVA se
muestra un p-valor menor que 0.001 menor que el nivel de significación 0.05, por
lo que se rechaza la hipótesis nula de no regresión curvilínea.
Los valores obtenidos de los coeficientes de determinación son: R cuadrado
(lineal) = 0.911 y R cuadrado (cuadrático) = 0.918, puesto que la diferencia entre
ambos coeficientes es muy pequeña, se considerará el modelo lineal por su
simplicidad.

Conviene puntualizar que la elección de un modelo de regresión debe tener en


cuenta no sólo la bondad del ajuste numérico sino también la adecuación gráfica de
los datos al mismo y, finalmente, su adecuación o explicación biológica.

Ejercicio Propuesto 2 (Resuelto)


Se realiza un estudio para investigar la relación entre el nivel de humedad del
suelo y la tasa de mortalidad en lombrices. La tasa de mortalidad, Y, es la
proporción de lombrices de tierra que mueren tras un periodo de dos
semanas; el nivel de humedad, X, viene medido en milímetros de agua por
centímetro cuadrado de suelo. Los datos se muestran en la siguiente tabla.
Se pide:
a) ¿Muestran los datos una tendencia lineal?
b) Determinar la recta de regresión Y/X, el grado de asociación lineal entre la
tasa de mortalidad y el nivel de humedad y la bondad del ajuste realizado en
la recta de regresión. ¿Cuánto explica el modelo?
c) Predecir el nivel de humedad del suelo si la tasa de mortalidad de las
lombrices es 0.7
d) Determinar el coeficiente de correlación lineal de las rectas de regresión
Y/X y X/Y
e) Ajustar los datos mediante una regresión curvilínea
d) ¿Qué ajuste es mejor ¿Lineal? ¿Curvilíneo?

Solución:
a) ¿Muestran los datos una tendencia lineal?

b) Determinar la recta de regresión Y/X, el grado de asociación lineal entre la


tasa de mortalidad y el nivel de humedad y la bondad del ajuste realizado en
la recta de regresión. ¿Cuánto explica el modelo?
c) Predecir el nivel de humedad del suelo si la tasa de mortalidad de las
lombrices es 0.7

Para resolverlo es necesario determinar la recta de regresión X/Y

Para una tasa de mortalidad de 0.7, el nivel de humedad del suelo es 1.1778
d) Determinar el coeficiente de correlación lineal de las rectas de regresión
Y/X y X/Y : r = 0.521
e) Ajustar los datos mediante una regresión curvilínea

d) ¿Qué ajuste es mejor ¿Lineal? ¿Curvilíneo?


Ajuste lineal

Ajuste cuadrático
…………………………………………………………………………………………………………………………………………………

Práctica 4
DISTRIBUCIONES DE PROBABILIDAD:
BINOMIAL, POISSON Y NORMAL

Objetivos
1. Identificar distribuciones
2. Calcular probabilidades de distribuciones
• Función masa de probabilidad
• Función de distribución
3. Calcular cuantiles
4. Generar valores aleatorios de una distribución determinada.

Introducción
En la teoría de la probabilidad existen muchos modelos teóricos que resultan de
utilidad en una gran variedad de situaciones prácticas. En esta práctica se
consideran tres modelos teóricos: Binomial, Poisson y Normal. Para cada uno de
ellos se obtiene la función masa de probabilidad, la función de distribución y se
calculan cuantiles. Por último, se genera una muestra aleatoria de un modelo
determinado.

El estudio de los modelos teóricos de probabilidad con SPSS se realiza aplicando


ciertas funciones desde el menú Transformar/Calcular variable…

IMPORTANTE: Para ello es necesario activar el Editor de datos, es decir, abrir


algún fichero de datos o bien introducir algún número en una casilla, de otra
forma aparece el siguiente mensaje de error.

Introducimos un número en una casilla, por ejemplo el número 1

A continuación, se elige en el menú principal Transformar/Calcular


variable… como resultado de esta acción se muestra el siguiente Cuadro de diálogo
Donde se pueden realizar las siguientes acciones:

• Calcular valores para las variables numéricas o de cadena (alfanuméricas).


• Crear nuevas variables o bien reemplazar los valores de las variables existentes.
Para las nuevas variables, también se puede especificar el tipo y la etiqueta de
variable.
• Calcular valores de forma selectiva para subconjuntos de datos basándose en
condiciones lógicas.
• Utilizar más de 70 funciones preincorporadas, incluyendo funciones aritméticas,
funciones estadísticas, funciones de distribución y funciones de cadena.
• En Variable de destino se introduce el nombre de la variable que contendrá el
resultado de la operación elegida. A la izquierda de este cuadro de diálogo se
muestra una casilla donde aparecen las variables del Editor de datos, en nuestro
caso Var00001.
• En Expresión numérica se escribe la funciónque hay que calcular. Estas
expresiones pueden ser básicas, para lascuales se utiliza directamente el teclado, o
los botones que se muestran debajode esta casilla,

o bien expresiones predeterminadas que están incluidas en SPSS, que se accede a


ellas a través de Funciones y variables especiales, habiendo elegido previamente
algún Grupo de funciones. Entre estas funciones se encuentran aquellas que se van
a utilizar para calcular probabilidades, percentiles y generación de números
aleatorios de determinados modelos teóricos de probabilidad; concretamente los
modelos Binomial, Poisson y Normal.

Función masa de probabilidad


Una variable aleatoria no está perfectamente definida si no se conocen los valores
que puede tomar (recorrido), pero dichos valores son impredecibles. Puesto que el
comportamiento de una variable aleatoria está gobernado por el azar, debemos
determinar dicho comportamiento en términos de probabilidades. Para ello se
utilizan dos funciones: la Función Masa de Probabilidad y la Función de Distribución.
La función masa de probabilidad de una variable aleatoria discreta es una
función que a cada valor posible de dicha v.a. le asigna una probabilidad. Así en los
ejemplos:
• Ejemplo. La v.a. X = “Cara superior de una moneda ” puede tomar los valores X={1,
0} con probabilidades P(X)={1/2, 1/2}. Así, la probabilidad de que la v.a.
• X tome el valor 1, que se denota por P[X=1], vale 1/2 (P[X=1]=1/2) y que
• X tome el valor 0, que se denota por, P[X=0], vale 1/2 (P[X=0]=1/2).
• Ejemplo. La v.a. X = “Máximo de los dos números obtenidos” puede tomar los
valores X={1, 2, 3, 4, 5, 6} con probabilidades P(X)={1/36, 3/36, 5/36, 7/36, 9/36,
11/36}. Así, por ejemplo, P[X=2]=3/36 o P[X=6]=11/36.
la Función Masa de Probabilidad de la variable aleatoria discreta X, se denota
por pi, y se define como la probabilidad de que la v.a. X tome un valor xi, pi=P[X=xi],
si verifica las siguientes propiedades:


• pi ≥ 0 ∀i
En una variable aleatoria continua no tiene sentido determinar una función, como
en las vv.aa. discretas, que asigne a cada valor posible de dicha v.a. una probabilidad;
puesto que la v.a. continua puede tomar infinitos valores y la probabilidad de que la
v.a. tome un valor determinado vale cero. Por ello, en el caso continuo definiremos
una función que nos permita calcular la probabilidad de que la v.a. esté comprendida
en un intervalo de valores específico. Dicha función recibe el nombre de Función de
Densidad de probabilidad, y se denota por f(x).
La Función de Densidad de probabilidad, es una función definida para todos los
números reales tal que satisface las siguientes condiciones:
1. f(x) ≥ 0 (no negativa)∀x

2. (El área comprendida entre la gráfica de f y el eje x es igual a 1)

3. (Para cualquier valor real entre los números a y b, P[a < X <
b] representa el área comprendida entre la gráfica de f(x), el eje OX y las rectas x=a
y x=b).
Para obtener, en SPSS, valores de la función masa de probabilidad y de la función de
densidad de probabilidad de una distribución específica, una vez seleccionado en el
menú principal Transformar/Calcular Variable, en el cuadro de diálogo se
selecciona, en Grupo de funciones, la opción FDP y FDP no centrada.
Esta opción, FDP y FDP no centrada, dado un valor de la variable, permite obtener:
• Si la v.a. es discreta, la probabilidad de que la variable sea igual a dicho valor en el
modelo especificado. Se necesita conocer el valor de la variable y los parámetros que
determinan al modelo.
• Si la v.a. es continua, la densidad de probabilidad del modelo especificado, en el
caso de la distribución Normal, con la media y desviación típica especificadas.
En Funciones y variables especiales se selecciona la distribución
correspondiente:
• PDF.BERNUOILLI(c, prob): Numérico. Devuelve como resultado la probabilidad
de que un valor de la distribución de Bernouilli, con el parámetro de
probabilidad dado sea igual a c, es decir la probabilidad de que la
variable X sea igual a c,P[X = c], siendo X una variable aleatoria con distribución
Bernouilli de parámetros 1 y prob.
• PDF.BINOM(c, n, prob): Numérico. Devuelve como resultado la probabilidad de
que el número de éxitos en n ensayos, con probabilidad de éxito p en cada uno
de ellos, sea igual a c. Es decir, la probabilidad de que la variable X sea igual
a c, P[X = cant], siendo X una variable aleatoria con distribución Binomial de
parámetros n y prob. Cuando n es 1 el valor es el mismo que el de PDF.BERNUOILLI
• PDF.POISSON(c, media): Numérico Devuelve como resultado la probabilidad de
que un valor de la distribución de Poisson, con el parámetro de media o tasa
especificado, sea igual a c. Es decir, probabilidad de que la variable X sea igual
a c, P[X = cant], siendo X una variable aleatoria con distribución de Poisson de
parámetro media.
• PDF.NORMAL(cant, media, desv_tip): Numérico. Devuelve como resultado la
densidad de probabilidad de la distribución Normal, con la media y desviación
típica especificadas, en c.

Función de distribución
Se define la Función de Distribución de la variable aleatoria X, y se denota por F{X},
como la probabilidad de que la v.a. Xtome un valor menor o igual que x

Es decir, F{X} es una función de los números reales, R,


en el intervalo [0,1]

La variable aleaoria discreta está


caracterizada por la función masa de probabilidad. Conocidos los valores pi se
puede conocer la función de distribución. En efecto,

Propiedades
• P1) F{X}(.) es una función no-decreciente
• P2) F{X}(.) es continua a la derecha
• P3) F{X}(+∞) = +1 y F{X}(-∞) = 0
• P4) P[x1 < X ≤ x2] = F(x2) – F(x1)
• P5) P[X > x] = 1 – F(x)
Dada una variable aleatoria continua X, recibe el nombre de Función de
Distribución, y se denota por F{X} (o F cuando en el contexto está claro a la v.a. que
se refiere), la función F: R→ [0,1] definida por:

La función de densidad y la función de


distribución de una v.a. continua están relacionadas:

Por lo tanto se verifica:


1. P[a < X < b] = F(b) – F(a)
2. P[X < a] = F(a)
3. P[X > b] = 1 – F(b)
La función de distribución es monótona no-decreciente, continua por lo menos a la
derecha y tal que Se comprueba fácilmente que
si X es una v.a. continua entonces la probabilidad del suceso X igual a constante es
cero, P[X = a] = 0, aunque no es el suceso imposible. En efecto,

Para obtener valores de la función de distribución


de un determinado modelo, en SPSS, se selecciona en Grupo de funciones la
opción FDA y FDA no centrada. Dado un valor de la variable, permite obtener la
probabilidad de que la variable sea menor o igual a dicho valor en el modelo
especificado. Se necesita conocer el valor de la variable y los parámetros que
determinan al modelo. Y en Funciones y variables especiales se selecciona la
distribución correspondiente:
• CDF.BERNOUILLI(c, prob): Numérico. Devuelve como resultado la probabilidad
acumulada de que un valor de la distribución de Bernouilli, con el parámetro
de probabilidad dado, sea menor o igual que c. Es decir, la probabilidad de que
la variable X sea menor o igual que c, P[X ≤ c], siendo X una variable aleatoria con
distribución de Bernouilli de parámetros 1 y prob.
• CDF.BINOM(c, n, prob): Numérico. Devuelve como resultado la probabilidad
acumulada de que el número de éxitos en n ensayos, con probabilidad de éxtio
p en cada uno de ellos, sea menor o igual que c. Es decir, la probabilidad de que
la variable X sea menor o igual que c, P[X ≤ cant], siendo X una variable aleatoria con
distribución Binomial de parámetros ny prob. Cuando n es 1 el valor es el mismo
que el de CDF.BERNUOILLI
• CDF.POISSON(c, media): Numérico. Devuelve como resultado la probabilidad
acumulada de que un valor de la distribución de Poisson, con el parámetro de
media o tasa especificado, sea menor o igual que c. Es decir, la probabilidad de
que la variable X sea menor o igual que c, es decir, P[X ≤ cant], siendo X una variable
aleatoria con distribución de Poisson de parámetro
media.
• CDF.NORMAL(c, media, desv_típ): Numérico. Devuelve como resultado la
probabilidad acumulada de que un valor de la distribución Normal, con la
media y desviación típica especificadas, sea menor o igual que c. Es decir, la
probabilidad de que la variable X sea menor o igual que c, P[X ≤ cant], siendo X una
variable aleatoria con distribución Normal de parámetros media y desv_típ.

Calcular cuantiles
Para calcular cuantiles de una distribución específica se selecciona en Grupo de
funciones la opción GL inversos. Dada una probabilidad acumulada, permite
obtener el valor de la variable que acumula dicha probabilidad en un modelo
determinado. Se necesita conocer la probabilidad acumulada y los parámetros del
modelo.
• IDF.NORMAL(p, media, desv_típ): Numérico. Devuelve como resultado el valor de
la distribución Normal de parámetros media y desv_típ especificadas, cuya
probabilidad acumulada es p, es decir, calcula un valor x tal que P[X ≤ x] = p,
siendo X una variable aleatoria con distribución Normal de
parámetros media y desv_típ.

Generar valores aleatorios de una distribución


determinada
Para generar un conjunto de valores aleatorios procedentes de un modelo
determinado se selecciona en Grupo de funciones la opción Números aleatorios.
El número de valores generados dependerá del número de filas que se tengan
activas en el Editor de datos, por lo que se tienen que activar tantas filas como
números aleatorios se quieran generar. Así
• RV.BERNOUILLI(p): Numérico. Devuelve como resultado un valor aleatorio de
una distribución de Bernouilli con el parámetro de probabilidad p
especificado.
• RV.BINOM(n, p): Numérico. Devuelve como resultado un valor aleatorio de una
distribución Binomial con el número de intentos n y el parámetro de
probabilidad p especificados.
• RV.POISSON(media): Numérico. Devuelve como resultado un valor aleatorio de
una distribución de Poisson de parámetromedia o tasa especificado.
• RV.NORMAL(media, desv_típ): Numérico. Devuelve como resultado un valor
aleatorio de una distribución Normal de parámetros media y
desv_típ especificadas

Supuesto práctico 1
El delegado de zona de una casa dedicada a la fabricación de calculadoras
electrónicas vende, el mismo día a distintas empresas de una misma localidad,
5 máquina iguales. La probabilidad de que este tipo de calculadoras estén en
funcionamiento 3 años después es 0,8. Calcular la probabilidad de que:
a) Las cinco calculadoras estén fuera de servicio 3 años más tarde
b) Estén en servicio 3 años más tarde
c) Dos calculadoras a lo sumo estén fuera de servicio
d) Tres calculadoras estén fuera de servicio
e) Generar una muestra de tamaño 15.
Solución
Suceso éxito: “ Máquina que funciona tres años después” => P[éxito] = 0.8
Se define la siguiente variable aleatoria: X = ”Nº de máquinas que funcionan tres
años después de 5 máquinas”. Esta variable aleatoria tiene distribución Binomial de
parámetros n = 5 y prob = 0.8.
Nota: Recordar que es necesario activar el Editor de datos, es decir, abrir algún
fichero de datos o bien introducir algún número en una casilla, de otra forma
aparece un mensaje de error.
a) Las cinco calculadoras estén fuera de servicio 3 años más tarde
P[todas las calculadores esten fuera de servicio] = P[X =0] =
PDF.BINOM(0,5,0.8)

Se pulsa Aceptar y Continuar

P[X =0] = 0.00032


b) Estén en servicio 3 años más tarde
P[todas las calculadores esten en servicio] = P[X =5]= PDF.BINOM(5,5,0.8)
P[X =5] = 0.32768
c) Dos calculadoras a lo sumo estén fuera de servicio
P[Dos calculadoras a lo sumo estén fuera de servicio] = P[X ≥ 3] = 1- P[X < 3]=
1- CDF.BINOM(2,5,0.8)

d) Tres calculadoras estén fuera de servicio


P[Tres calculadoras estén fuera de servicio] = P[X = 2] = PDF.BINOM(2,5,0.8)
P[X = 2] = 0.05120
e) Generar una muestra de tamaño 15
Nota: Recordar que para generar números aleatorios hay que activar tantas filas en
el Editor de datos como números aleatorios se quieren generar. En este caso 15.
Supuesto práctico 2
La probabilidad de que un individuo sufra reacción al inyectarle un
determinado suero es 0.1.
1. Si se inyecta el suero a una muestra de 30 personas, calcular la probabilidad
de que menos de 2 sufran reacción
2. Calcular la probabilidad de que sufran reacción entre 33 y 50 personas de una
muestra de 400.
Solución
A cada individuo al que se le administra el suero sufre o no reacción
independientemente del resto, por lo tanto se tiene que:

Número de individuos que se sufren reacción en una muestra de n individuos se


distribuye según una Binomial de parámetros n y p
1. Si se inyecta el suero a una muestra de 30 personas, calcular la probabilidad
de que menos de 2 sufran reacción
X: {Número de individuos que sufren reacción}; X→B(30, 0.1)
P[X < 2] = CDF.BINOM(1,30,0.1)
P[X < 2] = P[X = 0] + P[X =1] = 0.830537
2. Calcular la probabilidad de que sufran reacción entre 33 y 50 personas de
una muestra de 400.
Y: {Número de individuos que sufren reacción de una muestra de 400};
Y→B(400, 0.1)
• n = 400 > 10
• np = 40 > 5
• n(1- p) = 360 > 5
Por lo tanto
P[33 < X < 50] = P[X < 50] – P[X < 33] = CDF.NORMAL(49,40,6)
– CDF.NORMAL(33,40,6)
P[33 < X < 50] = 0.830537

Supuesto práctico 3
Se sabe por experiencia que la altura de la población de pino albar (Pinus
sylvestris) sigue una distribución normal de media 25 metros y desviación
típica 2.5 metros. Se pide:
1. Calcular la probabilidad de que un pico albar tenga una altura inferior a 24.8
metros
2. Calcular la altura máxima del 16.6% de los pinos con menor altura.
Solución
X: {Altura del pino Albar}; X→N(25, 2.5)
1. Calcular la probabilidad de que un pino Albar tenga una altura inferior a
24.8 metros
P[X < 24.8] = CDF.NORMAL(24.8,25,2.5)
P[X < 24.8] = CDF.NORMAL(24.8,25,2.5) = 0.468118
2. Calcular la altura máxima del 16.6% de los pinos con menor altura.

P[X < x] = 0.166 = IDF.NORMAL(0.116,25,2.5)

P[X < x] = 0.166 ; x = 22.574766

Supuesto práctico 4
La concentración en plomo en partes por millón en la corriente sanguínea de
un individuo tiene una media de 0.25 y una desviación típica de 0.11.
Supongamos que dicha concentración sigue una ley Normal. Se pide:
1. Una concentración superior o igual a 0.6 partes por millón se considera
extremadamente alta. ¿Cuál es la probabilidad de que un individuo
seleccionado aleatoriamente esté incluido en esta categoría?
2. ¿Cuál es la concentración mínima del 30% de los individuos con mas
concentración?
3. Determinar la mediana de esta distribución.
Solución
X: {Concentración en plomo}; X→N(0.25, 0.11)
1. Una concentración superior o igual a 0.6 partes por millón se considera
extremadamente alta. ¿Cuál es la probabilidad de que un individuo
seleccionado aleatoriamente esté incluido en esta categoría?
P[X ≥ 0.6] = 1- CDF.NORMAL(0.60,0.25,0.11)

P[X ≥ 0.6] = 0.00073176


2. ¿Cuál es la concentración mínima del 30% de los individuos con mas
concentración?
P[X < x] = 0.70 = IDF.NORMAL(0.70,0.25,0.11)

P[X < x] = 0.70; x = 0.307684


3. Determinar la mediana de esta distribución.
Mediana = Media = Moda = 0.25

Supuesto práctico 5
En un laboratorio se está estudiando el crecimiento de cierto cultivo, se
supone que la aparición de nuevas células sigue una ley de Poisson de media
16 células cada minuto. Obtener:
1. La probabilidad de que en un minuto aparezcan al menos 10 células
2. La probabilidad de que aparezcan entre 10 y 20
Solución
X: {Aparición de nuevas celulas}; X→P(16)
1. La probabilidad de que en un minuto aparezcan al menos 10 células
P[X ≥ 10] = 1- CDF.POISSON(10,16)

P[X ≥ 10] = 0.9226039


2. La probabilidad de que aparezcan entre 10 y 20
P[9 ≤ X ≤ 19] = CDF.POISSON(19,16)– CDF.POISSON(9,16)
P[9 ≤ X ≤ 19] = 0.7689502

Ejercicios

Ejercicios Guiados
A continuación se va a proceder a iniciar una aplicación Java, comprueba que
tengas instalada la Máquina Virtual Java para poder ejecutar aplicaciones en
Java.Si no tienes instalada la Máquina Virtual Java (Java Runtime
Environment – JRE) pincha en uno de los enlaces para descargarla: java

Instalación directa de la JRE 7 para WindowsPágina oficial de Sun Microsystems,


descarga de la JRE para cualquier plataforma
Ejercicio

1
Ejercicio
Si ya tienes instalada la Máquina Virtual Java pincha en el siguiente
enlace para proceder a la ejecución de los ejercicios guiados
2
Ejercicio

3
IMPORTANTE: Si al descargar el archivo *.JAR del ejercicio tu gestor de
descargas intenta guardarlo como *.ZIP debes cambiar la extensión a .JAR para
poder ejecutarlo.
Enunciado del Ejercicio 1
Se pretende comprobar la efectividad de una determinada vacuna contra la
gripe. Para ello se administra dicha vacuna a un grupo de 15 pacientes. La
probabilidad de que el paciente vacunado contraiga la gripe es 0.3. Calcula las
siguientes probabilidades:
1. Ningún paciente contraiga la gripe
2. Más de dos pacientes contraigan la gripe
3. Contraigan la gripe entre tres y cinco pacientes, ambos inclusive
4. Generar una muestra aleatoria de tamaño 20 de valores de una distribución
Binomial de parámetros n = 10 y prob = 0.2.
Enunciado del Ejercicio 2
En un servicio de urgencias de un determinado hospital se sabe que por
término medio llegan diez pacientes durante una hora. Calcula la
probabilidad de que:
1. Lleguen exactamente cinco pacientes en una hora
2. Lleguen menos de quince pacientes en dos horas
3. Lleguen más de cuatro y menos de ocho pacientes en una hora
4. Generar una muestra de tamaño 15 para una distribución de Poisson de
parámetro media igual a 30.
Enunciado del Ejercicio 3
Se ha estudiado el nivel de glucosa en sangre en ayunas en un grupo de
diabéticos. Esta variable se supone que sigue una distribución Normal, con
media 106 mg/100 ml y desviación típica 8 mg/100 ml.
Se pide:
1. Obtener la probabilidad de que el nivel de glucosa en sangre en un diabético
sea inferior a 120 mg/100 ml
2. ¿Qué porcentaje de diabéticos tienen niveles de glucosa en sangre
comprendidos entre 90 y 130 mg/100 ml?
3. Hallar el valor de la variable caracterizado por la propiedad de que el 25% de
todos los diabéticos tiene un nivel de glucosa en ayunas inferior a dicho valor
4. Generar una muestra de tamaño 12 para la una distribución Normal con
media igual a 5 y desviación típica igual a 3.
Ejercicios Propuestos
Ejercicio Propuesto 1
Una prueba de laboratorio para detectar heroína en sangre tiene un 92% de
precisión. Si se analizan 72 muestras en un mes. Calcular las siguientes
probabilidades:
1. 60 o menos estén correctamente evaluadas
2. Menos de 60 estén correctamente evaluadas
3. Exactamente 60 estén correctamente evaluadas
4. Generar una muestra de tamaño 12.

Ejercicio Propuesto 2
En una cierta población se ha observado que el número medio anual de
muertes por cáncer de pulmón es 12. Si el número de muertes causadas por la
enfermedad sigue una distribución de Poisson, calcular las siguientes
probabilidades:
1. Haya exactamente 10 muertes por cáncer de pulmón en un año
2. 15 o más personas mueran a causa de la enfermedad durante un año
3. 10 o menos personas mueran a causa de la enfermedad en 6 meses.

Ejercicio Propuesto 3
En cierta especie de aves, se ha detectado una contaminación apreciable de
mercurio (Hg) en sangre. La concentración de mercurio en sangre está
distribuida normalmente con media 0.25 ppm (partes de Hg por millón, en
plasma) y desviación típica 0.08 ppm.
1. ¿Cuál es la probabilidad de que un ave presente un nivel de mercurio en
sangre superior a 0.40 ppm ?
2. ¿Cuál es la probabilidad de que un ave tenga un nivel de mercurio en sangre
entre 0.20 y 0.50 ppm?
3. ¿Cuál es el nivel máximo de concentración de mercurio en sangre del 40% de
las aves menos contaminadas?
4. Generar una muestra de tamaño 10.

Ejercicio Propuesto 1 (Resuelto)


Una prueba de laboratorio para detectar heroína en sangre tiene un 92% de
precisión. Si se analizan 72 muestras en un mes. Calcular las siguientes
probabilidades:
1. 60 o menos estén correctamente evaluadas
2. Menos de 60 estén correctamente evaluadas
3. Exactamente 60 estén correctamente evaluadas
4. Generar una muestra de tamaño 12.

Solución:
Suceso éxito: “ Prueba evaluada correctamente” => P[éxito] = 0.92
Se define la siguiente variable aleatoria: X = ”Nº de pruebas evaluadas
correctamente de 72 muestras”
Esta variable aleatoria tiene distribución Binomial de parámetros n = 72 y prob =
0.92. A continuación se calculan las probabilidades pedidas.

Nota: Recordar que es necesario activar el Editor de datos, es decir, abrir algún
fichero de datos o bien introducir algún número en una casilla, de otra forma
aparece el siguiente mensaje de error.
1. Calcular la probabilidad de que 60 o menos están correctamente evaluadas
P[60 o menos pruebas estén correctamente evaluadas] = P[X ≤ 60]=
CDF.BINOMIAL(60,72,0.92) = 0.0114
2. Calcular la probabilidad de que menos de 60 estén correctamente evaluadas
P[menos de 60 pruebas estén correctamente evaluadas] = P[X < 60] = P[X ≤ 59] =
0.0043
3. Calcular la probabilidad de que exactamente 60 estén correctamente
evaluadas
P[exactamente 60 estén correctamente evaluadas] = P[X = 60]
= PDF.BINOMIAL(60,72,0.92) = 0.0070
4. Generar una muestra de tamaño 12

En primer lugar hay que activar en el Editor de datos tantas filas como números
aleatorios se vayan a generar, en este caso 12. Para ello, se pincha con el ratón en la
casilla correspondiente de la Columna 1 y Fila 12 y se escribe un número cualquiera
en la última casilla. Se puede comprobar como automáticamente las 12 primeras
filas se han activado (el número de filas aparece en negrita) y esto permite generar
12 números aleatorios.

A continuación se accede al menú Transformar/Calcular…


RV.BINOMIAL(72, 0.92)

Ejercicio Propuesto 2 (Resuelto)


En una cierta población se ha observado que el número medio anual de
muertes por cáncer de pulmón es 12. Si el número de muertes causadas por la
enfermedad sigue una distribución de Poisson, calcular las siguientes
probabilidades:
1. Haya exactamente 10 muertes por cáncer de pulmón en un año
2. 15 o más personas mueran a causa de la enfermedad durante un año
3. 10 o menos personas mueran a causa de la enfermedad en 6 meses.

Solución:
Se define la siguiente variable aleatoria: X = ”Nº de muertes por cáncer de pulmón
en un año”. Esta variable aleatoria tiene distribución de Poisson de parámetro λ =
12. Seguidamente se calculan las probabilidades pedidas.

1. Calcular la probabilidad de que haya exactamente 10 muertes por cáncer de


pulmón en un año
P[Haya exactamente 10 muertes por cáncer de pulmón en un año] = P[X = 10]
= PDF.POISSON(10,12)= 0.1048
2. Calcular la probabilidad de que más personas de 15 personas mueran a
causa de la enfermedad durante un año
P[más de 15 personas mueran a causa de la enfermedad durante un año] = P[X > 15]
= 1 – P[X ≤ 15] = 1-CDF.POISSON(15,12) = 0.1555
3. Calcular la probabilidad de que 10 o menos personas mueran a causa de la
enfermedad en 6 meses.

Se define una nueva variable, Y = ”Nº de muertes por cáncer de pulmón en seis
meses”. Esta variable aleatoria tiene distribución de Poisson de parámetro λ = 6. A
partir de aquí se calcula la probabilidad que se pide.

P[10 o menos personas mueran a causa de la enfermedad en 6 meses] = P[Y ≤ 10]


= CDF.POISSON(10,6) = 0.9573

Ejercicio Propuesto 3 (Resuelto)


En cierta especie de aves, se ha detectado una contaminación apreciable de
mercurio (Hg) en sangre. La concentración de mercurio en sangre está
distribuida normalmente con media 0.25 ppm (partes de Hg por millón, en
plasma) y desviación típica 0.08 ppm.
1. ¿Cuál es la probabilidad de que un ave presente un nivel de mercurio en
sangre superior a 0.40 ppm ?
2. ¿Cuál es la probabilidad de que un ave tenga un nivel de mercurio en sangre
entre 0.20 y 0.50 ppm?
3. ¿Cuál es el nivel máximo de concentración de mercurio en sangre del 40% de
las aves menos contaminadas?
4. Generar una muestra de tamaño 10.

Solución:
Se define la siguiente variable aleatoria: X = ”Concentración de mercurio en sangre”.
Esta variable aleatoria tiene distribución Normal con parámetros µ = 0.25 y σ = 0.08.
A continuación calculan las probabilidades pedidas.

1. ¿Cuál es la probabilidad de que un ave presente un nivel de mercurio en


sangre superior a 0.40 ppm?
P[Un ave presente un nivel de mercurio en sangre superior a 0.40 ppm] = P[X > 0.40]
= 1 – P[X ≤ 0.40] = 1-CDF.NORMAL(0.40,0.25,0.08) = 0.0303
2. ¿Cuál es la probabilidad de que un ave tenga un nivel de mercurio en sangre
entre 0.20 y 0.50 ppm?
P[Un ave tenga un nivel de mercurio en sangre entre 0.20 y 0.50 ppm] = P[0.20 < X
< 0.50] = P[X < 0.50] – P[X ≤ 0.20]
= CDF.NORMAL(0.50,0.25,0.08) – CDF.NORMAL(0.20,0.25,0.08) = 0.7331
3. ¿Cuál es el nivel máximo de concentración de mercurio en sangre del 40%
de las aves menos contaminadas?

Se pide calcular el percentil 40 de la distribución, es decir, calcular P40, tal que P[X
< P40] = 0.40.
Se elige en Expresión numérica la función que calcula un valor de la distribución
Normal considerada tal que acumula una probabilidad dada. Para ello, se selecciona
en Grupo de funciones la opción Gl inversos y en Funciones y variables
especialesse selecciona la función IDF.NORMAL(p,media,desv_típ). Se modifican
los parámetros, p = 040., media = 0.25 y desv_típ = 0.08.
P[X < P40] = 0.40 => IDF.NORMAL(0.40,0.25,0.08) = 0.2297 => P40 = 0.2297
4. Generar una muestra de tamaño 10

En primer lugar hay que activar en el Editor de datos tantas filas como números
aleatorios se vayan a generar, en este caso 10. Para ello, se pincha con el ratón en la
casilla correspondiente de la Columna 1 y Fila 10 y se escribe un número cualquiera
en la última casilla. Se puede comprobar como automáticamente las 10 primeras
filas se han activado (el número de fila aparece en negrita) y esto permite generar
10 números aleatorios.

A continuación se accede al menú Transformar/Calcular…


RV.NORMAL(0.25,0.08)

………………………………………………………………………………………………

Práctica 5

INTERVALOS DE CONFIANZA

Objetivos
1. Obtener un intervalo de confianza para la media de una población normal.

2. Obtener un intervalo de confianza para la diferencia de medias de dos poblaciones


normales independientes.

3. Obtener un intervalo de confianza para la diferencia de medias de dos poblaciones


normales relacionadas.

Introducción
El objetivo de la estimación por intervalos de confianza es obtener un intervalo,
en el cual se encuentra el verdadero valor del parámetro con una determinada
probabilidad. Dicha probabilidad se denomina nivel de confianza (1−α), donde α es
el nivel de significación.
En término generales, la construcción de un intervalo de confianza para un
parámetro desconocido θ consiste en encontrar dos funciones de los valores
muestrales
t ales que

donde:

• 1- α recibe el nombre de coeficiente de confianza o nivel de confianza. Es la


probabilidad de que un intervalo de confianza contenga el verdadero valor del
parámetro
• α es un número pequeño comprendido entre 0 y 1, 0 < α <1 (usualmente próximo a
0). Es el riesgo de que el intervalo no contenga el valor del parámetro a estimar θ,
por lo que α recibe el nombre de riesgo del error del intervalo, nivel del error
del intervalo o nivel de significación del intervalo.
• reciben el nombre de límite inferior y superior de confianza,
respectivamente
Este intervalo recibe el nombre Intervalo de confianza con coeficiente de
confianza 1- α. Se desea que el coeficiente de confianza sea próximo a la unidad y
que la amplitud del intervalo sea lo más pequeña posible.

SPSS proporciona intervalos de confianza para:

• Media poblacional con varianza desconocida


• Diferencia de medias en poblaciones independientes con varianzas
desconocidas
• Diferencia de medias en poblaciones relacionadas.

Intervalo de confianza para la media de una


población normal
SPSS construye intervalos de confianza para la media en el caso de varianza
desconocida.
Intervalo de confianza para la media de una distribución
N(μ, σ) con varianza desconocida
Supongamos una muestra aleatoria, X1, X2, …, X{n}, de una distribución Normal con
media μ, y varianza σ², ambas desconocidas y vamos a hallar un intervalo de
confianza para la media poblacional μ. Para ello, consideremos la variable aleatoria

que tiene una distribución t-Student con n-1 grados de libertad.


Tenemos que determinar el valor del cuantil t{α/2; n-1} tal que
También se puede expresar en función
de la cuasidesviación típica muestral S.
Dado que se verifica la siguiente realción:
Tenemos la siguiente expresión del intervalo de confianza
para μ

Por lo tanto, la probabilidad de


que el intervalo aleatorio

contenga el verdadero valor de la media μ es 1-α.

Para realizar un intervalo de confianza para la media de una población normal


mediante SPSS se selecciona, en el menú principal, Analizar/Estadísticos
descriptivos/Explorar…
Se muestra el siguiente Cuadro de diálogo

donde la variable a analizar, en este caso VAR1, se pasa a la ventana Dependientes:

Por defecto SPSS calcula el intervalo de confianza a un nivel del 95%, para modificar
este nivel se pulsa Estadísticos…
Para obtener el intervalo se pulsa Continuar y seguidamente Aceptar.
Alternativamente este intervalo de confianza también puede obtenerse
seleccionando en el menú principal Analizar/Comparar medias/Prueba T para
una muestra…

Se muestra el siguiente Cuadro de diálogo

donde se pasa la variable a la ventana Contrastar variables: y en el campo Valor


de prueba se deja el valor 0 que viene por defecto (en la Práctica 6 sobre contrastes
de hipótesis se aclarará este valor)
El nivel de confianza se puede
modificar pulsando el botón Opciones…

Para obtener el intervalo se


pulsa Continuar y seguidamente Aceptar.

Supuesto práctico 1
En una muestra de 9 preparados de jugo de tomate se ha obtenido los
siguientes datos del contenido de vitamina C en mg/100 cc.
21,60; 19,72; 18,92; 23,01; 17,98; 22,06; 25,01; 21,98; 20,80
Supuesto que el contenido de vitamina C del jugo de tomate se distribuye
normalmente. Se pide:
a) Estimar el contenido medio, en vitamina C, del jugo de tomate
b) Calcular un intervalo de confianza al 95% para dicha cantidad.
Respuesta:
a) Estimar el contenido medio, en vitamina C, del jugo de tomate
El estimador pedido es la media muestral
b) Calcular un intervalo de confianza al 95% para dicha cantidad.
Seleccionar en el menú principal Analizar/Comparar medias/Prueba T para una
muestra…
En el campo Contrastar
variables: se introduce la variable Conte_VitaminaC y en el campo Valor de
prueba se deja el valor 0que viene por defecto. Se pulsa Aceptar y se obtienen las

siguientes salidas

Por lo tanto, hay un 95% de confianza de que el intervalo [19.5734, 22.8888]


contenga al contenido medio, en vitamina C, del jugo de tomate.

Intervalo de Confianza para la diferencia de medias


en muestras independientes
Dos muestras se dicen que son independientes cuando las observaciones de una de
ellas no condicionan a las observaciones de la otra.

Supongamos que X e Y son dos variables aleatorias independientes y tales que


X→N(μX, σX) e Y→N(μY, σY)

Sea (X1, X2, …, Xnx) una m.a.s. de tamaño nx extraída de la población N(N(μX, σX) y
denotamos por , a la media muestral y a la varianza muestral,
respectivamente.
Sea (Y1, Y2, …, Yny) una m.a.s. de tamaño ny extraída de la población N(μY, σY) y
denotamos por , a la media muestral y a la varianza muestral,
respectivamente.

Supongamos que interesa comparar las dos medias poblaciones, podemos construir
un intervalo de confianza para μX − μY para el caso de varianzas poblacionales
desconocidas. Entonces la variable aleatoria
donde

Por lo tanto, el intervalo de confianza para la diferencia de medias se determina de


la siguiente forma

SPSS construye intervalos de


confianza para la diferencia de medias en el caso de varianzas poblacionales
desconocidas.

Para la realización de dichos intervalos los datos se deben introducir de la siguiente


forma: Se crean dos variables, una de ellas contiene todas las observaciones y la otra
variable es una variable indicadora del grupo al que pertenece cada uno de los
valores observados.

Se selecciona, en el menú principal, Analizar/Comparar medias/Prueba T para


muestras independientes…
Se muestra el siguiente Cuadro de diálogo

Se introduce en el campo Contrastar


variables: la variable que contiene los valores observados y en el campo Variable
de Agrupación: la variable que indica la muestra a la que pertenece cada uno de los
valores
A continuación se definen
los dos grupos que determinan cada una de las muestras, para ello se pulsa el
botón Definir grupos…

Se introducen los valores asignados a cada muestra


y se pulsa Continuar. El nivel de confianza, se puede modificar en Opciones..

Se pulsa Continuar y Aceptar

Supuesto práctico 2
Dos laboratorios A y B realizan determinaciones de nicotina en 4 unidades de
tabaco, con los resultados siguientes:
Lab. A: 16, 14, 13, 17 Lab. B: 18, 21, 18, 19
Suponiendo que las dos poblaciones examinadas son normales e
independientes con igual varianza, estimar la diferencia del contenido medio
en nicotina del tabaco a un nivel de confianza del 95%.
Respuesta:
Se introducen los datos
Se selecciona, en el menú
principal, Analizar/Comparar medias/Prueba T para muestras

independientes… Se

pulsa Definir grupos…. Se introducen los valores


asignados a cada muestra y se pulsa Continuar y Aceptar. Se obtienen las

siguientes salidas

En este caso la prueba de Levene nos muestra un p-valor igual a 0.356, al ser mayor
que el nivel de significación 0.05, indica que no se debe rechazar la igualdad de
varianzas con un nivel de confianza del 95%. Por tanto, el intervalo de confianza
resultante es aquel en el que “Se han asumido varianzas iguales” (-6.825, -1.175). De
este resultado se deduce que el contenido medio de nicotina difiere de un
laboratorio a otro, (el intervalo no contiene al 0), siendo dicho contenido mayor en
el laboratorio B que en laboratorio A.

Intervalo de Confianza para la diferencia de medias


en muestras relacionadas
En las muestras apareadas, cada observación de una muestra está emparejado con
una observación de la otra muestra, por lo tanto consideramos parejas de valores
(x,y).
Supongamos que X e Y son dos variables aleatorias tales que X→N(μX, σX) e Y→N(μY,
σY) y consideremos la diferencia de poblaciones D = X−Y. Entonces, D→N(μD, σD)
Se selecciona una muestra aleatoria de diferencias, Di = Xi−Yi ; i = 1, 2, ⋯, n
El valor medio de D es la diferencia de los valores medios de X e Y:

La varianza de D es:
Por lo tanto el problema original de realizar una
inferencia sobre dos muestras se reduce al problema de realizar la inferencia sobre
una muestra que consiste en construir un intervalo de confianza para la media de la
población de diferencias. Para la realización de este intervalo de confianza
recurrimos a los métodos utilizados anteriormente. En particular, construyamos el
intervalo de confianza para μX−μY=μD. Para ello, consideremos la variable aleatoria

que tiene una distribución t-Student con n−1 grados de libertad.


Tenemos que determinar el valor del cuantil tα/2;n−1 tal que

donde son la
media muestral y la cuasidesviación típica muestral de la muestra de diferencias,
respectivamente.

Para realizar un intervalo de confianza para la diferencia de medias en muestras


relacionadas mediante SPSS.

En este caso las observaciones se introducen de forma que cada muestra esté en una
columna del Editor de Datos de SPSS
Se selecciona, en el menú
principal, Analizar/Comparar medias/Prueba T para muestras
relacionadas…

Se muestra el siguiente Cuadro de


diálogo

Se seleccionan simultáneamente los


pares de variables que se desean comparar y se pasan a Variables relacionadas:
En Opciones… se puede
cambiar el nivel de confianza

Se pulsa Continuar y Aceptar.

Supuesto práctico 3
Se realiza un estudio, en el que participan 10 individuos, para investigar el
efecto del ejercicio físico en el nivel de colesterol en plasma. Antes del
ejercicio se tomaron muestras de sangre para determinar el nivel de
colesterol de cada individuo. Después, los participantes fueron sometidos a un
programa de ejercicios. Al final de los ejercicios se tomaron nuevamente
muestras de sangre y se obtuvo una segunda lectura del nivel de
colesterol. Los resultados se muestran a continuación:

Construir un intervalo de confianza de μD para un nivel de confianza del 95%


Respuesta:
Se introducen los datos
Se selecciona, en el menú principal, Analizar/Comparar
medias/Prueba T para muestras relacionadas… Y en el cuadro de diálogo
resultante se seleccionan simultáneamente los pares de variables que se desean
comparar y se pasan a Variables relacionadas:

Se pulsa Aceptar y se
muestran las siguientes salidas

Por lo tanto, podemos tener un 95% de confianza en que la diferencia media de


niveles de colesterol en plasma está entre -3.789 y 77.989. Es decir, podemos tener
un 95% de confianza de que el nivel medio de colesterol se reducirá como mínimo
en 0.475 unidades.
Ejercicios
Ejercicios Guiados
A continuación se va a proceder a iniciar una aplicación Java, comprueba
que tengas instalada la Máquina Virtual Java para poder ejecutar
aplicaciones en Java.Si no tienes instalada la Máquina Virtual Java (Java
Runtime Environment – JRE) pincha en uno de los enlaces para
descargarla: java

Instalación directa de la JRE 7 para WindowsPágina oficial de Sun


Microsystems, descarga de la JRE para cualquier plataforma

Ejercicio
Si ya tienes instalada la Máquina Virtual Java pincha en el siguiente enlace
para proceder a la ejecución de los ejercicios guiados
1
IMPORTANTE: Si al descargar el archivo *.JAR del ejercicio tu gestor de
descargas intenta guardarlo como *.ZIP debes cambiar la extensión a .JAR para
poder ejecutarlo.

Enunciado del Ejercicio 1


Se desea comprobar el efecto de 2 fertilizantes (A y B) sobre la producción de
unos árboles frutales, para ello se toman dos grupos de 8 y 10 árboles
seleccionados aleatoriamente y se le añade al agua de riego de cada uno de los
grupos de árboles el fertilizante A y B, respectivamente. La producción en ese
año fue la siguiente (en Kg):

Se pide:
1. Obtener un intervalo de confianza al 99% para la producción media de los
árboles tratados con el Fertilizante A y para la producción media de los
árboles tratados con el Fertilizante B
2. Obtener un intervalo de confianza al 98% para la diferencia entre la
producción media de los árboles tratados con el Fertilizante A y con el
Fertilizante B
3. La producción de los árboles tratados con el Fertilizante A en el año anterior
viene reflejada en la siguiente tabla. Obtener un intervalo de confianza al 99%
para la diferencia de medias, en la producción antes y después de tratar los
árboles con dicho fertilizante.
Ejercicios Propuestos
Ejercicio Propuesto 1
Se desea estudiar si la longitud del pico en una especie de loro es distinta entre
los machos y las hembras. Para ello se selecciona una muestra de 14 machos y
12 hembras, cuyos resultados, expresados en milímetros, se muestran en la
siguiente tabla:

Se pide:
1. Obtener un intervalo de confianza a un nivel del 99%
• para la longitud media del pico en los machos
• para la longitud media del pico en las hembras
2. Obtener un intervalo de confianza a un nivel del 99% para la diferencia entre
la longitud media del pico de los machos y de las hembras.

Ejercicio Propuesto 2
Para comprobar si un determinado pienso puede mejorar la producción de
lana de las ovejas, se selecciona una muestra aleatoria simple de 10 ovejas
para ser alimentadas con dicho pienso. En la tabla siguiente se muestra el peso
(en Kgr) de la lana producida antes y después del experimento

Obtener un intervalo de confianza al 98% para la diferencia de los pesos


medios de la lana producida antes y después del experimento.

Ejercicio Propuesto 1(Resuelto)


Se desea estudiar si la longitud del pico en una especie de loro es distinta entre
los machos y las hembras. Para ello se selecciona una muestra de 14 machos y
12 hembras, cuyos resultados, expresados en milímetros, se muestran en la
siguiente tabla:

Se pide:
1. Obtener un intervalo de confianza a un nivel del 99%
• para la longitud media del pico en los machos
• para la longitud media del pico en las hembras
2. Obtener un intervalo de confianza a un nivel del 99% para la diferencia entre
la longitud media del pico de los machos y de las hembras.

Solución:
1. Obtener un intervalo de confianza a un nivel del 99%
• para la longitud media del pico en los machos
• para la longitud media del pico en las hembras
Los datos se introducen de la siguiente forma

Para obtener el intervalo de confianza pedido se selecciona en el menú


principal Analizar/Estadísticos descriptivos/Explorar…
En el Cuadro de diálogo se introducen las variables Machos y Hembras en el
campo Dependientes:

Se pulsa Estadísticos… para modificar el nivel de confianza


se selecciona en el botón Opciones… la opción de Excluir casos según pareja (las
muestras tienen distinto tamaño)

Para obtener los resultados se pulsa Continuar y Aceptar.

Los intervalos de confianza para la longitud media del pico de los machos y de las
hembras, a un nivel del 99%, son (57.39, 60.90) y (53.57, 56.27), respectivamente.
Como se puede apreciar la longitud del pico en los machos es mayor que en las
hembras.
Alternativamente estos intervalos de confianza también pueden determinarse
seleccionando en el menú principal Analizar/Comparar medias/Prueba T para
una muestra… En el Cuadro de diálogo se introducen las variables Machos y
Hembras en el campo Contrastar variables:

Se pulsa Opciones… para establecer el nivel de confianza

Se pulsa Continuar y Aceptar y se muestran las siguientes salidas

Los intervalos de confianza para la longitud media del pico de los machos y de las
hembras, a un nivel del 99%, son (57.39, 60.90) y (53.57, 56.27), respectivamente.
2. Obtener un intervalo de confianza a un nivel del 99% para la diferencia
entre la longitud media del pico de los machos y de las hembras.
Para obtener el intervalo de confianza pedido, en primer lugar se definen las
variables: Ambos y Niveles y a continuación se introducen los valores
y se selecciona Analizar/Comparar
medias/Prueba T para muestras independientes... En el Cuadro de diálogo se
introduce: la variable Ambos en el campo Contrastar variables: y la
variable Niveles en el campo Variable de agrupación:

Se pulsa sobre Definir grupos…, donde se indican las etiquetas asignadas y que
determinan el grupo al que pertenece cada uno de los valores de la variable Ambos
Se pulsa Continuar y se establece el nivel de
confianza

Se pulsa Continuar y Aceptar y se


obtienen los siguientes resultados.

En este caso la prueba de Levene nos muestra un p-valor igual a 0.161, al ser mayor
que el nivel de significación 0.01, indica que no se debe rechazar la igualdad de
varianzas con un nivel de confianza del 99%. Por tanto, el intervalo de confianza
resultante es aquel en el que “Se han asumido varianzas iguales”: (2.136, 6.317).

Ejercicios Propuesto 2 (Resuelto)


Para comprobar si un determinado pienso puede mejorar la producción de
lana de las ovejas, se selecciona una muestra aleatoria simple de 10 ovejas
para ser alimentadas con dicho pienso. En la tabla siguiente se muestra el peso
(en Kgr) de la lana producida antes y después del experimento
Obtener un intervalo de confianza al 98% para la diferencia de los pesos
medios de la lana producida antes y después del experimento.

Solución:
Los datos se introducen de la siguiente forma:

Se selecciona en el menú principal Analizar/Comparar medias/Prueba T para


muestras relacionadas…
En el Cuadro de diálogo se marcan las dos variables que se desean comparar y se
pasan al campo de Variables relacionadas:

Se
pulsa Opciones y se selecciona el nivel de confianza del 98%
Se pulsa Continuar y Aceptar, y se obtienen los resultados siguientes

El intervalo de
confianza para la diferencia de los pesos medios de la lana producida antes y
después del experimento, a un nivel del 98%, es (–2.464, –0.536). Como el intervalo
de confianza no contiene el 0 podemos deducir que existen diferencias significativas
entre las medias. Se puede apreciar que el peso de la lana es mayor después del
tratamiento.

…………………………………………………………………………………………………………………

Práctica 6
CONTRASTES DE HIPÓTESIS
Objetivos
1. Realizar contrastes de hipótesis paramétricos para la media de una población
normal.
2. Realizar contrastes de hipótesis paramétricos para comparar dos medias de
variables normales en muestras independientes y en muestras apareadas.
3. Realizar contrastes de hipótesis para comparar dos proporciones.
4. Realizar contrastes de hipótesis no-paramétricos de independencia para variables
cualitativas.
5. Realizar contrastes de hipótesis no-paramétricos de bondad de ajuste de
distribuciones.
6. Realizar contrastes de hipótesis no-paramétricos de aleatoriedad.
7. Realizar contrastes de hipótesis no-paramétricos de dos muestras independientes y
de dos muestras relacionadas.

Conceptos básicos
Contraste de hipótesis. Un contraste de hipótesis es un proceso estadístico
mediante el cual se investiga si una propiedad que se supone que cumple una
población es compatible con lo observado en una muestra de dicha población. Es un
procedimiento que permite elegir una hipótesis de trabajo de entre dos posibles y
antagónicas.
Hipótesis Estadística. Todo contraste de hipótesis se basa en la formulación de dos
hipótesis exhaustivas y mutuamente exclusivas:
1. Hipótesis nula (H0)
2. Hipótesis alternativa (H1)
La hipótesis H0 es la que se desea contrastar. Consiste generalmente en una
afirmación concreta sobre la forma de una distribución de probabilidad o sobre el
valor de alguno de los parámetros de esa distribución. El nombre de “nula” significa
“sin valor, efecto o consecuencia”, lo cual sugiere que H0 debe identificarse con la
hipótesis de no cambio (a partir de la opinión actual); no diferencia, no mejora,
etc. H0 representa la hipótesis que mantendremos a no ser que los datos indiquen su
falsedad, y puede entenderse, por tanto, en el sentido de “neutra”. La
hipótesis H0 nunca se considera probada, aunque puede ser rechazada por los
datos. Por ejemplo, la hipótesis de que dos poblaciones tienen la misma
media puede ser rechazada fácilmente cuando ambas difieren mucho, analizando
muestras suficientemente grandes de ambas poblaciones, pero no puede
ser “demostrada” mediante muestreo, puesto que siempre cabe la posibilidad de
que las medias difieran en una cantidad lo suficientemente pequeña para que no
pueda ser detectada, aunque la muestra sea muy grande. Dado que descartaremos o
no la hipótesis nula a partir de muestras obtenidas (es decir, no dispondremos de
información completa sobre la población), no será posible garantizar que la
decisión tomada sea la correcta.
La hipótesis H1 es la negación de la nula. Incluye todo lo que H0 excluye.
¿Qué asignamos como H0 y H1 ?
La hipótesis H0 asigna un valor específico al parámetro en cuestión y por lo tanto “el
igual” siempre forma parte de H0.
La idea básica de la prueba de hipótesis es que los hechos tengan probabilidad de
rechazar H0. La hipótesis H0 es la afirmación que podría ser rechazada por los
hechos. El interés del investigador se centra, por lo tanto, en la H1.
La regla de decisión. Es el criterio que vamos a utilizar para decidir si la hipótesis
nula planteada debe o no ser rechazada. Este criterio se basa en la partición de la
distribución muestral del estadístico de contraste en dos regiones o zonas
mutuamente excluyentes: Región crítica o región de rechazo y Región de no-
rechazo.
Región de no-rechazo. Es el área de la distribución muestral que corresponde a los
valores del estadístico de contraste próximos a la afirmación establecida en H0. Es
decir, los valores del estadístico de contraste que nos conducen a decidir H0. Es por
tanto, el área correspondiente a los valores del estadístico de contraste que es
probable que ocurran si H0 es verdadera. Su probabilidad se denomina nivel de
confianza y se representa por 1 – α .
Región de rechazo o región crítica. Es el área de distribución muestral que
corresponde a los valores del estadístico de contraste que se encuentran tan
alejados de la afirmación establecida en H0, que es muy poco probable que ocurran
si H0 es verdadera. Su probabilidad se denomina nivel de significación o nivel de
riesgo y se representa con la letra α .
Ya definidas las dos zonas, la regla de decisión consiste en rechazar H0 si el
estadístico de contraste toma un valor perteneciente a la zona de rechazo, o
mantener H0 si el estadístico de contraste toma un valor perteneciente a la zona de
no-rechazo.
El tamaño de las zonas de rechazo y no-rechazo se determina fijando el valor de
α, es decir, fijando el nivel de significación con el que se desea trabajar. Se suele
tomar un 1% o un 5%.
La forma de dividir la distribución muestral en zona de rechazo y de no-rechazo
depende de si el contraste es bilateral o unilateral. La zona crítica debe situarse
donde puedan aparecer los valores muestrales incompatibles con H0.
Estadístico de contraste. Un estadístico de contraste es un resultado muestral que
cumple la doble condición de:
• Proporcionar información empírica relevante sobre la afirmación propuesta en
la H0.
• Poseer una distribución muestral conocida
Tipos de contrastes.
Contrastes paramétricos: Conocida una v.a. con una determinada distribución, se
establecen afirmaciones sobre los parámetros de dicha distribución.
Contrastes no paramétricos: Las afirmaciones establecidas no se hacen en base a
la distribución de las observaciones, que a priori es desconocida .
Tipos de hipótesis del contraste.
Hipótesis simples: La hipótesis asigna un único valor al parámetro desconocido, H:
θ = θ0
Hipótesis compuestas: La hipótesis asigna varios valores posibles al parámetro
desconocido, H: θ ∈ ( θ1 , θ2 )

La Reglas de decisión.
1. Contrastes bilaterales: Si la hipótesis alternativa da lugar a una región crítica “a
ambos lados” del valor del parámetro, diremos que el test es bilateral o de dos
colas.
Se rechaza H0 si el estadístico de contraste cae en la zona crítica, es decir, si el
estadístico de contraste toma un valor tan grande o tan pequeño que la probabilidad
de obtener un valor tan extremo o más que el encontrado es menor que α /2.
b. Contraste unilateral: Si la hipótesis alternativa da lugar a una región crítica “a un
solo lado del valor del parámetro”,diremos que el test es unilateral o de una sola
cola
Se rechaza H0 si el estadístico de contraste cae en la zona crítica, es decir, si toma un
valor tan grande que la probabilidad de obtener un valor como ese o mayor es menor
que α .
Contraste unilateral: Cola a Contraste unilateral: Cola a
Contraste bilateral
la derecha la izquierda

H0 = θ = θ0
H0 = θ ≤ θ0 H0 = θ ≥ θ0
H1 = θ ≠ θ0
H1 =θ > θ0 H1 = θ < θ0
La decisión:

Planteada la hipótesis, formulados los supuestos, definido el estadístico de contraste


y su distribución muestral, y establecida la regla de decisión, el paso siguiente es
obtener una muestra aleatoria de tamaño n, calcular el estadístico de contraste y
tomar una decisión:

• Si es estadístico de contraste cae en la zona crítica se rechaza H0.


• Si es estadístico cae en la zona de no rechazo se mantiene H0.
Si rechazamos Ho afirmamos que la hipótesis es falsa, es decir, que afirmamos
con una probabilidad α de equivocarnos, que hemos conseguido probar que esa
hipótesis es falsa. Por el contrario, si no la rechazamos, no estamos afirmando
que la hipótesis sea verdadera. Simplemente que no tenemos evidencia empírica
suficiente para rechazarla y que se considera compatible con los datos.
Como conclusión, si se mantiene o no se rechaza H0, nunca se puede afirmar
que es verdadera.
Errores de Tipo I y II.
• Error de tipo I: Se comete cuando se decide rechazar la hipótesis nula H0 que en
realidad es verdadera. La probabilidad de cometer ese error es α.
P[ Rechazar H0 / H0 es verdadera ] = α
• Error de tipo II: Se comete cuando se decide no rechazar la hipótesis nula H0 que en
realidad es falsa. La probabilidad de cometer ese error es β .
P[ No rechazar H0 / H0 es falsa ] = β

Por tanto,

• 1 – α es la probabilidad de tomar una decisión correcta cuando H0 es


verdadera.
• 1 – β es la probabilidad de tomar una decisión correcta cuando H0 es falsa.
El siguiente cuadro resume las ideas:

• La dificultad al usar un procedimiento basado en datos muestrales es que debido a


la variabilidad de muestreo, puede resultar una muestra no representativa, y por
tanto, resultaría un rechazo erróneo de H0.
• La probabilidad de cometer un error de tipo I con nuestra decisión es una
probabilidad conocida, pues el valor de α lo fija el propio investigador.
• Sin embargo, la probabilidad de cometer un error de tipo II, β , es un valor
desconocido que depende de tres factores:

• La hipótesis H1 que consideremos verdadera.
• El valor de α .
• El tamaño del error típico (desviación típica) de la distribución muestral utilizada
para efectuar el contraste.

Relaciones entre los errores de Tipo I y II. El estudio de las relaciones entre los
errores lo realizamos mediante el contraste de hipótesis:
Para ello utilizamos la información muestral proporcionada por el estadístico
media muestral
• Cualquier valor atribuido a μ1 en H1 (siempre mayor a μ0) generará distribuciones
muestrales distintas para la media muestral. Aunque todas tendrán la misma forma,
unas estarán más alejadas que otras de la curva de H0, es decir, unas serán distintas
de otras únicamente en el valor asignado a μ1 .
Cuanto más se aleje el valor μ1 de μ0 , más hacia la derecha se desplazará la
curva H1 , y en consecuencia, más pequeña se hará el área β . Por lo tanto, el valor
de β depende del valor concreto de μ1 que consideremos verdadero dentro
de todos los afirmados por H1 .
• Cuanto mayor es α , menor es β . Se relacionan de forma inversa.
• Para una distancia dada entre μ0 y μ1 , el solapamiento entre las curvas
correspondientes a uno y otro parámetro será tanto mayor cuanto mayor sea el
error típico de la distribución muestral representada por esas curvas (cuanto mayor
es el error típico de una distribución, más ancha es esa distribución). Y cuanto mayor
sea el solapamiento, mayor será el valor de β .
Relaciones_entre_los_errores_de_tipo_I_y_tipo_II

En lugar de buscar procedimientos libres de error, debemos buscar procedimientos


para los que no sea probable que ocurran ningún tipo de estos errores. Esto es, un
buen procedimiento es aquel para el que es pequeña la probabilidad de cometer
cualquier tipo de error. La elección de un valor particular de corte de la región de
rechazo fija las probabilidades de errores tipo I y tipo II.

Debido a que H0 especifica un valor único del parámetro, hay un solo valor de
α . Sin embargo, hay un valor diferente de β por cada valor del parámetro
recogido en H1 .
En general, un buen contraste o buena regla de decisión debe tender a minimizar
los dos tipos de error inherentes a toda decisión. Como α queda fijado por el
investigador, trataremos de elegir una región donde la probabilidad de
cometer el error de tipo II sea la menor .

Usualmente, se diseñan los contrastes de tal manera que la probabilidad a sea el 5%


(0,05), aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones
más relajadas o más estrictas.

Potencia de un contraste. Es la probabilidad de decidir H1 cuando ésta es cierta


P[ decidir H1 / H1 es verdadera ] = 1 – β
El concepto de potencia se utiliza para medir la bondad de un contraste de hipótesis.
Cuanto más lejana se encuentra la hipótesis H1 de H0 menor es la probabilidad de
incurrir en un error tipo II y, por consiguiente, la potencia tomará valores más
próximos a 1.
Si la potencia en un contraste es siempre muy próxima a 1 entonces se dice que el
estadístico de contraste es muy potente para contrastar H0 ya que en ese caso las
muestras serán, con alta probabilidad, incompatibles con H0 cuando H1 sea cierta.
Por tanto puede interpretarse la potencia de un contraste como su sensibilidad o
capacidad para detectar una hipótesis alternativa. La potencia de un contraste
cuantifica la capacidad del criterio utilizado para rechazar H0 cuando esta hipótesis
sea falsa

Es deseable en un contraste de hipótesis que las probabilidades de ambos tipos de


error fueran tan pequeñas como fuera posible. Sin embargo, con una muestra de
tamaño prefijado, disminuir la probabilidad del error de tipo I, α, conduce a
incrementar la probabilidad del error de tipo II, β. El recurso para aumentar la
potencia del contraste, esto es, disminuir la probabilidad de error de tipo II, es
aumentar el tamaño muestral lo que en la práctica conlleva un incremento de los
costes del estudio que se quiere realizar

El concepto de potencia nos permite valorar cual entre dos contrastes con la misma
probabilidad de error de tipo I, α, es preferible. Se trata de escoger entre todos los
contrastes posibles con α prefijado aquel que tiene mayor potencia, esto es, menor
probabilidad β de incurrir en el error de tipo II. En este caso el Lema de Neyman-
Pearson garantiza la existencia de un contraste de máxima potencia y determina
cómo construirlo.
Potencia de un contraste de hipótesis
Contrastes de hipótesis paramétricos
El propósito de los contrastes de hipótesis es determinar si un valor propuesto
(hipotético) para un parámetro u otra característica de la población debe aceptarse
como plausible con base en la evidencia muestral.

Podemos considerar las siguientes etapas en la realización de un contraste:

1.
1. El investigador formula una hipótesis sobre un parámetro poblacional, por
ejemplo que toma un determinado valor
2. Selecciona una muestra de la población
3. Comprueba si los datos están o no de acuerdo con la hipótesis planteada, es decir,
compara la observación con la teoría
• Si lo observado es incompatible con lo teórico entonces el investigador puede
rechazar la hipótesis planteada y proponer una nueva teoría
• Si lo observado es compatible con lo teórico entonces el investigador puede
continuar como si la hipótesis fuera cierta.

Los contrastes de hipótesis que construye SPSS son los proporcionados por las
Pruebas T, estas son de tres tipos: Prueba T para una muestra, Prueba T para
muestras independientes y Prueba T para muestras relacionadas

Contrastes de hipótesis para la media de una


población normal
El objetivo es probar uno de los siguientes contrastes de hipótesis con respecto de
μ
donde μ0 es un valor conocido dado de antemano. Para ello se toma una m.a.s.

concreta x1, x2, …, xn cuya media valdrá: .

Se distinguen dos situaciones: a) Varianza poblacional conocida y b) varianza


poblacional desconocida. El programa SPSS sólo resuelve el segundo caso.

En el caso de varianza poblacional desconocida, el estadístico de contraste que se


utiliza sigue una distribución t_Student y, bajo la hipótesis nula H0:μ = μ0 dicho
estadístico tiene la siguiente expresión:

Fijado un nivel de significación α

a) Para la hipótesis alternativa H1:μ ≠ μ0 la correspondiente región de no rechazo


es (- tα/2;n-1, tα/2;n-1) y el estadístico de contraste adopta la forma

y se utiliza la siguiente regla de decisión

b) Para la hipótesis alternativa H1:μ > μ0 la correspondiente región de no rechazo es


(-∞, tα;n-1) y el estadístico de contraste adopta la forma

y se utiliza la siguiente regla de decisión

c) Para la hipótesis alternativa H1:μ < μ0 la correspondiente región de no rechazo


es (- tα;n-1,∞), el estadístico de contrate es el anterior y se adopta la siguiente regla
de decisión
El procedimiento que utiliza SPSS es la Prueba T para una muestra que contrasta si
la media de una población difiere de una constante especificada. Para obtener una
Prueba T para una muestra se elige, en el menú principal, Analizar/Comparar
medias/Prueba T para una muestra…

En la salida correspondiente se selecciona una o más variables cuantitativas para


contrastarlas con el mismo valor supuesto.

Por ejemplo, en la siguiente salida se muestra un contraste para el caso en que la


media de la variable longitud sea igual a 20 (Valor de prueba: 20)

Pulsando Opciones… se puede elegir el nivel de confianza.


Se pulsa Continuar y Aceptar. Se obtiene un resumen estadístico para la muestra
y la salida del procedimiento.

Esta salida muestra el tamaño muestral, la media, la desviación típica y error típico
de la media.

Esta salida muestra los resultados del contraste de la t de Student con un intervalo
de confianza para la diferencia entre el valor observado y el valor teórico
(contrastado). Cada una de las columnas de la tabla muestra:
• t = 8,878: El valor experimental del estadístico de contraste
• gl = 14: Los grados de libertad
• Sig.= 0,000: El p-valor o nivel crítico del contraste
• Diferencia de medias = 9.31267: Es la diferencia entre la media teórica (20) y la
media observada (29.3127)
• 95% Intervalo de confianza = (7.063, 11.5624): Es el intervalo de confianza para la
diferencia entre la media teórica y la media observada al nivel de confianza del 95%.

Supuesto práctico 1
Se realiza un experimento para estudiar el nivel (en minutos) que se requiere
para que la temperatura del cuerpo de un lagarto del desierto alcance los 45º
partiendo de la temperatura normal de su cuerpo mientras está en la sombra.
Se obtuvieron las siguientes observaciones: 10.1 ; 12.5 ; 12.2 ; 10.2 ; 12.8 ; 12.1
; 11.2 ; 11.4 ; 10.7 ; 14.9 ; 13.9 ; 13.3. Se pide:
a) Hallar estimaciones puntuales de la media y la varianza
b) Supóngase que la variable X: “Tiempo en alcanzar los 45º sigue una ley
Normal
b1) ¿Puede concluirse que el tiempo medio requerido para alcanzar la dosis
letal es de 15 minutos?
b2) ¿Puede concluirse que el tiempo medio requerido para alcanzar la dosis
letal es inferior a 13 minutos?
Solución
a) Hallar estimaciones puntuales de la media y la varianza

b1) ¿Puede concluirse que el tiempo medio


requerido para alcanzar la dosis letal es de 15 minutos?.

Se realiza el siguiente contraste de hipótesis:

El procedimiento que utiliza SPSS es la Prueba T para una muestra que contrasta si
la media de una población difiere de una constante especificada. Para obtener una
Prueba T para una muestra se elige, en el menú principal. Analizar/Comparar
medias/Prueba T para una muestra… En la salida correspondiente se
selecciona tiempo para la Variable para contrastar y el valor de la prueba se
pone 15

Se pulsa Aceptar y se obtiene la siguiente salida

El valor del estadístico de contraste experimental, -6.775, deja a la derecha una área
menor que 0.000 < 0.025. Por lo tanto se rechaza la hipótesis nula de que el tiempo
medio requerido para alcanzar la dosis letal es de 15 minutos.
b2) ¿Puede concluirse que el tiempo medio requerido para alcanzar la dosis
letal es inferior a 13 minutos?
Se realiza el siguiente contraste de hipótesis:

Se selecciona en el menú principal, Analizar/Comparar medias/Prueba T para una


muestra. En la salida correspondiente se selecciona tiempo para la Variable para
contrastar y el valor de la prueba se pone 13

Se pulsa Aceptar y se obtiene la siguiente salida

El valor del estadístico de contraste experimental, -6.089, deja a la derecha una área
0.030 < 0.05. Por lo tanto se rechaza la hipótesis nula y se concluye que el el tiempo
medio requerido para alcanzar la dosis letal es inferior a 13 minutos.

Contrastes de hipótesis para dos muestras


independientes
De un modo general, dos muestras se dice que son independientes cuando las
observaciones de una de ellas no condicionan para nada a las observaciones de la
otra, siendo dependientes en caso contrario. En realidad, el tipo de dependencia que
se considera a estos efectos es muy especial: cada dato de una muestra tiene un
homónimo en la otra, con el que está relacionada, de ahí el nombre alternativo
de muestras apareadas. Por ejemplo, supongamos que se quiere estudiar el efecto de
un medicamento, sobre la hipertensión, a un grupo de 20 individuos. El experimento
se podría planificar de dos formas:
1. Aplicando el medicamento a 10 de estos individuos y dejando sin tratamiento al
resto. Transcurrido un tiempo se miden las presiones sanguíneas de ambos grupos
y se contrasta la hipótesis H0: µ1= µ2 vs H1: µ1 <>µ2 para evaluar si las medias son
iguales o no. Como las muestras están formadas por individuos distintos sin relación
entre sí, se dirá que son muestras independientes.
2. Aplicando el medicamento a los 20 individuos disponibles y anotando su presión
sanguínea antes y después de la administración del mismo. En este caso los datos
vienen dados por parejas, presión antes y después y tales datos están relacionados
entre sí. Las muestras son apareadas.
El paquete estadístico SPSS realiza el procedimiento Prueba T para muestras
independientes; en este procedimiento se compara la media de dos poblaciones
normales e independientes. Para realizar dicho contraste los sujetos deben
asignarse aleatoriamente a las dos poblaciones, de forma que cualquier diferencia
en la respuesta sea debida al tratamiento (o falta de tratamiento) y no a otros
factores.
El procedimiento Prueba T para muestras independientes mediante SPSS contrasta
si la diferencia de las medias de dos poblaciones normales e independientes difiere
de una constante especificada.El objetivo es probar uno de los siguientes contrastes

de hipótesis
conocidas las medias muestrales y los tamaños muestrales.
Para obtener una Prueba T para muestras independiente se selecciona, en el menú
principal, Analizar/Comparar medias/Prueba T para muestras
independientes…

Se accede a la siguiente ventana


donde se puede seleccionar una o más variables cuantitativas y se calcula
una Prueba T diferente para cada variable. Por ejemplo, en esta salida se selecciona
la variable asimetría.
A continuación se selecciona una sola variable de agrupación, en nuestro caso, la
variable Parte y se pulsa Definir Grupospara especificar los códigos de los grupos
que se quieran comparar. Vamos a contrastar la igualdad de medias de la
variable asimetría según la variable Parte (Canopy, Sprouts)

Pulsando Definir Grupos… se muestra la siguiente pantalla


donde se especifican el número de grupos que se quieren comparar.

Se pulsa Continuar y después Aceptar y se obtienen las siguientes pantallas que


muestran un resumen estadístico para las dos muestras y la salida del
procedimiento.

Para realizar un contraste de diferencia de medias de dos poblaciones


independientes hay que contrastar previamente las varianzas de dichas
poblaciones.
Esta salida nos muestra el valor experimental del estadístico de contraste (Fexp =
2.045), este valor deja a la derecha un área igual a 0.176 (Sig.= 0.176), por lo tanto
no se puede rechazar la hipótesis nula de igualdad de varianzas.
A continuación se realiza el contraste para la diferencia de medias suponiendo que
las varianzas son iguales. La tabla nos muestra el valor experimental del estadístico
de contraste (texp = 1.233) y el p-valor = 0.240 (Sig.= 0.240), por lo tanto no se puede
rechazar la hipótesis nula de igualdad de medias. También, se puede concluir el
contraste observando que el intervalo de confianza para la diferencia de medias (-
0.05256, 0.192264) contiene al cero.

Supuesto práctico 2

Se quieren comparar dos poblaciones de ranas pipiens aisladas


geográficamente. Para ello se toman dos muestras de ambas poblaciones de
tamaño 12 y 10 y se les mide la longitud del cuerpo expresado en milímetros.
Población 1: 20,1; 22,5; 22,2 ; 30,2 ; 22,8 ; 22,1 ; 21,2 ; 21,4 ; 20,7 ; 24,9 ; 23,9 ;
23,3
Población 2: 25,3 ; 31,2 ; 22,4 ; 23,1 ; 26,4 ; 28,2 ;21,3 ;31,1 ;26,2 ;21,4
Contrastar la hipótesis de igualdad de medias a un nivel de significación del
1%. (Suponiendo que la longitud se distribuya según una Normal).

Solución
Sean las variables aleatorias
X: “Longitud del cuerpo de ranas 1”; X→ N(μX, σX)
Y: “Longitud del cuerpo de ranas 2”; X→ N(μY, σY)

Se pide el siguiente contraste

Para realizar un contraste de muestras independientes los datos se deben

introducir en el Editor de SPSS de la siguiente forma:

A continuación se selecciona, en el menú principal, Analizar/Comparar


medias/Prueba T para muestras independientes y se obtiene la siguiente salida
Se pulsa Definir grupos
donde se especifican el número de grupos que se quieren comparar. Se

pulsa Continuar y Opciones


La casilla de porcentaje del intervalo de confianza se rellena con 99. Se
pulsa Continuar y Aceptar y se obtiene el siguiente resultado

Para realizar un contraste de diferencia de medias de dos poblaciones


independientes hay que contrastar previamente las varianzas de dichas
poblaciones.
Esta salida nos muestra el valor experimental del estadístico de contraste (Fexp =
2.110), este valor deja a la derecha un área igual a 0.162 (Sig.= 0.162), por lo tanto
no se puede rechazar la hipótesis nula de igualdad de varianzas.
A continuación se realiza el contraste para la diferencia de medias suponiendo que
las varianzas son iguales. La tabla nos muestra el valor experimental del
estadístico de contraste (texp = -2.010) y el p-valor = 0.508 (Sig.= 0.058), por lo
tanto no se puede rechazar la hipótesis nula de igualdad de medias. También, se
puede concluir el contraste observando que el intervalo de confianza para la
diferencia de medias (-5.5399, 0.1032) contiene al cero.

Contrastes de hipótesis para muestras apareadas


En las muestras apareadas, cada observación de una muestra está emparejado con
una observación de la otra muestra, por lo tanto consideramos parejas de
valores (x, y).
El paquete estadístico SPSS realiza el procedimiento Prueba T para muestras
apareadas; en este procedimiento se comparan las medias de dos variables de un
solo grupo. Calcula las diferencias entre los valores de cada caso, Di = Xi– Yi y
contrasta si la media difiere de cero.Es decir, contrastar la hipótesis nula H0: μX-μY =
0 es equivalente a contrastar H0: μD =0
Para obtener una Prueba T para muestras relacionadas se elige en los
menús Analizar/Comparar medias/Prueba T para muestras relacionadas…

Se accede a la siguiente ventana


donde se selecciona un par de variables pulsando en cada una de ellas. La primera
variable aparecerá en la sección Selecciones actuales como Variable 1 y la
segunda aparecerá como Variable 2. Una vez seleccionado el par de variables, en
nuestro caso Asim95 y Asim97, se pulsa el botón de flecha para moverlas a la
ventana de Variables relacionadas. Se puede realizar el contraste para más de una
pareja de variables simultáneamente.

Al
pulsar Continuar y después Aceptar se obtiene un resumen estadístico para las dos
muestras y la salida del procedimiento.

Para cada
variable se presenta la media, tamaño de la muestra, desviación típica y error típico
de la media.

Esta salida muestra


para cada pareja de variables: el número de datos, el coeficiente de correlación y el
p-valor asociado al contraste H0: r = 0 frente a H1: r <> 0. El coeficiente de correlación
es igual a -0.681, por lo tanto las variables están relacionadas en sentido inverso,
cuando una crece la otra decrece. Observando el p-valor (0.206) deducimos que no
se puede rechazar la hipótesis nula (H0: r = 0) por lo tanto no existe correlación entre
las variables. (La correlación no es significativa).

Esta salida muestra el valor experimental del estadístico de contraste (t = 3.908) y


el p-valor igual a 0.017, por lo tanto se debe rechazar la hipótesis nula de igualdad
de medias.

Supuesto práctico 3

Se realiza un estudio, en el que participan 10 individuos, para investigar el


efecto del ejercicio físico en el nivel de colesterol en plasma. Antes del
ejercicio se tomaron muestras de sangre para determinar el nivel de
colesterol de cada individuo. Después, los participantes fueron sometidos a un
programa de ejercicios. Al final de los ejercicios se tomaron nuevamente
muestras de sangre y se obtuvo una segunda lectura del nivel de colesterol.
Los resultados se muestran a continuación.
Nivel previo: 182; 230; 160; 200; 160; 240; 260; 480; 263; 240
Nivel posterior: 190; 220; 166; 150; 140; 220; 156; 312; 240; 250
Se quiere saber si el ejercicio físico ha reducido el nivel de colesterol para un
nivel de confianza del 95%.
Solución

Se pide el siguiente contraste

Para realizar un contraste de muestras apareadas los datos se deben introducir en

el Editor de SPSS de la siguiente forma:


A continuación se selecciona, en el menú principal, Analizar/Comparar
medias/Prueba T para muestras relacionadas y se obtiene la siguiente salida

donde se selecciona el par de variables pulsando en cada una de ellas, se pulsa el


botón de flecha para moverlas a la ventana de Variables relacionadas. Se
pulsa Aceptar y se obtiene las siguientes salidas

Esta salida muestra para cada pareja de variables: el número de datos, (N = 10) el
coeficiente de correlación (0.816) y el p-valor (0.004) asociado al contraste H0: r = 0
frente a H1: r <> 0. El coeficiente de correlación es igual a 0.816, por lo tanto las
variables están relacionadas en sentido directo, cuando una crece la otra también
crece. Observando el p-valor (0.004) deducimos que se puede rechazar la hipótesis
nula (H0: r = 0) por lo tanto existe correlación entre las variables. (La correlación es
significativa).

Esta salida muestra el valor experimental del estadístico de contraste (t = 2.053) y


Sig. (bilateral) es 0.070. En nuestro caso es un contraste unilateral por lo tanto el
valor de Sig es 0.035 menor que 0.05, y se debe rechazar la hipótesis nula. Por lo
tanto, el nivel medio de colesterol se reducirá con el ejercicio físico.

Contrastes de hipótesis para el parámetro p de una


distribución Binomial
El contraste de hipótesis para el parámetro p (proporción de éxitos) de una
distribución Binomial se basa en la distribución del estadístico muestral para un
tamaño muestral n suficientemente grande.
Denotando por p y las proporciones de éxitos de la población y de dicha

muestra, respectivamente, se verifica que El objetivo es probar uno

de los siguientes contrastes a)


Para la hipótesis alternativa H1:p ≠ p0 la correspondiente región de no rechazo es (-
zα/2, zα/2) y el estadístico de contraste bajo la hipótesis nula H0:p = p0 adopta la

siguiente expresión b) Para la hipótesis alternativa H1:p > p0 la


correspondiente región de no rechazo es (-∞, zα)
c) Para la hipótesis alternativa H1:p < p0 la correspondiente región de no rechazo es
(-zα, ∞, ).

En los casos b) y c) el estadístico de contraste adopta la siguiente

expresión

El paquete estadístico SPSS realiza el procedimiento Binomial, para ello se


selecciona en el menú principal, Analizar/Cuadros de diálogos
antiguos/Binomial
Supuesto práctico 4
Se ignora la proporción de familias numerosas y con el fin de determinar dicha
proporción se toma una muestra de 800 familias siendo la proporción
observada de 0.18. Se puede afirmar que la proporción de
familias numerosas es 0.20.
Solución
Se pide realizar el siguiente contraste H0: P = 0.20 frente a la alternativa H1: p≠20.

Según el enunciado de una muestra de 800 familias la proporción observada de


familias numerosas es 0.18. Por lo tanto144 familias son numerosas y 656 no lo
son.

Introducimos los datos en SPSS


Ponderamos los datos, para ello seleccionamos Datos/Ponderar casos

En la ventana resultante ponderamos los casos mediante la variable frecuencia y


pulsamos Aceptar.
A continuación realizamos el contraste, para ello seleccionamos en el menú
principal, Analizar/Cuadros de diálogos antiguos/Binomial. En la ventana
resultante introducimos familias en Lista Contrastar variables: y en Proporción
de pruebaponemos 0.20

Pulsamos Aceptar y obtenemos al siguiente salida


El p-valor de la prueba (Sig. exacta (unilateral)) es 0.084 mayor que 0.05. Por lo
tanto no se rechaza la Hipótesis nula. Se puede afirmar que la proporción de familias
numerosas es 0.20.

Contrastes de hipótesis para dos proporciones


independientes. Muestras grandes
El contraste de hipótesis para la comparación de dos proporciones independientes
se basa en la distribución aproximada de un estadístico muestral que requiere
muestras grandes.

Supongamos dos muestras aleatorias de tamaños nX y nY, suficientemente grandes y


denotamos por las proporciones de éxitos de cada una de las
poblaciones y de dichas muestras, respectivamente. Se verifica que

Fijado un nivel de significación α, la región de no


rechazo para el contraste bilateral es (- zα/2, zα/2) y el estadístico de contraste, bajo la

hipótesis nula H0: pX– pY=(pX– pY)0 , adopta la forma El


paquete estadístico SPSS no incluye el cálculo de dicho estadístico pero permite el
cálculo de otros cuatro estadísticos para muestras grandes y el estadístico exacto de
Fisher para muestras pequeñas.

El contraste de comparación de dos proporciones es un caso particular del contraste


de homogeneidad de dos muestras de una variable cualitativa cuando ésta sólo
presenta dos modalidades. Por ello, el procedimiento que vamos a realizar es el
análisis de una tabla de contingencia 2×2.

Para obtener el procedimiento Tablas de contingencia se elige en los


menús Analizar/Estadísticos descriptivos/Tablas de contingencia…
En la ventana emergente se seleccionan las variables dicotómicas que se van a
contrastar. Por ejemplo, en la siguiente salida se muestra el procedimiento de Tablas
de contingencia en el que se comparan las variables Sexo y Fumador, para ello se
han seleccionado la variable Sexo y mediante el botón de flecha se ha pasado al
campo Filas: y la variable Fumador que se ha pasado al campo Columnas: (Se
desea comparar la proporción de fumadores en los grupos (hombres y mujeres)).

Se pulsa el
botón Casillas… y se selecciona en Frecuencias (Observadas) y en Porcentajes
(Fila)
Se
pulsa Continuar y en la pantalla correspondiente se pulsa el botón Estadísticos… y
se selecciona Chi-cuadrado

Se
pulsa Continuar y Aceptar. Se muestran la Tabla de contingencia y los
contrastes Chi-cuadrado

Cada casilla de esta


tabla muestra la frecuencia observada y el porcentaje que ésta representa sobre el
total de la fila enla tabla de contingencia Sexo * Fumador. Las proporciones
muestrales que vamos a comparar son 10/26 y 14/24 . Para ello se realiza un
contraste bilateral para evaluar si existen diferencias significativas entre ambas
proporciones muestrales (H0: p1 – p2=0 frente a H1: p1 – p2 <>0)

Esta tabla muestra los resultados de cinco estadísticos para la comparación de


ambas proporciones. Generalmente, en el caso de muestras grandes se elige el
estadístico Corrección por continuidad. Dicho estadístico calcula el estadístico
Chi-cuadrado con la corrección por continuidad de Yates. En nuestro caso, el valor
de dicho estadístico es 1.259 y el p-valor asociado es 0.262 (Sig. asintótica bilateral)
por lo tanto no se debe rechazar la Hipótesis nula, es decir las diferencias observadas
entre las proporciones de fumadores en los dos grupos no son estadísticamente
significativas.
En el caso de muestras pequeñas, se decide a partir del Estadístico exacto de
Fisher.
Supuesto práctico 5

Se sospecha que añadiendo al tratamiento habitual para la curación de una


enfermedad un medicamento A, se consigue mayor número de curaciones.
Tomamos dos grupos de enfermos de 100 individuos cada uno. A un grupo se
le suministra el medicamento A y se curan 60 enfermos y al otro no se le
suministra, curándose 55 enfermos. ¿Es efectivo el tratamiento A en la
curación de la enfermedad?
Solución

Se pide realizar el siguiente contraste de hipótesis Se introducen

los datos en SPSS Se ponderan los casos


Se
pulsa Aceptar.

Como hemos dicho anteriormente, el paquete estadístico SPSS no incluye el cálculo


de dicho estadístico pero permite el cálculo de otros cuatro estadísticos para
muestras grandes y el estadístico exacto de Fisher para muestras pequeñas.

El contraste de comparación de dos proporciones es un caso particular del contraste


de homogeneidad de dos muestras de una variable cualitativa cuando ésta sólo
presenta dos modalidades. Por ello, el procedimiento que vamos a realizar es el
análisis de una tabla de contingencia 2×2.

Para obtener el procedimiento Tablas de contingencia se elige en los


menús Analizar/Estadísticos descriptivos/Tablas de contingencia…
Se pulsa el botón Casillas… y se selecciona en Frecuencias (Observadas) y
en Porcentajes (Columna)

Se pulsa Continuar y en la salida correspondiente se pulsa Estadísticos, donde se


elige Chi-cuadrado
Se pulsa Continuar y Aceptar y se muestran las siguientes

salidas
Cada casilla de esta tabla muestra la frecuencia observada y el porcentaje que ésta
representa sobre el total de la columna en la tabla de contingencia Curación *
Medicamento. Las proporciones muestrales que vamos a comparar son 60/100 y
55/100 . Para ello se realiza un contraste bilateral para evaluar si existen diferencias
significativas entre ambas proporciones muestrales (H0: pX – pY<=0 frente a H1: pX –
pY >0).

Esta tabla muestra los resultados de cinco estadísticos para la comparación de


ambas proporciones. Generalmente, en el caso de muestras grandes se elige el
estadístico Corrección por continuidad. Dicho estadístico calcula el estadístico
Chi-cuadrado con la corrección por continuidad de Yates. En nuestro caso, el valor
de dicho estadístico es 0.327 y el p-valor asociado es 0.567 (Sig. asintótica bilateral)
por lo tanto no se debe rechazar la Hipótesis nula. Podemos afirmar que el
medicamento A no consigue un mayor número de curaciones.

Contrastes de hipótesis no paramétricos


En la sesión anterior hemos estudiado contrastes de hipótesis acerca de parámetros
poblacionales, tales como la media y la varianza, de ahí el nombre de contrastes
paramétricos. En estadística paramétrica se trabaja bajo el supuesto de que las
poblaciones poseen distribuciones conocidas, donde cada función de distribución
teórica depende de uno o más parámetros poblacionales. Sin embargo, en muchas
situaciones, es imposible especificar la forma de la distribución poblacional. El
proceso de obtener conclusiones directamente de las observaciones muestrales, sin
formar los supuestos con respecto a la forma matemática de la distribución
poblacional se llama teoría no paramétrica.
En esta sesión vamos a realizar procedimientos que no exigen ningún supuesto, o
muy pocos acerca de la familia de distribuciones a la que pertenece la población, y
cuyas observaciones pueden ser cualitativas o bien se refieren a alguna
característica ordenable. Estos procedimientos reciben el nombre de Contrastes de
hipótesis no paramétricos.
Así, uno de los objetivos de esta sesión es el estudio de contrates de hipótesis para
determinar si una población tiene una distribución teórica específica. La técnica
que nos introduce a estudiar esas cuestiones se llama Contraste de la Chi-
cuadrado para la Bondad de Ajuste. Una variación de este contraste se emplea
para resolver los Contrastes de Independencia. Tales contrastes pueden
utilizarse para determinar si dos características (por ejemplo preferencia política e
ingresos) están relacionadas o son independientes. Y, por último estudiaremos
otra variación del contraste de la bondad de ajuste llamado Contraste de
Homogeneidad. Tal contraste se utiliza para estudiar si diferentes poblaciones,
son similares (u homogéneas) con respecto a alguna característica. Por ejemplo,
queremos saber si las proporciones de votantes que favorecen al candidato A, al
candidato B o los que se abstuvieron son las mismas en dos ciudades.

El procedimiento Prueba de la Chi-cuadrado


Hemos agrupado los procedimientos en los que el denominador común a todos
ellos es que su tratamiento estadístico se aborda mediante la distribución Chi-
cuadrado. El procedimiento Prueba de Chi-cuadrado tabula una variable en
categorías y calcula un estadístico de Chi-cuadrado. Esta prueba compara las
frecuencias observadas y esperadas en cada categoría para contrastar si todas las
categorías contienen la misma proporción de valores o si cada categoría contiene
una proporción de valores especificada por el usuario.
Para obtener una prueba de Chi-cuadrado se eligen en los
menús Analizar/Pruebas no paramétricas/Cuadros de diálogo antiguos/Chi-
cuadrado…
En la salida correspondiente se selecciona una o más variables de contraste. Cada
variable genera una prueba independiente.

Por ejemplo, en la siguiente salida se muestra una Prueba de Chi-cuadrado en la


que la variable a contrastar es Día de la semana (Se desea saber si el número de
altas diarias de un hospital difiere dependiendo del día de la semana)
Se pulsa Opciones… para obtener estadísticos descriptivos, cuartiles y controlar el
tratamiento de los datos perdidos

Al pulsar Continuar y Aceptar se muestran


las siguientes salidas

En esta salida se muestra:

• N observado: Muestra la frecuencia observada para cada fila (día). Se observa, en


esta tabla, que el número de altas diariasde un total de 589 altas por semana es: 44
el domingo, 78 el lunes etc.
• N esperado: Muestra el valor esperado para cada fila (suma de las frecuencias
observadas dividida por el número de filas). En este ejemplo hay 589 altas
observadas por semana, resultando alrededor de 84 altas por día.
• Residual: Muestra el residuo (frecuencia observada menos el valor esperado). La
tabla muestra que el domingo hay muchas menos altas de pacientes que el viernes.
De lo que parece deducirse que todos los días de la semana no tienen la misma
proporción de altas de pacientes.
Por último la siguiente salida muestra el resultado del contraste Chi-cuadrado

El valor experimental del estadístico de


contraste de Chi-cuadrado es igual a 29.389 y el p-valor asociado es menor que
0.001 (Sig = 0.000), por lo tanto se rechaza la hipótesis nula. En consecuencia, el
número de altas en los pacientes difiere dependiendo del día de la semana.

Supuesto práctico 6

Lanzamos un dado 720 veces y obtenemos los resultados que se muestran en


la tabla.

Contrastar la hipótesis de que el dado está bien construido.


Solución

Introducimos los datos en SPSS Ponderamos los casos

Pulsamos Aceptar.
Para obtener una prueba de Chi-cuadrado se eligen en los
menús Analizar/Pruebas no paramétricas/Cuadros de diálogo antiguos/Chi-
cuadrado… Y en la ventana resultante, pasamos Cara_dado a la Lista Contratrar

variables

Pulsamos Aceptar y obtenemos la siguiente salida El


valor experimental del estadístico de contraste de Chi-cuadrado es igual a 0.683 y el
p-valor asociado es 0.984 (mayos que 0.05), por lo tanto no se rechaza la hipótesis
nula. En consecuencia, el dado está bien construido

Contrastes de Independencia: Procedimiento


Tablas de contingencia
El procedimiento Tablas de contingencia proporciona una serie de pruebas y
medidas de asociación para tablas de doble clasificación.
Para obtener tablas de contingencia se selecciona, en el menú
principal, Analizar/Estadísticos descriptivos/Tablas de contingencia…
En el cuadro de diálogo
resultante se especifican las variables que forman la tabla. Una de las variables se
introduce en Filas: y la otra variable se introduce en Columnas:

En este cuadro de diálogo se pulsa el botón Estadísticos… y se accede a otra ventana


donde se especifican los valores numéricos que se desea obtener. Se selecciona Chi-
cuadrado
Se pulsa Continuar y se selecciona Casillas… para obtener frecuencias observadas
y esperadas, porcentajes y residuos

Se pulsa Continuar y se selecciona Formato para especificar el orden de las


categorías (ascendente o descendente)

Se pulsa Continuar y Aceptar. Se muestran las siguientes salidas

donde:
• 263: Número de datos válidos con los que se trabaja, es el 100% de los datos
• 0: número de datos no válidos

La siguiente salida nos muestra la Tabla de Contingencia de las variables


seleccionadas

Por
último muestra el resultado del contraste de hipótesis.

El p-valor (Sig =
0.256) indica que no debe rechazarse la hipótesis de independencia.

Supuesto práctico 7

Se realiza una investigación para determinar si hay alguna asociación entre el


peso de un estudiante y un éxito precoz en la escuela. Se selecciona una
muestra de 50 estudiantes y se clasifica a cada uno según dos criterios, el peso
y el éxito en la escuela. Los datos se muestran en la tabla adjunta
Solución

Introducimos los datos en SPSS Ponderamos

los casos

Pulsamos Aceptar.
Para obtener tablas de contingencia se selecciona, en el menú
principal, Analizar/Estadísticos descriptivos/Tablas de contingencia… En la
ventana resultante introducimos Éxito en Filas y Sobrepeso en Columnas y
pulsamos Aceptar

Y se muestran las siguientes salidas:


La Tabla de Contingencia de las variables Éxito * Sobrepeso

El resultado del contraste de hipótesis.

El p-valor (Sig = 0.041) indica que se debe rechazar la hipótesis de independencia.


Por lo tanto La obesidad y la precocidad en la escuela no son independientes.

Otros contrastes no paramétricos


El procedimiento Prueba binomial
El procedimiento Prueba binomial compara las frecuencias observadas de las dos
categorías de una variable dicotómica con las frecuencias esperadas en una
distribución binomial con un parámetro de probabilidad especificado. Por defecto,
el parámetro de probabilidad para ambos grupos es 0.5. Se puede cambiar el
parámetro de probabilidad en el primer grupo. Siendo la probabilidad en el segundo
grupo igual a uno menos la probabilidad del primer grupo.

Si las variables no son dicotómicas se debe especificar un punto de corte. Mediante


el punto de corte se divide la variable en dos grupos, el formado por los casos
mayores o iguales que el punto de corte y el formado por los casos menores que el
punto de corte.
Para obtener una Prueba binomial se selecciona, en el menú
principal, Analizar/Pruebas no paramétricas/Cuadros de diálogo
atiguos/Binomial…

En la salida correspondiente se selecciona una o más variables de contraste


numéricas.

Se deja la opción
por defecto Contrastar proporción: 0.50. (Queremos ver si el porcentaje de
mujeres en un determinado estudio es del 50%, es decir, queremos contrastar H0: p
= 0.5 frente a H1: p <> 0.5). En esta ventana se pulsa el botón Opciones… y se accede
a otra ventana para obtener estadísticos descriptivos, cuartiles y controlar el
tratamiento de los datos perdidos.
Se pulsa Aceptar y se muestra la siguiente salida

SPSS
realiza un contraste bilateral. De un total de 474 personas se observa que el 54 %
son hombres y el 46% son mujeres. El p-valor del contraste (Sig. asintót. bilateral)
es 0.06, nos indica que no debe rechazarse la hipótesis nula.
Este procedimiento permite dicotomizar una variable continua. Por ejemplo,
queremos saber si el 30% de las personas de un estudio son menores de 25 años.
Para resolverlo, en el campo Definir la dicotomía pondríamos en el Punto de
corte: el valor de 25 y en el campo Contrastar proporción: pondríamos 0.30.

Supuesto práctico 8

Entre los pacientes con cáncer de pulmón, el 90% o más muere generalmente
en el espacio de tres años. Como resultado de nuevas formas de tratamiento,
se cree que esta tasa se ha reducido. En un reciente estudio sobre 150
paciente diagnosticados de cáncer de pulmón, 128 murieron en el espacio de
tres años. ¿Se puede afirmar que realmente ha disminuido la tasa de
mortalidad?
Solución
Hay que realizar el siguiente contraste de hipótesis: H0: p ≥ 0.90 frente a H1: p <
0.90

Introducimos los datos en SPSS

Ponderamos los casos


Pulsamos Aceptar.
Para obtener una Prueba binomial se selecciona, en el menú
principal, Analizar/Pruebas no paramétricas/Cuadros de diálogo
atiguos/Binomial… En la salida correspondiente insertamos CáncerPulmón en la
ventana Lista Contrastar variables y en Proporción de prueba ponemos 0.90

Pulsamos Aceptar
SPSS realiza un contraste bilateral. De un total de 150 pacientes con cáncer de
pulmón se observa que el 90 % murieron en el espacio de tres años. El p-valor del
contraste (Sig. asintót. bilateral) es 0.044. El contraste es unilateral, la significación
es 0.022 que nos indica que debe rechazarse la hipótesis nula. Por lo tanto se puede
afirmar que ha disminuido la tasa de mortalidad.

Contraste de aleatoriedad. Test de Rachas


El procedimiento Prueba de Rachas contrasta si es aleatorio el orden de aparición de
los valores de una variable. Se puede utilizar para determinar si la muestra fue
extraída de manera aleatoria.

Una racha es una secuencia de observaciones similares, una sucesión de símbolos


idénticos consecutivos. Ejemplo: + + – – – + – – + + + + – – – (6 rachas). Una muestra
con un número excesivamente grande o excesivamente pequeño de rachas sugiere
que la muestra no es aleatoria.

Para obtener una Prueba de Rachas se selecciona, en el menú


principal, Analizar/Pruebas no paramétricas/Cuadros de diálogo
antiguos/Rachas…

En la salida correspondiente se selecciona una o más variables de contraste


numéricas.
En el campo Punto de corte se especifica un punto de corte para dicotomizar las
variables seleccionadas. Se puede utilizar como punto de corte los valores
observados para la media, la mediana o la moda, o bien un valor especificado. Los
casos con valores menores que el punto de corte se asignarán a un grupo y los casos
con valores mayores o iguales que el punto de corte se asignarán a otro grupo. Se
lleva a cabo una prueba para cada punto de corte seleccionado. En esta ventana se
pulsa el botón Opciones… y se accede a otra ventana para obtener estadísticos
descriptivos, cuartiles y controlar el tratamiento de los datos perdidos.
Se pulsa Aceptar y se obtiene la salida del procedimiento

En esta salida se muestran los siguientes valores:

• Valor de la prueba = 1.58: Es el punto de corte para dicotomizar la variable


seleccionada. En esta tabla el punto de corte es la media muestral
• Casos < Valor de prueba = 21: De los 50 casos contrastados, 21 de ellos tienen
valores menores que la media. Los consideramos los casos negativos
• Casos > Valor de prueba = 29: De los 50 casos contrastados, 29 de ellos tienen
valores mayores que la media. Los consideramos los casos positivos
• Número de rachas = 35: Una racha se define como una secuencias de casos al
mismo lado del punto de corte (sucesión de símbolos idénticos consecutivos)
• Z = 2.829: Valor experimental del estadístico de contraste
• Sig. Asintót (bilateral) = 0.005: El p-valor o nivel crítico del contraste, que nos
indica el rechazo de la hipótesis de aleatoriedad.
Supuesto práctico 9

Se realiza un estudio sobre el tiempo en horas de un tipo determinado de


escáner antes de la primera avería. Se ha observado una muestra de 10
escáner y se ha anotado el tiempo de funcionamiento en horas: 18.21;
2.36; 17.3; 16.6; 4.70; 3.63; 15.56; 7.35; 9.78; 14.69. Se puede considerar
aleatoriedad en la muestra

Solución

Se introducen los datos en SPSS

Para obtener una Prueba de Rachas se selecciona, en el menú


principal, Analizar/Pruebas no paramétricas/Cuadros de diálogo
antiguos/Rachas…. Se introduce Tiempo en el ventana Lista Contrastar
variables
Se pulsa Aceptar
y se obtiene el siguiente resultado

En esta salida se muestran los siguientes


valores:

• Valor de la prueba = 12.24: Es el punto de corte para dicotomizar la variable


seleccionada. En esta tabla el punto de corte es la mediana
• Casos < Valor de prueba = 5: De los 10 casos, 5 de ellos tienen valores menores
que la mediana. Los consideramos los casos negativos
• Casos > Valor de prueba = 5: De los 10 casos, 5 de ellos tienen valores mayores que
la mediana. Los consideramos los casos positivos
• Número de rachas = 7: Una racha se define como una secuencias de casos al mismo
lado del punto de corte (sucesión de símbolos idénticos consecutivos)
• Z = 0.335: Valor experimental del estadístico de contraste
• Sig. Asintót (bilateral) = 0.737: El p-valor o nivel crítico del contraste, que nos
indica que no se debe rechazar la hipótesis de aleatoriedad
Contraste sobre bondad de ajuste: Procedimiento
Prueba de Kolmogorov-Smirnov
El procedimiento Prueba de Kolmogorov-Smirnov para una muestra compara la
función de distribución acumulada observada de una variable con una distribución
teórica determinada, que puede ser la distribución Normal, la Uniforme, la de
Poisson o la Exponencial. La Z de Kolmogorov-Smirnov se calcula a partir de la
diferencia mayor (en valor absoluto) entre las funciones de distribución acumulada
teórica y observada. Esta prueba de bondad de ajuste contrasta si las observaciones
podrían razonablemente proceder de la distribución especificada.
Para obtener una Prueba de Kolmogorov-Smirnov se selecciona, en el menú
principal, Analizar/Pruebas no paramétricas/Cuadros de diálogo antiguos/K-
S de 1 muestra…

Se muestra la siguiente ventana


En esta salida se puede elegir una o más variables de contraste numéricas, cada
variable genera una prueba independiente. Elegiremos la variable Crecimiento, una
vez seleccionada la variable se pasa al campo Contrastar variable: mediante el
botón de flecha o pulsando dos veces en la variable

Se selecciona la distribución a la que queremos ajustar los datos en el


campo Distribución de contraste. En esta ventana se pulsa el botón Opciones… y
se accede a otra ventana para obtener estadísticos descriptivos, cuartiles y controlar
el tratamiento de los datos perdidos
Se pulsa Aceptar y se obtiene la salida del procedimiento
En esta salida se
muestran los siguientes valores:
• 104: Número de observaciones del fichero de datos
• 3.63: Número medio de plantas
• 1.435: Desviación típica del número de plantas
• 0.183: Diferencia mayor encontrada entre el valor teórico de la distribución normal
y el valor observado
• 0.123: Diferencia positiva mayor encontrada entre la distribución teórica y la
distribución empírica
• -0.183: Diferencia negativa mayor encontrada entre la distribución teórica y la
distribución empírica
• 1.871: Valor experimental del estadístico de contraste
• 0.002: p-valor asociado al contraste
El p-valor (Sig. Asintót (bilateral) = 0.002) indica que debe rechazarse la hipótesis
H0 de normalidad, de forma que no se admite que la distribución de los datos sea de
tipo Normal.

Supuesto práctico 10

A lo largo de 540 días se anota el número de accidentes mortales de tráfico


que se producen en una ciudad, obteniéndose los resultados de la tabla
adjunta

¿Se ajustan los datos a una Poisson?


Solución
Se introducen los datos en SPSS

Para obtener una Prueba de Kolmogorov-Smirnov se selecciona, en el menú


principal, Analizar/Pruebas no paramétricas/Cuadros de diálogo antiguos/K-
S de 1 muestra… Se introduce NumeroDias en el ventana Lista Contrastar
variables

Se pulsa Aceptar y se obtiene la siguiente salida

En esta salida se muestran los siguientes valores:


• 6: Número de observaciones del fichero de datos
• 103.5: Número medio de accidentes
• 0.440: Diferencia mayor encontrada entre el valor teórico de la distribución de
Poisson y el valor observado
• 0.401: Diferencia positiva mayor encontrada entre la distribución teórica y la
distribución empírica
• -0.440: Diferencia negativa mayor encontrada entre la distribución teórica y la
distribución empírica
• 1.077: Valor experimental del estadístico de contraste
• 0.197: p-valor asociado al contraste
El p-valor (Sig. Asintót (bilateral) = 0.197) indica que no debe rechazarse la hipótesis
H0 (los datos se distribuyen según una Poisson), de forma que se admite que la
distribución del número de accidentes mortales sea de tipo Poisson.

Pruebas para dos muestras independientes


El procedimiento Pruebas para dos muestras independientes compara dos grupos de
casos existentes en una variable y comprueba si provienen de la misma población
(homogeneidad). Estos contrastes, son la alternativa no paramétrica de los tests
basados en el t de Student, sirven para comparar dos poblaciones independientes.
SPSS dispone de cuatro pruebas para realizar este contraste.
• La prueba U de Mann-Whitney es la más conocida de la pruebas para dos muestras
independientes. Es equivalente a la prueba de la suma de rangos de Wilcoxon y a la
prueba de Kruskal-Wallis para dos grupos. Requiere que las dos muestras probadas
sean similares en la forma y contrasta si dos poblaciones muestreadas son
equivalentes en su posición.
• La prueba Z de Kolmogorov-Smirnov y la prueba de rachas de Wald-
Wolfowitz son pruebas más generales que detectan las diferencias entre las
posiciones y las formas de las distribuciones. La prueba de Kolmogorov-
Smirnov se basa en la diferencia máxima absoluta entre las funciones de
distribución acumulada observadas para ambas muestras. Cuando esta diferencia es
significativamente grande, se consideran diferentes las dos distribuciones.
• La prueba de rachas de Wald-Wolfowitz combina y ordena las observaciones de
ambos grupos. Si las dos muestras proceden de una misma población, los dos grupos
deben dispersarse aleatoriamente en la ordenación de los rangos.
• La prueba de reacciones extremas de Moses presupone que la variable
experimental afectará a algunos sujetos en una dirección y a otros en dirección
opuesta. La prueba contrasta las respuestas extremas comparándolas con un grupo
control.
Para obtener Pruebas para dos muestras independientes, se selecciona, en el menú
principal, Analizar/Pruebas no paramétricas/Cuadros de diálogo antiguos/2
muestras independientes…
Se
muestra la siguiente ventana

En esta salida se puede


elegir una o más variables de contraste numéricas. Se elige la variable Tiempo, una
vez seleccionada la variable se pasa al campo Contrastar variable: mediante el
botón de flecha o pulsando dos veces en la variable. Se selecciona una variable de
agrupación, en nuestro caso la variable es Grupo (Se desea saber si las persona
fumadoras tardan más tiempo en dormirse que las no fumadoras)
Se pulsa Definir
grupos…, para dividir el archivo en dos grupos o muestras, y emerge la siguiente
ventana

Para segmentar el archivo en dos


grupos o muestras se introduce un valor entero para el Grupo 1 y un valor entero
para el Grupo 2. Así, en los campos Grupo 1 y Grupo 2 se ponen los valores con los
que están codificados Fumador (con 1) y NoFumador (con 2), respectivamente.
Como indica la siguiente salida

Se pulsa Continuar y como está marcado por defecto el test U de Mann-Whitney se


pulsa Aceptar y se obtiene las siguientes salidas

Las observaciones de
ambos grupos se combinan para formar una sola muestra, se ordenan linealmente y
se les asigna un rango, asignándose el rango promedio en caso de producirse
empate, conservando su identidad como grupo. El estadístico W de Wilcoxon
(Wm) es la suma de los rangos asociados con las observaciones que originariamente
constituyen la muestra menor (Fumadores). Se realiza está elección ya que se piensa
que si la población de Fumadores está situada por debajo de la población de
NoFumadores, entonces los rangos menores tenderán a asociarse con los valores de
los Fumadores. Ello producirá un valor pequeño para el estadístico Wm. Si es cierto
lo contrario (la población de Fumadores está situada por encima de la población de
NoFumadores) entonces los rangos mayores se encontrarán entre los Fumadores,
dando lugar a un valor grande del estadístico Wm. De esta forma, se rechaza H0 si el
valor observado Wm fuera demasiado pequeño o demasiado grande para que se
debiera al azar.

Si las diferencias entre los grupos se deben al azar, el rango promedio de los dos
grupos debería ser aproximadamente igual. En la salida anterior se observa que hay
una diferencia de alrededor de siete minutos (Rango promedio de Fumadores es
17.67 el de los NoFumadores es 11.07). Siendo mayor el tiempo que tarda en
dormirse los Fumadores.

En la siguiente salida se muestran los valores experimentales de los estadísticos de


contrastes y el p-valor asociado

SPSS calcula dos estadísticos: U de Mann-


Whitney y W de Wilcoxon, como ambos estadísticos son equivalentes SPSS
muestra un único valor de p-valor (Sig). Además, en el cálculo de dicho p-valor aplica
una aproximación a la distribución normal, la cual sólo es válida para muestras
grandes.
El estadístico U de Mann-Whitney, como el de W de Wilcoxon, dependen de las
observaciones de los dos grupos linealmente ordenadas. El estadístico U es el
número de veces que un valor de los Fumadores precede al de los NoFumadores. El
Estadístico U será grande si la población de los Fumadores está situada por encima
de la población de los NoFumadores y será pequeño si sucede lo contario.
El estadístico de contraste Wm es la suma de los rangos asociados a los Fumadores.
Como sospechamos que los Fumadores tardan más tiempo en quedarse dormidos
que los NoFumadores, se rechaza la Hipótesis nula de que no existen diferencias
entre los dos grupos si el valor de Wm es demasiado pequeño para que se deba al
azar.

El p-valor asociado al contraste, 0.032, nos conduce a rechazar la hipótesis nula de


que no existe diferencias entre los dos grupos y concluimos que los Fumadores
tienden a tardar más tiempo en quedarse dormidos que los NoFumadores.

Supuesto práctico 11
En unos grandes almacenes se realiza un estudio sobre el rendimiento de
ventas de los vendedores. Para ello, se observa durante 10 dias, el número de
ventas de dos vendedores
Vendedor A: 10 40 60 15 70 90 30 32 22 13
Vendedor B: 45 60 35 30 30 15 50 20 32 9
Solución

Se introducen los datos en SPSS

Para obtener Pruebas para dos muestras independientes, se selecciona, en el menú


principal, Analizar/Pruebas no paramétricas/Cuadros de diálogo antiguos/2
muestras independientes… En la salida correspondiente, se elige la
variable Ventas y se pasa al campo Lista Contrastar variable: Se selecciona una
variable de agrupación, en nuestro caso la variable es Vendedores (Se desea saber
si el rendimiento de ambos vendedores es independiente del producto de venta).
Para segmentar el archivo en dos grupos o muestras se introduce un valor entero
para el Grupo 1 y un valor entero para el Grupo 2. Así, en los campos Grupo
1 y Grupo 2 se ponen los valores con los que están codificados Vendedor 1 (con
1) y Vendedor 2 (con 2), respectivamente. Como indica la siguiente salida

Se pulsa Continuar y como está marcado por defecto el test U de Mann-Whitney se


pulsa Aceptar y se obtiene las siguientes salidas

Las observaciones de ambos grupos se combinan para formar una sola muestra, se
ordenan linealmente y se les asigna un rango, asignándose el rango promedio en
caso de producirse empate, conservando su identidad como grupo. El estadístico W
de Wilcoxon (Wm) es la suma de los rangos asociados con las observaciones que
originariamente constituyen la muestra menor (Vendedor 2). Se realiza está
elección ya que se piensa que si la población de número de ventas del Vendedor 2
está situada por debajo de la población número de ventas del Vendedor1, entonces
los rangos menores tenderán a asociarse con los valores del número de ventas del
Vendedor 2. Ello producirá un valor pequeño para el estadístico Wm. Si es cierto lo
contrario (la población número de ventas del Vendedor 2 está situada por encima
de la población número de ventas del Vendedor 1) entonces los rangos mayores se
encontrarán entre el número de ventas del Vendedor 2, dando lugar a un valor
grande del estadístico Wm. De esta forma, se rechaza H0 si el valor
observado Wm fuera demasiado pequeño o demasiado grande para que se debiera
al azar.

Si las diferencias entre los grupos se deben al azar, el rango promedio de los dos
grupos debería ser aproximadamente igual. En la salida anterior se observa que
hay una diferencia de alrededor de 125 (Rango promedio de Ventas del Vendedor
1 es 412.03 el del Vendedor 2 es 287.09). Siendo mayor el promedio del Vendedor
1.

En la siguiente salida se muestran los valores experimentales de los estadísticos de


contrastes y el p-valor asociado

SPSS calcula dos estadísticos: U de Mann-Whitney y W de Wilcoxon, como ambos


estadísticos son equivalentes SPSS muestra un único valor de p-valor (Sig). Además,
en el cálculo de dicho p-valor aplica una aproximación a la distribución Normal, la
cual sólo es válida para muestras grandes.
El estadístico U de Mann-Whitney, como el de W de Wilcoxon, dependen de las
observaciones de los dos grupos linealmente ordenadas. El estadístico U es el
número de veces que un valor del número de ventas del Vendedor 2 precede al del
Vendedor 1. El Estadístico U será grande si la población de ventas del Vendedor 2
está situada por encima de la población ventas del Vendedor 1 y será pequeño si
sucede lo contario.

El p-valor asociado al contraste, 0.000, nos conduce a rechazar la hipótesis nula de


que no existe diferencias entre los dos grupos y concluimos que el número de Ventas
del Vendedor 1 es mayor que las del Vendedor 2.

Procedimiento Pruebas para dos muestras relacionadas


Estas pruebas comparan las distribuciones de dos poblaciones relacionadas. Se
supone que la distribución de población de las diferencias emparejadas es simétrica.
SPSS dispone de cuatro pruebas para realizar este contraste, la prueba de
signos, la prueba de Wilcoxon de los rangos con signo, la prueba de
McNemar y la prueba de homogeneidad marginal. La prueba apropiada depende
del tipo de datos:
• Datos continuos, se utiliza la prueba de signos o la prueba de Wilcoxon de los
rangos con signo. La prueba de los signoscalcula las diferencias entre las dos
variable y clasifica las diferencias como positivas, negativas o empatadas. Si las dos
variables tienen una distribución similar, el número de diferencias positivas y
negativas no difiere de forma significativa. La prueba de Wilcoxon de los rangos
con signo tiene en cuenta la información del signo de las diferencias y de la
magnitud de las diferencias entre los pares. Dado que esta prueba incorpora más
información acerca de los datos, es más potente que la prueba de los signos.
• Datos binarios, se utiliza la prueba de McNemar, dicha prueba se usa
normalmente cuando las medidas están repetidas, es decir la respuesta de cada
sujeto se obtiene dos veces, una antes y otra después de que ocurra un evento
especificado. Esta prueba determina si la tasa de respuesta inicial (antes del evento)
es igual a la tasa de respuesta final (después del evento). Es útil para detectar
cambios en la respuesta en los diseños del tipo antes-después.
• Datos categóricos, se utiliza la prueba de homogeneidad marginal. Es una
extensión de la prueba de McNemar a partir de la respuesta binaria a la respuesta
multinomial. Contrasta los cambios de respuesta, utilizando la distribución de Chi-
cuadrado y es útil para detectar cambios de respuesta en diseños antes-después.
Para obtener pruebas para dos muestras relacionadas se selecciona, en el menú
principal, Analizar/Pruebas no paramétricas/Cuadros de diálogo antiguos/2
muestras relacionadas…
Se muestra la siguiente ventana

En esta salida se
puede elegir una o más variables de contraste numéricas. Para ello, se pulsa en cada
una de las variables. La primera de ellas aparecerá en la sección Selecciones
actuales como Variable1, se pulsa en la variable Crudo; la segunda variable
aparecerá como Variable2, se pulsa en la variable Cocido. A continuación se pulsa
en el botón de flecha para incluir las variables en la campo Contrastar pares: Se
pulsa Aceptar y se muestra la siguiente salida

En el text
de Wilcoxon, los rangos están basados en el valor absoluto de la diferencia entre las
dos variables contrastadas. El signo de la diferencia es usado para clasificar los casos
en uno o tres grupos: diferencia menor que 0 (rangos negativos), mayor que cero
(rangos positivos) o igual a cero (empates). Los casos de empates son ignorados

El p-valor asignado al contraste


0.021 (Sig asintótica bilateral) nos indica que se debe rechazar la hipótesis nula de
que no existen diferencias entre los dos grupos.

Ejercicios
Ejercicios Guiados
A continuación se va a proceder a iniciar una aplicación Java,
comprueba que tengas instalada la Máquina Virtual Java para poder
ejecutar aplicaciones en Java.

Si no tienes instalada la Máquina Virtual Java (Java Runtime


Environment – JRE) pincha en uno de los enlaces para descargarla:

Instalación directa de la JRE 6 para Windows


Página oficial de Sun Microsystems, descarga de la JRE para cualquier
plataforma
Ejercicio1

Ejercicio2

Ejercicio3
Si ya tienes instalada la Máquina Virtual Java pincha en el
siguiente enlace para proceder a la ejecución de los
ejercicios guiados Ejercicio4

Ejercicio5

Ejercicio6

Ejercicio7
IMPORTANTE: Si al descargar el archivo *.JAR del ejercicio tu gestor de
descargas intenta guardarlo como *.ZIP debes cambiar la extensión a .JAR
para poder ejecutarlo.

Enunciado del Ejercicio 1


En 5 zonas de la provincia de Granada (Ladihonda y Fazares, zonas muy secas
y Cortijuela, Molinillo y Fardes, zonas húmedas) se hacen una serie de
mediciones sobre las hojas de las encinas a lo largo de 3 años consecutivos:
1995, muy seco y 1996 y 1997, muy lluviosos.
El objetivo es medir la simetría fluctuante en dichas hojas como indicador de
stress en la planta. Bajo condiciones de stress (sequía, herbivoría, limitación
por nutrientes…), la hipótesis es que la asimetría aumente. Contamos con la
siguiente información:
• Localización árboles: 5 zonas, dos en zonas muy secas (Hoya Guadix-Baza,
Ladihonda y Fazares) y tres en zonas con mayor precipitación (Cortijuela,
Molinillo, Fardes). En esta última, Fardes, son árboles situados en la ladera de
un río (presumiblemente poco afectados por años más o menos secos).
• Años de climatología diferente: 1995 año muy seco y años 1996 y 1997, años
muy lluviosos.
• Situación de la hoja: Canopy (copa de los árboles) y Sprouts (rebrotes, hojas
nuevas que salen desde la parte inferior del tronco).
Disponemos de un total de 2101 casos, cedidos por el Departamento de
Ecología de la Universidad de Granada (España), de los que hemos
seleccionado aleatoriamente una muestra de tamaño 15 que se presenta en la
siguiente tabla:
Se pide:
a) ¿Se puede admitir que la longitud de las hojas de encina se distribuye
normalmente?
b) ¿Se puede admitir que la longitud media de las hojas es igual a 30 cm a un
nivel de significación del 5%?
c) Suponiendo que la asimetría de las hojas sigan una distribución Normal;
comprobar mediante un contraste de hipótesis si existen diferencias
significativas en la asimetría de las hojas teniendo en cuenta la situación de
la hoja en el árbol.
d) A un nivel de significación del 5%, ¿es representativo el ajuste lineal entre
la longitud y la asimetría? ¿Cuál sería la expresión del modelo? ¿Cuánto
explica el modelo?

Enunciado del Ejercicio 2


Se realiza un estudio para investigar el efecto del ejercicio físico sobre el nivel
de triglicéridos, en el que participaron once individuos. Antes del ejercicio se
tomaron muestras de sangre para determinar el nivel de triglicéridos de cada
participante. Después, los individuos fueron sometidos a un programa físico
que se centraba en carreras y marchas diarias. Al final del periodo de
ejercicios, se tomaron nuevamente muestras de sangre y se obtuvo una
segunda lectura del nivel de triglicéridos en sangre.Los datos se muestran en
la siguiente tabla
Se pensó que el programa de ejercicios físicos podría reducir del nivel de
triglicéridos en sangre. ¿Sostienen estos datos el argumento de los
investigadores? (Supóngase normalidad).

Enunciado del Ejercicio 3


Se realiza un estudio para investigar el efecto de la presencia de una gran
planta industrial sobre la población de invertebrados en un río que atraviesa
la planta. Se tomaron muestras de siete especies de invertebrados en dos
zonas del río: antes de la planta “Aguas arriba” y después de la planta “Aguas
abajo”. Los datos se muestran en la siguiente tabla

Se pide:
a) ¿Se puede admitir que el tipo de especies de vertebrados está relacionado
con la situación respecto de la planta de “Aguas arriba del río”?
b) ¿Se puede admitir relación entre la situación respecto a la planta de la
zona del río y el tipo de especies halladas en ella?

Enunciado del Ejercicio 4


Se quiere estudiar si el 85% de los niños con dolor torácico tienen un
ecocardiograma normal. Para ello, se toma una muestra de 139 niños con
dolor torácico, de ellos 123 presentan un ecocardiogramas normal. ¿Apoyan
los datos la hipótesis?

Enunciado del Ejercicio 5


En un proceso de producción de unas píldoras que se fabrican
secuencialmente, la periodicidad de rachas de píldoras defectuosas puede ser
significativa de la falta de aleatoriedad en la producción y sugeriría la revisión
del proceso. Se desea saber si en el proceso de fabricación de las píldoras, la
obtención de éstas en mal estado se produce de manera aleatoria. Para ello se
anota el estado de 17 píldoras obtenidas en la cadena de producción a una
determinada hora:
B: Buen estado D: Defectuosa
BDBDBBBDDBDBDDBDB
Enunciado del Ejercicio 6
En un estudio sobre el hábito de fumar y sus efectos sobre las pautas del sueño,
una de las variables importantes es el tiempo que se tarda en quedarse
dormido. Se extrae una muestra, de tamaño 8, de la población de fumadores y
otra independiente, de tamaño 10, de la población de no fumadores. Se
obtienen los siguientes datos:
¿Indican estos datos que los fumadores tienden a tardar más tiempo en
quedarse dormidos que los no fumadores?

Enunciado del Ejercicio 7


En un estudio sobre los efectos del ejercicio físico en pacientes con
enfermedad coronaria, se mide el máximo de oxígeno consumido por cada
paciente, antes de comenzar el entrenamiento. Después de seis meses de
hacer ejercicio con bicicleta tres veces por semana, se midió nuevamente el
oxígeno consumido por cada persona y se obtuvieron los siguientes
resultados.

¿Se puede concluir que, al nivel de significación del 5%, el ejercicio tiende a
aumentar el máximo de oxígeno admitido por los pacientes?

Ejercicios Propuestos
Ejercicio Propuesto 1
En una unidad de investigación hospitalaria se está realizando un estudio para
conocer si la tolerancia a la glucosa en sujetos sanos tiende a decrecer con la
edad. Para ello se realizó un test oral de glucosa a dos muestras de pacientes
sanos, unos jóvenes y otros adultos. El test consistió en medir el nivel de
glucosa en sangre en el momento de la ingestión (nivel basal) de 100 grs. de
glucosa y a los 60 minutos de la toma. Los resultados fueron los siguientes
Jóvenes

Adultos

Responder a las siguientes cuestiones


a) ¿Los niveles de glucosa en sangre en el momento de la ingestión (nivel
basal) siguen una distribución normal en las dos poblaciones?
b) ¿Se puede admitir que el nivel medio de glucosa en sangre en el momento
de la ingestión en los jóvenes es menor que 85?
c)¿Se detecta una variación significativa del nivel de glucosa en sangre en cada
grupo?
d) Estudiar donde es mayor la concentración de glucosa en sangre:
d1) ¿La concentración de glucosa es mayor en adultos que en jóvenes?
d2) ¿La concentración de glucosa es mayor a los 60 minutos en adultos que en
jóvenes?
d3) ¿La concentración de glucosa es mayor en el momento de la ingestión en
adultos que en jóvenes
e) A un nivel de significación del 5%,
e1) ¿Es representativo el ajuste lineal, en los jóvenes, entre el nivel de glucosa
en sangre en el momento de la ingestión (nivel basal) y a los 60 minutos? ¿Cuál
sería la expresión del modelo?¿Cuánto explica el modelo?
e2) ¿Es representativo el ajuste lineal, en los adultos, entre el nivel de glucosa
en sangre en el momento de la ingestión (nivel basal) y a los 60 minutos? ¿Cuál
sería la expresión del modelo?¿Cuánto explica el modelo? e3) ¿Es
representativo el ajuste lineal entre los jóvenes y los adultos?

Ejercicio Propuesto 2
Continuando con el estudio de la asimetría en la hoja de la encina, (Ejercicio
guiado 1) se ha detectado la presencia de Agallas en Encina (pequeñas agallas
en el envés de una hoja de encina causadas por el díptero Dryomyia
lichtensteini) tanto en las zonas secas como en las zonas con mayor
precipitación.
a) En las dos zonas muy secas (Ladihonda y Fazares) se pretende comprobar
si determinado tratamiento, aplicado durante un mes, ayuda a reducir la
presencia de dichas agallas. Para ello, se realiza un estudio a 10 encinas, en las
que se selecciona aleatoriamente 10 hojas y se registra el promedio de agallas
presentes antes del tratamiento y después del tratamiento (se supone
normalidad). Los resultados se muestran a continuación:

b)Se quiere estudiar la asociación entre el nivel de dióxido de sulfúrico del


aire y el número medio de Agallas en Encinaen las zonas de los árboles de
Molinillo. Se elige una muestra de 10 zonas de las que se sabe que tienen una
alta concentración de dióxido de sulfúrico, 10 zonas que se sabe que tienen un
nivel normal y 10 zonas que tienen una baja concentración. Dentro de cada
zona se seleccionan aleatoriamente 20 encinas y se determina para cada
encina el promedio de agallas en las hojas. Sobre esta base se clasifica cada
encina según tenga un recuento bajo, normal o alto de agallas. Se obtienen los
datos que se muestran en la siguiente tabla

Ejercicio Propuesto 3
Se asegura que la quinta parte de cierto tipo de empresas químicas utilizan
gasoil para su funcionamiento. Para contrastar esta afirmación se toma una
muestra aleatoria de 100 empresas y se obtiene que 23 de ellas utiliza este
combustible. Resolver el contraste a un nivel de significación 0.01.

Ejercicio Propuesto 4
En un laboratorio se observó el número de partículas a emitidas por una
sustancia radioactiva a intervalos iguales de tiempo. La información se
muestra en la siguiente tabla:

¿Se puede considerar al nivel de significación 0.01 que los datos se ajustan a
una distribución de Poisson?

Ejercicio Propuesto 5

Se quiere estudiar si el número de bacterias que aparecen en un determinado


cultivo al cabo de una semana es aleatorio o por el contrario habría que
suponer que hay algo en el cultivo que propicia el desarrollo de tales
bacterias. Para ello, se sometió el cultivo a 10 semanas de observación y se
obtuvieron los siguientes resultados: 498, 490, 510, 505, 495, 496, 497, 501,
502, 520.

Ejercicio Propuesto 6

En un determinado hospital se están realizando diversos estudios


comparativos, con el objetivo de estudiar el número pacientes que llegan,
durante una semana al hospital, para ser diagnosticado y el número de
enfermos con un tipo de carcinoma que reciben una determinada terapia.
Para ello se dispone de la siguiente información:

Se pide, a un nivel de confianza del 5%:


1. Estudiar si el porcentaje de hombres que llegan, durante una semana al
hospital, para ser diagnosticado es del 52%.
2. Comparar la proporción de mujeres con carcinoma que reciben o no reciben
la terapia.

Ejercicio Propuesto 1(Resuelto)


En una unidad de investigación hospitalaria se está realizando un estudio para
conocer si la tolerancia a la glucosa en sujetos sanos tiende a decrecer con la
edad. Para ello se realizó un test oral de glucosa a dos muestras de pacientes
sanos, unos jóvenes y otros adultos. El test consistió en medir el nivel de
glucosa en sangre en el momento de la ingestión (nivel basal) de 100 grs. de
glucosa y a los 60 minutos de la toma. Los resultados fueron los siguientes
Jóvenes
Adultos

Responder a las siguientes cuestiones


a) ¿Los niveles de glucosa en sangre en el momento de la ingestión (nivel
basal) siguen una distribución normal en las dos poblaciones?
b) ¿Se puede admitir que el nivel medio de glucosa en sangre en el momento
de la ingestión en los jóvenes es menor que 85?
c)¿Se detecta una variación significativa del nivel de glucosa en sangre en cada
grupo?
d) Estudiar donde es mayor la concentración de glucosa en sangre:
d1) ¿La concentración de glucosa es mayor en adultos que en jóvenes?
d2) ¿La concentración de glucosa es mayor a los 60 minutos en adultos que en
jóvenes?
d3) ¿La concentración de glucosa es mayor en el momento de la ingestión en
adultos que en jóvenes
e) A un nivel de significación del 5%,
e1) ¿Es representativo el ajuste lineal, en los jóvenes, entre el nivel de glucosa
en sangre en el momento de la ingestión (nivel basal) y a los 60 minutos? ¿Cuál
sería la expresión del modelo?¿Cuánto explica el modelo?
e2) ¿Es representativo el ajuste lineal, en los adultos, entre el nivel de glucosa
en sangre en el momento de la ingestión (nivel basal) y a los 60 minutos? ¿Cuál
sería la expresión del modelo?¿Cuánto explica el modelo? e3) ¿Es
representativo el ajuste lineal entre los jóvenes y los adultos?

Solución:
a) ¿Los niveles de glucosa en sangre en el momento de la ingestión (nivel
basal) siguen una distribución normal en las dos poblaciones?

Se debe contrastar si la distribución de nivel de glucosa para los jóvenes y los adultos
en el momento de la ingestión (nivel basal) sigue una distribución normal. Para ello,
una vez introducidos los datos en SPSS, se contrasta la normalidad mediante el
contraste de Kolmogorov-Smirnov.

Se selecciona, en el menú principal, Analizar/Pruebas no


paramétricas/Cuadros de diálogo antiguos/K-S de 1 muestra… y se obtiene la
siguiente salida
De los resultados deducimos

• p-valor=0.968, que a un nivel de significación del 5 % no se debe rechazar la


hipótesis nula, por tanto se concluye que la distribución de nivel basal de glucosa
para los adultos sigue una distribución normal.
• p-valor=0.953, que a un nivel de significación del 5 % no se debe rechazar la
hipótesis nula, por tanto se concluye que la distribución de nivel basal de glucosa
para los jóvenes sigue una distribución normal.
b) ¿Se puede admitir que el nivel medio de glucosa en sangre en el momento
de la ingestión en los jóvenes es menor que 85?
Este apartado se resuelve mediante un contraste unilateral (en este caso de cola a la
izquierda) para la media de una población normal. Para ello, se
selecciona Analizar/Comparar medias/Prueba T de una muestra…
SPSS muestra la siguiente salida:

En esta tabla se observa que el valor del estadístico (t = -1.128) deja a la derecha un
p-valor (Sig. (bilateral)) de 0.289. Para resolver el contraste de una cola el p-valor
asociado al contraste será la mitad del p-valor mostrado en la tabla. Es decir el p-
valor es 0.1445 mayor que el nivel de significación 0.05. Por lo tanto, no se debe
rechazar la hipótesis nula y concluimos que el nivel basal medio de glucosa en los
jóvenes no es menor que 85.
c) ¿Se detecta una variación significativa del nivel de glucosa en sangre en cada
grupo?
Se pretende comprobar si, como muestran los datos, los niveles de glucosa en sangre
son distintos para cada grupo en el momento de la ingestión y a los 60 minutos. Se
realiza un contraste de medias de variables normales en muestras apareadas. Para
realizar este contraste mediante SPSS se selecciona, en el menú
principal, Analizar/Comparar medias/Prueba T para muestras
relacionadas… y se obtiene la siguiente salida

De los resultados deducimos

• p-valor < 0,001, que a un nivel de significación del 5 % se debe rechazar la hipótesis
nula y por tanto hay diferencias significativas en el nivel de glucosa de los jóvenes
en el momento de la ingestión y a los 60 minutos.
• p-valor< 0,001, que a un nivel de significación del 5 % se debe rechazar la hipótesis
nula y por tanto hay diferencias significativas en el nivel de glucosa de los adultos
en el momento de la ingestión y a los 60 minutos.
d) Estudiar donde es mayor la concentración de glucosa en sangre:
d1) ¿La concentración de glucosa es mayor en adultos que en jóvenes?
Se trata de un contraste unilateral (de cola a la izquierda) para la diferencia de
medias de dos muestras independientes, H0: µ1 >= µ2 (La concentración media de
glucosa es menor o igual en adultos que en jóvenes) frente a la alternativa H 1: µ1 <
µ2 (la concentración media de glucosa es mayor en adultos que en jóvenes). Para
resolverlo mediante SPSS se selecciona, en el menú principal: Analizar/Comparar
medias/Prueba T para muestras independientes… y se obtiene la siguiente
salida

De los resultados deducimos

• p-valor < 0,001, que a un nivel de significación del 5 % se debe rechazar la hipótesis
nula de igualdad de varianzas.
• texp = -1,598, y el p-valor asociado será la mitad del obtenido para el contraste
bilateral, es decir, p-valor = 0,0595, que a un nivel de significación del 5 % no se debe
rechazar la hipótesis nula y por tanto la concentración de glucosa en sangre de los
jóvenes es mayor que la de los adultos.
d2) ¿La concentración de glucosa es mayor a los 60 minutos en adultos que en
jóvenes?
Se trata de un contraste unilateral (de cola a la izquierda) para la diferencia de
medias de dos muestras independientes, H0: µ1 >= µ2 (La concentración media de
glucosa es menor o igual a los 60 minutos en adultos que en jóvenes) frente a la
alternativa H1: µ1 < µ2 (la concentración media de glucosa es mayor a los 60 minutos
en adultos que en jóvenes). Para resolverlo mediante SPSS se selecciona, en el menú
principal: Analizar/Comparar medias/Prueba T para muestras
independientes y se obtiene la siguiente salida

De los resultados deducimos

• p-valor = 0,370, que a un nivel de significación del 5 % no se debe rechazar la


hipótesis nula de igualdad de varianzas.
• texp = -8,122, y el p-valor asociado será la mitad del obtenido para el contraste
bilateral, es decir, p-valor < 0,0005, que a un nivel de significación del 5 % se debe
rechazar la hipótesis nula y por tanto el nivel de glucosa en sangre de los adultos a
los 60 minutos de la toma es mayor que la de los jóvenes.
d3) ¿La concentración de glucosa es mayor en el momento de la ingestión en
adultos que en jóvenes?
Se trata de un contraste unilateral (de cola a la izquierda) para la diferencia de
medias de dos muestras independientes, H0: µ1 >= µ2 (La concentración media de
glucosa en el momento de la ingestión es menor o igual en adultos que en jóvenes)
frente a la alternativa H1: µ1 < µ2 (la concentración media de glucosa en el momento
de la ingestión es mayor en adultos que en jóvenes). Para resolverlo mediante SPSS
se selecciona, en el menú principal: Analizar/Comparar medias/Prueba T para
muestras independientes… y se obtiene la siguiente salida

De los resultados deducimos

• p-valor = 0,282, que a un nivel de significación del 5 % no se debe rechazar la


hipótesis nula de igualdad de varianzas.
• texp = -2,139, y el p-valor asociado será la mitad del obtenido para el contraste
bilateral, es decir, p-valor = 0,023, que a un nivel de significación del 5 % se debe
rechazar la hipótesis nula y por tanto el nivel de glucosa en sangre en el momento
de la ingestión es menor en los jóvenes que en los adultos.
e) A un nivel de significación del 5%,
e1) ¿Es representativo el ajuste lineal, en los jóvenes, entre el nivel de glucosa
en sangre en el momento de la ingestión (nivel basal) y a los 60 minutos? ¿Cuál
sería la expresión del modelo?¿Cuánto explica el modelo?
Para comprobar si es representativo, mediante SPSS, el ajuste lineal pedido se
selecciona en el menú principal, Analizar/Regresión/Lineal… y se analiza la
siguiente salida de SPSS

El p-
valor igual a 0,216 nos indica que no se debe rechazar la hipótesis nula de que el
coeficiente de regresión es 0 y por tanto no se debe predecir el nivel basal de glucosa
de los jóvenes a partir del nivel a los 60 minutos.

Para obtener la expresión del modelo se selecciona la siguiente salida de SPSS

La
expresión del modelo es: y = 19.609 + 0.427x, donde
• y: nivel basal de glucosa de los jóvenes
• x: nivel de glucosa de los jóvenes a los 60 minutos
Para saber cuánto explica el modelo la siguiente tabla muestra el coeficiente de
determinación R2 = 0,184, este valor indica que el modelo explica el 18,4 % de la
variación del nivel basal de glucosa en los jóvenes.

e2) A un nivel de
significación del 5% ¿Es representativo el ajuste lineal, en los adultos, entre el
nivel de glucosa en sangre en el momento de la ingestión (nivel basal) y a los
60 minutos en los adultos? ¿Cuál sería la expresión del modelo?¿Cuánto
explica el modelo?
Para comprobar si es representativo, mediante SPSS, el ajuste lineal pedido se
selecciona en el menú principal, Analizar/Regresión/Lineal… y se analiza la
siguiente salida de SPSS

El p-
valor igual a 0,450 nos indica que no se debe rechazar la hipótesis nula de que el
coeficiente de regresión es 0 y por tanto no se debe predecir el nivel basal de glucosa
de los adultos a partir del nivel a los 60 minutos.

Para obtener la expresión del modelo se selecciona la siguiente salida de SPSS

La
ecuación del modelo está dada por: y = 66.268 + 0.122x, donde
• y: nivel basal de glucosa de los adultos
• x: nivel de glucosa de los adultos a los 60 minutos
¿Cuánto explica el modelo?

El coeficiente de
determinación R = 0,073 indica que el modelo explica el 7,3 % de la variación del
2

nivel basal de glucosa en los adultos.


e3) A un nivel de significación del 5% ¿Es representativo el ajuste lineal entre
los jóvenes y los adultos?
Se selecciona, en el menú principal, Analizar/Regresión/Lineal… y se analiza la
siguiente salida de SPSS
El p-
valor menor que 0,001 nos indica que se debe rechazar la hipótesis nula de que el
coeficiente de regresión es 0 y por tanto se puede predecir el nivel de glucosa de los
adultos a partir del nivel de glucosa de los jóvenes.

Para obtener la expresión del modelo se considera la siguiente salida de SPSS

La
expresión del modelo es: y = -23.367 + 1.391x, donde
• y: nivel de glucosa de los adultos
• x: nivel de glucosa de los jóvenes
¿Cuánto explica el modelo?

El coeficiente de
determinación R2 = 0,91 indica que el modelo explica el 91 % de la variación del nivel
de glucosa en los adultos. El ajuste realizado es bueno.

Ejercicio Propuesto 2 (Resuelto)


Continuando con el estudio de la asimetría en la hoja de la encina, (Ejercicio
guiado 1) se ha detectado la presencia de Agallas en Encina (pequeñas agallas
en el envés de una hoja de encina causadas por el díptero Dryomyia
lichtensteini) tanto en las zonas secas como en las zonas con mayor
precipitación.
a) En las dos zonas muy secas (Ladihonda y Fazares) se pretende comprobar
si determinado tratamiento, aplicado durante un mes, ayuda a reducir la
presencia de dichas agallas. Para ello, se realiza un estudio a 10 encinas, en
las que se selecciona aleatoriamente 10 hojas y se registra el promedio de
agallas presentes antes del tratamiento y después del tratamiento (se
supone normalidad). Los resultados se muestran a continuación:

b)Se quiere estudiar la asociación entre el nivel de dióxido de sulfúrico del


aire y el número medio de Agallas en Encinaen las zonas de los árboles de
Molinillo. Se elige una muestra de 10 zonas de las que se sabe que tienen una
alta concentración de dióxido de sulfúrico, 10 zonas que se sabe que tienen un
nivel normal y 10 zonas que tienen una baja concentración. Dentro de cada
zona se seleccionan aleatoriamente 20 encinas y se determina para cada
encina el promedio de agallas en las hojas. Sobre esta base se clasifica cada
encina según tenga un recuento bajo, normal o alto de agallas. Se obtienen los
datos que se muestran en la siguiente tabla

Solución:
a) En las dos zonas muy secas (Ladihonda y Fazares) se pretende comprobar
si determinado tratamiento, aplicado durante un mes, ayuda a reducir la
presencia de dichas agallas. Para ello, se realiza un estudio a 10 encinas, en las
que se selecciona aleatoriamente 10 hojas y se registra el promedio de agallas
presentes antes del tratamiento y después del tratamiento (se supone
normalidad).
Para comprobar la efectividad del tratamiento aplicado de la forma especificada
(antes-después) se realiza un contraste unilateral (de cola a la derecha) de
diferencias de medias de variables normales en muestras apareadas, H0: µ1 <= µ2 (El
número medios de agallas antes del tratamiento es menor o igual que después de
haberlo aplicado) frente a la alternativa H1: µ1> µ2; (El número medios de agallas
antes del tratamiento es mayor que después de haberlo aplicado). Para ello, se
selecciona, en el menú principal, Analizar/Comparar medias/Prueba T para
muestras relacionadas. Se obtiene la siguiente pantalla

texp = 3.031 y el p-valor asociado será la mitad del obtenido para el contraste
bilateral, es decir, p-valor < 0,007, que a un nivel de significación del 5 % se debe
rechazar la hipótesis nula, por lo tanto el tratamiento durante un mes ayuda a
reducir la presencia de Agallas en Encina.
b) Se quiere estudiar la asociación entre el nivel de dióxido de sulfúrico del
aire y el número medio de Agallas en Encina en la zona de los árboles de
Molinillo.
Para estudiar la asociación entre el promedio de Agallas en Encina y el nivel de S02 se
realiza un contraste de independencia mediante el contrate no-paramétrico de Chi-
cuadrado. Para ello se elige, en el menú principal, Analizar/Estadísticos
descriptivos/Tablas de contingencia… Se muestra la siguiente salida

El p-valor es igual a
0.475 por lo que no se puede rechazar la hipótesis de independencia.

Ejercicio Propuesto 3 (Resuelto)


Se asegura que la quinta parte de cierto tipo de empresas químicas utilizan
gasoil para su funcionamiento. Para contrastar esta afirmación se toma una
muestra aleatoria de 100 empresas y se obtiene que 23 de ellas utiliza este
combustible. Resolver el contraste a un nivel de significación 0.01.

Solución:
Para contrastar si la proporción de empresas químicas que utilizan gasoil para su
funcionamiento es del 20% (quinta parte de las 100 empresas), tenemos que
realizar el siguiente contraste de hipótesis: H0: p = 0.2 frente a H1: p <> 0.2. Para ello,
una vez definidas las variables e introducidos los datos

Se selecciona Datos/Ponderar casos… Se elige Ponderar casos mediante. A


continuación se introduce la variable Frecuenciaen el campo Variable de
ponderación:
Para realizar el contraste se elige, en el menú principal, Analizar/Pruebas no
paramétricas/Cuadros de diálogo antiguos/Binomial…
El contraste que vamos a realizar es H0: p = 0.2 frente a H1: p <> 0.2, siendo p la
proporción (20%) de empresas químicas que utilizan gasoil para su funcionamiento.
Para ello, en el campo Contrastar proporción: se pone el valor 0.2
Se pulsa Aceptar y se muestra el resultado de la prueba binomial

La proporción observada de empresas químicas que utilizan gasoil para su


funcionamiento es 0.2 y el p-valor correspondiente (Sig. Asintót. (unilateral)) es
0.261. Por lo tanto no se debe rechazar la hipótesis nula, es decir no se debe rechazar
que la quinta parte de cierto tipo de empresas químicas utilizan gasoil para su
funcionamiento.

Ejercicio Propuesto 4 (Resuelto)


En un laboratorio se observó el número de partículas a emitidas por una
sustancia radioactiva a intervalos iguales de tiempo. La información se
muestra en la siguiente tabla:

¿Se puede considerar al nivel de significación 0.01 que los datos se ajustan a
una distribución de Poisson?

Solución
Para comprobar si el número de partículas emitidas por una sustancia radioactiva
se ajustan a una distribución de Poisson, se realiza un contraste no-paramétrico de
Bondad de ajuste. (H0: Los datos se ajustan a una Poisson H1: Los datos no se ajustan
a una Poisson). Para ello se selecciona, en el menú principal, Analizar/Pruebas no
paramétricas/Cuadros de diálogo antiguos/K-S de una muesta… donde se
selecciona en Poisson Distribución de contraste.
Se obtiene la siguiente salida

Mediante el contraste de
Kolmogorov-Smirnov para una muestra se obtiene el valor de Zexp (1.276), dicho
valor deja a la derecha un área de 0.077, mayor que el nivel de significación 0.01,
por lo tanto no debe rechazarse la hipótesis nula. Se puede admitir que si el número
de partículas emitidas por una sustancia radioactiva se ajustan a una distribución
de Poisson

Ejercicio Propuesto 5 (Resuelto)


Se quiere estudiar si el número de bacterias que aparecen en un
determinado cultivo al cabo de una semana es aleatorio o por el contrario
habría que suponer que hay algo en el cultivo que propicia el desarrollo de
tales bacterias. Para ello, se sometió el cultivo a 10 semanas de observación y
se obtuvieron los siguientes resultados: 498, 490, 510, 505, 495, 496, 497,
501, 502, 520.

Solución
Para comprobar si el número de bacterias que aparecen en un determinado cultivo
al cabo de una semana es aleatorio, se realiza un contraste no-paramétrico de
aleatoriedad. (H0: Hay aleatoriedad frente a H1: No hay aleatoriedad). Para ello se
selecciona, en el menú principal, Analizar/Pruebas no paramétricas/Cuadros de
diálogo antiguos/Rachas… Se obtiene la siguiente salida

Mediante la Prueba de rachas se obtiene el


valor de Zexp (-1.006), dicho valor deja a la derecha un área de 0.314, mayor que el
nivel de significación 0.05, por lo tanto no debe rechazarse la hipótesis nula de
aleatoriedad.

Ejercicio Propuesto 6 (Resuelto)


En un determinado hospital se están realizando diversos estudios
comparativos, con el objetivo de estudiar el número pacientes que llegan,
durante una semana al hospital, para ser diagnosticado y el número de
enfermos con un tipo de carcinoma que reciben una determinada terapia.
Para ello se dispone de la siguiente información:

Se pide, a un nivel de confianza del 5%:


1. Estudiar si el porcentaje de hombres que llegan, durante una semana al
hospital, para ser diagnosticado es del 52%.
2. Comparar la proporción de mujeres con carcinoma que reciben o no reciben
la terapia.

Solución:
a) Estudiar si el porcentaje de hombres que llegan, durante una semana al
hospital, para ser diagnosticado es del 53%.
Para resolver este apartado, se realiza un contraste para la proporción de una
distribución Binomial. Es decir, se quiere contrastar H0: p = 0.52 frente a H1: p <>
0.52. Siendo p la proporción de hombres.
Para obtener una Prueba binomial, mediante SPSS, se selecciona en el menú
principal, Analizar/Pruebas no paramétricas/Cuadros de diálogo
antiguos/Binomial
La pantalla de resultados de este procedimiento se presenta en la tabla de
la Prueba binomial

Se
observa que la proporción muestral de hombres es 0.55 y que el p-valor (Sig. exacta
(unilateral)) es de 0.483, por lo tanto no se debe rechazar la hipótesis nula.
b) Comparar la proporción de mujeres con carcinoma que reciben la terapia
Para evaluar si existen diferencias significativas entre la proporción muestral de
mujeres que reciben la terapia y la proporción muestral que no la reciben, se realiza
un contraste bilateral con las siguientes hipótesis estadísticas: H0: p1 =
p2(proporciones iguales) frente a H1: p1 <>p2 (proporciones distintas).
El contraste de comparación de dos proporciones es un caso particular del contraste
de homogeneidad de dos muestras de una variable cualitativa cuando ésta sólo
presenta dos modalidades. (Ver Contrastes de hipótesis para dos proporciones
independientes. Muestras grandes en la “Introducción” de la Práctica 6). Por ello, el
procedimiento que vamos a realizar es el análisis de una tabla de contingencia 2×2.
Para obtener el procedimiento Tablas de contingencia se elige en los
menús Analizar/Estadísticos descriptivos/Tablas de contingencia…

La tabla de
contingencia muestra la tabla de frecuencias conjuntas. En cada casilla aparece,
además de la frecuencia observada, el porcentaje que ésta representa sobre el total
de la fila. Así las proporciones muestrales que vamos a comparar son: 3/9 y 6/11.
La siguiente salida de SPSS muestra la tabla Pruebas de chi-cuadrado
Esta tabla presenta los resultados de cinco estadísticos para la comparación de
ambas proporciones. Generalmente, en el caso de muestras grandes se elige el
estadístico Corrección por continuidad. Dicho estadístico calcula el estadístico
Chi-cuadrado con la corrección por continuidad de Yates. En el caso de muestras
pequeñas, se decide a partir del Estadístico exacto de Fisher. El valor p de la
prueba exacta de Fisher es 0.406 (Sig. exacta (bilateral)). Comparando este valor con
el nivel de significación establecido del 5% se concluye que no se debe rechazar la
hipótesis nula, es decir las diferencias observadas entre ambas proporciones no son
estadísticamente significativas.

APÉNDICE
Introducción al Análisis de datos categóricos:
Tablas de Contingencia

Las variables categóricas o cualitativas son aquellas cuyos valores son un


conjunto de cualidades no cuantificables (no numéricas) que reciben el nombre
de categorías o modalidades.

Las variables categóricas se clasifican en:

Variables cualitativas ordinales: Son aquellas en las que se pueden ordenar sus
distintas modalidades. Es decir, es posible establecer relaciones de orden entre las
categoría. (Ejemplo: el rango militar, la clase social, el nivel de estudios)
Variables cualitativas nominales: Son aquellas en las que no se puede definir un
orden natural entre sus categorías. (Ejemplo: el color del pelo, el color de los ojos, la
raza, la religión).
Variables cualitativas por Intervalo: Proceden de variables cuantitativas
agrupadas en intervalos. Estas variables pueden tratarse como ordinales pero en
éstas se pueden calcular distancias numéricas entre dos niveles de la escala ordinal.
(Ejemplos: el sueldo, la edad, los días del mes, el nivel de presión sanguínea. Son
ejemplos de variables que se pueden agrupar por intervalos).
El conjunto de técnicas estadísticas específicas para el estudio de la asociación
entre variables cualitativas recibe el nombre de Análisis de Datos Categóricos o
Cualitativos.
Tablas de Contingencia

Una tabla de contingencia es una tabla bidimensional en la que las variables objeto
de estudio no son cuantitativas.

Una tabla de doble entrada para las variables X e Y con p filas y k columnas se
muestra a continuación

nij: expresa la frecuencia absoluta observada en las modalidades Xi e Yj


El objetivo es estudiar las posibles relaciones entre las dos variables
cualitativas, este estudio se realiza mediante la tabla de contingencia.
Ejemplo 1: Se realiza un estudio en 20 individuos que se clasificaron según el
sexo (hombre, mujer) y su deseo de asistir o no a un festival de música. La tabla
de contingencia para estudiar las posibles relaciones entre las dos variables
se muestra a continuación

Ejemplo 2: Se realiza un estudio sobre las relaciones entre la opinión sobre la


prohibición de fumar en lugares públicos y el hecho de ser fumador o no. Para
ello se seleccionan 350 personas de las cuales 140 son fumadores.
Hemos dicho anteriormente, que el objetivo es estudiar las posibles relaciones entre
las dos variables cualitativas y para ello estudiamos, en primer lugar,
la independencia de variables categóricas y a continuación la asociación de
variables categóricas.
Independencia de variables categóricas

Relizamos el siguiente contraste dicho contraste


se resuelve mediante el siguiente estadístico propuesto por Pearson:

con

dicho estadístico, bajo la hipótesis nula, se distribuye según una ; donde p


es el número de filas y q el número de columnas.

Supuesto práctico 11

Los datos sobre 20 individuos que se clasificaron según el sexo (hombre,


mujer) y su deseo de asistir o no a un festival de música se muestran en la
siguiente tabla de contingencia .

Razonar, con una significacción del 5%, si el hecho de ser hombre o mujer
está relacionado con asistir o no a un festival de música.
Solución

Vamos a realizar el siguinte contraste Para ello,


utilizamos el procedimiento Tablas de contingencia que proporciona una serie de
pruebas y medidas de asociación para tablas de doble clasificación.
En primer lugar se definen las variables Sexo y Asistir y se introducen los datos en

SPSS como se muestra en la siguiente figura


A continuación, ponderamos los casos mediante la variable frecuencias, para ello
seleccionamos Datos/Ponderar casos y se muestra la siguiente salida

Pulsamos Ponderar casos mediante y pasamos frecuencias a la celda Variable


de frecuencia. Pulsamos Aceptar
A continuación, para realizar el contraste de independencia se selecciona, en el
menú principal, Analizar/Estadísticos descriptivos/Tablas de contingencia…
Se muestra la siguiente salida

Se pulsa Estadísticos y se selecciona Chi-cuadrado y Correlaciones

Se pulsa Continuar y Aceptar y se muestran las siguientes salidas:

En primer lugar, el programa proporciona la tabla de contingencia que relaciona el


sexo con el hecho de asistir o no al festival.
A continuación se realiza el contraste de hipótesis de independencia:

H0: Sexo y Asisitir al festival son independientes


H1: Sexo y Asisitir al festival no son independientes

El estadístico de contraste (observado) es 0.037, que se distribuye según una


distribución χ2 con 1 grados de libertad (gl = 1), tiene asociada una probabilidad
(Significación asintótica ) de 0.848. Puesto que esta probabilidad (denominada nivel
crítico o nivel de significación observada) es grande (mayor que 0,05), se decide no
rechazar la hipótesis nula, concluyendo que el sexo y el deseo de asistir o no a un
festival de música son independientes.
SPSS proporciona también los siguientes estadísticos:
Corrección por continuidad de Yates (1934)
Consiste en restar (0,5) puntos a |nij-eij| en la expresión del estadístico χ2, de la

siguiente forma Algunos autores sugieren, que con


muestras pequeñas, esta corrección permite que el estadístico χ2 se ajuste mejor a
las probabilidades de la distribución χ2 , pero no existe un consenso generalizado
sobre la utilización de esta corrección.
Razón de verosimilitud Chi‐cuadrado

Se obtiene mediante la siguiente expresión: (Fisher,


1924; Neyman y Pearson, 1928)

Este estadístico es asintóticamente equivalente a χ2 (se distribuye y se interpreta


igual) y es muy utilizado para estudiar la relación entre variables categóricas,
particularmente en el contexto de los modelos log‐lineales.

Si RV < χ2α;(k-1).(m-1) entonces X e Y no son independientes al nivel α


Si RV ≥ χ2α;(k-1).(m-1) entonces X e Y son independientes al nivel α

Se acepta la hipótesis nula cuando la significación de RV (Sig. asintótica) es mayor


que 0,05.
La aplicación de los dos estadísticos (χ2 ,RV) suelen conducir a la misma
conclusión. En los casos en que no se produzca esta coincidencia, se elige el
estadístico con una significación (probabilidad asociada) menor.

Señalar que, en el ejemplo, la razón de verosimilitudes (RV) es 0.037, tiene


asociada una probabilidad (Sig. asintótica) de 0,848 que como es mayor que 0,05,
conduce a no rechazar la hipótesis de independencia.

Correlaciones
SPSS proporciona los coeficientes de correlación de Pearson y de Spearman.
El coeficiente de correlación de Pearson es una medida de asociación lineal
especialmente apropiada para estudiar la relación entre variables de intervalo o
razón.
El coeficiente de correlación de Spearman también es una medida de asociación
lineal, pero para variables ordinales.
Ambos coeficientes son de poca utilidad en el estudio de las pautas de relación
presentes en una tabla de contingencia.
En el ejempo el coeficiente de correlación es 0.043. La relación entre las variables
es muy pequeña.
Medidas de asociación de variables categóricas
En caso de rechazar la la hipótesis de independencia entre los dos factores de una
tabla de contingencia, se plantea la necesidad de definir índices que describan no
sólo la intensidad de la asociación, sino también su dirección, es decir si la asociación
entre los factores es directa o inversa. El estudio de estos índices recibe el nombre
de medidas de asociación.
Para detectar el grado y sentido de la asociación entre dos factores existen
diferentes métodos. Nosotros vamos a estudiar las medidas de asociación más
empleadas en la práctica.
Estudio de la asociación
Sean X e Y dos características, cualitativas o cuantitativas, con i = 1, …, p y j = 1, …q
modalidades o categorías, respectivamente, presentadas en una tabla pxq.
Medidas de asociación: Chi-cuadrado
La medida de asociación más usada en la práctica es la medida Chi-cuadrado

Medida resumen que compara los valores (nij) observados en la tabla, con los que
teóricamente se obtendría (tij), en el supuesto de que las variables X e Y fuesen
independientes.
El estadístico Chi-cuadrado permite contrastar la hipótesis de independencia
de X e Y, basándose en el conocimiento del comportamiento de Chi-cuadrado bajo
la hipótesis de independencia: Modelo Chi-cuadrado con (p-1)(q-1) grados de
libertad.

Los valores teóricos tij se obtienen mediante:

Este estadístico toma valores comprendidos entre:

• 0 y N para tablas de contingencia 2×2


• 0 y N*mín{p-1, q-1}, para tablas de contingencia pxq para p,q ≥ 2.
El valor 0 indica que el numerador de la expresión anterior es nulo ((nij–tij)=0), por
tanto las frecuencias observadas coinciden con las que habría si las variables fuesen
independientes; de donde se admite la independencia de X e Y. El hecho de que sus
valores dependan tanto del número de elementos de la tabla (N), como del nº de filas
y columnas, hace difícil su interpretación e impracticable la comparación entre
tablas.
Medidas de asociación en escala nominal
Después de analizar si existe relación o no entre las variables objeto de estudio, cabe
preguntarse ¿cuál es la intensidad de esa relación?.

Entre las medidas utilizada en escala nominal (aquellas variables en las que no se
puede definir un orden natural entre sus categorias), distinguiremos ls siguientes:

• Coeficiente Phi (Φ)


• Coeficiente de contingencia o C de Pearson
• Coeficiente V de Cramer
• Coeficiente Lambda (λ)
• Coeficiente de incertidumbre
• Coeficiente Q de Yule
Coeficiente de Contingencia o C de Pearson

El coeficiente de contingencia C es una medida del grado de asociación de dos

variables cualitativas en escala nominal.


• Si C = 0 ⇒ Independencia entre las variables
• Si C = 1⇒ Asociación perfecta

Este coeficiente solamente se utiliza cuando las tablas de contingencia tienen la


misma dimensión.

En una tabla de contingencia 2×2 el coeficiente C de Pearson toma valores

comprendidos entre 0 y

• Si C= ⇒ Asociación perfecta
• Si C = 0 ⇒ Independencia entre las variables
En una tabla de contingencia (k x k) el valor máximo que toma el coeficiente es

Coeficiente Q de YULE

Coeficiente Phi (Φ)


• En las tablas de contingencia (2 x 2), el coeficiente Phi adopta valores entre 0 y
1, y su valor es idéntico al del coeficiente de correlación de Pearson.
• En las tablas en las que una de las variables tiene más de dos niveles, Phi puede
tomar valores mayores que 1 (pues el valor de χ2 puede ser mayor que el tamaño
muestral).
Coeficiente V de Cramer
El coeficiente V de Cramer incluye una ligera modificación del coeficiente Phi

En las tablas de contingencia


(2 x 2), los coeficientes V de Cramer y Phi (φ) son idénticos.
El problema de este estadístico es que tiende a subestimar el grado de asociación
entre las variables.

El coeficiente de contingencia o C de Perason, el coeficiente Phi y el coeficiente V de


Cramer, son medidas basadas en Chi‐cuadrado, y que intentan corregir el valor del
estadístico χ2 para hacerle tomar un valor entre 0 y 1, y para minimizar el efecto del
tamaño de la muestra sobre la cuantificación del grado de asociación (Pearson,
1913;Cramer, 1946).

Coeficiente Lambda (λ) de Goodman y Kruskall

Es un coeficiente que no depende de la χ2 .

• Si Y es la variable dependiente y X la independiente entonces se evalúa la capacidad


de X para predecir Y mediante:

• Si Y es la variable independiente y X la dependiente entonces se evalúa la capacidad


de Y para predecir X mediante:

Los valores del coeficiente Lambda están comprendidos entre 0 y 1 para tablas
pxq, con p, q ≥ 2; 0 ≤ (λx, λy) ≤ 1.

Valores próximos a 0 implican baja asociación y valores próximos a 1 denotan fuerte


asociación. Sin embargo un valor de 0 no implica independencia entre los atributos

Dos variables son independientes cuando λ = 0 , pero λ = 0 no implica independencia


estadística.

Los valores que pueden tomar los coeficientes los resumimos en las siguientes
tablas
Supuesto práctico 12

Se realiza un estudio sobre las relaciones entre la opinión sobre la


prohibición de fumar en lugares públicos y el hecho de ser fumador o no.
Para ello se seleccionan 350 personas de las cuales 140 son fumadores.
Solución
Realizamos en primer lugar el contraste de independencia sobre sexo y opinión

H0: Sexo y Opinión son independientes


H1: Sexo y Opinión no son independientes

Para ello, en primer lugar introducimos los datos en SPSS

Poderamos los casos mediante la variable frecuencia y pulsamos Aceptar

A continuación, para realizar el contraste de independencia se selecciona, en el


menú principal, Analizar/Estadísticos descriptivos/Tablas de contingencia…
Se pulsa Estadísticos y en la ventana correspondiente se elige Chi-cuadrado

Pulsamos Continuar y Aceptar y se muestra la siguiente


salida
El estadístico de contraste Chi-cuadrado de Pearson (observado) es 133.467, que
sigue una distribución χ2 con 3 grados de libertad (gl = 3). Tiene asociada una
probabilidad (Significación asintótica) de 0.000. Puesto que esta probabilidad
(denominada nivel crítico o nivel de significación observada) es pequeña (menor
que 0,05), se decide rechazar la hipótesis nula de independencia. Concluyendo que
existe una relación de dependencia entre el hecho de ser o no fumador y la opinión
sobre la prohibición de fumar en los lugares públicos.
Señalar también que la razón de verosimilitudes (RV) es 145.475, tiene asociada una
probabilidad (Sig. asintótica ) de 0,000 que como es menor que 0,05, conduce a
rechazar la hipótesis nula, concluyendo que existe dependencia entre las variables
analizadas.
Al ser rechazada la hipótesis de independencia entre las variables analizadas, el
siguiente paso es estudiar el grado de relación que hay entre ellas. Como se trata de
dos variables en escala nominal, seleccionamos las medidas de asociación nominal
Pulsamos Continuar y Aceptar y obtenemos las siguientes salidas
En primer lugar consideraremos el estadístico Chi-cuadrado, que toma el valor
133.467, este estadístico en las tablas pxp, con p, q ≥2 tiene un rango de variación
entre 0 y N*min{p-1. q-1}. En este caso entre 0 y 350*min{1, 3}= 350. Al ser el valor
del estadístico 133.467, podemos deducir que la asociación entre las variables se
puede considerar aceptable.

Cada medida (Lambda, Tau de Goodman‐Kruskall, Coeficiente de incertidumbre)


figura acompañada de su nivel crítico (Sig. aproximada), que como es pequeño,
menor que 0,05, conduce a rechazar la hipótesis nula de independencia,
concluyendo que las variables en estudio están relacionadas.

En el análisis de Medidas Simétricas se encuentran las medidas nominales, que son


aquella que permiten contrastar la independencia sin decir nada sobre la fuerza de
asociación entre las variables, informan únicamente del grado de asociación
existente, no de la dirección o de la naturaleza de tal asociación. Son medidas
basadas en el estadístico chi‐cuadrado: Phi, V de Cramer y el Coeficiente de
Contingencia.

Las medidas de asociación en escala nominal, en las tablas pxq , con p, q ≥2 , en


este caso tablas 2×4

• El coeficiente de contingencia o C de Pearson varía entre 0 y 1/√2. El valor que


muestra la salida de SPSS es 0.525, próximo a 1/√2. Se puede considerar que la
asociación entre las variables es alta
• El coeficiente Phi y el coeficiente V de Cramer varían todos entre 0 y 1. Los valores
que muestra la salida de SPSS son: 0.618, 0.618. Se puede considerar que la
asociación entre las variables es alta
Por tanto, podemos afirmar que sexo y opinión tienen una asociación alta.
Medidas de asociación en escala ordinal
Las medidas de asociación en escala ordinal son una serie de medidas de
asociación que permite aprovechar la información ordinal que las medidas
diseñadas para datos nominales no analizan.

Con datos ordinales tiene sentido hablar de dirección de la relación:

• Una dirección positiva indica que los valores altos de una variable se asocian con
los valores altos de la otra variable, y los valores bajos con valores bajos.
• Una dirección negativa indica que los valores altos de una variable se asocian con
los valores bajos de la otra, y los valores bajos con los valores altos.

Muchas de las medidas de asociación diseñadas para estudiar la relación entre


variables ordinales se basan en el concepto de concordancia (inversión) y
discordancia (no‐inversión).

• Concordancia o no‐inversión (C): Cuando los dos valores de un caso en ambas


variables son mayores (o menores) que los dos valores de otro caso.
Cuando predominan las concordancias, la relación es positiva, a medida que
aumentan (o disminuyen) los valores de una de las variables, aumentan (o
disminuyen) los de la otra. Llamaremos C al número de concordancias
• Discordancia o inversión (D). Cuando el valor de un caso en una de las variables
es mayor que el del otro caso, y en la segunda variable el valor del segundo caso es
mayor que el del primero. Cuando predominan las discordancias, la relación es
negativa, a medida que aumentan (o disminuyen) los valores de una de las
variables, disminuyen (o aumentan) los de la otra. Llamaremos D al número de
discordancias
• Empate (E). Cuando los dos casos tienen valores idénticos en una o en las dos
variables. Hay tres tipos de empates:
• EX: Empate en la variable X y no en la variable Y. Llamaremos EX al número
empates en la variable X (tomando a Y como independiente)
• EY: Empate en la variable Y y no en la variable X. Llamaremos EY al número
empates en la variable Y (tomando a X como independiente)
• EXY: Empate en ambas variables. Llamaremos EXY al número empates en ambas
variables.

Todas las medidas de asociación mencionadas, utilizan en el numerador la


diferencia entre el número de discordancias y concordancias resultantes de
comparar cada caso con cada caso, diferenciándose en el tratamiento dado a los
empates.

Denotamos por T el número total de pares de valores sin


repeticiones y N el número total de casos. La siguiente
expresión permite calcular T

Coeficiente Gamma
(γ) de Goodman y Kruskal

El coeficiente Gamma es uno de los coeficientes más conocidos, para este coeficiente
los empates son irrelevantes, se basa en la relación que siguen los rangos de los dos
atributos

-1 ≤ γ ≤ 1
• γ = − 1: La asociación entre las variables es perfecta y negativa
• γ = 1: La asociación entre las variables es perfecta y positiva
• γ = 0: Hay independencia entre las variables
Coeficiente d de Somers
Este coeficiente, a diferencia de los anteriores, considera que las variables pueden
ser simétricas o dependientes.
• En el caso de que las variables sean simétricas, el estadístico d de Somers
coincide con la Tau‐b de Kendall.
• En caso de que las variables sean dependientes, el estadístico d de Somers se
diferencia del estadístico Gamma en que incluye los empates de la variable que
considera dependiente, lo que da lugar a tres índices (dos asimétricos y uno
simétrico):
• Cuando la variable independiente es Y y siendo Ex los empates en la variable X

• Cuando la variable independiente es X y siendo Ey los empates en la variable Y

• Versión simétrica para X e Y -1 ≤ d ≤ 1


• d = -1 : La asociación entre las variables es perfecta y negativa
• d = 0: Independencia entre las variables
• |d| → 1: Asociación a medida
• d = 1 : La asociación entre las variables es perfecta y positiva
Coeficiente de Concordancia TAU‐b de Kendall (τb)
El coeficiente Tau-b de Kendall utiliza el mismo criterio que el coeficiente d de
Sommer simétrica, si bien utiliza la media geométrica en lugar de la media
aritmética

En las tablas de contingencia cuadradas y si ninguna frecuencia marginal


vale cero, entonces el coeficiente TAU-b de Kendall toma valores entre [‐1, 1].
Coeficiente de Concordancia TAU‐c de Kendall (τc)
Este coeficiente utiliza el mínimo de filas y de columnas

Siendo: m = mín{nº filas, nº columnas} y -1 ≤ τc ≤ 1


Los valores de estas cuatro medidas de asociación de variables en escala ordinal
están comprendidos entre [‐1, 1]
-1 ≤ γ, d, τb, τc ≤ 1

En general para estas medidas

• Cuanto más próximos estén los valores de estas medidas a 0 más débil será la
asociación entre las variables.
• Cuanto más cercanos a 1 (o a -1) sean los valores de todas estas medidas mayor
será la asociación positiva (negativa) entre las variables.

Los valores que pueden tomar los coeficientes los resumimos en la siguiente tabla

Nota:
• En tablas no cuadradas la medida TAU-B de Kendall no alcanza los límites.
• Si las variables son independientes entonces γ = 0, sin embargo el recíproco no
es cierto.
• |γ| =1 no implica asociación perfecta.
Supuesto práctico 13

Se realiza un estudio sobre la práctica deportiva y la sensación de bienestar.


Se desea saber si hay asociación entre ambas variables. La práctica deportiva
se clasifica en (Poca, Moderada, Alta y Muy Alta) y la sensación de bienestar se
clasifica en (Poca, Moderada y Alta). Para dicho estudio se selecciona una
muestra aleatoria de 500 sujetos. Los datos se muestran en la siguiente tabla.
Realizar los contrastes necesarios y calcular e interpretar las medidas de
asociación.
Solución
Se introducen los datos en SPSS

Se ponderan los casos


A continuación, para realizar el contraste de independencia se selecciona, en el
menú principal, Analizar/Estadísticos descriptivos/Tablas de contingencia…

Se pulsa Continuar y Aceptar. Se muestran las siguientes salidas


Realizamos en primer lugar el contraste de independencia sobre Sensación de
bienestar y Práctica deportiva

H0: Sensación de bienestar y Práctica deportiva son independientes


H1: Sensación de bienestar y Práctica deportiva no son independientes

Estadístico de contraste (observado) es 40.049, el cual, en la distribución χ2 de


Pearson tiene 6 grados de libertad (gl = 6) , tiene asociada una probabilidad Sig.
asintótica (Significación asintótica) de 0,000. Puesto que esta probabilidad
(denominada nivel crítico o nivel de significación observado) es muy pequeño,
mucho menor que el nivel de significación del 5%, lo que conduce al rechazo de la
hipóetsis nula y concluimos que las variables analizadas no son independientes y
por lo tanto tienen cierta asociación.

Estadístico de contraste (observado) dela razón de verosimilitudes (RV) es 39.693,


tiene asociada una probabilidad (Sig. asintótica ) de 0,000 que como es menor que
0,05, conduce a rechazar la hipótesis nula, concluyendo que existe dependencia
entre las variables analizadas.

Señalamos, que en caso de ambos estadísticis tengan distinta Sig. asintótica, se elige
el estadístico con menor Sig. asintótica.

A continuación vamos a estudiar el grado de asociación entre ambas variables.

En el análisis de Medidas Direccionales se encuentran las medidas


nominales (lambda, Tau de Goodman y Kruskal, coeficiente de
incertidumbre), medidas ordinales (d de Somers).
• Las medidas nominales permiten contrastar la independencia sin decir nada sobre
la fuerza de asociación entre las variables, informan únicamente del grado de
asociación existente, no de la dirección o de la naturaleza de tal asociación.
• Las medidas ordinales recogen la dirección de la asociación de las variables: una
relación positiva indica que los valores altos de una variable se asocian con los
valores altos de la otra variable, y los valores bajos con los valores bajos; una
relación negativa indica que los valores altos de una variable se asocian con los
valores bajos de la otra variable, y los valores bajos con los valore altos.

Cada medida de asociación en la tabla (Lambda, Tau de Goodman‐Kruskall,


Coeficiente de incertidumbre) se muestra acompañada de su nivel crítico (Sig.
aproximada = 0.002, 0.000, 0.000, respectivamente), que al ser menores que 0,05,
conduce a rechazar la hipótesis nula de independencia, concluyendo que las
variables en estudio (Sensación de bienestar y Práctica deportiva) están
relacionadas.

Junto al valor concreto adoptado por cada medida de asociación nominal por
nominal (0.108, 0.027 y 0.033) se muestra su valor estandarizado (T aproximada),
que se obtiene dividiendo el valor de la medida entre su error típico (calculado éste
suponiendo independencia entre las variables.

La tabla también muestra el error típico de cada medida calculado sin suponer
independencia (Error típico asintótico).

En el análisis de Medidas Simétricas se encuentran las medidas nominales, medidas


ordinales.

Las medidas nominales que muestra esta tabla son medidas basadas en el
estadístico chi‐cuadrado: Phi, V de Cramer y el Coeficiente de Contingencia.
Las medidas ordinales se basan en el concepto de concordancias (o inversión) y
discordancias ( o no inversión). Utilizan en el numerador la diferencia entre el
número de concordancias o inversiones y discordancias o no‐inversiones
resultantes de comparar cada caso con otro, diferenciándose en el tratamiento dado
a los empates. son: Tau-b de Kendall, Tau-c de Kendall y Gamma

Cada coeficiente de asociación se muestra con su correspondiente nivel crítico (Sig.


aproximada, todos 0.0000), puesto que estos niveles críticos son menores que 0,05,
se rechaza la hipótesis nula de independencia, afirmando que las variables
(Sensación de bienestar y Práctica deportiva) están relacionadas.

Al lado del valor de cada coeficiente se encuentra su valor estandarizado (T


aproximada: valor del coeficiente dividido por su error típico), así como el error
típico del valor de cada coeficiente obtenido sin suponer independencia (Error
típico asintótico).

Y como el valor concreto adoptado por estas medidas (0.283, 0.2, 0.272, 0.216, 0.225
y 0.307) es positivo (relación positiva entre la Sensación de bienestar y la Práctica
deportiva ), se puede interpretar que a una mayor
Práctica deportiva le corresponde una mejor Sensación de bienestar. El grado de
asociación entre las variables es bajo.

Ejercicios Propuestos
Ejercicio Propuesto 7

Se realiza un estudio sobre la posible relación que hay entre la edad de las
mujeres y su grado de aceptación de una ley sobre interrupción del embarazo.
Para ello se ha realizado una encuesta sobre 450 mujeres cuyos resultados se

adjuntan en la tabla
Solución
El valor del estadístico de contraste (observado) de18.037, sigue una
distribución χ2 con 8 grados de libertad (gl = 8) y tiene asociada una probabilidad
(Significación asintótica) de 0,021. Puesto que esta probabilidad (denominada nivel
crítico o nivel de significación observada) es pequeña (menor que 0,05), se decide
rechazar la hipótesis nula, indicando que hay evidencia de asociación entre el grado
de aceptación del aborto y la edad de las mujeres.
El valor de la Razón de verosimilitudes (RV) es 18.699, tiene asociada una
probabilidad (Sig. asintótica) de 0,017 menor que 0,05, indica que hay evidencia de
asociación entre el grado de aceptación del aborto y la edad de las mujeres.
Los estadísticos (χ2 ,RV) llevan a la misma conclusión, en caso contrario, se elige el
estadístico con menor Sig. asintótica.
El valor del estadístico Asociación lineal por lineal tiene un valor de 8.933 con un
nivel crítico de (0.003 < 0,05), por lo que se rechaza la hipótesis nula de
independencia, llegando a la misma conclusión que con los estadísticos anteriores.
Los valores obtenidos de Lambda, Tau de Goodman y Kruskall, Coeficiente de
incertidumbre, y d de Somers (como medidas nominales cuantifican el grado de
asociación) indican una asociación baja entre la edad de las mujeres y la
aceptación del aborto.

Cada medida acompañada de un nivel crítico (Sig. aproximada), que en los casos que
es menor que 0,05, (Tau de Goodman y Kruskal, Coeficiente de incertidumbre d de
Somers) conducen a rechazar la hipótesis nula de independencia y concluir que las
variables (edad de las mujeres, aceptación del aborto) están asociadas.

Observamos que cada coeficiente tiene un valor cuando se considera una de las
variables independiente. Así por ejemplo el coeficiente Tau de Goodman y Kruskall
tiene:

• El valor 0,010 cuando considera la variable “Aceptación del aborto” como


independiente. La interpretación es la siguiente: Conociendo la edad de la mujer
consultada (filas), se reduce en un 1% la probabilidad de cometer un error al
predecir su aceptación al aborto (columnas). Esto significa que la edad de la mujer
no tiene capacidad predictiva sobre la aceptación del aborto.
• El valor 0,021 cuando considera la variable “Edad de la mujer” como independiente.
La interpretación es la siguiente: Conociendo el grado de aceptación del aborto por
parte de las mujeres, se reduce en un 21% la probabilidad de cometer un error al
predecir la edad de la mujer. Esto significa que el grado de aceptación del aborto no
tiene capacidad para predecir la edad de la mujer que tiene ese grado de aceptación
de la ley sobre el aborto.
El valor de cada coeficiente aparece acompañado de su correspondiente nivel crítico
(Sig. aproximada), que permite tomar una decisión sobre la hipótesis nula de
independencia. Puesto que estos niveles críticos son menores que 0,05, se puede
afirmar que hay relación entre la aceptación del aborto y la edad de las mujeres.

• los valores obtenidos de los Coeficientes Phi, V de Cramer y de


Contingencia (como medidas nominales cuantifican el grado de asociación) indican
una asociación baja entre la edad de las mujeres y la aceptación del aborto.
• los valores obtenidos de los Coeficientes Tau‐b de Kendall, Tau‐c de Kendall,
Gamma y Correlación de Spearman (como medidas ordinales indican además el
tipo de asociación) presentan una asociación baja negativa, es decir, que el grado de
aceptación del aborto disminuye al aumentar la edad.

Se concluye, que existe evidencia de asociación entre el grado de aceptación del


aborto y la edad de las mujeres, disminuyendo el grado de aceptación al aumentar
la edad.

Ejercicio Propuesto 8

El ministerio de sanidad está interesado en conocer si hay relación entre el


motivo de la consulta de los usuarios y el centro hospitalario al que recurren.
Para ello, clasifican el motivo de la consulta en 7 grupos y realizan el estudio
en 5 centros similares. Los 7 motivos de consulta se clasificaron en los
siguientes grupos: (1) Medicina preventiva; (2) Enfermedades alérgicas; (3)
Enfermedades respiratorias de vías altas; (4) Enfermedades respiratorias de
vías bajas; (5) Enfermedades agudas; (6) Enfermedades crónicas; (7)
Intoxicaciones. Los datos se muestran en la siguiente tabla
Solución

El valor del estadístico de contraste (observado) Chi-cuadrado de Pearson es


360.778, tiene asociado una probabilidad (Significación asintótica) de 0.000. Puesto
que esta probabilidad es pequeña (menor que 0,05), se decide rechazar la hipótesis
nula, indicando que hay evidencia de asociación entre el centro hospitalario y el tipo
de consulta.
El valor del estadístico la Razón de verosimilitudes (RV) es 362.717, tiene
asociada una probabilidad (Sig. asintótica) de 0,000 , que como es menor que 0,05,
indica que hay evidencia de asociación entre las dos variables analizadas.

Los estadísticos (χ2 ,RV) llevan a la misma conclusión, en caso contrario, se elige el
estadístico con menor Sig. asintótica.
Los valores obtenidos de Lambda, Tau de Goodman y Kruskall, Coeficiente de
incertidumbre (como medidas nominales cuantifican el grado de asociación, la
capacidad de hacer pronósticos de una variable respecto de la otra). Indican una
asociación baja entre el centro hospitalario y el tipo de consulta, es decir, la
capacidad de hacer pronósticos de una variable respecto de la otra es realmente
escasa.

Cada medida acompañada de un nivel crítico (Sig. aproximada), en todos los casos
es menor que 0.05, conduce a rechazar la hipótesis nula de independencia y concluir
que las variables (centro hospitalario, tipo de de la consulta) están asociadas.

El valor 0,026 del coeficiente Tau de Goodman y Kruskall, considera la variable


“Centro hospitalario” como independiente, tiene la siguiente interpretación:
Conociendo el centro hodpitalario, se reduce en un 2,6% la probabilidad de cometer
un error al predecir el tipo de consulta. Esto significa que el centro hospitalario no
tiene capacidad predictiva sobre el tipo de consulta.

El valor
de cada coeficiente aparece acompañado de su correspondiente nivel crítico (Sig.
aproximada), que permite tomar una decisión sobre la hipótesis nula de
independencia. Puesto que estos niveles críticos son menores que 0,05, se puede
afirmar que hay asociación entre el centro hospitalario y el tipo de las
consultas.
Los valores obtenidos del Coeficiente de clos coeficientes Phi, V de Cramer y de
Contingencia (como medidas nominales cuantifican el grado de asociación) indican
una asociación baja entre el centro hospitalario y el tipo de la consulta.
En definitiva, se puede concluir que el centro hospitalario y el tipo de consulta están
relacionados, pero en ningún caso se podría considerar un claro factor de pronóstico
sobre las consultas.

Ejercicio Propuesto 9

Se realiza un estudio para analizar si existe asociación entre los ingresos de


un grupo de 132 trabajadores de varias empresas y su nivel de estudios. Se
clasifica el salario que reciben en tres categorías: (Salarios están entre 700 y
999 euros; Salarios entre 1000 y 1500 euros y Salarios mayores de 1500
euros). El nivel de estudios se mide en tres categorías (estudios básicos,
secundarios y universitarios). Los datos del ejercicio se recogen en la
siguiente tabla:

Solución

El valor del estadístico de contraste (observado) Chi-cuadrado de Pearson es


34.113, tiene asociado una probabilidad (Significación asintótica) de 0.000. Puesto
que esta probabilidad es pequeña (menor que 0,05), se decide rechazar la hipótesis
nula, indicando que hay evidencia de asociación entre el Nivel de estudios y el
salario.
El valor del estadístico la Razón de verosimilitudes (RV) es 33.573, tiene asociada
una probabilidad (Sig. asintótica) de 0,000, que como es menor que 0,05, indica que
hay evidencia de asociación entre las dos variables analizadas.

Los estadísticos (χ2 ,RV) llevan a la misma conclusión, en caso contrario, se elige el
estadístico con menor Sig. asintótica.

En el análisis de Medidas Direccionales se encuentran las medidas


nominales (Lambda, Tau de Goodman y Kruskal, Coeficiente de
incertidumbre), medidas ordinales (d de Somers).
• Las medidas nominales permiten contrastar la independencia sin decir nada sobre
la fuerza de asociación entre las variables, informan únicamente del grado de
asociación existente, no de la dirección o de la naturaleza de tal asociación.
• Las medidas ordinales recogen la dirección de la asociación de las variables: una
relación positiva indica que los valores altos de una variable se asocian con los
valores altos de la otra variable, y los valores bajos con los valores bajos; una
relación negativa indica que los valores altos de una variable se asocian con los
valores bajos de la otra variable, y los valores bajos con los valore altos.

Cada medida de asociación en la tabla (Lambda, Tau de Goodman‐Kruskall,


Coeficiente de incertidumbre) se muestra acompañada de su nivel crítico (Sig.
aproximada = 0.000), que al ser menor que 0,05, conduce a rechazar la hipótesis
nula de independencia, concluyendo que las variables en estudio están relacionadas.

Junto al valor concreto adoptado por cada medida de asociación nominal por
nominal (0.321, 0.137 y 0.126) se muestra su valor estandarizado (T aproximada),
que se obtiene dividiendo el valor de la medida entre su error típico (calculado éste
suponiendo independencia entre las variables).
La tabla también muestra el error típico de cada medida calculado sin suponer
independencia (Error típico asintótico).

Observamos que cada coeficiente tiene un valor cuando se considera una de las
variables independiente. Así por ejemplo el coeficiente Tau de Goodman y Kruskall
tiene:

• El valor 0,137 cuando considera la variable “Nivel de estudios” como independiente.


La interpretación es la siguiente: Conociendo el tipo de salario consultada (filas), se
reduce en un 13.7% la probabilidad de cometer un error al predecir su nivel de
estudios. Esto significa que el tipo de salario no tiene capacidad predictiva sobre el
nivel de estudios.
• El valor 0,147 cuando considera la variable “Tipo de salario” como independiente.
La interpretación es la siguiente: Conociendo el Nivel de estudios, se reduce en un
14.7% la probabilidad de cometer un error al predecir el tipo de salario. Esto
significa que el Nivel de estudios de la persona no tiene capacidad para predecir el
tipo de salario que percibe.

El valor de cada coeficiente aparece acompañado de su correspondiente nivel crítico


(Sig. aproximada), que permite tomar una decisión sobre la hipótesis nula de
independencia. Puesto que estos niveles críticos son menores que 0,05, se puede
afirmar que hay relación entre el tipo de Salario y el Nivel de estudios.

• los valores obtenidos de los Coeficientes Phi, V de Cramer y de


Contingencia (como medidas nominales cuantifican el grado de asociación) indican
una asociación aceptable entre ambas variables.
• los valores obtenidos de los Coeficientes Tau‐b de Kendall, Tau‐c de Kendall,
Gamma y Correlación de Spearman (como medidas ordinales indican además el
tipo de asociación) presentan una asociación media y positiva, es decir, que el tipo
de salario aumenta con el nivel de estudios.

Se concluye, que existe evidencia de asociación entre el tipo de salario y el nivel de


estudios, aumentando el tipo de salario cuando aumenta el nivel de estudios.
Teniendo ambas variable un grado medio de asociación.
……………………………………………………………………………………..

Práctica 7
DISEÑO ESTADÍSTICO DE EXPERIMENTOS
CONTENIDOS EN PDF
Objetivos
1. Identificar un diseño unifactorial de efectos fijos.
2. Plantear y resolver el contraste sobre las medias de los tratamientos.
3. Saber aplicar los procedimientos de comparaciones múltiples.
4. Identificar un diseño unifactorial de efectos aleatorios.
5. Estimar los componentes de la varianza.
6. Identificar un diseño en bloque completo aleatorizado con efectos fijos.
7. Identificar un diseño en bloque incompleto aleatorizado con efectos fijos.
8. Identificar un diseño en bloque incompleto balanceado (BIB).
9. Identificar un diseño en cuadrados latinos.
10. Identificar un diseño en cuadrados greco-latinos.
11. Identificar un diseño en cuadrados de Jouden.
12. Plantear y resolver los contrastes de igualdad de tratamientos y de igualdad de
bloques.
13. Identificar un diseño bifactorial de efectos fijos y estudiar las interacciones entre
los factores.
14. Identificar un diseño trifactorial de efectos fijos y estudiar las interacciones entre
los factores
15. Estudiar la influencia de los factores.
16. Analizar en qué sentido se producen las interacciones mediante el gráfico de
medias.
17. Aplicar los procedimientos de comparaciones múltiples: Obtener conclusiones
sobre el experimento planteado y las interacciones.
18. Analizar la idoneidad de los modelos planteados.

Introducción al Diseño Estadístico de Experimentos


En la práctica 6 hemos descrito métodos de inferencias sobre la media y la varianza
de una población y de dos poblaciones. En esta práctica 7 ampliamos dichos
métodos a más de dos poblaciones e introducimos algunos aspectos elementales del
Diseño Estadístico de Experimentos y del Análisis de la Varianza.

El diseño estadístico de experimentos incluye un conjunto de técnicas de análisis y


un método de construcción de modelos estadísticos que, conjuntamente, permiten
llevar a cabo el proceso completo de planificar un experimento para obtener datos
apropiados, que puedan ser analizados con métodos estadísticos, con objeto de
obtener conclusiones válidas y objetivas.

El análisis de la varianza o abreviadamente ANOVA (del inglés analysis of variance)


es un procedimiento estadístico que permite dividir la variabilidad observada en
componentes independientes que pueden atribuirse a diferentes causas de interés.
Es una técnica estadística para comparar más de dos grupos, es decir un método
para comparar más de dos tratamientos y la variable de estudio o variable respuesta
es numérica.

En esta práctica presentamos el Diseño Completamente Aleatorio con efectos fijos y


con efectos aleatorios, el Diseño en Bloques Completos Aleatorizados, Diseño en
Bloques Incompletos Balanceados (BIB), el Diseño en Cuadrados Latinos, el Diseño
en Cuadrados Greco-Latinos, el Diseño en Cuadrados de Jouden, el Diseño Bifactorial
de efectos fijos y el Diseño Trifactorial de efectos fijos.

Diseño Completamente Aleatorio con efectos fijos


(Diseño unifactorial de efectos fijos)
El primer diseño que presentamos es el diseño completamente aleatorio de efectos
fijos y la técnica estadística es el análisis de la varianza de una vía o un factor. La
descripción del diseño así como la terminología subyacente la vamos a introducir
mediante el siguiente supuesto práctico.

Supuesto práctico 1
La contaminación es uno de los problemas ambientales más importantes que
afectan a nuestro mundo. En las grandes ciudades, la contaminación del aire se debe
a los escapes de gases de los motores de explosión, a los aparatos domésticos de la
calefacción, a las industrias,… El aire contaminado nos afecta en nuestro vivir diario,
manifestándose de diferentes formas en nuestro organismo. Con objeto de
comprobar la contaminación del aire en una determinada ciudad, se ha realizado un
estudio en el que se han analizado las concentraciones de monóxido de carbono (CO)
durante cinco días de la semana (lunes, martes, miércoles, jueves y viernes).

En el ejemplo disponemos de una colección de 40 unidades experimentales y


queremos estudiar el efecto de las concentraciones de monóxido de carbono en 5
días distintos. Es decir, estamos interesados en contrastar el efecto de un solo
factor, que se presenta con cinco niveles, sobre la variable respuesta.

Nos interesa saber si las concentraciones medias de monóxido de carbono son


iguales en los cinco días de la semana, para ello realizamos el siguiente contraste
de hipótesis:
Es decir,
contrastamos que no hay diferencia en las medias de los cinco tratamientos frente
a la alternativa de que al menos una media difiere de otra.
En este modelo, que estudia el efecto que produce un solo factor en la variable
respuesta, la asignación de las unidades experimentales a los distintos niveles del
factor se debe realizar de forma completamente al azar. Este modelo, junto con
este procedimiento de asignación, recibe el nombre de Diseño Completamente
Aleatorizado y está basado en el modelo estadístico de Análisis de la Varianza de un
Factor o una Vía. Esta técnica estadística, Análisis de la Varianza de un factor, se
utiliza cuando se tienen que comparar más de dos grupos y la variable respuesta es
una variable numérica. Para aplicar este diseño adecuadamente las unidades
experimentales deben ser lo más homogéneas posible.
Todo este planteamiento se puede formalizar de manera general para cualquier
experimento unifactorial. Supongamos un factor con I niveles y para el nivel i-
ésimo se obtienen ni observaciones de la variable respuesta. Entonces podemos
postular el siguiente modelo:

donde:
• yij: es la variable aleatoria que representa la observación j-ésima del i-ésimo
tratamiento (Variable respuesta). µ: Es un efecto constante, común a todos los
niveles del factor, denominado media global.
• τi: es la parte de yij debida a la acción del nivel i-ésimo, que será común a todos los
elementos sometidos a ese nivel del factor, llamado efecto del tratamiento i-ésimo.
• uij: son variables aleatorias que engloban un conjunto de factores, cada uno de los
cuales influye en la respuesta sólo en pequeña magnitud pero que de forma conjunta
debe tenerse en cuenta. Es decir, se pueden interpretar como las variaciones
causadas por todos los factores no analizados y que dentro del mismo tratamiento
variarán de unos elementos a otros. Reciben el nombre de perturbaciones o error
experimental.

Nuestro objetivo es estimar el efecto de los tratamientos y contrastar la hipótesis de


que todos los niveles del factor producen el mismo efecto, frente a la alternativa de
que al menos dos difieren entre sí. Para ello, se supone que los errores
experimentales son variables aleatorias independientes igualmente distribuidas
según una Normal de media cero y varianza constante.

En este modelo se distinguen dos situaciones según la selección de los


tratamientos: modelo de efectos fijos y modelo de efectos aleatorios.
En el modelo de efectos fijos el experimentador decide qué niveles concretos se van
a considerar y las conclusiones que se obtengan sólo son aplicables a esos niveles,
no pudiéndose hacer extensivas a otros niveles no incluidos en el estudio.
En el modelo de efectos aleatorios, los niveles del factor se seleccionan al azar; es
decir los niveles estudiados son una muestra aleatoria de una población de niveles
y las conclusiones que se obtengan se generalizan a todos los posibles niveles del
factor, hayan sido explícitamente considerados en el estudio o no.
En cuanto a los tamaños muestrales de los tratamientos, los modelos se clasifican
en: modelo equilibrado o balanceado si todas las muestras son del mismo
tamaño ni = n y modelo no-equilibrado o no-balanceado si los tamaños
muestrales ni son distintos.
El contraste de hipótesis planteado anteriormente está asociado a la
descomposición de la variabilidad de la variable respuesta. Dicha variabilidad se
descompone de la siguiente forma:

SCT = SCTr + SCR

Donde:

• SCT: es la suma total de cuadrados o variabilidad total de Y

• SCTr: es la suma de cuadrados entre tratamientos o


variabilidad explicada,

• SCR: es la suma dentro de los tratamientos, variabilidad


no explicada o residual

La tabla de análisis de la varianza (tabla ANOVA) se


construye a partir de esta descomposición y proporciona el valor del
estadístico F que permite contrastar la hipótesis nula planteada anteriormente.

En el Supuesto práctico 1:
• Variable respuesta: Concentración de CO.
• Factor: Día de la semana que tiene cinco niveles. Es un factor de efectos fijos ya
que viene decidido qué niveles concretos se van a utilizar (5 días de la semana).
• Modelo equilibrado: Los niveles de los factores tienen el mismo número de
elementos (8 elementos).
• Tamaño del experimento: Número total de observaciones, en este caso 40
unidades experimentales.
El problema planteado se modeliza a través de un diseño unifactorial totalmente
aleatorizado de efectos fijos equilibrado.

Para realizarlo mediante SPSS, se comienza definiendo las variables e introduciendo


los datos:

• Nombre: Concentración_CO; Tipo: Numérico; Anchura: 3; Decimales: 0


• Nombre: Día_semana; Tipo: Numérico; Anchura: 8; Decimales: 0; Valores: {1,
Lunes; 2, Martes; 3, Miércoles; 4, Jueves; 5, Viernes}
En primer lugar describimos los cinco
grupos que tenemos que comparar, los cinco días de la semana, la variable respuesta
es la concentración de CO en estos días de la semana. Cada día de la semana tiene
ocho unidades, en total tenemos 40 observaciones. La hipótesis nula es que el
promedio de las concentraciones es igual el día lunes que el martes, que el
miércoles… Es decir, no hay diferencias en las concentraciones con respecto a los
días y la alternativa es que las concentraciones de CO son diferentes al menos en dos
días.
Para la descripción de los cinco grupos comenzamos realizando un análisis
descriptivo. Para ello, se selecciona, en el menú principal, Analizar/Comparar
medias/medias

se introduce en el
campo Lista de dependientes: La variable respuesta Concentración_CO y en el
campo Factor: el factor Día_semana. Pulsando Aceptar se obtiene la Tabla ANOVA
se introduce en el campo Lista de dependientes: La variable
respuesta Concentración_CO y en el campo Lista de independientes: el
factor Día_semana. Se pulsa Opciones y se selecciona Número de casos, Media,
Desviación típica, Mínimo, Máximo y Desviación Error de la media.
Pulsar Continuar y Aceptar y se obtiene la
siguiente salida

donde
se presentan los cinco grupos dispuestos en forma comparativa. A simple vista se
puede observar que el valor medio de estos grupos es numéricamente distinto, de
hecho la media del día lunes tiene un valor medio casi equivalente al doble de la
media del viernes. Por tanto, nuestra hipótesis se centra en comprobar si la
concentración de CO es significativamente distinta en los cinco grupos. Para
responder a esta hipótesis recurrimos al Análisis de la Varianza de un factor y
realizamos el contraste de igualdad de medias
mediante SPSS
dicho contraste se puede ejecutar de dos formas:
1. Se selecciona, en el menú principal, Analizar/Comparar medias/ANOVA de un
factor… En la salida correspondiente,
se introduce en el
campo Lista de dependientes: La variable respuesta Concentración_CO y en el
campo Factor: el factor Día_semana. Pulsando Aceptar se obtiene la Tabla ANOVA

donde:
• Inter-grupos: Representa la Suma de cuadrados debida a los tratamientos (SCTr)
• Intra-grupos: Representa la suma de cuadrados residual (SCR)
• Total: Representa la suma de cuadrados total (SCT).
Si el valor de F es mayor que uno quiere decir que hay un efecto positivo del factor
día. Se observa que el P-valor (Sig.) tiene un valor de 0.004, que es menor que el
nivel de significación 0.05. Por lo tanto, hemos comprobado estadísticamente que
estos cinco grupos son distintos. Es decir no se puede rechazar la hipótesis
alternativa que dice que al menos dos grupos son diferentes, pero ¿Cuáles son esos
grupos? ¿Los cinco grupos son distintos o sólo alguno de ellos? Pregunta que
resolveremos más adelante mediante los contrastes de comparaciones múltiples.
2. Se selecciona, en el menú principal, Analizar/Modelo lineal general/
Univariante…

En la salida correspondiente, se introduce en el campo Variable dependiente: La


variable respuesta Concentración_CO y en el campo Factores fijos: el
factor Día_semana. Pulsando Aceptar se obtiene la Tabla ANOVA
En
la tabla correspondiente a las pruebas de los efectos inter-sujetos, se muestran
el Origen denominado:
• Modelo corregido: que recoge la suma de cuadrados asociadas a todos los factores
que se incluyen en el modelo

• Intersección: coincide con la expresión


• Días-semana: Representa la Suma de cuadrados debida a los tratamientos (SCTr),
que viene identificada con el nombre de la variable que representa al factor.
• Error: Representa la suma de cuadrados residual (SCR).

• Total: Representa la suma de los cuadrados de todas las observaciones


• Total corregida: Representa la suma de cuadrados total (SCT). Por lo
tanto, Intersección es la diferencia entre Total corregido y Total.
En la Tabla ANOVA, el valor del estadístico de contraste de igualdad de medias, F =
4.775 deja a su derecha un p-valor de 0.004, menor que el nivel de significación
del 5%, por lo que se rechaza la Hipótesis nula de igualdad de medias. Es decir,
existen diferencias significativas en las concentraciones medias de monóxido de
carbono entre los cinco días de la semana.
La salida de SPSS también nos muestra que R cuadrado vale 0.353, indicándonos
que el modelo explica el 35.3% de la variabilidad de los datos.

El modelo que hemos propuesto hay que validarlo, para ello hay que comprobar si
se verifican las hipótesis básicas del modelo, es decir, si las perturbaciones son
variables aleatorias independientes con distribución normal de media 0 y varianza
constante (homocedasticidad).

Estudio de la Idoneidad del modelo


Como hemos dicho anteriormente, validar el modelo propuesto consiste en estudiar
si las hipótesis básicas del modelo están o no en contradicción con los datos
observados. Es decir si se satisfacen los supuestos del modelo: Normalidad,
Independencia, Homocedasticidad. Para ello utilizamos procedimientos gráficos y
analíticos.
Hipótesis de normalidad
En primer lugar, analizamos la normalidad de las concentraciones y continuamos
con el análisis de la normalidad de los residuos. Para analizar la normalidad de las
concentraciones, se selecciona en el menú principal: Analizar/Estadísticos
descriptivos/Explorar… y en la salida correspondiente

se introduce en el campo Lista de


dependientes: La variable respuesta Concentración_CO y en el campo Lista de
Factores: el factor Día_semana . En Visualización se selecciona Ambos. Se
pulsa Gráficos y se selecciona Gráficos con pruebas de
normalidad. Pulsando Continuar y Aceptar se obtiene los siguientes contrastes
de normalidad

Observamos el contraste de Shapiro-Wilk que es adecuado cuando las muestras son


pequeñas (n<50) y es una alternativa más potente que el test de Kolmogorov-
Smirnov. Todos los p-valores (Sig.) son mayores que el nivel de significación 0.05.
Concluyendo que las muestras de las concentraciones se distribuyen de forma
normal en cada día de la semana.
Para analizar la hipótesis de normalidad de los residuos, se debe comenzar salvando
los residuos. Para ello, se selecciona, en el menú principal, Analizar/Modelo lineal
general/ Univariante/Guardar…

En la ventana resultante se selecciona Residuos No tipificados. Se


pulsa, Continuar y Aceptar. Y en el Editor de datos se ha creado una nueva
variable RES_1 que contiene los residuos del modelo.

El estudio de la Normalidad de los residuos, lo realizamos mediante procedimientos


gráficos (Histograma y Gráfico probabilístico Normal) y procedimientos
analíticos (Contraste de Kolmogorov-Smirnov).
Histograma: Se selecciona en el menú principal, Gráficos/Cuadros de diálogos
antiguos/Histograma

se introduce en el campo Variable: la variable que recoge los residuos RES_1, se


selecciona Mostrar curva normal. Se pulsa Aceptar

Aunque
podemos observar en el histograma resultante algunas desviaciones de la
normalidad, éstas no implican necesariamente la ausencia de normalidad de los
residuos.
Gráfico probabilístico Normal: Se selecciona en el menú
principal, Analizar/Estadísticos descriptivos/Gráficos Q-Q
se
introduce en el campo Variables: RES_1. Se pulsa Aceptar

Podemos apreciar
en este gráfico que los puntos aparecen próximos a la línea diagonal. Esta gráfica no
muestra una desviación marcada de la normalidad.
Contraste de Kolmogorov-Smirnov: Se selecciona en el menú
principal, Analizar/Pruebas no paramétricas/ Cuadros de diálogos
antiguos/K-S de 1 muestra
se introduce en el
campo Lista Contrastar variables: RES_1. Se pulsa Aceptar

El valor
del p-valor es mayor que el nivel de significación 0.05, no rechazándose la hipótesis
de normalidad.
Hipótesis de independencia
Para comprobar que se satisface el supuesto de independencia entre los residuos
analizamos el gráfico de los residuos frente a los valores pronosticados o predichos
por el modelo. El empleo de este gráfico es útil puesto que la presencia de alguna
tendencia en el mismo puede ser indicio de una violación de dicha hipótesis. Para
obtener dicho gráfico seleccionamos Opciones en el cuadro de diálogo
de Univariante y marcamos la casilla Gráfico de los residuos
Pulsando Continuar y Aceptar se obtiene el gráfico de los residuos. En esta figura,
interpretamos el gráfico que aparece en la fila 3 columna 2, es decir aquel gráfico
que se representan los residuos en el eje de ordenadas y los valores pronosticados
en el eje de abscisas. No observamos, en dicho gráfico, ninguna tendencia
sistemática que haga sospechar del incumplimiento de la suposición de
independencia.
También, podemos realizar un gráfico de dispersión de los residuos y las
predicciones, para ello, tenemos que guardar los valores predichos. Se selecciona,
en la ventana Univariante /Guardar. En la ventana resultante se
selecciona Valores pronosticados No tipificados. Se pulsa Continuar y Aceptar y
en el Editor de datos se ha creado una nueva variable PRE_1 que contiene los
valores predichos por el modelo. Realizamos el gráfico de dispersión, para ello se
selecciona en el menú principal, Gráficos/Cuadros de diálogos
antiguos/Diagramas/Puntos
Y en la salida correspondiente seleccionar Dispersión simple y pulsar Definir

se introduce en el Eje Y: Residuos y el Eje X: Valores predichos. Se pulsa Aceptar

Hipótesis de homocedasticidad
En primer lugar comprobamos la homocedasticidad gráficamente, para ello se
selecciona en el menú principal, Gráficos/Cuadros de diálogos antiguos/Barras
de error…
Y en la salida correspondiente seleccionar Simple y pulsar Definir

se introduce en el campo Variable: La variable respuesta Concentración_CO y en el


campo Eje de categorías: el factor Día_semana. En Las barras representan se
selecciona Desviación típica, en Multiplicador: 2 (nos interesa que la desviación
típica esté multiplicada por dos). Se pulsa Aceptar.
Cada grupo tiene su
promedio (el círculo en cada una de las barras) y dos desviaciones típicas a la
izquierda y dos desviaciones típicas a la derecha del promedio. Observamos que el
miércoles hay mucha más dispersión que el resto de los días y donde hay menos
dispersión es el lunes, la dispersión del martes y viernes son muy similares. Del
gráfico no se deduce directamente si hay homogeneidad en estas varianzas, por lo
que recurrimos analizar la heterocedasticidad analíticamente mediante el test de
Levene.
Para realizar el test de Levene mediante SPSS, en la ventana de ANOVA de un
factor… pulsar Opciones

Se selecciona Prueba de homogeneidad de las varianzas y Gráfico de las


medias. Se pulsa Continuar y Aceptar

El p-valor es 0.093 por lo


tanto no se puede rechazar la hipótesis de homogeneidad de las varianzas y se
concluye que los cinco grupos tienen varianzas homogéneas. Si esta prueba sale
significativa, es decir si la homocedasticidad no se cumple, en ese caso SPSS dispone
de pruebas alternativas para realizar los contrastes de Comparaciones Múltiples que
veremos en los contrastes Post-hoc.

Una vez comprobado que se verifican las hipótesis del modelo se puede interpretar
la tabla ANOVA. Si alguna de las hipótesis de homocedasticidad e independencia
fallase no debería aplicarse el ANOVA, en cuanto a la hipótesis de Normalidad hay
que tener en cuenta que las pruebas ANOVA son robustas ante leves desviaciones
de la normalidad.

Antes de resolver el
contraste de igualdad de medias observemos este gráfico de medias, donde en el eje
de ordenadas figuran las concentraciones medias de CO y en el eje de abscisas los
días de la semana. En esta gráfica observamos que la mayor concentración de CO se
produce el lunes y las más bajas el miércoles y el viernes, siendo la concentración de
este último la menor. Para saber entre que parejas de días estas diferencias son
significativas aplicamos una prueba Post-hoc.
Comparaciones múltiples
En Analizar/Comparar medias/ANOVA de un factor… pulsamos en Post_hoc…

En la ventana resultante seleccionamos, por ejemplo, Tukey. Si no se verifica la


hipótesis homocedasticidad se tiene que utilizar una de las pruebas que figura en No
asumiendo varianzas iguales. Se pulsa Continuar y Aceptar
Esta salida nos
muestra los intervalos de confianza simultáneos construidos por el método de
Tukey. En la tabla se muestra un resumen de las comparaciones de cada tratamiento
con los restantes. Es decir, aparecen comparadas dos a dos las cinco medias de los
tratamientos. En el primer bloque de la tabla se muestran comparadas la media del
lunes con la media de los otros cuatro días de la semana. En los siguientes bloques
se muestran comparadas las restantes medias entre sí. En la columna Diferencias
de medias (I-J) se muestran las diferencias entre las medias que se comparan.
En la columna Sig. aparecen los p-valores de los contrastes, que permiten conocer si
la diferencia entre cada pareja de medias es significativa al nivel de significación
considerado (en este caso 0.05) y la última columna proporciona los intervalos de
confianza al 95% para cada diferencia. Así por ejemplo, si comparamos la
concentración media de CO del Lunes con el Martes, tenemos una diferencia entre
ambas medias de 19.750, un error típico de 39.546, que es un error típico para la
diferencia de estas medias, un P-valor (Sig.) de 0.987 no significativo puesto que la
concentración de CO no difiere significativamente el lunes del martes y un intervalo
de confianza con un límite inferior negativo y un límite superior positivo y por lo
tanto contiene al cero de lo que también deducimos que no hay diferencias
significativas entre los dos grupos que se comparan o que ambos grupos son
homogéneos. En cambio si observamos el grupo formado por el Lunes y el Miércoles,
vemos que ambos extremos del intervalo son del mismo signo y el P-valor es
significativo deduciendo que si hay diferencias significativas entre ambos. Ya se
había observado que la concentración media de CO el miércoles era muy inferior al
lunes, de hecho el valor de la diferencia de medias es 120.875. Las otras
comparaciones se interpretan de forma análoga.
Por lo tanto la tabla se interpreta observando los valores de Sig menores que el 5%,
o si el intervalo de confianza contiene al cero. Además, los contrastes que sí han
resultado significativos al nivel de significación 0.05 aparecen marcados con
asterisco. Concluimos que se detectan diferencias significativas en las
concentraciones de CO entre lunes y miércoles; lunes y viernes; martes y viernes.
Para que se pueda analizar esta tabla más fácilmente, trasladamos la columna Sig a
la primera columna, para ello hacemos doble Click en cualquier lugar de la tabla, nos
posicionamos en la cabecera de la columna de Sig. y con el botón izquierdo del ratón
la arrastramos al lugar que queramos (primera posición) y allí la soltamos. Aparecen
dos opciones: Insertar antes e Intercambiar.

Seleccionamos Insertar antes, y se muestra la salida se la siguiente forma

En el
menú principal seleccionamos Pivotar/Paneles de pivotado
Los Días_Semana están en fila y los
arrastramos para que figuren en columnas, quedando la siguiente tabla

De esta forma es más


cómodo comparar cualquier pareja de días para saber si hay diferencias
significativas. De la tabla se deduce, como vimos anteriormente, que hay diferencias
significativas entre lunes y miércoles, lunes y viernes, martes y viernes.

Además de la tabla de Comparaciones múltiples también se muestra una tabla de


subconjuntos homogéneos
La tabla de subconjuntos
homogéneos muestra por columnas los subgrupos de medias iguales, formados al
utilizar el método de Tukey. Se llama Prueba de subgrupos homogéneos por que se
agrupan en columnas aquellos grupos que no difieren significativamente. Se observa
que la prueba de Tukey ha agrupado los días viernes, miércoles y jueves en una
misma columna; miércoles, jueves y martes en otra columna y jueves, martes y lunes
en una tercera columna. De esta forma gráfica deducimos que subgrupos son
homogéneos y cuales difieren significativamente.

Los subgrupos homogéneos son los formados por: viernes, miércoles y jueves;
miércoles, jueves y martes y jueves, martes y lunes. De hecho, por ejemplo, si
comparamos en el primer subconjunto, los tres primeros grupos el P-valor (Sig.) es
0.336 mayor que el nivel de significación 0.05 deduciendo que no hay diferencias
significativas en la concentración media de CO entre estos tres.

También se deduce qué subconjuntos difieren significativamente entre sí. La


concentración de CO en el primer subconjunto difiere de la concentración en el
segundo y de la concentración en el tercero y dentro de estos subconjuntos no se
aprecian diferencias significativas entre las concentaciones implicadas.También se
observa que la concentración media de CO es mayor los lunes (424,25) y menor los
viernes (284,25).

Veamos estas diferencias de una forma gráfica, para ello se selecciona en el menú
principal, Gráficos/Generador de gráficos…
Se selecciona el Diagrama de cajas y se arrastra el diagrama de caja simple (el
primer gráfico) a la ventana que hay encima. Se pulsa Aceptar

Se sitúa Días_Semana en el eje X y la Concentración_CO en el eje Y


Se pulsa Aceptar y se obtiene la siguiente salida

Observamos que las cajas correspondientes a los miércoles, jueves y viernes están
prácticamente superpuestas, de hecho el valor mediano del miércoles (línea negra
dentro de las cajas) está a un nivel interno dentro de la caja del jueves y de la caja
del vierne. Este criterio se utiliza para comparar grupos y en este caso nos indica
que hay homogeneidad o que no hay diferencias significativas en ese grupo de
medias. Observamos que el lunes tiene una distribución superior a los demás, por lo
que concluimos que la concentración de CO es mucho mayor este día de la semana.
Contrastes
Se denomina Contraste a toda combinación lineal C, de los parámetros del modelo
de análisis de la varianza de la forma
Se
utilizan para comparar tratamientos entre sí o grupos de tratamientos, así por
ejemplo:
• Para comparar dos días entre sí, por ejemplo el lunes y jueves el contraste debe
tener los siguientes coeficientes:

Es decir, los coeficientes de las dos categorías que se van a


comparar deben sumar cero y los días que no se van a comparar deben tener un
coeficiente de 0
• Para comparar grupos de días, por ejemplo el grupo formado por el lunes y
miércoles con el formado por el martes y viernes, en este caso los coeficientes deben
ser

Los coeficientes de los grupos que se comparan deben


sumar uno de ellos 1 y el otro -1 y la suma de todos los coeficientes debe ser cero.
• Para realizar el contraste:

Los coeficientes deben ser

Para realizar estos contrastes con SPSS, se


selecciona Analizar/Comparar medias/ANOVA de un factor… y se pulsa
en Contrastes…

Para el primer contraste, en Coeficientes se pone 1, 0, 0, -1, 0.

Como hay cinco tratamientos deben figurar cinco números indicando los 0 las
categorías que no se comparan.
Si queremos realizar otro contraste pulsamos Siguie_ e introducimos los
coeficientes del segundo contraste

pulsamos Siguie_ e introducimos los


coeficientes del tercer contraste.

Se pulsa Continuar y Aceptar y se


muestra la tabla de contrastes con los coeficientes indicando los contrastes que se
van a realizar
Y la prueba t para los contrastes

Para interpretar la tabla, asumimos en todos los contrastes la homocedasticidad,


aunque sólo la hemos comprobado para cada uno de los tratamientos y no lo hemos
hecho en grupos de tratamientos.

Observamos que para el primer contraste, las concentraciones de CO para el lunes y


jueves ha dado no significativo, P-valor es 0.110.

En el segundo contraste se quiere comparar las concentraciones de CO de lunes y


miércoles en conjunto con las concentraciones de CO el martes y viernes también en
conjunto, en este contraste el P-valor es 0.492 por lo tanto no hay diferencias
significativas entre los dos grupos comparados.

En el tercer contraste se quiere comprobar si el lunes hay el doble de concentración


de CO que el miércoles y jueves conjuntamente. El P-valor es 0.010 por lo tanto se
rechaza la hipótesis nula y se deduce que la concentración de CO el lunes difiere
significativamente del promedio de las concentraciones del miércoles y el jueves.

Diseño Unifactorial de efectos aleatorios


En el modelo de efectos aleatorios, los niveles del factor son una muestra aleatoria
de una población de niveles. Este modelo surge ante la necesidad de estudiar un
factor que presenta un número elevado de posibles niveles, que en algunas
ocasiones puede ser infinito. En este modelo las conclusiones obtenidas se
generalizan a toda la población de niveles del factor, ya que los niveles empleados
en el experimento fueron seleccionados al azar. El estudio de este diseño lo vamos a
realizar mediante el siguiente supuesto práctico.

Supuesto práctico 2
Los medios de cultivo bacteriológico en los laboratorios de los hospitales proceden
de diversos fabricantes. Se sospecha que la calidad de estos medios de cultivo varía
de un fabricante a otro. Para comprobar esta teoría, se hace una lista de fabricantes
de un medio de cultivo concreto, se seleccionan aleatoriamente los nombres de cinco
de los que aparecen en la lista y se comparan las muestras de los instrumentos
procedentes de éstos. La comprobación se realiza colocando sobre una placa dos
dosis, en gotas, de una suspensión medida de un microorganismo
clásico, Escherichia coli, dejando al cultivo crecer durante veinticuatro horas, y
determinando después el número de colonias (en millares) del microorganismo que
aparecen al final del período. Se quiere comprobar si la calidad del instrumental
difiere entre fabricantes.

Supuestos del modelo


• Las cinco muestras representan muestras aleatorias independientes extraídas
de I poblaciones seleccionadas aleatoriamente de unconjunto mayor de
poblaciones.
• Todas las poblaciones del conjunto más amplio tienen distribución Normal, de modo
que cada una de las 5 poblaciones muestreadas se distribuyen segun una Normal.
• Todas las poblaciones del conjunto más amplio tienen la misma varianza, y por lo
tanto, cada una de las 5 poblaciones muestreadas tiene también varianza σ2.
• Las variables τi son variables aleatorias normales independientes,cada una con
media 0 y varianza común .
El modelo matemático de este diseño y los tres primeros supuestos del modelo son
semejantes a los del modelo de efectos fijos. Sin embargo, el supuesto 4 expresa
matemáticamente una importante diferencia entre los dos. En el modelo de efectos
fijos, el experimentador elige los tratamientos o niveles del factor utilizados en el
experimento. Si se replicase el experimento, se utilizarían los mismos tratamientos.
Es decir, se muestrearían las mismas poblaciones cada vez y los I efectos del
tratamiento τi = μi – μ no variarían. Esto implica que en el modelo de efectos fijos,
estos I términos se consideran constantes desconocidas. En el modelo de efectos
aleatorios se seleccionan aleatoriamente I poblaciones, las elegidas variarán de
replicación en replicación. De este modo, en este modelo los I términos μi – μ no son
constantes, son variables aleatorias, cuyos valores para una determinada réplica
depende de la elección de las I poblaciones a estudiar. En este modelo estas
variables τi se suponen variables aleatorias normales independientes con media 0 y
varianza común . Además este modelo requiere que las variables τi y uij sean
independientes. Así, por la independencia de estas variables, la varianza de
cualquier observación de la muestra, es decir, la varianza total, vale

La mecánica del Análisis de la Varianza es la misma que en el modelo de efectos fijos.


En este modelo, carece de sentido probar la hipótesis que se refiere a los efectos de
los tratamientos individuales. Si las medias poblacionales en el conjunto mayor son
iguales, no variarán los efectos del tratamiento τi, es decir, . Así en el modelo
de efectos aleatorios, la hipótesis de medias iguales se contrasta considerando:
Si no se rechaza H0, significa que no hay variedad
en los efectos de los tratamientos.
En el supuesto práctico 2:
• Variable respuesta: Calidad_Instrumental
• Factor: Fabricante. Es un factor de efectos aleatorios, se han elegido
aleatoriamente a cinco fabricantes, que constituyen únicamente una muestra de
todos los fabricantes y el propósito no es comparar estos cinco fabricantes sino
contrastar el supuesto general de que la calidad del instrumental difiere entre
fabricantes.
• Modelo equilibrado: Los niveles de los factores tienen el mismo número de
elementos (9 elementos).
• Tamaño del experimento: Número total de observaciones, en este caso 45
unidades experimentales.
El problema planteado se modeliza a través de un diseño unifactorial totalmente
aleatorizado de efectos aleatorios equilibrado.

Para realizarlo mediante SPSS, se comienza definiendo las variables e introduciendo


los datos:

• Nombre: Calidad_Instrumental ; Tipo: Numérico ; Anchura: 3 ; Decimales: 0


• Nombre: Fabricante ; Tipo: Numérico ; Anchura: 8 ; Decimales: 0 ; Valores: { 1,
Fabricante1; 2, Fabricante2; 3, Fabricante3; 4, Fabricante4; 5, Fabricante 5}
Se quiere comprobar si la calidad del instrumental difiere entre fabricantes, por lo
que hay que resolver el contraste mencionado anteriormente, para ello, se
selecciona, en el menú principal, Analizar/Modelo lineal
general/Univariante… En la salida correspondiente, se introduce en el
campo Variable dependiente: La variable respuesta Calidad_Instrumental y en el
campo Factores aleatorios: el factor Fabricante. Pulsando Aceptar se obtiene la
Tabla ANOVA

Esta tabla muestra los resultados del contraste planteado. El valor del estadístico de
contraste es igual a 3.976 que deja a la derecha un p-valor de 0.008, así que la
respuesta dependerá del nivel de significación que se fije. Si fijamos un nivel de
significación de 0.05 se concluye que hay evidencia suficiente para afirmar la
existencia de alguna variabilidad entre la calidad del material de los diferentes
fabricantes. Si fijamos un nivel de significación de 0.001, no podemos hacer tal
afirmación.
En el modelo de efectos aleatorios no se necesitan llevar a cabo más contrastes
incluso aunque la hipótesis nula sea rechazada. Es decir, en el caso de rechazar H0 no
hay que realizar comparaciones múltiples para comprobar que medias son distintas,
ya que el propósito del experimento es hacer un planteamiento general relativo a
las poblaciones de las que se extraen las I muestras.

La tabla siguiente muestra la media cuadrática esperada, de esta tabla se deducen


las expresiones de las esperanzas de los cuadrados medios del factor y del error:

Estas expresiones se utilizan para estimar las componentes de la varianza y σ2.


Para determinar el valor concreto de estas estimaciones mediante SPSS, se
selecciona, en el menú principal Analizar/Modelo lineal general/Componentes
de la varianza… En la salida correspondiente, se introduce en el campo Variable
dependiente: La variable respuesta Calidad_Instrumental y en el campo Factores
aleatorios: el factor Fabricante. Pinchando en Opciones
Se elige ANOVA en Método y en Sumas de Cuadrados el tipo III (Método que
consiste en igualar los cuadrados medios con sus esperanzas).
Pulsando Continuar y Aceptar se obtiene las estimaciones de los componentes de
la varianza. Donde

Por lo tanto, la varianza total


(4799.467) se descompone en una parte atribuible a la diferencia entre los
fabricantes (1192.667) y otra procedente de la variabilidad existente dentro de ellos
(3606.8). Comprobamos que en dicha varianza tiene mayor peso la variación dentro
de los fabricantes, en porcentaje un 75.15 % frente a la variación entre fabricantes,
que representa el 24.85 % del total.

Diseño en Bloques Aleatorizados


En los diseños estudiados anteriormente hemos supuesto que existe bastante
homogeneidad entre las unidades experimentales. Pero puede suceder que dichas
unidades experimentales sean heterogéneas y contribuyan a la variabilidad
observada en la variable respuesta. Si en esta situación se utiliza un diseño
completamente aleatorizado, no sabremos si la diferencia entre dos unidades
experimentales sometidas a distintos tratamientos se debe a una diferencia real
entre los efectos de los tratamientos o a la heterogeneidad de dichas unidades. Como
resultado, el error experimental reflejará esta variabilidad. En esta situación se debe
sustraer del error experimental la variabilidad producida por las unidades
experimentales y para ello el experimentador puede formar bloques de manera que
las unidades experimentales de cada bloque sean lo más homogéneas posible y los
bloques entre sí sean heterogéneos.

En el diseño en bloques Aleatorizados, primero se clasifican las unidades


experimentales en grupos homogéneos, llamados bloques, y los tratamientos son
entonces asignados aleatoriamente dentro de los bloques. Esta estrategia de diseño
mejora efectivamente la precisión en las comparaciones al reducir la variabilidad
residual.

Distinguimos dos tupos de diseños en bloques aleatorizados:

• Los diseños en bloques completos aleatorizados (Todos los tratamientos se


prueban en cada bloque exactamente vez).
• Los diseños por bloques incompletos aleatorizados (Todos los tratamientos no
están representados en cada bloque, y aquellos que sí están en uno en particular se
ensayan en él una sola vez).
Diseño en Bloques Completos Aleatorizados
En esta sección presentamos el diseño completo aleatorizado con efectos fijos. La
palabra bloque se refiere al hecho de que se ha agrupado a las unidades
experimentales en función de alguna variable extraña; aleatorizado se refiere al
hecho de que los tratamientos se asignan aleatoriamente dentro de los
bloques; completo implica que se utiliza cada tratamiento exactamente una vez
dentro de cada bloque y el término efectos fijos se aplica a bloques y tratamientos.
Es decir, se supone que ni los bloques ni los tratamientos se eligen aleatoriamente.
Además una caracterización de este diseño es que los efectos bloque y tratamiento
son aditivos; es decir no hay interacción entre los bloques y los tratamientos.

La descripción del diseño así como la terminología subyacente la vamos a introducir


mediante el siguiente supuesto práctico.

Supuesto práctico 3
El Abeto blanco, Abeto del Pirineo, es un árbol de gran belleza por la elegancia de
sus formas y el exquisito perfume balsámico que destilan sus hojas y cortezas.
Destilando hojas y madera se obtiene aceite de trementina muy utilizado en
medicina contra torceduras y contusiones. En estos últimos años se ha observado
que la producción de semillas ha descendido y con objeto de conseguir buenas
producciones se proponen tres tratamientos. Se observa que árboles diferentes
tienen distintas características naturales de reproducción, este efecto de las
diferencias entre los árboles se debe de controlar y este control se realiza mediante
bloques. En el experimento se utilizan 10 abetos, dentro de cada abeto se
seleccionan tres ramas semejantes. Cada rama recibe exactamente uno de los tres
tratamientos que son asignados aleatoriamente. Constituyendo cada árbol un
bloque completo. Los datos obtenidos se presentan en la siguiente tabla donde se
muestra el número de semillas producidas por rama.

El objetivo del estudio es comparar los tres tratamientos, por lo que se trata de un
factor con tres niveles. Sin embargo, al realizar la medición sobre los distintos
abetos, es posible que estos influyan sobre el número se semillas observadas. Por
ello, y al no ser directamente motivo de estudio, los abetos es un factor secundario
que recibe el nombre de bloque.

Nos interesa saber si los distintos tratamientos influyen en la producción de


semillas, para ello realizamos el siguiente contraste de hipótesis:

Es decir, contrastamos que no hay


diferencia en las medias de los tres tratamientos frente a la alternativa de que al
menos una media difiere de otra.
Pero, previamente hay que comprobar si la presencia del factor bloque (los abetos)
está justificada. Para ello, realizamos el siguiente contraste de hipótesis:

Es decir, contrastamos que


no hay diferencia en las medias de los diez bloques frente a la alternativa de que al
menos una media difiere de otra.

Este experimento se modeliza mediante un diseño en bloques completos al azar. El


modelo matemático es:

La fórmula expresa simbólicamente la idea de que cada observación yij (Número de


semillas medida con el tratamiento i, del abeto j ), puede subdividirse en cuatro
componentes: un efecto medio global μ, un efecto tratamiento τi (efecto del factor
principal sobre el número de semillas), un efecto bloque βj (efecto del factor
secundario (abetos) sobre el número de semillas) y una desviación aleatoria debida
a causas desconocidas uij (Perturbaciones o error experimental). Este modelo tiene
que verificar los siguientes supuestos:
1. Las 30 observaciones constituyen muestras aleatorias independientes, cada una de
tamaño 3, de 30 poblaciones con medias μij, i=1, 2,…, 3 y j = 1, 2, .., 10.
2. Cada una de las 30 poblaciones es normal.
3. Cada una de las 30 poblaciones tiene la misma varianza.
4. Los efectos de los bloques y tratamientos son aditivos; es decir, no existe interacción
entre los bloques y tratamientos. Esto significa que si hay diferencias entre dos
tratamientos cualesquiera, estas se mantienen en todos los bloques (abetos).
Los tres primeros supuestos coinciden con los supuestos del modelo unifactorial,
con la diferencia de que en el modelo unifactorial se examinaban I poblaciones y en
este modelo se examinan IJ. El cuarto supuesto es característico del diseño en
bloques. La no interacción entre los bloques y los tratamientos significa que los
tratamientos tienen un comportamiento consistente a través de los bloques y que
los bloques tienen un comportamiento consistente a través de los tratamientos.
Expresado matemáticamente significa que la diferencia de los valores medios para
dos tratamientos cualesquiera es la misma en todo un bloque y que la diferencia de
los valores medios para dos bloques cualesquiera es la misma para cada
tratamiento.
• Variable respuesta: Número de semillas
• Factor: Tratamiento que tiene tres niveles. Es un factor de efectos fijos ya que
viene decidido qué niveles concretos se van a utilizar.
• Bloque: Abeto que tiene diez niveles. Es un factor de efectos fijos ya que viene
decidido qué niveles concretos se van a utilizar.
• Modelo completo: Los tres tratamientos se prueban en cada bloque exactamente
una vez.
• Tamaño del experimento: Número total de observaciones (30).

Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:

• Nombre: Número_semillas ; Tipo: Numérico ; Anchura: 2 ; Decimales: 0


• Nombre: Tratamientos ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0
• Nombre: Abetos ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0.
Para resolver los contrastes planteados, se selecciona, en el menú
principal, Analizar/Modelo lineal general/ Univariante… En la salida
correspondiente, se introduce en el campo Variable dependiente: La variable
respuesta Número_semillas y en el campo Factores fijos: el factor Tratamientos y
el bloque Abetos. Para indicar que se trata de un modelo sin interacción entre los
tratamientos y los bloques, se debe pinchar en Modelo e indicar en la salida
correspondiente que es un modelo aditivo.
Por defecto, SPSS tiene marcado un modelo Factorial completo, por lo que hay que
señalar Personalizado. En el modelo que estamos estudiando sólo aparecen los
efectos principales de los dos factores, por lo tanto se selecciona en Tipo: Efectos
principales y se pasan los dos factores, Tratamientos y Abetos, al
campo Modelo: Observamos que no hay distinción entre los dos factores, no se
indica cual es el factor principal y cuál es el bloque. En el modelo matemático el
tratamiento que se hace es el mimo para ambos factores, lo que cambia es la
interpretación.

Pulsando Continuar y Aceptar se obtiene la Tabla ANOVA


Puesto que la construcción de bloques se ha diseñado para comprobar el efecto de
una variable, nos preguntamos si ha sido eficaz su construcción. En caso afirmativo,
la suma de cuadrados de bloques explicaría una parte sustancial de la suma total de
cuadrados. También se reduce la suma de cuadrados del error dando lugar a un
aumento del valor del estadístico de contraste experimental utilizado para
contrastar la igualdad de medias de los tratamientos y posibilitando que se rechace
la Hipótesis nula, mejorándose la potencia del contraste.

La construcción de bloques puede ayudar cuando se comprueba su eficacia pero


debe evitarse su construcción indiscriminada. Ya que, la inclusión de bloques en un
diseño da lugar a una disminución del número de grados de libertad para el error,
aumenta el punto crítico para contrastar la Hipótesis nula y es más difícil rechazarla.
La potencia del contraste es menor.

La Tabla ANOVA, muestra que:


• El valor del estadístico de contraste de igualdad de bloques, F = 6.937 deja a su
derecha un p-valor menor que 0.001, menor que el nivel de significación del 5%,
por lo que se rechaza la Hipótesis nula de igualdad de bloques. La eficacia de este
diseño depende de los efectos de los bloques. Un valor grande de F de los bloques
(6.937) implica que el factor bloque tiene un efecto grande. En este caso el diseño es
más eficaz que el diseño completamente aleatorizado ya que si el cuadrado medio
entre bloques es grande (608.889), el término residual será mucho menor (87.778)
y el contraste principal de las medias de los tratamientos será más sensible a las
diferencias entre tratamientos. Por lo tanto la inclusión del factor bloque en el
modelo es acertada. Así, la producción de semillas depende del abeto.
Si los efectos de los bloques son muy pequeños, el análisis de bloque quizás no sea
necesario y en caso extremo, cuando el valor de F de los bloques es próximo a 1,
puede llegar a ser perjudicial, ya que el número de grados de libertad, (I-1)(J-1 ), del
denominador de la comparación de tratamientos es menor que el número de grados
de libertad correspondiente,IJ-I, en el diseño completamente aleatorizado. Pero,
¿Cómo saber cuándo se puede prescindir de los bloques? La respuesta la tenemos
en el valor de la F experimental de los bloques, se ha comprobado que si dicho valor
es mayor que 3, no conviene prescindir de los bloques para efectuar los contrastes.
• El valor del estadístico de contraste de igualdad de tratamiento, F = 9.228 deja a su
derecha un p-valor de 0.002, menor que el nivel de significación del 5%, por lo que
se rechaza la Hipótesis nula de igualdad de tratamientos. Así, los tratamientos
influyen en el número de semillas. Es decir, existen diferencias significativas en el
número de semillas entre los tres tratamientos.
La salida de SPSS también nos muestra que R cuadrado vale 0.818, indicándonos
que el modelo explica el 81.80% de la variabilidad de los datos.

El modelo que hemos propuesto hay que validarlo, para ello hay que comprobar si
se verifican los cuatros supuestos expresados anteriormente.

Estudio de la Idoneidad del modelo


Hipótesis de aditividad entre los bloques y tratamientos
La interacción entre el factor bloque y los tratamientos se puede estudiar
gráficamente de diversas formas:

1. Gráfico de residuos frente a los valores predichos por el modelo. Si este gráfico
no presenta ningún aspecto curvilíneo se admite que el modelo es aditivo. Este
gráfico se puede realizar en SPSS de dos formas:
• Seleccionamos Opciones en el cuadro de diálogo de Univariante y marcamos la
casilla Gráfico de los residuos. Se pulsa, Continuar y Aceptar
Interpretamos el gráfico que
aparece en la fila 3 columna 2, es decir aquel gráfico que se representan los residuos
en el eje de ordenadas y los valores pronosticados en el eje de abscisas. No
observamos, en dicho gráfico, ninguna tendencia curvilínea, es decir no muestra
evidencia de interacción entre el factor bloque y los tratamientos.
• Gráfico de dispersión de los residuos y las predicciones. Para realizar este
gráfico, se selecciona, en el menú principal, Analizar/Modelo lineal general/
Univariante/Guardar… En la ventana resultante se selecciona Residuos No
tipificados y Valores pronosticados No tipificados. Se
pulsa, Continuar y Aceptar. Y en el Editor de datos se han creado dos nuevas
variables RES_1 y PRE_1 que contienen los residuos del modelo y los valores
predichos, respectivamente. Realizamos el gráfico de dispersión, para ello se
selecciona en el menú principal, Gráficos/Cuadros de diálogos
antiguos/Diagramas/Puntos

2. Gráfico de perfil: Es un gráfico de las medias de los tratamientos, para realizarlo se


selecciona, en el menú principal, Analizar/Modelo lineal general/
Univariante/Gráficos… se introduce en el Eje horizontal: Tratamientos y
en Líneas separadas: Abetos . Se pulsa Añadir, Continuar y Aceptar.
La figura representa el gráfico de las medias de los tratamientos. Cuando no existe
interacción, los segmentos lineales que unen dos medias cualesquiera serán
paralelos a través de los bloques. Es decir, es posible hacer consideraciones
generales relativas a los tratamientos sin tener que especificar el bloque implicado.
Podemos deducir, por ejemplo, que el tratamiento 1 es menos eficaz que los otros
dos en el sentido que produce menos semillas. Cuando estos segmentos no son
paralelos se deduce que hay interacción entre los bloques y tratamientos. Esto
significa que debemos tener cuidado cuando hagamos declaraciones relativas a los
tratamientos, porque el bloque implicado es también importante.
Hipótesis de normalidad
En primer lugar se deben salvar los residuos (procedimiento realizado
anteriormente) y a continuación realizamos el estudio de la normalidad mediante
el Gráfico probabilístico Normal y el Contraste de Kolmogorov-Smirnov
Gráfico probabilístico Normal: Se selecciona en el menú
principal, Analizar/Estadísticos descriptivos/Gráficos Q-Q. Se introduce en el
campo Variables: la variable que recoge los residuos RES_1. Se pulsa Aceptar

Podemos apreciar en este gráfico que los puntos aparecen próximos a la línea
diagonal. Esta gráfica no muestra una desviación marcada de la normalidad.

Contraste de Kolmogorov-Smirnov: Se selecciona en el menú


principal, Analizar/Pruebas no paramétricas/ Cuadros de diálogos
antiguos/K-S de 1 muestra. Se introduce en el campo Lista Contrastar
variables: la variable que recoge los residuos RES_1. Se pulsa Aceptar
El valor del p-valor, 0.544, es mayor que el nivel de significación 0.05, aceptándose
la hipótesis de normalidad.
Independencia entre los residuos
En el gráfico de los residuos realizado anteriormente, interpretamos el gráfico que
aparece en la fila 3 columna 2, es decir aquel gráfico en el que se representan los
residuos en el eje de ordenadas y los valores pronosticados en el eje de abscisas. No
observamos, en dicho gráfico, ninguna tendencia sistemática que haga sospechar del
incumplimiento de la suposición de independencia. Este gráfico también lo podemos
realizar mediante un diagrama de dispersión de los residuos y las predicciones.
Procedimiento realizado anteriormente para comprobar la hipótesis de no
interacción.

Homogeneidad de varianzas
En primer lugar comprobamos la homocedasticidad gráficamente, para ello se
selecciona en el menú principal, Gráficos/Cuadros de diálogos antiguos/Barras
de error… Y en la salida correspondiente seleccionar Simple y pulsar Definir. Se
introduce en el campo Variable: La variable respuesta Número_semillas y en el
campo Eje de categorías: el factor Tratamientos. En Las barras representan se
selecciona Desviación típica, en Multiplicador: 2 (nos interesa que la desviación
típica esté multiplicada por dos). Se pulsa Aceptar
Cada
grupo tiene su promedio (el círculo en cada una de las barras) y dos desviaciones
típicas a la izquierda y dos desviaciones típicas a la derecha del promedio.
Observamos que en el tratamiento3 hay mucha más dispersión que en los otros dos
y donde hay menos dispersión es en el Tratamiento2. Del gráfico no se deduce
directamente si hay homogeneidad en estas varianzas, por lo que recurrimos
analizarlo analíticamente mediante una prueba el test de Levene.
Realizamos el mismo gráfico para el factor bloque, para ello se introduce en el
campo Eje de categorías: el factor Abetos.
Observamos
que en el Abeto 3 parece que hay mayor dispersión pero seguido a muy poca
distancia del los Abetos 1, 4, 5 y 9 y donde hay menos dispersión es en los Abetos 7
y 8. Como en el gráfico anterior, no se deduce directamente si hay homogeneidad en
estas varianzas, por lo que recurrimos analizarlo analíticamente mediante una
prueba el test de Levene.
Para realizar el test de Levene mediante SPSS, Se selecciona, en el menú
principal, Analizar/Comparar medias/ANOVA de un factor. En la salida
correspondiente, se introduce en el campo Lista de dependientes: La variable
respuesta Número_semillas y en el campo Factor: el factor Tratamientos. Se
pulsa Opciones. Se selecciona Pruebas de homogeneidad de las
varianzas y Gráfico de medias. Se pulsa Continuar y Aceptar
El p-valor es 0.244 por lo tanto no se
puede rechazar la hipótesis de homogeneidad de las varianzas y se concluye que los
tres grupos tienen varianzas homogéneas.

Antes de resolver el
contraste de igualdad de medias observemos este gráfico de medias, donde en el eje
de ordenadas figuran las medias del número de semillas y en el eje de abscisas los
tratamientos. En esta gráfica observamos que la mayor concentración del número
de semillas se produce en el Tratamiento3 y el número más bajo se produce con
el Tratamiento1. Para saber entre que parejas de tratamientos estas diferencias son
significativas aplicamos una prueba Post-hoc.
Realizamos el mismo contraste para los bloques, ya que hay que comprobar la
homocedasticidad tanto en los tratamientos como en los bloques. En la
ventana ANOVA de un factor, en la salida correspondiente, se introduce en el
campo Lista de dependientes: Número_semillas y en el campo Factor: Abetos. Se
pulsa Opciones y a continuación se selecciona Pruebas de homogeneidad de las
varianzas. Se pulsa Continuar y Aceptar
El p-valor es 0.518 por lo tanto no se
puede rechazar la hipótesis de homogeneidad de las varianzas y se concluye que los
diez grupos tienen varianzas homogéneas.

En esta gráfica observamos que la mayor concentración del número de semillas se


produce en el Abeto5 y el número más bajo se produce en el Abeto7. Para saber entre
que parejas de Abetos estas diferencias son significativas aplicamos una prueba
Post-hoc.
Comparaciones múltiples
Se selecciona, en el menú principal, Analizar/Modelo lineal general/
Univariante… En la salida correspondiente, se introduce en el campo Variable
dependiente: Número_semillas y en el campo Factores
fijos: Tratamientos y Abetos. Para indicar que se trata de un modelo sin
interacción entre los tratamientos y los bloques, se debe pinchar en Modelo e
indicar en la salida correspondiente que es un modelo aditivo. Para ello,
señalar Personalizado y en Tipo: Efectos principales y se pasan los dos
factores, Tratamientos y Abetos, al campo Modelo. Se
pulsa Continuar y Post_hoc… En la ventana resultante, se pasan las
variables Tratamientos y Abetos al campo Pruebas posthoc para: y
seleccionamos la prueba de Duncan. Se pulsa Continuar y Aceptar
La tabla de
subconjuntos homogéneos muestra por columnas los subgrupos de medias iguales,
formados al utilizar el método de Duncan. Se observa que los tres tratamientos
difieren significativamente entre sí. También se observa que la concentración media
del número de semillas es mayor con el Tratamiento3 (101) y menor con
el Tratamiento1 (83).
Se observa que la prueba de
Duncan ha agrupado los abetos 7, 8, 1, 9, 2, 6 y 10 en una misma columna (P-
valor 0.070, no hay diferencias significativas entre ellos), 1, 9 ,2 6, 10, 3 y 4 (P-
valor 0.070, no hay diferencias significativas entre ellos) en otra columna y la
tercera columna está formada únicamente por el Abeto5. Inmediatamente se ve que
por ejemplo el Abeto5difiere de todos los demás, siendo en este abeto donde se
produce el mayor número de semillas (123.33)y el menor en el Abeto7.

Diseño en bloques Incompletos Aleatorizados


En los diseños en bloques Aleatorizados, puede suceder que no sea posible realizar
todos los tratamientos en cada bloque. En estos casos es posible usar diseños en
bloques Aleatorizados en los que cada tratamiento no está presente en cada bloque.
Estos diseños reciben el nombre de diseño en bloque incompleto aleatorizado siendo
uno de los más utilizados el diseño en bloque incompleto balanceado (BIB)
El diseño de bloques incompletos balanceado (BIB) compara todos los tratamientos
con igual precisión.

Este diseño experimental debe verificar:

• Cada tratamiento ocurre el mismo número de veces en el diseño.


• Cada par de tratamientos ocurren juntos el mismo número de veces que cualquier
otro par.
Supongamos que se tienen I tratamientos de los cuales sólo pueden
experimentar K tratamientos en cada bloque (K < I). Los parámetros que
caracterizan este modelo son:
• I, J y K son el número de tratamientos, el número de bloques y el número de
tratamientos por bloque, respectivamente.
• R, número de veces que cada tratamiento se presenta en el diseño, es decir el
número de réplicas de un tratamiento dado.
• λ , número de bloques en los que un par de tratamientos ocurren juntos.
• N, número de observaciones.

Estos parámetros deben verificar las siguientes relaciones:

Estos parámetros deben verificar las siguientes relaciones:

Fórmula: Relación en Bloques Incompletos


donde J ≥ I y N = I R = J K
• Si J = I el diseño recibe el nombre de simétrico.

Al igual que en el diseño en bloques completo, la asignación de los tratamientos a las


unidades experimentales en cada bloque se debe realizar en forma aleatoria.

Este diseño lo estudiaremos a continuación mediante el supuesto práctico 4

Supuesto práctico 4
Se realiza un estudio para comprobar la efectividad en el retraso del crecimiento de
bacterias utilizando cuatro soluciones diferentes para lavar los envases de la leche.
El análisis se realiza en el laboratorio y sólo se pueden realizar seis pruebas en un
mismo día. Como los días son una fuente de variabilidad potencial, el investigador
decide utilizar un diseño aleatorizado por bloques, pero al recopilar las
observaciones durante seis días no ha sido posible aplicar todos los tratamientos en
cada día, sino que sólo se han podido aplicar dos de las cuatro soluciones cada día.
Se decide utilizar un diseño en bloques incompletos balanceado, donde I = 4 y K = 2.
Un posible diseño para estos parámetros lo proporciona la tabla correspondiente al
Diseño 5 del Fichero-Adjunto, con R = 3, J = 6 y λ = 1. La disposición del diseño y las
observaciones obtenidas se muestran en la siguiente tabla.

En el ejemplo:

• N = I R = J K. En efecto, ya que N= 12; I = 4, J = 6; R = 3 y K = 2.

El objetivo principal es estudiar la efectividad en el retraso del crecimiento de


bacterias utilizando cuatro soluciones, por lo que se trata de un factor con cuatro
niveles. Sin embrago, como los días son una fuente de variabilidad potencial,
consideramos un factor bloque con seis niveles.

• Variable respuesta: Número de bacterias


• Factor: Soluciones que tiene cuatro niveles. Es un factor de efectos fijos ya que
viene decidido qué niveles concretos se van a utilizar.
• Bloque: Días que tiene seis niveles. Es un factor de efectos fijos ya que viene
decidido qué niveles concretos se van a utilizar.
• Modelo incompleto: Todos los tratamientos no se prueban en cada bloque.
• Tamaño del experimento: Número total de observaciones (12).

Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:

• Nombre: Número_bacterias ; Tipo: Numérico ; Anchura: 2 ; Decimales: 0


• Nombre: Soluciones ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0 ; • Valores:
{ 1, Solución1; 2, Solución2; 3, Solución3; 4, Solución4 }
• Nombre: Días ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0 .
Para resolver los contrastes planteados. Se selecciona, en el menú
principal, Analizar/Modelo lineal general/ Univariante… En la salida
correspondiente, se introduce en el campo Variable
dependiente: Número_bacterias y en el campo Factores
fijos: Soluciones y Días. Para indicar que se trata de un modelo sin interacción
entre los tratamientos y los bloques, se debe pinchar en Modelo e indicar en la
salida correspondiente que es un modelo aditivo.
En este tipo de diseño los tratamientos no estan en todos los bloques, entonces los
bloques y tratamientos no son ortogonales (como lo son en el diseño de bloques
completos al azar), por lo tanto no es posible realizar una descomposición de la
variabilidad del experimento como en el diseño en bloques completos. Para resolver
está cuestión, SPSS utiliza lasSumas de cuadrados de tipo I. En la obtención de
las Sumas de Cuadrados de tipo I cada término se corrige sólo respecto al término
que le precede en el modelo por lo que también recibe el nombre de Método de
Descomposición Jerárquica de la Suma de Cuadrados.
• Para evaluar el efecto de los tratamientos, la suma de cuadrados de tratamientos
debe ajustarse por bloques, por lo tanto primerose introducen los bloques y después
los tratamientos. En la ventana Univariante se selecciona TipoI en Suma de
cuadrados. Los resultados de dicho ANOVA dependerán del orden en que se
introduzcan los factores en el campo Factores
fijo: Pulsando Continuar y Aceptar se obtiene la Tabla ANOVA
El valor del estadístico de contraste de igualdad de Soluciones, F = 0.311 deja a su
derecha un p-valor 0.819, mayor que el nivel de significación del 5%, por lo que no
se rechaza la Hipótesis nula de igualdad de tratamientos. Por lo tanto el tipo de
solución para lavar los envases de la leche no influye en el retraso del crecimiento
de bacterias.
• Para evaluar el efecto de los bloques, la suma de cuadrados de bloques debe
ajustarse por los tratamientos, por lo tanto primero se introducen los tratamientos
y después los bloques
El valor del estadístico de contraste de igualdad de Días, F = 0.601 deja a su derecha
un p-valor 0.712, mayor que el nivel de significación del 5%, por lo que no se
rechaza la Hipótesis nula de igualdad de bloques. Por lo tanto los días en los que se
realiza la prueba para lavar los envases de la leche no influyen en el retraso del
crecimiento de bacterias. Con este ejemplo se ilustra el hecho de decidir si se
prescinde o no de los bloques. Hay situaciones en las que, aunque los bloques no
resulten significativamente diferentes no es conveniente prescindir de ellos. Pero
¿cómo saber cuándo se puede prescindir de los bloques? La respuesta la tenemos en
el valor de la F de los bloques, experimentalmente se ha comprobado que si dicho
valor es mayor que 3, no conviene prescindir de los bloque para efectuar los
contrastes. En esta situación si se puede prescindir del efecto de los bloques y
estudiar el modelo unifactorial correspondiente, cuyo único factor es: Soluciones.
Diseño en Cuadrados Latinos
Hemos estudiado en el apartado anterior que los diseños en bloques completos
aleatorizados utilizan un factor de control o variable de bloque con objeto de
eliminar su influencia en la variable respuesta y así reducir el error experimental.
Los diseños en cuadrados latinos utilizan dos variables de bloque para reducir el
error experimental.

Un inconveniente que presentan a veces los diseños es el de requerir excesivas


unidades experimentales para su realización. Un diseño en bloques completos con
un factor principal y dos factores de bloque, con K1, K2 y K3 niveles en cada uno de los
factores, requiere K1×K2×K3 unidades experimentales. En un experimento puede
haber diferentes causas, por ejemplo de índole económico, que no permitan emplear
demasiadas unidades experimentales, ante esta situación se puede recurrir a un tipo
especial de diseños en bloques incompletos aleatorizados. La idea básica de estos
diseños es la de fracción es decir, seleccionar una parte del diseño completo de
forma que, bajo ciertas hipótesis generales, permita estimar los efectos que
interesan.

Uno de los diseños en bloques incompletos aleatorizados más importante con dos
factores de control es el modelo en cuadrado latino, dicho modelo requiere el mismo
número de niveles para los tres factores.

En general, para K niveles en cada uno de los factores, el diseño completo en bloques
aleatorizados utiliza K² bloques, aplicándose en cada bloque los K niveles del factor
principal, resultando un total de K³ unidades experimentales.
Los diseños en cuadrado latino reducen el número de unidades experimentales
a K² utilizando los K² bloques del experimento, pero aplicando sólo un tratamiento
en cada bloque con una disposición especial. De esta forma, si K fuese 4, el diseño en
bloques completos necesitaría 4³=64 observaciones, mientras que el diseño en
cuadrado latino sólo necesitaría 4²=16 observaciones.

Los diseños en cuadrados latinos son apropiados cuando es necesario controlar dos
fuentes de variabilidad. En dichos diseños el número de niveles del factor principal
tiene que coincidir con el número de niveles de las dos variables de bloque o factores
secundarios y además hay que suponer que no existe interacción entre ninguna
pareja de factores.

Recibe el nombre de cuadrado latino de orden K a una disposición en filas y


columnas de K letras latinas, de tal forma que cada letra aparece una sola vez en cada
fila y en cada columna.

En resumen, podemos decir que un diseño en cuadrado latino tiene las siguientes
características:

• Se controlan tres fuentes de variabilidad, un factor principal y dos factores de


bloque.
• Cada uno de los factores tiene el mismo número de niveles, K .
• Cada nivel del factor principal aparece una vez en cada fila y una vez en cada
columna.
• No hay interacción entre los factores.
En el Fichero-Adjunto se muestran algunos cuadrados latinos estándares para los
órdenes 3, 4, 5, 6, 7, 8 y 9.

Este diseño lo estudiaremos a continuación mediante el supuesto práctico 5

Supuesto práctico 5
Se estudia el rendimiento de un proceso químico en seis tiempos de reposo, A, B, C,
D, E y F. Para ello, se consideran seis lotes de materia prima que reaccionan con seis
concentraciones de ácido distintas, de manera que cada lote de materia prima en
cada concentración de ácido se somete a un tiempo de reposo. Tanto la asignación
de los tiempos de reposo a los lotes de materia prima, como la concentración de
ácido, se hizo de forma aleatoria. Los datos del rendimiento del proceso químico se
muestran en la siguiente tabla.

El objetivo principal es estudiar la influencia de seis tiempos de reposo en el


rendimiento de un proceso químico, por lo que se trata de un factor con seis niveles.
Sin embargo, como los lotes de materia prima y las concentraciones son dos fuentes
de variabilidad potencial, consideramos dos factores de bloque con seis niveles cada
uno.

• Variable respuesta: Rendimiento


• Factor: Tiempo de reposo que tiene seis niveles. Es un factor de efectos fijos ya
que viene decidido que niveles concretos se van a utilizar.
• Bloques: Lotes y Concentraciones, ambos con seis niveles y ambos son factores
de efectos fijos.
• Tamaño del experimento: Número total de observaciones (36).

Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:

• Nombre: Rendimiento ; Tipo: Numérico ; Anchura: 2 ; Decimales: 0


• Nombre: Tiempo_reposo ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0
; Valores: { 1, A; 2, B; 3, C; 4, D; 5, E; 6, F }
• Nombre: Lotes ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0 ; Valores: { 1,
Lote1; 2, Lote2; 3, Lote 3; 4, Lote 4; 5, Lote 5; 6, Lote 6}
• Nombre: Concentraciones ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0.
Para resolver los contrastes, se selecciona, en el menú principal, Analizar/Modelo
lineal general/ Univariante… En la salida correspondiente, se introduce en el
campo Variable dependiente: Rendimiento y en el campo Factores
fijos: Tiempo_reposo, Lotes y Concentraciones. Para indicar que se trata de un
modelo sin interacción entre los tratamientos y los bloques, se debe pinchar
en Modelo e indicar en la salida correspondiente que es un modelo aditivo.

Observando los valores de los p-valores, 0.281, 0.368 y 0.553; mayores


respectivamente que el nivel de significación del 5%, deducimos que ningún efecto
es significativo.

Diseño en Cuadrados Greco-Latinos


El modelo en cuadrado greco-latino se puede considerar como una extensión del
modelo en cuadrado latino en el que se incluye una tercera variable control o
variable de bloque. En este modelo como en el diseño en cuadrado latino, todos los
factores deben tener el mismo número de niveles, K, y el número de observaciones
necesarias sigue siendo K². Este diseño es, por tanto, una fracción del diseño
completo en bloques aleatorizados con un factor principal y tres factores
secundarios que requeriría K4 observaciones.

Los cuadrados greco-latinos se obtienen por superposición de dos cuadrados latinos


del mismo orden y ortogonales entre sí, uno de los cuadrados con letras latinas el
otro con letras griegas. Dos cuadrados reciben el nombre de ortogonales si, al
superponerlos, cada letra latina y griega aparecen juntas una sola vez en el cuadrado
resultante.

En el Fichero-Adjunto se muestra una tabla de cuadrados latinos que dan lugar, por
superposición de dos de ellos, a cuadrados greco-latinos. Notamos que no es posible
formar cuadrados greco-latinos de orden 6.
La Tabla siguiente ilustra un cuadrado greco-latino para K=4

Este diseño lo estudiaremos a


continuación mediante el supuesto práctico
Supuesto práctico 6
Para comprobar el rendimiento de un proceso químico en cinco tiempos de reposo,
se consideran cinco lotes de materia prima que reaccionan con cinco
concentraciones de ácido distintas a cinco temperaturas distintas, de manera que
cada lote de materia prima con cada concentración de ácido y cada temperatura se
somete a un tiempo de reposo. Tanto la asignación de los tiempos de reposo a los
lotes de materia prima, como las concentraciones de ácido, y las temperaturas, se
hizo de forma aleatoria. En este estudio el científico considera que tanto los lotes de
materia prima, las concentraciones y las temperaturas pueden influir en el
rendimiento del proceso, por lo que los considera como variables de bloque cada
una con cinco niveles y decide plantear un diseño por cuadrados greco-latinos como
el que muestra en la siguiente tabla.
La variable respuesta que vamos
a estudiar es el rendimiento del proceso químico. El factor principal es tiempo de
reposo que se presenta con cinco niveles.
• Variable respuesta: Rendimiento
• Factor: Tiempos de reposo que tiene cinco niveles. Es un factor de efectos fijos ya
que viene decidido que niveles concretos se van a utilizar.
• Bloques: Lotes, Concentraciones y Temperaturas, cada uno con cinco niveles y
de efectos fijos.
• Tamaño del experimento: Número total de observaciones (25).

Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:

• Nombre: Rendimiento ; Tipo: Numérico ; Anchura: 2 ; Decimales: 0


• Nombre: Tiempo_reposo ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0
; Valores: { 1, alpha; 2, beta; 3, gamma; 4, delta; 5, eta }
• Nombre: Temperatura; Tipo: Numérico ; Anchura: 1 ; Decimales: 0 ; Valores:
{ 1, A; 2, B; 3, C; 4, D; 5, E}
• Nombre: Lotes ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0 ; Valores: { 1,
Lote1; 2, Lote2; 3, Lote 3; 4, Lote 4; 5, Lote 5}
• Nombre: Concentraciones ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0.
Para resolver los contrastes, se selecciona, en el menú principal, Analizar/Modelo
lineal general/ Univariante…
En la salida correspondiente, se introduce en el campo Variable
dependiente: Rendimiento y en el campo Factores fijos: Tiempo_reposo,
Lotes Concentraciones y Temperaturas.
Para indicar que se trata de un modelo sin interacción entre los tratamientos y los
bloques, se debe pinchar en Modelo e indicar en la salida correspondiente que es un
modelo aditivo.
Observando los valores de los p-valores, 0.150, 0.053, 0.912 y 0.021, deducimos
que el único efecto significativo, al nivel de significación del 5%, es el efecto de la
distintas concentraciones sobre el rendimiento del proceso químico.

Diseño en Cuadrados de Youden


Hemos estudiado que en el diseño en cuadrado latino se tiene que verificar que los
tres factores tengan el mismo número de niveles, es decir que hay el mismo número
de filas, de columnas y de letras latinas. Sin embargo, puede suceder que el número
de niveles disponibles de uno de los factores de control sea menor que el número de
tratamientos, en este caso estaríamos ante un diseño en cuadrado latino incompleto.
Estos diseños fueron estudiados por W.J. Youden y se conocen con el nombre de
cuadrados de Youden.

Este diseño lo estudiaremos a continuación mediante el supuesto práctico 7.

Supuesto práctico 7
Consideremos de nuevo el experimento sobre el rendimiento de un proceso químico
en el que se está interesado en estudiar seis tiempos de reposo, A, B, C, D, E y F y se
desea eliminar estadísticamente el efecto de los lotes materia prima y de las
concentraciones de ácido distintas. Pero supongamos que sólo se dispone de cinco
tipos de concentraciones. Para analizar este experimento se decidió utilizar un
cuadrado de Youden con seis filas (los lotes de materia prima), cinco columnas (las
distintas concentraciones) y seis letras latinas (los tiempos de reposo). Los datos
correspondientes se muestran en la siguiente tabla.

Observamos que este diseño


se convierte en un cuadrado latino si se le añade la columna F, A, B, C, D y E. En
general, un cuadrado de Youden podemos considerarlo como un cuadrado latino al
que le falta al menos una columna. Sin embargo, un cuadrado latino no se convierte
en un cuadrado de Youden eliminando arbitrariamente más de una columna.

Un cuadrado de Youden se puede considerar como un diseño en bloques


incompletos balanceado y simétrico en el que las filas corresponden a los bloques.
En efecto, si asignamos

• el factor principal a las letras latinas,


• un factor secundario, el que tiene el mismo número de niveles que el factor principal,
a las filas,
• un factor secundario, el que tiene menor número de niveles que el factor principal,
a las columnas,
entonces, un cuadrado de Youden es un diseño en bloques incompletos balanceado
y simétrico en el que

• Cada tratamiento ocurre una vez en cada columna.


• La posición del tratamiento dentro de un bloque indica el nivel del factor secundario
correspondiente a las columnas.
• El número de réplicas de un tratamiento dado es igual al número de tratamientos
por bloque.

Recordamos que los parámetros que caracterizan este modelo son:

• I, J y K son el número de tratamientos, el número de bloques y el número de


tratamientos por bloque, respectivamente.
• R, número de veces que cada tratamiento se presenta en el diseño, es decir el
número de réplicas de un tratamiento dado.
• λ , número de bloques en los que un par de tratamientos ocurren juntos.
• N, número de observaciones.

Los valores de los parámetros del modelo en este ejemplo son:

N = I R = J K. En efecto, ya que N= 30; I = 6 = J ; R = K = 5.

El objetivo principal es estudiar la influencia de seis tiempos de reposo en el


rendimiento de un proceso químico, por lo que se trata de un factor con seis niveles.
Sin embargo, como los lotes de materia prima y las concentraciones son dos fuentes
de variabilidad potencial, consideramos dos factores de bloque con seis y cinco
niveles, respectivamente.

• Variable respuesta: Rendimiento


• Factor: Tiempo de reposo que tiene seis niveles. Es un factor de efectos fijos ya
que viene decidido que niveles concretos se van a utilizar.
• Bloques: Lotes y Concentraciones, con seis y cinco niveles, respectivamente y
ambos son factores de efectos fijos.
• Tamaño del experimento: Número total de observaciones (30).

Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:

• Nombre: Rendimiento ; Tipo: Numérico ; Anchura: 2 ; Decimales: 0


• Nombre: Tiempo_reposo ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0
; Valores: { 1, A; 2, B; 3, C; 4, D; 5, E; 6, F }
• Nombre: Lotes ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0 ; Valores: { 1,
Lote1; 2, Lote2; 3, Lote 3; 4, Lote 4; 5, Lote 5; 6, Lote 6}
• Nombre: Concentraciones ; Tipo: Numérico ; Anchura: 1 ; Decimales: 0.
Para resolver los contrastes, se selecciona, en el menú principal, Analizar/Modelo
lineal general/ Univariante… En la salida correspondiente, se introduce en el
campo Variable dependiente: Rendimiento y en el campo Factores
fijos: Tiempo_reposo, Lotes y Concentraciones. Para indicar que se trata de un
modelo sin interacción entre los tratamientos y los bloques, se debe pinchar
en Modelo e indicar en la salida correspondiente que es un modelo aditivo. Así
mismo hay que indicar que el diseño en cuadrado de Youden es un diseño en bloques
incompletos balanceado, por lo que hay que seleccionar la suma de cuadrados de
tipo I.
Observando los p-valores, 0.532, 0.356 y 0.213; mayores respectivamente que el
nivel de significación del 5%, deducimos que ningún efecto es significativo.

Diseños Factoriales
En muchos experimentos es frecuente considerar dos o más factores y estudiar el
efecto conjunto que dichos factores producen sobre la variable respuesta. Para
resolver esta situación se utiliza el Diseño Factorial.
Se entiende por diseño factorial aquel diseño en el que se investigan todas las
posibles combinaciones de los niveles de los factores en cada réplica del
experimento. En estos diseños, los factores que intervienen tienen la misma
importancia a priori y se supone por tanto, la posible presencia de interacción. En
este epígrafe vamos a considerar únicamente modelos de efectos fijos.
Diseños factoriales con dos factores
En primer lugar vamos a estudiar los diseños más simples, es decir aquellos en los
que intervienen sólo dos factores. Supongamos que hay a niveles para el
factor A y b niveles del factor B, cada réplica del experimento contiene todas las
posibles combinaciones de tratamientos, es decir contiene los ab tratamientos
posibles.
El modelo sin replicación
El modelo estadístico para este diseño es:

• yij: Representa la
observación correspondiente al nivel (i) del factor A y al nivel (j) del factor B.
• µ: Efecto constante, común a todos los niveles de los factores, denominado media
global.
• τi: Efecto producido por el nivel i-ésimo del factor A, (∑iτi = 0).
• βj: Efecto producido por el nivel j-ésimo del factor B, (∑j βj = 0).
• (τβ)ij: Efecto producido por la interacción entre A×B,(∑i (τβ)ij = ∑j (τβ)ij = 0).
• uij son vv aa. independientes con distribución N(0,σ).
Supondremos que se toma una observación por cada combinación de factores, por
tanto, hay un total de N=ab observaciones.
Parámetros a estimar:

A pesar de las restricciones impuestas al modelo,

∑iτi = ∑j βj = ∑i (τβ)ij = ∑j (τβ)ij = 0,


el número de parámetros (ab+1) supera al número de
observaciones (ab). Por lo tanto, algún parámetro no será
estimable.

Los residuos de este modelo son nulos, eij = 0, por lo tanto no es posible estimar la
varianza del modelo y no se pueden contrastar la significatividad de los efectos de
los factores. Dichos contrates sólo pueden realizarse si:
1. Suponemos que la interacción entre A×B es cero.
2. Replicamos el experimento (Tomamos varias observaciones por cada combinación
de factores).
Supuesto práctico 8
En unos laboratorios se está investigando sobre el tiempo de supervivencia de unos
animales a los que se les suministra al azar tres tipos de venenos y cuatro antídotos
distintos. Se pretende estudiar si los tiempos de supervivencia de los anímales
varían en función de las combinaciones veneno-antídoto. Los datos que se recogen
en la tabla adjunta son los tiempos de supervivencia en horas.
El objetivo principal es estudiar la influencia de tres tipos de venenos y 4 tipos de
antídotos en el tiempo de supervivencia de unos determinados animales, por lo que
se trata de un modelo con dos factores: el veneno (con tres niveles) y el antídoto
(con cuatro niveles). La variable que va a medir las diferencias entre los
tratamientos es el tiempo que sobreviven los animales. Se combinan todos los
niveles de los dos factores por lo que tenemos en total doce tratamientos.

• Variable respuesta: Tiempo de supervivencia


• Factor: Tipo de veneno que tiene tres niveles. Es un factor de efectos fijos ya que
viene decidido qué niveles concretos se van a utilizar.
• Factor: Tipo de antídoto que tiene cuatro niveles. Es un factor de efectos fijos ya
que viene decidido qué niveles concretos se van a utilizar.
• Tamaño del experimento: Número total de observaciones (12).

Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:

• Nombre: Tiempo_supervivencia; Tipo: Numérico ; Anchura: 2 ; Decimales: 0


• Nombre: Tipo_veneno; Tipo: Numérico ; Anchura: 1 ; Decimales: 0 ; Valores:
{ 1, Veneno1; 2, Veneno2; 3, Veneno3}
• Nombre: Tipo_antídoto; Tipo: Numérico ; Anchura: 1 ; Decimales: 0 ; Valores:
{ 1, Antídoto1; 2, Antídoto2; 3, Antídoto3; 4, Antídoto4}
Para resolver los contrastes, se selecciona, en el menú principal, Analizar/Modelo
lineal general/ Univariante… En la salida correspondiente, se introduce en el
campo Variable dependiente: Tiempo_supervivencia y en el campo Factores
fijos: Tipo_veneno y Tipo_antídoto. Es un modelo de dos factores con 3 y 4 niveles
cada uno y un total de 12 observaciones por lo que no puede haber interacción entre
los factores ya que si la hubiera el número de parámetros del modelo superaría al
número de observaciones y como consecuencia los residuos del modelo serían nulos
y no se podrían contrastar la significatividad de los efectos de los factores. Indicamos
que se trata de un modelo sin interacción entre los factores, para ello se debe pinchar
en Modelo e indicar en la salida correspondiente que es un modelo aditivo. Se
pulsa Continuar y Aceptar
Esta Tabla
ANOVA recoge la descomposición de la varianza considerando como fuente de
variación los doce tratamientos o grupos que se forman al combinar los niveles de
los dos factores. Mediante esta tabla se puede estudiar sí varían los tiempos que
sobreviven los animales en función de las combinaciones veneno-antídoto. Es decir,
se pueden estudiar si existen diferencias significativas entre los tiempos medios de
supervivencia con los distintos tipos de venenos y antídotos, pero no se puede
estudiar si la efectividad de los antídotos es la misma para todos los venenos.
Observando los p-valores, 0.084 y 0.099; mayores respectivamente que el nivel de
significación del 5%, deducimos que ningún efecto es significativo. Por lo tanto, no
existen diferencias en los tiempos medios de supervivencia de los animales, en
función de la pareja veneno-antídoto que se les suministra.
El modelo con replicación
El modelo estadístico para este diseño es:

donde r es el número de replicaciones y N = abr es el número de observaciones.


El número de parámetros de este modelo es, como en el modelo de dos factores sin
replicación, ab+1 pero en este caso el número de observaciones es abr.

La descripción del diseño así como la terminología subyacente la vamos a introducir


mediante el siguiente supuesto práctico.

Supuesto práctico 9
Consideremos el supuesto práctico anterior en el que realizamos dos réplicas por
cada tratamiento. Los datos que se recogen en la tabla adjunta son los tiempos de
supervivencia en horas de unos animales a los que se les suministra al azar tres
venenos y cuatro antídotos. El objetivo es estudiar qué antídoto es el adecuado para
cada veneno.
El modelo matemático que planteamos es el siguiente:

• yijk: Representa el tiempo de supervivencia del animal k al que se le suministró el


veneno i y el antídoto j.
• µ: Efecto constante, común a todos los niveles de los factores, denominado media
global.
• τi: Efecto medio producido por el veneno i, (∑iτi = 0).
• βj: Efecto medio producido por antídoto j, (∑j βj = 0).
• (τβ)ij: Efecto medio producido por la interacción entre el veneno i y el antídoto
j, (∑i (τβ)ij = ∑j (τβ)ij = 0).
• uijk: Vv aa. independientes con distribución N(0,σ).
• Variable respuesta: Tiempo de supervivencia;
• Factor: Tipo de veneno (tres niveles).
• Factor: Tipo de antídoto (cuatro niveles).
• Ambos factores de efectos fijos.
• Tamaño del experimento: Número total de observaciones (24).

Para realizar este experimento mediante SPSS, se comienza introduciendo las


variables definidas anteriormente en el supuesto práctico 8.

Para resolver los contrastes, se selecciona, en el menú principal, Analizar/Modelo


lineal general/ Univariante… En la salida correspondiente, se introduce en el
campo Variable dependiente: Tiempo_supervivencia y en el campo Factores
fijos: Tipo_veneno y Tipo_antídoto. Es un modelo de dos factores donde se quiere
estudiar la posible interacción entre ambos factores, por lo que se realiza el modelo
completo donde aparezca dicha interacción. Así que no es necesario especificar nada
en la opción Modelo y se pulsa directamente Aceptar:
La Tabla ANOVA muestra las filas
de Tipo_veneno, Tipo_antídoto y Tipo_veneno*Tipo_antídoto que corresponde a
la variabilidad debida a los efectos de cada uno de los factores y de la interacción
entre ambos.
Las preguntas que nos planteamos son: ¿Son los venenos igual de peligrosos? ¿Y los
antídotos son igual de efectivos? La efectividad de los antídotos, ¿es la misma para
todos los venenos? Para responder a estas preguntas, comenzamos comprobando si
el efecto de los antídotos es el mismo para todos los venenos. Para ello observamos
el valor del estadístico (Fexp= 0.761) que contrasta la hipótesis correspondiente a la
interacción entre ambos factores (H0: (τβ)ij = 0). Dicho valor deja a la derecha un Sig.
= 0.614, mayor que el nivel de significación 0.05. Por lo tanto la interacción entre
ambos factores no es significativa y debemos eliminarla del modelo. Construimos de
nuevo la Tabla ANOVA en la que sólo figurarán los efectos principales. Para ello en
la ventana Univariante, pinchamos en Modelo e indicamos en la salida
correspondiente que es un modelo aditivo. Se pulsa Continuar y Aceptar y se
muestra la siguiente Tabla

Esta
tabla muestra dos únicas fuentes de variación, lo efectos principales de los dos
factores (Tipo_veneno y Tipo_antídoto), y se ha suprimido la interacción entre
ambos. Se observa que el valor de la Suma de Cuadrados del error de este modelo
(73.873) se ha formado con los valores de las Sumas de cuadrados del error y de la
interacción del modelo anterior (20.363 + 53.510 = 73.873). Observando los valores
de los p-valores, 0.005 y 0.012 asociados a los contrastes principales, se deduce que
los dos efectos son significativos a un nivel de significación del 5%. Deducimos que
ni la gravedad de los venenos es la misma, ni la efectividad de los antídotos, pero
dicha efectividad no depende del tipo de veneno con el que se administre ya que la
interacción no es significativa.
Como hemos dicho en el enunciado, el objetivo del estudio es determinar qué
antídoto es el adecuado para cada veneno. Con el fin de determinar qué antídoto es
el mejor utilizamos el método de Tukey, para ello en la
ventana Univarianteseleccionamos Post_hoc…y, se pasa la
variable Tipo_antídoto al campo Pruebas posthoc para: y seleccionamos la prueba
de Tukey. Se pulsa Continuar y Aceptar.
La tabla nos muestra dos subconjuntos homogéneos, el primero está formado por
los antídotos 1, 3 y 4; esto nos indica que no se aprecian diferencias significativas
entre ellos. El segundo subconjunto homogéneo está formado por los antídotos 3, 4
y 2 indicándonos, como en el caso anterior que no hay diferencias significativas
entre estos tres tipos de antídotos. Sin embargo si hay diferencias significativas
entre ambos subconjuntos, siendo el Antídoto2 significativamente más efectivo que
el Antídoto1 (su tiempo medio de supervivencia es 7.2167, superior a los obtenidos
con los otros antídotos), y significativamente superior al del Antídoto1.
Diseños factoriales con tres factores
Supongamos que hay a niveles para el factor A, b niveles del factor B y c niveles
para el factor C y que cada réplica del experimento contiene todas las posibles
combinaciones de tratamientos, es decir contiene los abc tratamientos posibles.
El modelo sin replicación
El modelo estadístico para este diseño es:

donde
• yijk: Representa la observación correspondiente al nivel (i) del factor A, al nivel (j)
del factor B y al nivel (k) del factor C.
• µ: Efecto constante, común a todos los niveles de los factores, denominado media
global.
• τi: Efecto producido por el nivel i-ésimo del factor A, (∑iτi = 0).
• βj: Efecto producido por el nivel j-ésimo del factor B, (∑j βj = 0).
• γk: Efecto producido por el nivel k -ésimo del factor C, (∑k γk = 0).
• (τβ)ij: Efecto producido por la interacción entre A×B, (∑i (τβ)ij = ∑j (τβ)ij = 0).
• (τγ)ik: Efecto producido por la interacción entre A×C, (∑i (τγ)ik = ∑k (τγ)ik = 0).
• (βγ)jk: Efecto producido por la interacción entre B×C, (∑j (βγ)jk = ∑j (βγ)jk = 0).
• (τβγ)ijk: Efecto producido por la interacción entre A×B×C,(∑i (τβγ) ijk =
∑j (τβγ) ijk = ∑k(τβγ)ijk = 0).
• uijk: Vv aa. independientes con distribución N(0,σ).
Supondremos que se toma una observación por cada combinación de factores, por
tanto, hay un total de N=abcobservaciones.
Parámetros a estimar:

A pesar de las restricciones


impuestas al modelo,

∑iτi = ∑j βj = ∑k γk = ∑i (τβ)ij =
∑j (τβ)ij = , …., = ∑k(τβγ)ijk = 0,
el número de parámetros (abc+1)
supera al número de
observaciones (abc).

Por lo tanto, algún parámetro no


será estimable.

En este modelo la variabilidad total se descompone en:

SCT=SCA+SCB+SCC+SC(AB)+SC(AC)+SC(BC)+SC(ABC)+SCR

Que representan:

• SCT : Suma de Cuadrados Total,


• SCA, SCB, SCC: Suma de Cuadrados entre los niveles de A, de B y de C,
respectivamente
• SC(AB), SC(AC), SC(BC), SC(ABC), SCR: Suma de Cuadrados de las
interacciones A×B, A×C, B×C, A×B×C y del error, respectivamente.

A partir de la ecuación básica del Análisis de la Varianza se pueden construir los


cuadrados medios definidos como:

• Cuadrado medio total: CMT=(SCT)/(n-1)


• Cuadrado medio de A: CMA=(SCA)/(a-1)
• Cuadrado medio de B: CMB=(SCB)/(b-1)
• Cuadrado medio de C: CMC=(SCC)/(c-1)
• Cuadrado medio de las interacciones:
A×B: CM(AB)=(SC(AB))/((a-1)(b-1));
A×C:CM(AC)=(SC(AC))/((a-1)(c-1));
B×C: CM(BC)=(SC(BC))/((b-1)(c-1));
A×B×C: CM(ABC)=(SC(ABC))/((a-1)(b-1(c-1))
• Cuadrado medio residual: CMR=(SCR)/((a-1)(b-1(c-1))
Al tratarse de un modelo sin replicación, los contrastes sólo se pueden realizar si se
supone que la interacción de tercer orden es cero. En esta
hipótesis, CM(ABC)=CMR y los contrastes de cada uno de los factores e
interacciones comparan su cuadrado medio correspondiente con la varianza
residual para construir el estadístico de contraste. El objetivo del análisis es realizar
los contrastes sobre los efectos principales y las interacciones de orden dos.
Supuesto práctico 10
En una fábrica de refrescos está haciendo unos estudios en la planta embotelladora.
El objetivo es obtener más uniformidad en el llenado de las botellas. La máquina de
llenado teóricamente llena cada botella a la altura correcta, pero en la práctica hay
variación, y la embotelladora desea entender mejor las fuentes de esta variabilidad
para eventualmente reducirla. En el proceso se pueden controlar tres factores
durante el proceso de llenado: El % de carbonato (factor A), la presión del llenado
(factor B) y el número de botellas llenadas por minuto que llamaremos velocidad de
la línea (factor C). Se consideran tres niveles para el factor A (10%, 12%, 14%), dos
niveles para el factor B (25psi, 30psi) y dos niveles para el factor C (200bpm,
250bpm). Los datos recogidos de la desviación de la altura objetivo se muestran en
la tabla adjunta

Analizar los resultados y obtener las conclusiones apropiadas.

El modelo matemáticos que planteamos es el siguiente:

donde
• yijk: Representa la desviación de la altura objetivo en la botella al porcentaje i de
carbono, a la concentración j y a la velocidad k.
• µ: Efecto constante, común a todos los niveles de los factores, denominado media
global.
• τi: Efecto medio producido por el tanto por ciento i de carbono.
• βj: Efecto medio producido por la presión j.
• γk: Efecto producido por la velocidad k.
• (τβ)ij : Efecto medio producido por la interacción entre el porcentaje i de carbono y
la presión j.
• (τγ)ik: Efecto producido por la interacción entre el porcentaje i de carbono y la
velocidad k.
• (βγ)jk: Efecto producido por la interacción entre la presión j y la velocidad k.
• (τβγ)ijk: Efecto producido por la interacción entre el porcentaje i de carbono,
la presión j y la velocidad k.
• Estos efectos son parámetros a estimar, con las condiciones
∑iτi = ∑j βj = ∑k γk = ∑i (τβ)ij = ∑j (τβ)ij = , …., = ∑k (βγ)jk = 0,
• uijk son vv aa. independientes con distribución N(0,σ).
La variable respuesta de este experimento es la Desviación que se produce en la
altura de llenado en las botellas de refresco, siendo dichas botellas las unidades
experimentales. En estas desviaciones de la altura de llenado marcada como
objetivo intervienen tres factores: Porcentaje de carbono que presenta tres niveles
10%, 12% y 14%; Presión, con dos niveles 25 psi y 30 psi y Velocidad, con dos
niveles 200 y 250. Los niveles de los factores han sido fijados por el experimentador,
por lo que todos los factores son de efectos fijos. Se trata de un diseño trifactorial
de efectos fijos, donde el número de tratamientos es 3×2×2 = 12.

Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:

• Nombre: Desviación; Tipo: Numérico ; Anchura: 2 ; Decimales: 0


• Nombre: Carbono; Tipo: Numérico ; Anchura: 1 ; Decimales: 0; Valores: { 1, 10
por ciento; 2, 12 por ciento; 3, 14 por ciento}
• Nombre: Presión; Tipo: Numérico ; Anchura: 1 ; Decimales: 0; Valores: { 1, 25
psi; 2, 30 psi}
• Nombre: Velocidad; Tipo: Numérico ; Anchura: 1 ; Decimales: 0 ; Valores: { 1,
Velocidad (200); 2, Velocidad (250)}
Para resolver los contrastes, se selecciona, en el menú principal, Analizar/Modelo
lineal general/ Univariante… En la salida correspondiente, se introduce en el
campo Variable dependiente: Desviación y en el campo Factores fijos: Carbono,
Presión y Velocidad. Es un modelo de tres factores con 3, 2 y 2 niveles cada uno y
un total de 12 observaciones por lo que no puede haber interacción entre los tres
factores ya que si la hubiera el número de parámetros del modelo superaría al
número de observaciones y como consecuencia los residuos del modelo serían nulos
y no se podrían contrastar la significatividad de los efectos de los factores. Indicamos
que se trata de un modelo sin interacción entre los tres factores, para ello se debe
pinchar en Modelo e indicar en la salida correspondiente que consta de efectos
principales y de interacciones de orden dos. Se pulsa Continuar y Aceptar.
La Tabla ANOVA muestra las filas de Carbono, Presión,
Velocidad, Carbono*Presión, Carbono*Velocidad y Presión*Velocidadque
corresponden a la variabilidad debida a los efectos de cada uno de los factores y a
las interacciones de orden dos entre ambos. En dicha Tabla se indica que para un
nivel de significación del 5% los efectos que no son significativos del modelo
planteado son las interacciones entre los
factores Carbono*Presión y Presión*Velocidad ya que los p-valores
correspondientes a estos efectos son 0.125 y 0.057 mayores que el nivel de
significación.
Como consecuencia de este resultado, replanteamos el modelo suprimiendo en
primer lugar el efecto Carbono*Presión, cuya significación es mayor, y resulta el
siguiente modelo matemático:

donde los efectos deben cumplir las condiciones expuestas anteriormente. Para
resolverlo mediante SPSS, en la ventana Univariante: Modelo suprimimos la
interacción Carbono*Presión. Se pulsa Continuar y Aceptar. La tabla ANOVA que
corresponde a este modelo es la siguiente
El efecto Presión*Velocidad sigue siendo no significativo por lo que lo suprimimos
del modelo y replanteamos el siguiente modelo matemático

donde los efectos deben cumplir las condiciones expuestas anteriormente. Para
resolverlo mediante SPSS, en la ventana Univariante: Modelo suprimimos la
interacción Presión*Velocidad. Se pulsa Continuar y Aceptar. La tabla ANOVA que
corresponde a este modelo es la siguiente:
Todos los efectos de este último modelo planteado son significativos y por lo tanto
es en este modelo donde vamos a realizar el estudio. Existen diferencias
significativas entre los distintos porcentajes del Carbono, los dos tipos de presión,
las dos velocidades de llenado y la interacción entre el porcentaje de Carbono y
la Velocidad de llenado.
En primer lugar estudiamos qué porcentajes de carbono son significativamente
diferentes mediante el método de Tukey. Para ello en la
ventana Univariante seleccionamos Post_hoc…y, se pasa la variable Carbono al
campo Pruebas posthoc para: y seleccionamos la prueba de Tukey. Se
pulsa Continuar y Aceptar.
Comprobamos que el porcentaje de Carbono que produce mayores desviaciones en
el llenado de las botellas es el 10% y el que produce la menor desviación es el 14%.
También se observa que hay dos grupos muy diferenciados, siendo el porcentaje
de Carbono del 14% el que presenta diferencias significativas con los otros dos
porcentajes. No habiendo diferencias significativas entre los porcentajes 12% y
10%.
Los factores Presión y Velocidad tienen cada uno dos niveles por lo tanto no se
puede aplicar ningún método de comparaciones múltiples para comprobar qué tipo
de Presión y qué Velocidad de llenado produce mayor/menor desviación en el
llenado de las botellas. Podemos resolverlo calculando los llenados medios de cada
uno de los niveles de los factores, para ello seleccionamos Analizar/Estadísticos
descriptivos/Explorar… y en la ventana resultante, se introduce en el campo Lista
de dependiente: Desviación, en el campo Lista de f actores: Presión y
Velocidad y en Visualizar se selecciona Estadísticos
Se pulsa Aceptar y se obtienen las siguientes salidas:
La Presión a 25 psi produce mayor desviación de llenado que a 30 psi ya que su
desviación media es de 5.33 fente a 0.67 y respecto a la Velocidad observamos que
a una Velocidad de 200 se produce mayor desviación en el llenado de las botellas de
refresco (valor medio de desviación es de 5 frente a un valor medio de 1 para
la Velocidad de 250).
A continuación analizamos el efecto de la interacción de los
factores Carbono*Velocidad mediante el gráfico de medias. Para ello, en la
ventana Univariante se selecciona Gráficos… En la salida correspondiente se
especifica cuál de los dos factores se representa en el eje de abscisas y cuál se utiliza
para dibujar las rectas. Seleccionamos en el campo Eje horizontal: la
variable Carbono y en Líneas separadas: la
variable Velocidad. Pinchamos Añadir y pulsando Continuar y Aceptar se
obtiene el siguiente gráfico de medias.
Al cruzarse
las medias de las distintas velocidades se confirma la presencia de interacción entre
los factores Carbono*Velocidad se observa que:
• Al variar el porcentaje de Carbono de 12 % al 14% y manteniendo
una Velocidad de 200, la Desviación de llenado varía dependiendo del porcentaje
de Carbono, produciéndose la mayor Desviación Media de llenado al porcentaje
de Carbonodel 12% y la menor al 14%.
• Manteniendo la Velocidad a 200, la Desviación de llenado aumenta levemente
del porcentaje del 10% al 12% y disminuye bruscamente al 14%.
• Manteniendo la Velocidad a 250 la Desviación de llenado disminuye
del porcentaje del 10% al 12% y aumenta al 14%.
• Lo que se desea averiguar en cuando se producen las menores Desviaciones de
llenado y observando la gráfica comprobamos que dichas Desviaciones se
producen al porcentaje del 12% y 250 de Velocidad y al 14% y Velocidad de
200.
También se puede realizar gráfico de medias Velocidad*Carbono, para ello
seleccionamos en el campo Eje horizontal: la variable Velocidad y en Líneas
separadas: la variable Carbono. Pinchamos Añadir y
pulsando Continuar y Aceptar se obtiene el siguiente gráfico de medias
• Al variar la Velocidad de 200 a 250 y manteniendo el porcentaje de Carbono al
10%, la desviación de llenado varía dependiendo de la Velocidad, produciéndose
la mayor Desviación media de llenado a la Velocidad de 200 y la menor a
la Velocidad de 250.
• La Desviación de llenado desciende bruscamente de la Velocidad 200 a 250 tanto
con el porcentaje de Carbono de 10% y de 12%. En cambio el comportamiento es
diferente al 14 % de Carbono. A este último porcentaje la Desviación de llenado de
las botellas es menor a una Velocidad de 200 y va aumentando a una Velocidad de
250.
• Concluyendo, la menor Desviación de llenado se produce a una Velocidad de
250 y una Concentración del 12%.
El modelo con replicación
El modelo estadístico para este diseño es:

donde r es el número de replicaciones y N = abcr es el número de observaciones. El


número de parámetros de este modelo es, como en el modelo de tres factores sin
replicación, abc+1 pero en este caso el número de observaciones es abcr. El
objetivo del análisis de este modelo es realizar los contrastes sobre los efectos
principales, las interacciones de orden dos y la interacción de orden tres.
Supuesto práctico 11
Consideremos el supuesto práctico anterior en el que realizamos dos réplicas por
cada tratamiento. En la Tabla adjunta se muestran los datos recogidos de la
desviación de la altura objetivo de las botellas de refresco. En el proceso de llenado,
la embotelladora puede controlar tres factores durante el proceso: El porcentaje de
carbonato (factor A) con tres niveles (10%, 12%, 14%), la presión del llenado (factor
B) con dos niveles (25psi, 30psi) y el número de botellas llenadas por minuto que
llamaremos velocidad de la línea (factor C) con dos niveles (200bpm, 250bpm).

El modelo matemáticos del experimento que planteamos es el siguiente:

La variable respuesta y los efectos de los factores se definieron en el Supuesto


práctico 10. Las restricciones para este modelo son: ∑iτi = ∑j βj = ∑k γk = ∑i (τβ)ij =
∑j (τβ)ij = , …., = ∑k (τβγ)ijk = 0,
La variable respuesta de este experimento es la Desviación que se produce de la
altura objetivo en el llenado en las botellas de refresco. Los factores son: Porcentaje
de Carbono que presenta tres niveles 10%, 12% y 14%; Presión, con dos niveles 25
psi y 30 psi y Velocidad, con dos niveles 200 y 250. Los niveles de los factores han
sido fijados por el experimentador, por lo que todos los factores son de efectos
fijos. Se trata de un diseño trifactorial de efectos fijos, donde el número de
tratamientos es 3×2×2 = 12 y el número de observaciones 24.

Para realizar este experimento mediante SPSS, se comienza introduciendo las


variables definidas anteriormente en el Supuesto práctico 10.

Para resolver los contrastes, se selecciona, en el menú principal, Analizar/Modelo


lineal general/ Univariante… En la salida correspondiente, se introduce en el
campo Variable dependiente: Desviación y en el campo Factores fijos: Carbono,
Presión y Velocidad. Es un modelo de tres factores donde se quiere estudiar las
posibles interacciones entre los factores, por lo que se realiza el modelo completo
donde aparezcan todas las interacciones. Así que no es necesario especificar nada
en la opción Modelo y se pulsa directamente Aceptar
La Tabla ANOVA muestra las filas de Carbono, Presión,
Velocidad, Carbono*Presión,
Carbono*Velocidad, Presión*Velocidad y Carbono*Presión*Velocidad que
corresponden a la variabilidad debida a los efectos de cada uno de los factores, a las
interacciones de orden dos y orden tres entre los factores. En dicha Tabla se indica
que para un nivel de significación del 5% los efectos que no son significativos del
modelo planteado son las interacciones entre los
factores, Carbono*Presión y Presión*Velocidad y Carbono*Presión*Velocidad ya
que los p-valores correspondientes a estos efectos son 0.425,
0.668 y0.894 mayores que el nivel de significación.
Como consecuencia de este resultado, replanteamos el modelo suprimiendo en
primer lugar el efecto Carbono*Presión*Velocidad, cuya significación es mayor, y
resulta el siguiente modelo matemático:

donde los efectos deben cumplir las condiciones expuestas anteriormente. Para
resolverlo mediante SPSS, en la ventana Univariante: Modelo suprimimos la
interacción Carbono*Presión*Velocidad,. Se pulsa Continuar y Aceptar. La tabla
ANOVA que corresponde a este modelo es la siguiente
Los
efectos Carbono*Presión y Presión*Velocidad siguen siendo no significativos.
Suprimimos el efecto Presión*Velocidad que tiene una significatividad más alta y
replanteamos el siguiente modelo matemático

donde los efectos deben cumplir las condiciones expuestas anteriormente. Para
resolverlo mediante SPSS, en la ventana Univariante: Modelo suprimimos la
interacción Presión*Velocidad. Se pulsa Continuar y Aceptar. La tabla ANOVA
que corresponde a este modelo es la siguiente:
El
efecto Carbono*Presión sigue siendo no significativo por lo tanto lo suprimimos y
replanteamos el siguiente modelo matemático

donde los
efectos deben cumplir las condiciones expuestas anteriormente. Para resolverlo
mediante SPSS, en la ventana Univariante: Modelo suprimimos la
interacción Carbono*Presión. Se pulsa Continuar y Aceptar. La tabla ANOVA que
corresponde a este modelo es la siguiente:
Todos los
efectos de este último modelo planteado son significativos y por lo tanto es en este
modelo donde vamos a realizar el estudio. Existen diferencias significativas entre
los distintos porcentajes del Carbono, los dos tipos de presión, las dos velocidades
de llenado y la interacción entre el porcentaje de Carbono y la Velocidad de
llenado.
En primer lugar estudiamos qué porcentaje de carbono son significativamente
diferentes mediante el método de Duncan. Para ello en la
ventana Univariante seleccionamos Post_hoc…y, se pasa la variable Carbono al
campo Pruebas posthoc para: y seleccionamos la prueba de Duncan. Se
pulsa Continuar y Aceptar.
Comprobamos que el porcentaje de Carbono que produce mayores desviaciones en
el llenado de las botellas es el 10% y el que produce la menor desviación es el 14%.
También se observa que hay dos grupos muy diferenciados, siendo el porcentaje
de Carbono del 14% el que presenta diferencias significativas con los otros dos
porcentajes. No habiendo diferencias significativas entre los porcentajes 12% y
10%.
Los factores Presión y Velocidad tienen cada uno dos niveles por lo tanto no se
puede aplicar ningún método de comparaciones múltiples para comprobar qué tipo
de Presión y qué Velocidad de llenado produce mayor/menor desviación en el
llenado de las botellas. Podemos resolverlo calculando los llenados medios de cada
uno de los niveles de los factores, para ello seleccionamos Analizar/Estadísticos
descriptivos/Explorar… y en la ventana resultante, se introduce en el campo Lista
de dependiente: Desviación, en el campo Lista de f actores: Presión y
Velocidad y en Visualizar se selecciona Estadísticos. Se pulsa Aceptar y se
muestran las siguientes salidas
La Presión a 25 psi produce mayor desviación de llenado que a 30 psi ya que
su desviación media es de 6.42 frente a 1.42(desviación media de llenado a la
presión 30 psi) y respecto a la Velocidad observamos que a una Velocidad de 200
se produce mayor desviación en el llenado de las botellas de refresco (valor medio
de desviación es de 5.75 frente a un valor medio de 2.08 para la Velocidad de 250).
A continuación analizamos el efecto de la interacción de los
factores Carbono*Velocidad mediante el gráfico de medias. Para ello, en la
ventana Univariante se selecciona Gráficos… En la salida correspondiente se
especifica cuál de los dos factores se representa en el eje de abscisas y cuál se utiliza
para dibujar las rectas. Seleccionamos en el campo Eje horizontal: la
variable Carbono y en Líneas separadas: la
variable Velocidad. Pinchamos Añadir. De nuevo seleccionamos en el campo Eje
horizontal:la variable Velocidad y en Líneas separadas: la
variable Carbono. Pinchamos Añadir y pulsando Continuar y Aceptar se obtienen
los siguientes gráficos de medias.
En el primer
gráfico:
Al cruzarse las medias de las distintas velocidades se confirma la presencia de
interacción entre los factores Carbono*Velocidad se observa que:
• Al variar el porcentaje de Carbono de 12 % al 14% y manteniendo una Velocidad de
200, la Desviación de llenado varía dependiendo del porcentaje de Carbono,
produciéndose la mayor Desviación Media de llenado al porcentaje de Carbonodel
12% y la menor al 14%.
• Manteniendo la Velocidad a 200, la Desviación de llenado disminuye bruscamente
conforme los porcentajes aumentan.
• Manteniendo la Velocidad a 250 la Desviación de llenado aumenta conforme los
porcentajes aumentan.
• Lo que se desea averiguar en cuando se producen las menores Desviaciones de
llenado y observando la gráfica comprobamos que dichas Desviaciones se
producen al 14% de Carbono y 200 de Velocidad.

En el segundo gráfico:

Al cruzarse las medias de los distintos porcentajes se confirma la presencia de


interacción entre los factores Velocidad*Carbono se observa que:
• Al variar la Velocidad de 200 a 250 y manteniendo el porcentaje de Carbono al
10%, la desviación de llenado varía dependiendo de la Velocidad, produciéndose la
mayor Desviación media de llenado a la Velocidad de 200 y la menor a
la Velocidad de 250.
• La Desviación de llenado desciende bruscamente de la Velocidad 200 a 250 tanto
con el porcentaje de Carbono de 10% y de 12%. En cambio el comportamiento es
diferente al 14 % de Carbono. A este último porcentaje la Desviación de llenado de
las botellas es menor a una Velocidad de 200 y va aumentando a una Velocidad de
250.
• Concluyendo, la menor Desviación de llenado se produce a una Velocidad de 200 y
un porcentaje de Carbono del 14%.

Ejercicios

Ejercicios Guiados
A continuación se va a proceder a iniciar una aplicación Java, comprueba
que tengas instalada la Máquina Virtual Java para poder ejecutar
aplicaciones en Java.Si no tienes instalada la Máquina Virtual Java (Java
Runtime Environment – JRE) pincha en uno de los enlaces para java
descargarla:

Instalación directa de la JRE 7 para WindowsPágina oficial de Sun


Microsystems, descarga de la JRE para cualquier plataforma
Ejercicio

1
Si ya tienes instalada la Máquina Virtual Java pincha en el Ejercicio
siguiente enlace para proceder a la ejecución de los ejercicios
guiados 2
Ejercicio

3
IMPORTANTE: Si al descargar el archivo *.JAR del ejercicio tu gestor de
descargas intenta guardarlo como *.ZIP debes cambiar la extensión a .JAR para
poder ejecutarlo.

Enunciado del Ejercicio 1


Se realiza un estudio del contenido de azufre en cinco yacimientos de carbón.
Se toman muestras aleatoriamente de cada uno de los yacimientos y se
analizan. Los datos del porcentaje de azufre por muestra se indican en la tabla
adjunta.

Para un nivel de significación del 5%.


1. ¿Se puede confirmar que el porcentaje de azufre es el mismo en los cinco
yacimientos?
2. Si se rechaza la hipótesis nula que las medias de porcentaje de azufre en los
cinco yacimientos es la misma, determinar que medias difieren entre sí
utilizando el método de comparaciones múltiples de Tukey.
3. Estudiar las hipótesis de modelo: Homocedasticidad (Homogeneidad de las
varianzas por grupo), Independencia y Normalidad.
Enunciado del Ejercicio 2
Se realiza un estudio sobre el efecto del fotoperiodo y del genotipo en el
periodo latente de infección del moho de cebada aislado AB3. Se obtienen
cincuenta hojas de cuatro genotipos distintos. Cada grupo es infectado y
posteriormente expuesto a diferente fotoperiodo. Los distintos fotoperiodos
se trataron como bloques y se obtuvieron los siguientes datos de los totales
para los bloques y tratamientos. La respuesta anotada es el número de días
hasta la aparición de síntomas visibles.
1. ¿Se puede afirmar que los diferentes genotipos no influyen en el número de
días hasta la aparición de la infección? ¿Se puede concluir que los distintos
fotoperiodos no afectan al tiempo de aparición de los síntomas de infección
del moho?
2. En caso de que influyan significativamente alguno de los dos factores, extraer
conclusiones utilizando el método de Duncan.
3. Comprobar gráficamente si existe o no interacción entre los genotipos y los
fotoperiodos.
4. Estudiar las hipótesis de modelo: Homocedasticidad, Independencia y
Normalidad.
Enunciado del Ejercicio 3
Se realiza un estudio para determinar el efecto del nivel del agua y del tipo de
planta sobre la longitud global del tallo de las plantas de guisantes. Para ello,
se utilizan tres niveles de agua (bajo, medio y alto) y dos tipos de plantas (sin
hojas y convencional). Se dispone para el estudio de dieciocho plantas sin
hojas y dieciocho plantas convencionales. Se dividen aleatoriamente los dos
tipos de plantas en tres subgrupos y después se asignan los niveles de agua
aleatoriamente a los dos grupos de plantas. Los datos sobre la longitud del
tallo de los guisantes (en centímetros) se muestran en la siguiente tabla:

Para un nivel de
significación del 5%.
1. ¿Se puede afirmar que los distintos niveles de agua influyen en la longitud del
tallo de los guisantes? ¿Y el tipo de planta?
2. ¿La efectividad del nivel del agua es la misma para los dos tipos de plantas?
3. Interpretar el gráfico de medias para analizar en qué sentido se producen las
interacciones.
4. Estudia, utilizando el método de Newman- Keuls, qué nivel de agua es más
efectivo.

Ejercicios Propuestos
Ejercicio Propuesto 1
La convección es una forma de transferencia de calor por los fluidos debido a
sus variaciones de densidad por la temperatura; las partes calientes
ascienden y las frías descienden formando las corrientes de convección que
hacen uniforme la temperatura del fluido. Se ha realizado un experimento
para determinar las modificaciones de la densidad de fluido al elevar la
temperatura en una determinada zona. Los resultados obtenidos han sido los
siguientes:

Responder a las siguientes cuestiones:


1. ¿Afecta la temperatura a la densidad del fluído?
2. Determinar qué temperaturas producen modificaciones significativas en la
densidad media del fluido.
3. Estudiar las hipótesis del modelo: Homocedasticidad, independencia y
normalidad.
4. ¿Se puede afirmar que las temperaturas de 100 y 125 producen menos
densidades de fluido en promedio que las temperaturas de 150 y 175?

Ejercicio Propuesto 2
Un laboratorio de reciclaje controla la calidad de los plásticos utilizados en
bolsas. Se desea contrastar si existe variabilidad en la calidad de los plásticos
que hay en el mercado. Para ello, se eligen al azar cuatro plásticos y se les
somete a una prueba para medir el grado de resistencia a la degradación
ambiental. De cada plástico elegido se han seleccionado ocho muestras y los
resultados de la variable que mide la resistencia son los de la tabla adjunta.

¿Qué conclusiones se deducen de este experimento?

Ejercicio Propuesto 3
Debido a la proliferación de los campos de golf y a la gran cantidad de agua
que necesitan, un grupo de científicos estudia la calidad de varios tipos de
césped para implantarlo en invierno en los campos de golf. Para ello, miden la
distancia recorrida por una pelota de golf, en el campo, después de bajar por
una rampa (para proporcionar a la pelota una velocidad inicial constante). El
terreno del que disponen tiene mayor pendiente en la dirección norte-sur, por
lo que se aconseja dividir el terreno en cinco bloques de manera que las
pendientes de las parcelas individuales dentro de cada bloque sean las
mismas. Se utilizó el mismo método para la siembra y las mismas cantidades
de semilla. Las mediciones son las distancias desde la base de la rampa al
punto donde se pararon las pelotas. En el estudio se incluyeron las variedades:
Agrostis Tenuis (Césped muy fino y denso, de hojas cortas y larga duración),
Agrostis Canina (Hoja muy fina, estolonífera. Forma una cubierta muy tupida),
Paspalum Notatum (Hojas gruesas, bastas y con rizomas. Forma una cubierta
poco densa), Paspalum Vaginatum (Césped fino, perenne, con rizomas y
estolones).

Se
pide:
1. Identificar los elementos del estudio (factores, unidades experimentales,
variable respuesta, etc.) y plantear detalladamente el modelo matemático
utilizado en el experimento.
2. ¿Son los bloques fuente de variación?
3. Existen diferencias reales entre las distancias medias recorridas por una
pelota de golf en los distintos tipos de césped?
4. Estudiar las interacciones de los factores.
5. Comprobar que se cumplen las hipótesis del modelo.
6. Utilizando el método de Newman-Keuls, ¿qué tipo de cesped ofrece menor
resistencia al recorrido de las pelotas?

Ejercicio Propuesto 4
Consideremos de nuevo el ejercicio propuesto 3 sobre un grupo de científicos
que estudia la calidad de varios tipos de césped para implantarlo en invierno
en los campos de golf. Para ello, miden la distancia recorrida por una pelota
de golf, en el campo, después de bajar por una rampa (para proporcionar a la
pelota una velocidad inicial constante). El terreno del que disponen tiene
mayor pendiente en la dirección norte-sur, por lo que se aconseja dividir el
terreno en cinco bloques de manera que las pendientes de las parcelas
individuales dentro de cada bloque sean las mismas. Se utilizó el mismo
método para la siembra y las mismas cantidades de semilla. Las mediciones
son las distancias desde la base de la rampa al punto donde se pararon las
pelotas, y al realizar dichas mediciones no se han podido obtener una para
cada combinación de tipo de césped y tipo de terreno, sino que sólo se han
podido realizar con tres de las variedades del césped en cada uno de los
bloques de terreno. Para controlar el efecto del tipo de terreno deciden
utilizar un diseño en bloques incompletos. En el estudio se incluyeron las
variedades: Agrostis Tenuis (Césped muy fino y denso, de hojas cortas y larga
duración), Agrostis Canina (Hoja muy fina, estolonífera. Forma una cubierta
muy tupida), Paspalum Notatum (Hojas gruesas, bastas y con rizomas. Forma
una cubierta poco densa), Paspalum Vaginatum (Césped fino, perenne, con
rizomas y estolones).

Se pide:
1. Identificar los elementos del estudio (factores, unidades experimentales,
variable respuesta, etc.) y plantear detalladamente el modelo matemático
utilizado en el experimento.
2. ¿Son los bloques fuente de variación?
3. Existen diferencias reales entre las distancias medias recorridas por una
pelota de golf en los distintos tipos de césped?
4. Comprobar que se cumplen las hipótesis del modelo.
5. Utilizando el método de Newman-Keuls, ¿qué tipo de cesped ofrece menor
resistencia al recorrido de las pelotas?

Ejercicio Propuesto 5
Un investigador quiere evaluar la productividad de cuatro variedades de
aguacates, A, B, C y D. Para ello decide realizar el ensayo en un terreno que
posee un gradiente de pendiente de oriente a occidente y además, diferencias
en la disponibilidad de Nitrógeno de norte a sur, para controlar los efectos de
la pendiente y la disponibilidad de Nitrógeno, utilizó un diseño de cuadrado
latino, los datos corresponden a la producción en kg/parcela.

Responder a las
siguientes cuestiones:
1. ¿Se puede afirmar que la productividad media de las cuatro variedades de
aguacate es la misma?
2. ¿Qué supuestos han de verificarse?
3. ¿Se obtiene la misma producción con las cuatro variedades de aguacate? En
caso negativo, analizar mediante el procedimiento de Tukey, con qué variedad
de aguacate hay mayor producción.
Ejercicio Propuesto 6
Consideremos de nuevo el ejercicio propuesto 5 del investigador que quiere
evaluar la productividad de cuatro variedades de aguacate, A, B, C y D. Para
ello, decide realizar el ensayo en un terreno que posee un gradiente de
pendiente de oriente a occidente y además, diferencias en la disponibilidad de
Nitrógeno de norte a sur. Se seleccionan cuatro disponibilidades de nitrógeno,
pero sólo dispone de tres gradientes de pendiente. Para controlar estas
posibles fuentes de variabilidad, el investigador decide utilizar un diseño en
cuadrado de Youden con cuatro filas, las cuatro disponibilidades de Nitrógeno
(NI, N2, N3, N4), tres columnas, los tres gradientes de pendientes (P1, P2, P3)
y cuatro letras latinas, las variedades de aguacates (A, B, C, D). Los datos
corresponden a la producción en kg/parcela.

Responder a las siguientes


cuestiones:
1. Estudiar cuál es el tipo de diseño adecuado a este experimento y escribir el
modelo matemático asociado.
2. ¿Se puede afirmar qué la productividad media de las cuatro variedades de
aguacate es la misma?
3. ¿Qué supuestos han de verificarse?
4. ¿Se obtiene la misma producción con las cuatro variedades de aguacate? En
caso negativo, analizar mediante el procedimiento de Duncan, con qué
variedad de aguacate hay mayor producción.

Ejercicio Propuesto 7
En un invernadero se está estudiando el crecimiento de determinadas plantas,
para ello se quiere controlar los efectos del terreno, abono, insecticida y
semilla. El estudio se realiza con cuatro tipos de semillas diferentes que se
plantan en cuatro tipos de terreno, se les aplican cuatro tipos de abonos y
cuatro tipos de insecticidas. La asignación de los tratamientos a las plantas se
realiza de forma aleatoria. Para controlar estas posibles fuentes de
variabilidad se decide plantear un diseño por cuadrados greco-latinos como
el que se muestra en la siguiente tabla, donde las letras griegas corresponden
a los cuatro tipos de semilla y las latinas a los abonos.
Responder a las siguientes cuestiones:
1. Estudiar cuál es el tipo de diseño adecuado a este experimento y escribir el
modelo matemático asociado.
2. ¿Qué supuestos han de verificarse?
3. ¿Se puede afirmar que el crecimiento de las plantas es el mismo para los
cuatro tipos de abonos?¿Y con los distintos insecticidas?
4. ¿Existen diferencias significativas en el crecimiento de las plantas con las
distintas semillas? ¿Y el tipo de tierra influye en dicho crecimiento?
5. ¿Con qué tipo de semilla se produce el mayor crecimiento de las plantas?
6. ¿El crecimiento de las plantas es el mismo utilizando al mismo tiempo los
abonos A y B que utilizando los abonos C y D?

Ejercicio Propuesto 8
Se realiza un estudio sobre el efecto que produce la descarga de aguas
residuales de un planta sobre la ecología del agua natural de un río. En el
estudio se utilizaron dos lugares de muestreo. Un lugar está aguas arriba del
punto en el que la planta introduce aguas residuales en la corriente; el otro
está aguas abajo. Se tomaron muestras durante un periodo de cuatro semanas
y se obtuvieron los datos sobre el número de diatomeas halladas. Los datos se
muestran en la tabla adjunta:

Responder a las siguientes cuestiones:


1. Identificar el diseño adecuado a este experimento, escribir el modelo
matemático y explicar los distintos elementos que intervienen.
2. Estudiar si la semana y el lugar son factores determinantes en el número de
diatomeas halladas en el agua del río. ¿Hay posibilidad que una semana sea
más recomendable en un lugar del río en concreto y no lo sea en el otro
lugar?
3. Estudiar en qué semana se producen menos contaminación en el río,
utilizando el método de Duncan.
4. Estudiar en qué lugar del río se producen menos diatomeas.

Ejercicio Propuesto 9
La cotinina es uno de los principales metabolitos de la nicotina. Actualmente
se le considera el mejor indicador de la exposición al humo de tabaco. Se ha
realizado un estudio con distintas marcas de tabaco distinguiendo
principalmente entre negro y rubio para detectar las posibles diferencias en
el nivel de nicotina de personas expuestas al humo de tabaco. Para ello, se han
analizado personas de distintas edades (niños, jóvenes y adultos) y se ha
distinguido entre mujeres y hombres. Se han obtenido los datos de la siguiente
tabla sobre el nivel de nicotina en miligramos por mililitro.

Responder a las siguientes


cuestiones:
1. Identificar el diseño adecuado a este experimento, escribir el modelo
matemático y explicar los distintos elementos que intervienen.
2. Contrastar la hipótesis nula de no interacción entre los factores. Adecuar el
modelo al resultado de las interacciones y contrastar los efectos principales.
3. ¿Hay diferencias significativas en el nivel de nicotina en las distintas
edades?¿En qué edad el nivel de nicotina es mayor?
4. ¿El tipo de tabaco es un factor determinante en el nivel de nicotina?
5. Comparar el nivel medio de nicotina entre las mujeres y los hombres. ¿Se
detectan diferencias significativas?

Ejercicio Propuesto 1 (Resuelto)


La convección es una forma de transferencia de calor por los fluidos debido a
sus variaciones de densidad por la temperatura; las partes calientes
ascienden y las frías descienden formando las corrientes de convección que
hacen uniforme la temperatura del fluido. Se ha realizado un experimento
para determinar las modificaciones de la densidad de fluido al elevar la
temperatura en una determinada zona. Los resultados obtenidos han sido los
siguientes:
Responder a las siguientes cuestiones:
1. ¿Afecta la temperatura a la densidad del fluído?
2. Determinar qué temperaturas producen modificaciones significativas en la
densidad media del fluido.
3. Estudiar las hipótesis del modelo: Homocedasticidad, independencia y
normalidad.
4. Se puede afirmar que las temperaturas de 100 y 125 producen menos
densidades de fluido en promedio que las temperaturas de 150 y 175.

Solución:
El problema planteado se modeliza a través de un diseño unifactorial totalmente
aleatorizado de efectos fijos no-equilibrado.

• Variable respuesta: Densidad del fluido.


• Factor: Temperatura: Es un factor de Efectos fijos.
• Modelo no-equilibrado: Los niveles de los factores tienen distinto número de
elementos.
1. ¿Afecta la temperatura a la densidad del fluído?
Para responder a este apartado, se plantea el siguiente contraste de igualdad de
medias:

Se
selecciona Analizar/Modelo lineal general/Univariante. En la salida
correspondiente, se introduce en el campo Variable dependiente: La variable
respuesta Densidad del fluido y en el campo Factores fijos: el
factor Temperatura. Pulsando Aceptar se obtiene la Tabla ANOVA
En la tabla ANOVA el valor del estadístico de contrates de igualdad de medias F =
6.983, deja a su derecha un p-valor = 0.004 inferior a 0.05, por lo que se rechaza la
hipótesis nula de igualdad de medias. Concluyendo que existen diferencias
significativas en la densidad del fluido en función de la modificación de la
temperatura.
2. Determinar qué temperaturas producen modificaciones
significativas en la densidad media del fluido.
Se plantea la pregunta de si la densidad media del fluido es significativamente
diferente para las 4 temperaturas analizadas o sólo para alguna de ellas. Esta
cuestión se resuelve mediante los contrastes de comparaciones múltiples.
Utilizando la prueba de Tukey,se obtienen los siguientes resultados:

La tabla de comparaciones múltiples muestra los intervalos simultáneos


construidos por el método de Tukey para cada posible combinación de
temperaturas. Como se puede observar todos los intervalos de confianza
construidos para las diferencias entre las densidades medias contienen al 0, excepto
el correspondiente a la pareja de temperatura125 y 175. Lo que significa que todas
las densidades medias no pueden considerarse distintas estadísticamente excepto
las densidades medias correspondientes a las temperaturas de 125 y 175. Así
mismo se observa que la significación asociada al contraste de las densidades
medias correspondientes a estas temperaturas es inferior a 0.05, lo que se traduce
en que existe evidencia empírica de que ambas densidades medias son diferentes
significativamente.

Para poder analizar esta tabla más fácilmente la ponemos de la siguiente forma
En esta tabla es más cómodo comparar cualquier pareja de temperaturas para saber
si hay diferencias significativas. Se deduce que sólo se observan diferencias
significativas entre las densidades de los fluidos cuando se ha modificado la
temperatura a 125 y 175 grados (significación inferior a 0.05).

En la tabla Subconjuntos homogéneos asociada al contraste de Tukey se muestra


por columnas los subgrupos de medias iguales. En nuestro estudio sobre las
densidades de los fluidos se observan que las densidades medias del fluido
analizado pueden considerarse similares cuando las temperaturas son 100, 125 y
150 y cuando son 100, 150 y 175 grados.

Tal y como se observa en la tabla, el p-valor asociado al primer grupo de


temperaturas (100, 125 y 150) es 0.081, mayor que 0.05 lo que significa que no se
puede rechazar la hipótesis de igualdad en las densidades medias para este
subgrupo. Análogamente ocurre con el otro subgrupo formado, con un p-valor igual
a 0.124. También se deduce qué subconjuntos difieren entre si, las densidades
medias del primer grupo difieren de las del segundo. Y se observa que la densidad
media mayor (21.9375) se obtiene para la temperatura de 175 y la menor (21.5)
para la tremperatura de 125.
3. Estudiar las hipótesis del modelo: Homocedasticidad, independencia
y normalidad.
Validar el modelo propuesto consiste en estudiar si las hipótesis básicas del modelo
están o no en contradicción con los datos observados. Es decir, si se satisfacen los
supuestos del modelo: Normalidad, Independencia y Homocedasticidad.

Hipótesis de Homocedasticidad
El primer aspecto que vamos a considerar es el de la homocedasticidad, la igualdad
de varianzas. Para ello, a través del botón Opciones del menú Analizar/Modelo
lineal general/Univariante, pulsando en Pruebas de homogeneidad se obtiene:

De donde se deduce a partir del valor de la significación, 0.585, que se puede asumir
la igualdad de varianzas entre las densidades registradas para las diferentes
temperaturas.
Gráficamente, representamos las barras de error para la desviación típica
seleccionando en el menú principal Gráficos/Cuadros de diálogo
antiguos/Barras de error
Se obtiene para cada grupo de temperaturas una representación gráfica de la
densidad media (círculo de cada una de las barras) y dos desviaciones típicas a
izquierda y derecha del promedio. Se observa una mayor dispersión en la densidad
para las temperaturas 125 y 150. Este gráfico no aporta evidencias sobre la
homogeneidad de las varianzas, por lo que siempre habrá que recurrir al contraste
de Levene para dicha comparación.
Hipótesis de Independencia
Para comprobar que se satisface el supuesto de independencia entre los residuos,
representamos gráficamente los residuos frente a los valores pronosticados. La
presencia de alguna tendencia en el gráfico puede indicar la alteración de dicha
hipótesis. Seleccionando Opciones en el cuadro de diálogo de Análisis
Univariante, se selecciona la casilla Gráfico de los residuos y se obtienen los
gráficos de residuos asociados al análisis
En el gráfico de la tercera fila y la segunda columna (residuos frente a valores
pronosticados) no se observa ninguna tendencia concreta lo que muestra la no
existencia de relación de dependencia.

Hipótesis de Normalidad
En primer lugar analizamos la normalidad de las densidades y continuaremos con
el análisis de la normalidad de los residuos. Se selecciona en
SPSS Analizar/Estadísticos descriptivos/Explorar y se obtienen los ajustes de
normalidad

El contraste de Shapiro-Wilk (apropiado dado que el número total de datos es


inferior a 50), muestra p-valores siempre superiores a 0.05, por lo que podemos
concluir que las densidades se distribuyen según una normal para cada temperatura
considerada en el estudio.

Para contrastar la hipótesis de Normalidad de los residuos recurriremos a


procedimientos gráficos y analíticos. Para ello, en primer lugar se calculan los
residuos tipificados asociados al ajuste univariante.

Para obtener el histograma de los residuos se selecciona en el menú principal de


SPSS, Gráficos/Cuadros de diálogo antiguos/Histograma. Aunque podemos
observar algunas desviaciones de la normalidad en el histograma, estas no implican
la ausencia de normalidad de los residuos como se comprueba con el gráfico
probabilístico normal(Analizar/Estadísticos Descriptivos/Gráficos QQ ).
El análisis numérico se llevará a cabo a través del contraste de Kolmogorov-
Smirnov, Analizar/Pruebas no paramétricas/Cuadros de diálogo antiguos/K-
S de 1 muestra

El valor del p- valor


(significación = 0.637) es mayor que el nivel de significación, 0.05, por lo que se
puede confirmar la normalidad de los residuos.
4. ¿Se puede afirmar que las temperaturas de 100 y 125 producen
menos densidades de fluido en promedio que las temperaturas de
150 y 175?
El contraste de hipótesis que se debe resolver para contestar este apartado es:

Para
realizarlo con SPSS, en Analizar/Comparar medias/Anova de un factor…
pulsamos Contrastes. Introduciendo los correspondientes coeficientes se obtiene
la siguiente salida

Para interpretar la tabla, asumimos en todos los contrastes la homocedasticidad,


observamos que el p-valor vale 0.006menor que el nivel de significación 0.05. Por
lo tanto, se rechaza la hipótesis nula y se deduce que las temperaturas de 100 y 125
conjuntamente producen menos densidades de fluido en promedio que las
temperaturas de 150 y 175 conjuntamente.

Ejercicio Propuesto 2 (Resuelto)


Un laboratorio de reciclaje controla la calidad de los plásticos utilizados en
bolsas. Se desea contrastar si existe variabilidad en la calidad de los plásticos
que hay en el mercado. Para ello, se eligen al azar cuatro plásticos y se les
somete a una prueba para medir el grado de resistencia a la degradación
ambiental. De cada plástico elegido se han seleccionado ocho muestras y los
resultados de la variable que mide la resistencia son los de la tabla adjunta.

Figura 35: Tabla de datos del Ejercicio Propuesto2.doc


¿Qué conclusiones se deducen de este experimento?

Solución:
Los cuatro tipos de plásticos analizados corresponden a una selección aleatoria de
4 conjuntos de observaciones extraídos aleatoriamente del total de diferentes tipos
de plásticos que hay en el mercado, entre los cuales debemos observar si existen o
no diferencias significativas. Nos encontramos por tanto ante un diseño unifactorial
completamente aleatorio con efectos aleatorios .
En este modelo, se supone que las variables τi son variables aleatorias normales
independientes con media 0 y varianza común .

Dado que trabajamos con el modelo de efectos aleatorios, analizar si las medias
poblacionales son iguales será equivalente a contrastar:

No rechazar H0 será equivalente a afirmar que no hay variedad en los efectos de los
tratamientos, es decir, que la resistencia que ofrecen los plásticos empleados en la
fabricación de bolsas de cara a la degradación ambiental es la misma.

Plantearemos el contraste a partir de la información de que disponemos:

• Variable respuesta: Resistencia a la degradación ambiental.


• Factor: Tipo de plástico.
• Modelo equilibrado: Cada uno de los niveles del factor tienen el mismo número de
observaciones.
• Tamaño del experimento: Número total de observaciones (40 unidades
experimentales).

Comenzaremos definiendo las variables e introduciendo los datos:

Para formular el contraste, en el menú principal se selecciona Analizar/Modelo


lineal general/Univariante … En la ventana resultante
introducimos Resitencia en la Variable dependiente: y Tipo de
plástico como Factor aleatorio. Pulsando Aceptar, obtenemos la tabla ANOVA:
El valor del estadístico de contraste 17.232 deja a su derecha un p-valor menor
que 0.001, rechazando la Hipótesis nula tanto a un nivel de significación del 5%
como del 1%. Podemos concluir que los datos muestran evidencias de variabilidad
en la resistencia para la degradación ambiental según el tipo de plástico empleado
en la fabricación de la bolsa.

Dado que estamos ante un modelo de efectos aleatorios, no tenemos que realizar
contrastes adicionales para comprobar qué medias son diferentes, ya que la
respuesta es generalizada a todos los tipos de plásticos.

La media cuadrática esperada, así como los cálculos necesarios para la obtención de
las esperanzas de los cuadrados medios del factor y del error vienen dados en la
tabla:

A partir de estas expresiones se pueden


estimar las componentes de la varianza y σ2
Para determinar el valor concreto de estas estimaciones se
selecciona, Analizar/Modelo lineal general/Componentes de la varianza. En la
ventana Opciones se selecciona ANOVA en Método y Tipo III en Sumas de
Cuadrados. Pulsando en Continuar y Aceptar, se obtienen las estimaciones de las
componentes de la varianza:
La
varianza total, 4047.091, se descompone en una parte atribuible a la diferencia
entre los plásticos, 2710.993, y otra debida a la variabilidad existente dentro de
ellos, 1336.098.
En la varianza total, tiene mayor peso la variación debida al tipo de plástico
empleado en la fabricación de la bolsa (66.98%) que la originada dentro de los
plásticos (33.013%).

Ejercicio Propuesto 3 (Resuelto)


Debido a la proliferación de los campos de golf y a la gran cantidad de agua
que necesitan, un grupo de científicos estudia la calidad de varios tipos de
césped para implantarlo en invierno en los campos de golf. Para ello, miden la
distancia recorrida por una pelota de golf, en el campo, después de bajar por
una rampa (para proporcionar a la pelota una velocidad inicial constante). El
terreno del que disponen tiene mayor pendiente en la dirección norte-sur, por
lo que se aconseja dividir el terreno en cinco bloques de manera que las
pendientes de las parcelas individuales dentro de cada bloque sean las
mismas. Se utilizó el mismo método para la siembra y las mismas cantidades
de semilla. Las mediciones son las distancias desde la base de la rampa al
punto donde se pararon las pelotas. En el estudio se incluyeron las variedades:
Agrostis Tenuis (Césped muy fino y denso, de hojas cortas y larga duración),
Agrostis Canina (Hoja muy fina, estolonífera. Forma una cubierta muy tupida),
Paspalum Notatum (Hojas gruesas, bastas y con rizomas. Forma una cubierta
poco densa), Paspalum Vaginatum (Césped fino, perenne, con rizomas y
estolones).

Se
pide:
1. Identificar los elementos del estudio (factores, unidades experimentales,
variable respuesta, etc.) y plantear detalladamente el modelo matemático
utilizado en el experimento.
2. ¿Son los bloques fuente de variación?
3. Existen diferencias reales entre las distancias medias recorridas por una
pelota de golf en los distintos tipos de césped?
4. Estudiar las interacciones de los factores.
5. Comprobar que se cumplen las hipótesis del modelo.
6. Utilizando el método de Newman-Keuls, ¿qué tipo de cesped ofrece menor
resistencia al recorrido de las pelotas?

Solución:
1. Identificar los elementos del estudio (factores, unidades experimentales,
variable respuesta, etc.) y plantear detalladamente el modelo matemático
utilizado en el experimento.
• Variable respuesta: Distancia.
• Factor: Tipo_Cesped que tiene cuatro niveles. Es un factor de efectos fijos ya que
viene decidido qué niveles concretos se van a utilizar.
• Bloque: Bloques que tiene cinco niveles. Es un factor de efectos fijos ya que viene
decidido qué niveles concretos se van a utilizar.
• Modelo completo: Los cuatro tratamientos se prueban en cada bloque exactamente
una vez.
• Tamaño del experimento: Número total de observaciones (20).
Este experimento se modeliza mediante un diseño en Bloques completos al azar.
El modelo matemático es:

2. ¿Son los bloques fuente de variación?


Para resolver la cuestión planteada. Se selecciona, en el menú
principal, Analizar/Modelo lineal general/ Univariante… En la salida
correspondiente, se introduce en el campo Variable dependiente: La variable
respuesta Distancia y en el campoFactores fijos: el factor Tipo_Cesped y el
bloque Bloques. Para indicar que se trata de un modelo sin interacción entre los
tratamientos y los bloques, se debe pinchar en Modelo e indicar en la salida
correspondiente que es un modelo aditivo.
Por defecto, SPSS tiene marcado un modelo Factorial completo, por lo que hay que
señalar Personalizado. En el modelo que estamos estudiando sólo aparecen los
efectos principales de los dos factores, por lo tanto se selecciona en Tipo: Efectos
principales y se pasan los dos factores, Tipo_Cesped y Bloque, al campo Modelo:
Se pulsa Continuar y Aceptar.
Puesto que la construcción de bloques se ha diseñado para comprobar el efecto de
una variable, nos preguntamos si ha sido eficaz su construcción. En caso afirmativo,
la suma de cuadrados de bloques explicaría una parte sustancial de la suma total de
cuadrados. También se reduce la suma de cuadrados del error dando lugar a un
aumento del valor del estadístico de contraste experimental utilizado para
contrastar la igualdad de medias de los tratamientos y posibilitando que se rechace
la Hipótesis nula, mejorándose la potencia del contraste.

La construcción de bloques puede ayudar cuando se comprueba su eficacia pero


debe evitarse su construcción indiscriminada. Ya que, la inclusión de bloques en un
diseño da lugar a una disminución del número de grados de libertad para el error,
aumenta el punto crítico para contrastar la Hipótesis nula y es más difícil rechazarla.
La potencia del contraste es menor.

La Tabla ANOVA, muestra que:


• El valor del estadístico de contraste de igualdad de bloques, F = 21.114 deja a su
derecha un p-valor menor que 0.001, inferior que el nivel de significación del 5%,
por lo que se rechaza la Hipótesis nula de igualdad de bloques. La eficacia de este
diseño depende de los efectos de los bloques. En este caso este diseño es más eficaz
que el diseño completamente aleatorizado y el contraste principal de las medias de
los tratamientos será más sensible a las diferencias entre tratamientos. Por lo tanto
la inclusión del factor bloque en el modelo es acertada. Así, las distancias recorridas
por las pelotas dependen del tipo de terreno.
• El valor del estadístico de contraste de igualdad de tratamiento, F = 75.895 deja a
su derecha un p-valor menor que 0.001, menor que el nivel de significación del 5%,
por lo que se rechaza la Hipótesis nula de igualdad de tratamientos. Así, los tipos de
césped influyen en las distancias recorridas por las pelotas. Es decir, existen
diferencias significativas en las distancias recorridas por las pelotas entre los cuatro
tipos de césped.
La salida de SPSS también nos muestra que R cuadrado vale 0.963, indicándonos
que el modelo explica el 96.30% de la variabilidad de los datos.
3. ¿Existen diferencias reales entre las distancias medias recorridas por una
pelota de golf en los distintos tipos de cesped?
Esta cuestión está contestada afirmativamente en el apartado anterior, en el que
la tabla ANOVA nos muestra un valor de F = 75.895 y un Sig. menor que 0.001.
4. Estudiar las interacciones de los factores.

La interacción entre el factor bloque y los tratamientos se puede estudiar


gráficamente de diversas formas:

Gráfico de residuos frente a los valores predichos por el modelo. Si este gráfico no
presenta ningún aspecto curvilíneo se admite que el modelo es aditivo.
Seleccionamos Opciones en el cuadro de diálogo de Univariante y marcamos la
casilla Gráfico de los residuos. Se pulsa, Continuar y Aceptar

Interpretamos el gráfico que aparece en la fila 3 columna 2, es decir aquel gráfico


que se representan los residuos en el eje de ordenadas y los valores pronosticados
en el eje de abscisas. No observamos, en dicho gráfico, ninguna tendencia curvilínea,
es decir no muestra evidencia de interacción entre el factor bloque y los
tratamientos.
Gráfico de perfil.
Es un gráfico de las medias de los tratamientos, para realizarlo se selecciona, en el
menú principal, Analizar/Modelo lineal general/ Univariante/Gráficos… se
introduce en el Eje horizontal: Tipo_Cesped y en Líneas separadas: Bloques. Se
pulsa Añadir, Continuar y Aceptar.
La figura representa el gráfico de las medias de los tratamientos. Cuando no existe
interacción, los segmentos lineales que unen dos medias cualesquiera serán
paralelos a través de los bloques. Es decir, es posible hacer consideraciones
generales relativas a los tratamientos sin tener que especificar el bloque implicado.
Podemos deducir, por ejemplo, que el césped Agrostis Tenuis presenta más
resistencia al recorrido de las pelotas que los otros tipos de céspedes. Cuando estos
segmentos no son paralelos se deduce que hay interacción entre los bloques y
tratamientos. Esto significa que debemos tener cuidado cuando hagamos
declaraciones relativas a los tratamientos, porque el bloque implicado es también
importante.
5. Comprobar que se cumplen las hipótesis del modelo
Hipótesis de normalidad
En primer lugar se deben salvar los residuos y a continuación realizamos el estudio
de la normalidad mediante el Gráfico probabilístico Normal y el Contraste de
Kolmogorov-Smirnov.
Gráfico probabilístico Normal: Se selecciona en el menú
principal, Analizar/Estadísticos descriptivos/Gráficos Q-Q. Se introduce en el
campo Variables: la variable que recoge los residuos RES_1. Se pulsa Aceptar
Podemos apreciar en este gráfico que los puntos aparecen próximos a la línea
diagonal. Esta gráfica no muestra una desviación marcada de la normalidad.
Contraste de Kolmogorov-Smirnov: Se selecciona en el menú
principal, Analizar/Pruebas no paramétricas/ Cuadros de diálogos
antiguos/K-S de 1 muestra. Se introduce en el campo Lista Contrastar
variables: la variable que recoge los residuos RES_1. Se pulsa Aceptar

El valor del p-
valor, 0.901, es mayor que el nivel de significación 0.05, aceptándose la hipótesis de
normalidad.
Independencia de los residuos

En el gráfico de los residuos realizado anteriormente, interpretamos el gráfico que


aparece en la fila 3 columna 2, es decir aquel gráfico que se representan los
residuos en el eje de ordenadas y los valores pronosticados en el eje de abscisas.
No observamos, en dicho gráfico, ninguna tendencia sistemática que haga
sospechar del incumplimiento de la suposición de independencia. Este gráfico
también lo podemos realizar mediante un diagrama de dispersión de los residuos y
las predicciones.

Homogeneidad de varianzas
En primer lugar comprobamos la homocedasticidad gráficamente, para ello se
selecciona en el menú principal, Gráficos/Cuadros de diálogos antiguos/Barras
de error… Y en la salida correspondiente seleccionar Simple y pulsar Definir. Se
introduce en el campo Variable: La variable respuesta Distancia y en el campo Eje
de categorías: el factor Tipo_Cesped. En Las barras representan se
selecciona Desviación típica, en Multiplicador: 2 (nos interesa que la desviación
típica esté multiplicada por dos). Se
pulsa Aceptar

Cada grupo tiene su promedio (el círculo en cada una de las barras), dos
desviaciones típicas a la izquierda y dos desviaciones típicas a la derecha del
promedio. Observamos que en los tipos de césped Agrostis Canina y Paspalum
Vaginatum hay mucha más dispersión que en los otros dos. Del gráfico no se deduce
directamente si hay homogeneidad en las varianzas, por lo que recurrimos a
analizarlo numéricamente mediante una prueba, el test de Levene.
Realizamos el mismo gráfico para el factor bloque, para ello introducimos en el
campo Eje de categorías: el factor Bloques.

Observamos que en el Bloque 2 parece que hay mayor dispersión pero seguido a
muy poca distancia del los Bloques 4, 1 y 5 y donde hay menos dispersión es en
el Bloque 3. Como en el gráfico anterior, no se deduce directamente si hay
homogeneidad en estas varianzas, por lo que recurrimos a analizarlo
numéricamente mediante el test de Levene.
Para realizar el test de Levene mediante SPSS, se selecciona, en el menú
principal, Analizar/Comparar medias/ANOVA de un factor. En la salida
correspondiente, se introduce en el campo Lista de dependientes: La variable
respuesta Distancia y en el campo Factor: el factor Tipo_Cesped. Se
pulsa Opciones. Se selecciona Pruebas de homogeneidad de las
varianzas y Gráfico de medias. Se pulsa Continuar y Aceptar
El p-valor es 0.412 por lo tanto no se puede rechazar la hipótesis de homogeneidad
de las varianzas y se concluye que los tres grupos tienen varianzas homogéneas.
En el gráfico de medias, donde en el eje de ordenadas figuran las medias de las
distancias recorridas por las pelotas y en el eje de abscisas los tipos de césped. En
esta gráfica observamos que la mayor distancia recorrida se produce en el
tratamiento 4 (Paspalum Vaginatum) y el número más bajo se produce con el
tratamiento1 (Agrostis Tenuis). Para saber entre que parejas de tratamientos estas
diferencias son significativas se realiza una prueba Post-hoc.
Realizamos el mismo contraste para los bloques, ya que hay que comprobar la
homocedasticidad tanto en los tratamientos como en los bloques. En este caso se
introduce en el campo Factor: Bloques.
El p-valor es 0.899 por lo tanto no se puede rechazar la hipótesis de homogeneidad
de las varianzas entre los bloques y se concluye que los diez grupos tienen varianzas
homogéneas.
En esta gráfica observamos que la mayor distancia recorrida se produce en
el Bloque 2 y el número más bajo se produce en el Bloque 3. Para saber entre que
parejas de Bloques estas diferencias son significativas, aplicamos una prueba Post-
hoc.
5. Utilizando el métdodo de Newman-Keuls, ¿qué tipo de cesped ofrece menor
resistencia al recorrido de las pelotas?
A partir de los
resultados obtenidos, se deduce que las distancias medias recorridas por las pelotas
es similar para los céspedes Agrostis Tenuis y Paspalum Notatum por una parte,
también son similares en el Paspalum Notatum y Agrostis Canina, y en ambos
grupos dichas distancias medias difieren significativamente de las recorridas en el
césped Paspalum Vaginatum. Por lo tanto, se pueden establecer tres agrupaciones
con características similares para las distancias medias recorridas. El tipo de césped
que ofrece menor resistencia al recorrido de las pelotas es el Paspalum Vaginatum,
donde las pelotas tienen un recorrido medio de 3.56 u.d.

Ejercicio Propuesto 4 (Resuelto)


Consideremos de nuevo el ejercicio propuesto 3 sobre un grupo de científicos
que estudia la calidad de varios tipos de césped para implantarlo en invierno
en los campos de golf. Para ello, miden la distancia recorrida por una pelota
de golf, en el campo, después de bajar por una rampa (para proporcionar a la
pelota una velocidad inicial constante). El terreno del que disponen tiene
mayor pendiente en la dirección norte-sur, por lo que se aconseja dividir el
terreno en cinco bloques de manera que las pendientes de las parcelas
individuales dentro de cada bloque sean las mismas. Se utilizó el mismo
método para la siembra y las mismas cantidades de semilla. Las mediciones
son las distancias desde la base de la rampa al punto donde se pararon las
pelotas, y al realizar dichas mediciones no se han podido obtener una para
cada combinación de tipo de césped y tipo de terreno, sino que sólo se han
podido realizar con tres de las variedades del césped en cada uno de los
bloques de terreno. Para controlar el efecto del tipo de terreno deciden
utilizar un diseño en bloques incompletos. En el estudio se incluyeron las
variedades: Agrostis Tenuis (Césped muy fino y denso, de hojas cortas y larga
duración), Agrostis Canina (Hoja muy fina, estolonífera. Forma una cubierta
muy tupida), Paspalum Notatum (Hojas gruesas, bastas y con rizomas. Forma
una cubierta poco densa), Paspalum Vaginatum (Césped fino, perenne, con
rizomas y estolones).
Se pide:
1. Identificar los elementos del estudio (factores, unidades experimentales,
variable respuesta, etc.) y plantear detalladamente el modelo matemático
utilizado en el experimento.
2. ¿Son los bloques fuente de variación?
3. Existen diferencias reales entre las distancias medias recorridas por una
pelota de golf en los distintos tipos de césped?
4. Comprobar que se cumplen las hipótesis del modelo.
5. Utilizando el método de Newman-Keuls, ¿qué tipo de cesped ofrece menor
resistencia al recorrido de las pelotas?

Solución:
Para resolver las cuestiones planteadas sobre los tratamientos y los bloques, en el
menú principal se selecciona: Analizar\Modelo lineal
general\Univariante… Introduciendo la información relativa al diseño en la
ventana de análisis: La variable dependiente es la Distancia y el resto de
variables, Tipo_Cesped y Bloques corresponden a los factores fijos del modelo. En
la opción Modelo, hay que indicar al programa que se trata de un modelo sin
interacción entre los tratamientos y los bloques. Además hay que tener en cuenta
que se trata de un diseño en bloques incompletos. En este tipo de diseño los
tratamientos no están en todos los bloques, entonces los bloques y tratamientos no
son ortogonales (como lo son en el diseño de bloques completos al azar), por lo tanto
no es posible realizar una descomposición de la variabilidad del experimento como
en el diseño en bloques completos. Para resolver está cuestión, SPSS utiliza
las Sumas de cuadrados de tipo I.
• Para evaluar el efecto de los bloques, la suma de cuadrados de bloques debe
ajustarse por tratamientos, por lo tanto primero se introducen los tratamientos y
después los bloques.
De la
tabla ANOVA se deduce que los bloques son una fuente de variación.
• Para evaluar el efecto de los tratamientos, la suma de cuadrados de tratamientos
debe ajustarse por bloques, por lo tanto primero se introducen los bloques y
después los tratamientos
Se observa en la tabla ANOVA que hay diferencias reales entre las distancias medias
recorridas por una pelota de golf en los distintos tipos de césped ya que el p-valor
es menor que 0.001.

Ejercicio Propuesto 5 (Resuelto)

Un investigador quiere evaluar la productividad de cuatro variedades de


aguacates, A, B, C y D. Para ello decide realizar el ensayo en un terreno que
posee un gradiente de pendiente de oriente a occidente y además, diferencias
en la disponibilidad de Nitrógeno de norte a sur, para controlar los efectos de
la pendiente y la disponibilidad de Nitrógeno, utilizó un diseño de cuadrado
latino, los datos corresponden a la producción en kg/parcela.

Responder a las
siguientes cuestiones:
1. ¿Se puede afirmar que la productividad media de las cuatro variedades de
aguacate es la misma?
2. ¿Qué supuestos han de verificarse?
3. ¿Se obtiene la misma producción con las cuatro variedades de aguacate? En
caso negativo, analizar mediante el procedimiento de Tukey, con qué
variedad de aguacate hay mayor producción.

Solución:
1. ¿Se puede afirmar que la productividad media de las cuatro variedades de
aguacate es la misma?
El análisis de la productividad de las variedades de aguacate corresponde al
análisis de un factor con 4 niveles. Dado que en el estudio intervienen dos fuentes
de variación: la Disponibilidad de Nitrógeno y la Pendiente, se consideran dos
factores de bloque, cada uno de ellos con 4 niveles.

Se pretende, entonces dar respuesta al contraste:

• Variable respuesta: Productividad


• Factor: Variedad de aguacate. Es un factor de efectos fijos ya que desde el principio
se establecen los niveles concretos que se van a analizar.
• Bloques: Disponibilidad de Nitrógeno y Pendiente, ambos con 4 niveles y ambos
de efectos fijos.
• Tamaño del experimento: Número total de observaciones (42) .
Para resolver el contraste planteado, en el menú principal se
selecciona: Analizar\Modelo lineal general\Univariante…Introduciendo la
información relativa al diseño en la ventana de análisis: La variable dependiente es
la Productividad y el resto de
variables, Nitrógeno, Pendiente y Variedad corresponden a los factores fijos del
modelo. En la opción Modelo, hay que indicar al programa que se trata de un modelo
sin interacción entre los tratamientos y los bloques
A
la vista de los p-valores, todos ellos inferiores a 0.05, podemos afirmar que todos
los efectos son significativos. Tanto las variedades de aguacates utilizadas, como la
pendiente del terreno y la disponibilidad de nitrógeno influyen en la productividad
de los aguacates.
2. ¿Qué supuestos han de verificarse?
Los supuestos que han de verificarse en un diseño de cuadrados latinos son
Normalidad, Homocedasticidad e Independiencia además del supuesto de
aditividad entre filas, columnas y tratamientos (es decir, que no haya interacciones
entre los mismos).
Hipótesis de normalidad
Gráfico probabilístico Normal: Se selecciona en el menú
principal, Analizar/Estadísticos descriptivos/Gráficos Q-Q. Se introduce en el
campo Variables: la variable que recoge los residuos RES_1. Se pulsa Aceptar

Contraste de Kolmogorov-Smirnov: Se selecciona en el menú


principal, Analizar/Pruebas no paramétricas/ Cuadros de diálogos
antiguos/K-S de 1 muestra. Se introduce en el campo Lista Contrastar
variables: la variable que recoge los residuos RES_1. Se pulsa Aceptar
El valor del p-
valor, 0.323, es mayor que el nivel de significación 0.05, aceptándose la hipótesis
de normalidad.
Independencia entre los residuos

En el gráfico de los residuos


interpretamos el gráfico que aparece en la fila 3 columna 2. No observamos, en dicho
gráfico, ninguna tendencia sistemática que haga sospechar del incumplimiento de la
suposición de independencia.

Homogeneidad de varianzas
En primer lugar comprobamos la homocedasticidad gráficamente, para ello se
selecciona en el menú principal, Gráficos/Cuadros de diálogos antiguos/Barras
de error… Y en la salida correspondiente seleccionar Simple y pulsar Definir. Se
introduce en el campo Variable: La variable respuesta Productividad y en el
campo Eje de categorías: el factor Variedad. En Las barras representan se
selecciona Desviación típica, en Multiplicador: 2 (nos interesa que la desviación
típica esté multiplicada por dos). Se pulsa Aceptar

Observamos que en las variedades de aguacates B y C hay mucha más dispersión


que en las otras dos. Del gráfico no se deduce directamente si hay homogeneidad en
estas varianzas, por lo que recurrimos analizarlo numéricamente mediante una
prueba, el test de Levene.

Se debe realizar el mismo gráfico para cada uno de los factores de bloque.

Contraste de Levene: Se selecciona, en el menú principal, Analizar/Comparar


medias/ANOVA de un factor. En la salida correspondiente, se introduce en el
campo Lista de dependientes: La variable respuesta Productividad y en el
campo Factor: el factor Variedad. Se pulsa Opciones. Se selecciona Pruebas de
homogeneidad de las varianzas y Gráfico de medias. Se pulsa Continuar y
Aceptar

El p-valor es 0.167 por lo tanto no se puede rechazar la hipótesis de homogeneidad


de las varianzas y se concluye que la cuatro variedades tienen varianzas
homogéneas.
En el gráfico de medias, donde en el eje de ordenadas figuran las producciones
medias de aguacates y en el eje de abscisas las cuatro variedades de aguacate. En
esta gráfica observamos que la producción mayor se obtiene con la Variedad C y la
producción más baja es la de la Variedad de aguacate B . Para saber entre qué
parejas de tratamientos estas diferencias son significativas, se debe realizar una
prueba Post-hoc.

Realizamos el mismo contraste para los bloques, ya que hay que comprobar la
homocedasticidad tanto en los tratamientos como en los bloque
Los p-valores son mayores que
0.05, por lo tanto no se puede rechazar la hipótesis de homogeneidad de las
varianzas.
Aditividad de los factores
Gráfico de residuos frente a los valores predichos por el modelo. Si el gráfico
que aparece en la fila 3 columna 2 no presenta ningún aspecto curvilíneo se admite
que el modelo es aditivo.
Gráfico de perfil. Es un gráfico de las medias de los tratamientos, realizamos los
siguientes gráficos para comprobar la no interacción entre los factores
Cuando no existe interacción, los segmentos lineales que unen dos medias
cualesquiera serán paralelos a través de los bloques. Es decir, es posible hacer
consideraciones generales relativas a los tratamientos sin tener que especificar el
bloque implicado. Cuando estos segmentos no son paralelos se deduce que hay
interacción entre los bloques y tratamientos. Esto significa que debemos tener
cuidado cuando hagamos declaraciones relativas a los tratamientos, porque el
bloque implicado es también importante.
3. ¿Se obtiene la misma producción con las cuatro variedades de aguacate? En
caso negativo, analizar mediante el procedimiento de Tukey, con qué variedad
de aguacate hay mayor producción.
La tabla de comparaciones
múltiples muestra los intervalos simultáneos construidos por el método de Tukey
para cada posible combinación de variedades de aguacates. Como se puede
observar, todos los intervalos de confianza construidos para las diferencias entre las
producciones medias de las variedades no contienen al 0, excepto el
correspondiente a la pareja de variedades de aguacates A y D. Lo que significa que
todas las producciones medias pueden considerarse distintas estadísticamente
excepto las producciones medias correspondientes a las variedades A y D. En la
tabla de la derecha es más cómodo comparar cualquier pareja de variedades de
aguacates para saber si hay diferencias significativas. Se deduce que únicamente no
se observan diferencias significativas entre las producciones de las variedades de
aguacates A y D (P-valor = 0.429).
En la tabla Subconjuntos
homogéneos asociada al contraste de Tukey se muestra por columnas los subgrupos
de medias iguales. En nuestro estudio sobre las producciones de aguacates se
observan que hay tres subgrupos homogéneos, al primer subgrupo pertenece
la Variedad B, al segundo las variedades A y D y al tercero la Variedad C. Y se
observa que la producción media mayor se obtiene con la Variedad C (827.5 Kg/
parcela) y la menor con la Variedad B (777.50 Kg/parcela).

Ejercicio Propuesto 6 (Resuelto)


Consideremos de nuevo el ejercicio propuesto 5 del investigador que quiere
evaluar la productividad de cuatro variedades de aguacate, A, B, C y D. Para
ello, decide realizar el ensayo en un terreno que posee un gradiente de
pendiente de oriente a occidente y además, diferencias en la disponibilidad de
Nitrógeno de norte a sur. Se seleccionan cuatro disponibilidades de nitrógeno,
pero sólo dispone de tres gradientes de pendiente. Para controlar estas
posibles fuentes de variabilidad, el investigador decide utilizar un diseño en
cuadrado de Youden con cuatro filas, las cuatro disponibilidades de Nitrógeno
(NI, N2, N3, N4), tres columnas, los tres gradientes de pendientes (P1, P2, P3)
y cuatro letras latinas, las variedades de aguacates (A, B, C, D). Los datos
corresponden a la producción en kg/parcela.

Responder a las siguientes


cuestiones:
1. Estudiar cuál es el tipo de diseño adecuado a este experimento y escribir el
modelo matemático asociado.
2. ¿Se puede afirmar qué la productividad media de las cuatro variedades de
aguacate es la misma?
3. ¿Qué supuestos han de verificarse?
4. ¿Se obtiene la misma producción con las cuatro variedades de aguacate? En
caso negativo, analizar mediante el procedimiento de Duncan, con qué
variedad de aguacate hay mayor producción.

Solución:
El análisis de la productividad de las variedades de aguacate corresponde al análisis
de un factor con 4 niveles. Dado que en el estudio intervienen dos fuentes de
variación: la Disponibilidad de Nitrógeno y la Pendiente, se consideran dos
factores de bloque, el primero con 4 niveles y el segundo con tres niveles.

Se pretende, entonces dar respuesta al contraste:

• Variable respuesta: Productividad.


• Factor: Variedad de aguacate. Es un factor de efectos fijos ya que desde el principio
se establecen los niveles concretos que se van a analizar.
• Bloques: Disponibilidad de Nitrógeno y Pendiente, con 4 y 3 niveles,
respectivamente y ambos de efectos fijos.
• Tamaño del experimento: Número total de observaciones: 12 .
Para resolver el contraste planteado, en el menú principal se
selecciona: Analizar\Modelo lineal general\Univariante…Introduciendo la
información relativa al diseño en la ventana de análisis: La variable dependiente es
la Productividad y el resto de
variables, Nitrógeno, Pendiente y Variedad corresponden a los factores fijos del
modelo. En la opción Modelo, hay que indicar al programa que se trata de un modelo
sin interacción entre los tratamientos y los bloques. Además hay que tener en cuenta
que el diseño en cuadrados de Youden es un diseño en bloques incompletos por lo
que hay que utilizar, para realizarlo mediante SPSS, las Sumas de cuadrados de
Tipo I y tener en cuenta que para analizar un determinado factor hay que
introducirlo en último lugar.

Los resultados del ANOVA dependerán del orden en que se introduzcan los factores.
A la
vista del valor de Sig. (0.024), podemos afirmar que en la productividad del
aguacate influyen las distintas variedades utilizadas.
La mayor productividad de
aguacates se obtiene con la Variedad B, con un productividad media de 901.33
Kg/parcela.

Ejercicio Propuesto 7 (Resuelto)


En un invernadero se está estudiando el crecimiento de determinadas plantas,
para ello se quiere controlar los efectos del terreno, abono, insecticida y
semilla. El estudio se realiza con cuatro tipos de semillas diferentes que se
plantan en cuatro tipos de terreno, se les aplican cuatro tipos de abonos y
cuatro tipos de insecticidas. La asignación de los tratamientos a las plantas se
realiza de forma aleatoria. Para controlar estas posibles fuentes de
variabilidad se decide plantear un diseño por cuadrados greco-latinos como
el que se muestra en la siguiente tabla, donde las letras griegas corresponden
a los cuatro tipos de semilla y las latinas a los abonos.

Responder a las siguientes cuestiones:


1. Estudiar cuál es el tipo de diseño adecuado a este experimento y escribir el
modelo matemático asociado.
2. ¿Qué supuestos han de verificarse?
3. ¿Se puede afirmar que el crecimiento de las plantas es el mismo para los
cuatro tipos de abonos?¿Y con los distintos insecticidas?
4. ¿Existen diferencias significativas en el crecimiento de las plantas con las
distintas semillas? ¿Y el tipo de tierra influye en dicho crecimiento?
5. ¿Con qué tipo de semilla se produce el mayor crecimiento de las plantas?
6. ¿El crecimiento de las plantas es el mismo utilizando al mismo tiempo los
abonos A y B que utilizando los abonos C y D?

Solución:

Son significativos todos los


efectos de los factores y el mayor crecimiento de las plantas se produce con
el Abono A siendo la altura que alcanza de 11.65 y la altura menor de 7.65 la
alcanza cuando se le suministra el Abono C.

Para comprobar si el crecimiento de la planta es el mismo utilizando al mismo


tiempo los abonos A y B que utilizando los abonos C y D, se debe realizar el siguiente
contraste de hipótesis:
Suponiendo que se cumple la hipótesis de homocedasticidad, observamos un p-
valor de 0.715 que indica que el contraste realizado no es significativo, por lo tanto
se rechaza la hipótesis nula en el contraste planteado.

Ejercicio Propuesto 8 (Resuelto)

Se realiza un estudio sobre el efecto que produce la descarga de aguas


residuales de un planta sobre la ecología del agua natural de un río. En el
estudio se utilizaron dos lugares de muestreo. Un lugar está aguas arriba del
punto en el que la planta introduce aguas residuales en la corriente; el otro
está aguas abajo. Se tomaron muestras durante un periodo de cuatro semanas
y se obtuvieron los datos sobre el número de diatomeas halladas. Los datos se
muestran en la tabla adjunta:

Responder a las siguientes cuestiones:


1. Identificar el diseño adecuado a este experimento, escribir el modelo
matemático y explicar los distintos elementos que intervienen.
2. Estudiar si la semana y el lugar son factores determinantes en el número de
diatomeas halladas en el agua del río. ¿Hay posibilidad que una semana sea
más recomendable en un lugar del río en concreto y no lo sea en el otro lugar?
3. Estudiar en qué semana se producen menos contaminación en el río,
utilizando el método de Duncan.
4. Estudiar en qué lugar del río se producen menos diatomeas.

Solución:
1. Identificar el diseño adecuado a este experimento, escribir el modelo
matemático y explicar los distintos elementos que intervienen.
En este experimento los factores de interés que intervienen son la Semana en la que
se realiza el recuento de diatomeas y el Lugar del río donde se realiza dicho
recuento, Son factores de efectos fijos, el primero tiene cuatro niveles y el segundo
tiene dos niveles y se realizan cuatro réplicas con cada tratamiento. El número de
tratamientos es de ocho, formados a partir de las combinaciones de los niveles de
los dos factores. Es un modelo bifactorial de efectos fijos con interacción, el
modelo matemático adecuado para este experimento es:

1.
2. Estudiar si la semana y el lugar son factores determinantes en el número de
diatomeas halladas en el agua del río. ¿Hay posibilidad que una semana sea
más recomendable en un lugar del río en concreto y no lo sea en el otro
lugar?

El único efecto que no es significativo es la interacción de los dos factores, por lo que
se debe modificar el modelo suprimiendo la interacción entre ambos factores y
realizar un estudio del modelo modificado.
3. Estudiar en qué semana se producen menos contaminación en el río,
utilizando el método de Duncan.
4. Estudiar en qué lugar del río se producen menos diatomeas..
Ejercicio Propuesto 9 (Resuelto)
La cotinina es uno de los principales metabolitos de la nicotina. Actualmente
se le considera el mejor indicador de la exposición al humo de tabaco. Se ha
realizado un estudio con distintas marcas de tabaco distinguiendo
principalmente entre negro y rubio para detectar las posibles diferencias en
el nivel de nicotina de personas expuestas al humo de tabaco. Para ello, se han
analizado personas de distintas edades (niños, jóvenes y adultos) y se ha
distinguido entre mujeres y hombres. Se han obtenido los datos de la siguiente
tabla sobre el nivel de nicotina en miligramos por mililitro.
Responder a las siguientes cuestiones:
1. Identificar el diseño adecuado a este experimento, escribir el modelo
matemático y explicar los distintos elementos que intervienen.
2. Contrastar la hipótesis nula de no interacción entre los factores. Adecuar el
modelo al resultado de las interacciones y contrastar los efectos principales.
3. ¿Hay diferencias significativas en el nivel de nicotina en las distintas
edades?¿En qué edad el nivel de nicotina es mayor?
4. ¿El tipo de tabaco es un factor determinante en el nivel de nicotina?
5. Comparar el nivel medio de nicotina entre las mujeres y los hombres. ¿Se
detectan diferencias significativas?

Solución:

El único efecto significativo son las distintas edades. Hay que seguir analizando el
diseño suprimiendo una a una las interacciones, empezando por las de mayor orden.

……………………….
Práctica 8
MÉTODOS DE ANÁLISIS MULTIVARIANTE:
ANÁLISIS CLÚSTER
Objetivos
1. Identificar grupos de objetos homogéneos.
2. Determinar el criterio de similitud.
3. Distinguir los Métodos de clasificación Jerárquicos y los Métodos de clasificación No-
Jerárquicos o Repartición.
4. Plantear y aplicar el Análisis Clúster Jerárquico.
5. Distinguir los Métodos Jerárquicos Aglomerativos y los Métodos Jerárquicos
Divisivos.
6. Entender y aplicar el proceso algorítmico del Análisis Clúster Jerárquico
Aglomerativo.
7. Saber construir una matriz de distancias.
8. Representar e Interpretar un dendograma.
9. Plantear y aplicar el Análisis Clúster de K medias.
10. Entender y aplicar el proceso algorítmico del Análisis Clúster de K medias.
11. Plantear y aplicar el Análisis Clúster en dos etapas o bietápico.

Introducción al Análisis Clúster


El análisis clúster es una técnica multivariante cuya idea básica es clasificar objetos
formando grupos/conglomerados (clúster) que sean lo más homogeneos posible
dentro de si mismos y heterogéneos entre si.
Surge ante la necesidad de diseñar una estrategia que permita definir grupos de
objetos homogéneos. Este agrupamiento se basa en la idea de distancia o similitud
entre las observaciones y la obtención de dichos clusters depende del criterio o
distancia considerados, por ejemplo, una baraja de carta española se podría dividir
de distintas formas: en dos clusters (figuras y números), en cuatro clusters (los
cuatro palos), en ocho clusters (los cuatro palos y según sean figuras o números). Es
decir, el número de clusters depende de lo que consideremos como similar.
El análisis clúster es una tarea de clasificación. Por ejemplo
• Clasificar grupos de consumidores respecto a sus preferencias en nuevos
productos
• Clasificar las entidades bancarias donde sería más rentable invertir
• Clasificar las estrellas del cosmos en función de su luminosidad
• Identificar si hay grupos de municipios en una determinada comunidad con una
tendencia similar en el consumo de agua con el fin de identificar buenas prácticas
para la sostenibilidad y zonas problemáticas por alto consumo.
Como se puede comprender fácilmente el análisis clúster tiene una extraordinaria
importancia en la investigación científica, en cualquier rama del saber. La
clasificación es uno de los objetivos fundamentales de la Ciencia y en la medida en
que el análisis clúster nos proporciona los medios técnicos para realizarla, se nos
hará imprescindible en cualquier investigación.
Planteamiento del problema
Consideremos una muestra X formada por n individuos sobre los que se
miden p variables, X1,…,Xp (p variables numéricas observadas en n objetos). Sea xij el
valor de la variable Xj en el i -ésimo objeto i = 1,…,n; j = 1,…,p.
Este conjunto X de valores numéricos se pueden ordenar en una matriz

La i-ésima fila de la matriz X contiene los valores


de cada variable para el i-ésimo individuo, mientras que la j-ésima columna muestra
los valores pertenecientes a la j-ésima variable a lo largo de todos los individuos de
la muestra.
Se trata, fundamentalmente, de resolver el siguiente problema: Dado un conjunto
de n individuos caracterizados por la información de p variables Xj, (j = 1,2,…, p), nos
planteamos clasificarlos de manera que los individuos pertenecientes a un grupo
(clúster) (y siempre con respecto a la información disponible de las variables) sean
lo más similares posibles entre sí y los distintos grupos sean entre ellos tan
disimilares como sea posible.
El proceso completo puede estructurarse de acuerdo con el siguiente esquema:
• Partimos de un conjunto de n individuos de los que se dispone de una información
cifrada por un conjunto de p variables (una matriz de datos de n individuos
y p variables).
• Establecemos un criterio de similaridad y construimos una matriz de similaridades
que nos permita relacionar la semejanza de los individuos entre sí. Para medir lo
similares (o disimilares) que son los individuos existe una gran cantidad de índices
de similaridad y de disimilaridad o divergencia. Todos ellos tienen propiedades y
utilidades distintas y habrá que ser consciente de ellas para su correcta aplicación.
• Elegimos un algoritmo de clasificación para determinar la estructura de agrupación
de los individuos.
• Especificamos esa estructura mediante diagramas arbóreos.
El análisis clúster: Técnica de agrupación de
variables y de casos
• Como técnica de agrupación de variables, el análisis clúster es similar al análisis
factorial. Pero, mientras que el análisis factorial es poco flexible en algunos de sus
supuestos (linealidad, normalidad, variables cuantitativas, etc.) y estima de la
misma manera la matriz de distancias, el análisis clúster es menos restrictivo en sus
supuestos (no exige linealidad, ni simetría, permite variables categóricas, etc.) y
admite varios métodos de estimación de la matriz de distancias.
• Como técnica de agrupación de casos, el análisis clúster es similar al análisis
discriminante. Pero mientras que el análisis discriminante se centra en la
agrupación de variables, es decir efectúa la clasificación tomando como referencia
un criterio o variable dependiente (los grupos de clasificación), el análisis clúster se
centra en agrupar objetos, es decir permite detectar el número óptimo de grupos y
su composición únicamente a partir de la similaridad existente entre los casos;
además, el análisis de clúster no asume ninguna distribución específica para las
variables.
Inconvenientes del Análisis Clúster: Es un análisis descriptivo, ateórico y no
inferencial. Habitualmente se utiliza como una técnica exploratoria que no ofrece
soluciones únicas, las soluciones dependen de las variables consideradas y del
método de análisis clúster utilizado.
Aplicabilidad: Las técnicas de análisis clúster han sido tradicionalmente utilizadas
en muchas disciplinas, por ejemplo, Astronomía (Clúster = galaxia, súper galaxias,
etc.), Marketing (segmentación de mercados, investigación de mercados),
Psicología, Biología (Taxonomía. Microarrays), Ciencias Ambientales (Clasificación
de ríos para establecer tipologías según la calidad de las aguas), Sociología,
Economía, Ingeniería, ….
JAIN and DUBES (1988) definen el Análisis de Clúster como una herramienta de
exploración de datos que se complementa con técnicas de visualización de los
mismos.
Resumiendo
• El objetivo del Análisis Clúster es obtener grupos de objetos de forma que, por un
lado, los objetos pertenecientes a un mismo grupo sean muy semejantes entre sí y,
por el otro, los objetos pertenecientes a grupos diferentes tengan un
comportamiento distinto con respecto a las variables analizadas.
• Es una técnica exploratoria puesto que la mayor parte de las veces no utiliza ningún
tipo de modelo estadístico para llevar a cabo el proceso de clasificación.
• Conviene estar siempre alerta ante el peligro de obtener, como resultado del
análisis, no una clasificación de los datos sino una disección de los mismos en
distintos grupos. El conocimiento que el analista tenga acerca del problema
decidirá que grupos obtenidos son significativos y cuáles no.
• Una vez establecidas las variables y los objetos a clasificar el siguiente paso consiste
en establecer una medida de proximidad o de distancia entre ellos que cuantifique
el grado de similaridad entre cada par de objetos.
• Las medidas de proximidad, similitud o semejanza miden el grado de semejanza
entre dos objetos de forma que, cuanto mayor (menor) es su valor, mayor (menor)
es el grado de similaridad existente entre ellos y mayor (menor) la probabilidad de
que los métodos los asignen en el mismo grupo.
• Las medidas de disimilitud, desemejanza o distancia miden la distancia entre
dos objetos de forma que, cuanto mayor (menor) sea su valor, más (menos)
diferentes son los objetos y menor (mayor) la probabilidad de que los métodos de
clasificación los asignen en el mismo grupo.
Métodos de clasificación
Se distinguen dos grandes categorías de métodos clusters: Métodos jerárquicos y
Métodos no-jerárquicos
• Métodos Jerárquicos: En cada paso del algoritmo sólo un objeto cambia de grupo
y los grupos están anidados en los de pasos anteriores. Si un objeto ha sido asignado
a un grupo ya no cambia más de grupo. La clasificación resultante tiene un número
creciente de clases anidadas.
• Métodos No jerárquico o Repartición: Comienzan con una solución inicial, un
número de grupos g fijado de antemano y agrupa los objetos para obtener
los g grupos.
Los métodos jerárquicos se subdividen a su vez en aglomerativos y divisivos:
• Los métodos jerárquicos aglomerativos comienzan con tantos clusters como
objetos tengamos que clasificar y en cada paso se recalculan las distancias entre los
grupos existentes y se unen los dos grupos más similares o menos disimilares. El
algoritmo acaba con un clúster conteniendo todos los elementos.
• Los métodos jerárquicos divisivos comienzan con un clúster que engloba a todos
los elementos y en cada paso se divide el grupo más heterogéneo. El algoritmo acaba
con tantos clusters (de un elemento cada uno) como objetos se hayan clasificado.
Indepedientemente del proceso de agrupamiento, hay diversos criterios para ir
formando los clusters; todos estos criterios se basan en una matriz de distancias o
similitudes. Por ejemplo, dentro de los métodos:
Jerárquicos aglomerativos:
• Método del Linkage Simple, Enlace Simple o Vecino más próximo
• Método del Linkage Completo, Enlace Completo o Vecino más alejado
• Método del Promedio entre grupos
• Método del Centroide
• Método del la Mediana
• Método de Ward
Jerárquicos divisivos o disociativos
• Método del Linkage Simple
• Método del Linkage Completo
• Método del Promedio entre grupos
• Método del Centroide
• Método del la Mediana
• Análisis de Asociación
Proceso que se debe seguir en un análisis clúster
Paso 1: Selección de variables
La clasificación dependerá de las variables elegidas. Introducir variables
irrelevantes aumenta la posibilidad de errores. Hay que utilizar algún criterio de
selección:
• Seleccionar sólo aquellas variables que caracterizan los objetos que se van
agrupando, y referentes a los objetivos del análisis clúster que se va a realizar
• Si el número de variables es muy grande se puede realizar previamente un Análisis
de Componentes Principales y resumir el conjunto de variables.
Paso 2: Detección de valores atípicos. El análisis clúster es muy sensible a la
presencia de objetos muy diferentes del resto (valores atípicos).
Paso 3. Seleccionar la forma de medir la distancia/disimilitud entre objetos
dependiendo de si los datos con cuantitativos o cualitativos
• Datos métricos: Medidas de correlación y medidas de distancia
• Datos no métricos: Medidas de asociación.
Paso 4: Estandarización de los datos (Decidir si se trabaja con los datos según se
miden o estandarizados). El orden de las similitudes puede cambiar bastante con
sólo un cambio de escala de una de las variables por lo que sólo se realizará una
tipificación cuando resulte necesario.
Paso 5: Obtención de los clusters y valoración de la clasificación realizada
• Elegir el algoritmo para la formación de clúster (Procedimientos jerárquicos o
procedimientos no jerárquicos)
• Número de clusters: Regla de parada. Existen diversos métodos de determinación
del número de clusters, algunos están basados en reconstruir la matriz de distancias
original, otros en los coeficientes de concordancia de Kendall y otros realizan
análisis de la varianza entre los grupos obtenidos. No existe un criterio
universalmente aceptado. Dado que la mayor parte de los paquetes estadísticos
proporciona las distancias de aglomeración, es decir, las distancias a las que se
forma cada clúster, una forma de determinar el número de grupos consiste en
localizar en qué iteraciones del método utilizado dichas distancias dan grandes
saltos
• Adecuación del modelo. Comprobar que el modelo no ha definido clúster con un solo
objeto, clúster con tamaños desiguales,…
Análisis clúster en SPSS
El programa SPSS dispone de tres tipos de análisis clúster:
• Análisis de conglomerados de bietápico
• Análisis de conglomerados de K medias
• Análisis de conglomerados jerárquicos.
Cada uno de estos procedimientos utiliza un algoritmo distinto en la creación de
clusters y contiene opciones que no están disponibles en los otros.

• Análisis de conglomerados de bietápico. El clúster en dos etapas está pensado


para minería de datos, es decir para estudios con un número de individuos
grande que pueden tener problemas de clasificación con los otros procedimientos.
Se puede utilizar tanto cuando el número de clúster es conocido a priori y
cuando es desconocido. Permite trabajar conjuntamente con variables de tipo
mixto (cualitativas y cuantitativas).
• Análisis de conglomerados de K medias. Es un método de clasificación No
Jerárquico (Repartición). El número de clusters que se van a formar es fijado de
antemano (requiere conocer el número de clusters a priori) y se agrupan los
objetos para obtener esos grupos. Comienzan con una solución inicial y los objetos
se reagrupan de acuerdo con algún criterio de optimalidad. El clúster no jerárquico
sólo puede ser aplicado a variables cuantitativas. Este procedimiento puede
analizar archivos de datos grandes.
• Análisis de conglomerados jerárquicos. En el método de
clasificación Jerárquico en cada paso del algoritmo sólo un objeto cambia de grupo
y los grupos están anidados en los pasos anteriores. Si un objeto ha sido asignado a
un grupo ya no cambia más de grupo. El método jerárquico es idóneo para
determinar el número óptimo de conglomerados existente en los datos y el
contenido de los mismos. Se utiliza cuando no se conoce el número de clusters a
priori y cuando el número de objetos no es muy grande. Permite
trabajar conjuntamente con variables de tipo mixto (cualitativas y cuantitativas).
Siempre que todas las variables sean del mismo tipo, el procedimiento Análisis de
Conglomerados Jerárquico podrá analizar variables de intervalo (continuas), de
recuento o binarias.
Los tres métodos de análisis que vamos a estudiar son de tipo aglomerativo,
en el sentido de que, partiendo del análisis de los casos individuales, intentan ir
agrupando casos hasta llegar a la formación de grupos o conglomerados
homogéneos.
Todos los métodos de análisis clúster son métodos exploratorios de datos
• Para cada conjunto de datos podemos tener diferentes agrupaciones, dependiendo
del método
• Lo importante es identificar una solución que nos enseñe cosas relevantes de los
datos.
En esta práctica estudiamos primero el Análisis clúster Jerárquico, seguido
del Análisis Clúster de K medias y por último el Análisis Clúster en dos etapas.
Análisis clúster jerárquico
Este procedimiento intenta identificar grupos relativamente homogéneos de casos
(o de variables) basándose en las características seleccionadas. Permite trabajar
conjuntamente con variables de tipo mixto (cualitativas y cuantitativas), siendo
posible analizar las variables brutas o elegir de entre una variedad de
transformaciones de estandarización. Se utiliza cuando no se conoce el número de
clusters a priori y cuando el número de objetos no es muy grande. Como hemos
dicho anteriormente, los objetos de análisis de agrupamiento jerárquico pueden
ser casos o variables, dependiendo de si desea clasificar los casos o examinar las
relaciones entre las variables.
Al trabajar con variables que pueden ser cuantitativas, binarias o datos de
recuento (frecuencias), el escalamiento de las variables es un aspecto importante,
ya que las diferentes escalas en que están medidas las variables pueden afectar a
las soluciones de conglomeración. Si las variables muestran grandes diferencias en
el escalamiento (por ejemplo, una variable se mide en dólares y la otra se mide en
años), se debe considerar la posibilidad de estandarizarlas. Esto puede llevarse a
cabo automáticamente mediante el propio procedimiento Análisis de
conglomerados jerárquico.
Estudiaremos fundamentalmente los Métodos Jerárquicos Aglomerativos. En
estos métodos se utilizan diversos criterios para determinar, en cada paso del
algoritmo, qué grupos se deben unir.
• Enlace simple o vecino más próximo: Mide la proximidad entre dos grupos
calculando la distancia entre sus objetos más próximos o la similitud entre sus
objetos más semejantes
• Enlace completo o vecino más alejado: Mide la proximidad entre dos grupos
calculando la distancia entre sus objetos más lejanos o la similitud entre sus objetos
menos semejantes
• Enlace medio entre grupos: Mide la proximidad entre dos grupos calculando la
media de las distancias entre objetos de ambos grupos o la media de las similitudes
entre objetos de ambos grupos
• Enlace medio dentro de los grupos: Mide la proximidad entre dos grupos con la
distancia media existente entre los miembros del grupo unión de los dos grupos
• Métodos del centroide y de la mediana: Ambos métodos miden la proximidad
entre dos grupos calculando la distancia entre sus centroides. Los dos métodos
difieren en la forma de calcular los centroides:Método de Ward
• El método del centroide utiliza las medias de todas las variables
• En el método de la mediana, el nuevo centroide es la media de los centroides de los
grupos que se unen
Comparación de los diversos métodos aglomerativos
• El enlace simple conduce a clusters encadenados
• El enlace completo conduce a clusters compactos
• El enlace completo es menos sensible a outliers que el enlace simple
• El método de Ward y el método del enlace medio son los menos sensibles a outliers
• El método de Ward tiene tendencia a formar clusters más compactos y de igual
tamaño y forma en comparación con el enlace medio
• Todos los métodos salvo el método del centroide satisfacen la desigualdad
ultramétrica

Decisiones que hay que tomar para hacer un clúster


1. Elegir el método clúster que se va a utilizar
2. Decidir si se estandarizan los datos
3. Seleccionar la forma de medir la distancia/disimilitud entre los individuos
4. Elegir un criterio para unir grupos, distancia entre grupos.
Proceso que se debe seguir en un Análisis Clúster Jerárquico Aglomerativo
Paso 1: Selección de las variables. Se recomienda que las variables sean del mismo
tipo (continuas, categóricas,..)
Paso 2: Detección de valores atípicos. El análisis clúster es muy sensible a la
presencia de objetos muy diferentes del resto (valores atípicos).
Paso 3: Elección de una medida de similitud entre objetos y obtención de la
matriz de distancias. Mediante estas medidas se determinan los clusters iniciales.
Paso 4: Buscar los clusters más similares
Paso 5: Unir estos dos clusters en un nuevo clúster que tenga al menos dos
objetos, de forma que el número de clúster decrece en una unidad.
Paso 6: Calcular la distancia entre este clúster y el resto. Los distintos métodos
para el cálculo de las distancias entre los clusters producen distintas agrupaciones,
por lo que no existe una agrupación única.
Paso 7: Repetir desde el paso 4 hasta que todos los objetos estén en un único
clúster.
El proceso de agrupación jerárquico se puede resumir gráficamente mediante una
representación gráfica en forma de árbol que recibe el nombre de Dendograma. Los
objetos similares se enlazan y su posición en el diagrama está determinada por el
nivel de similitud/disimilitud entre los objetos.
Vamos a realizar el proceso descrito y para ello utilizamos un ejemplo sencillo. Dicho
ejemplo está formado por 5 objetos (A, B, C, D, E) y 2 variables (X1, X2). Los datos se
presentan en la siguiente tabla
Paso 1 y 2: Para detectar valores atípicos podemos representar los puntos en el
plano

No detectamos valores atípicos

Paso 3: La medida de distancia que vamos a tomar entre los objetos va a ser la
distancia euclídea cuya expresión es:

Así, por ejemplo, la distancia entre el clúster A y


el clúster B es:

Realizamos la distancia euclídea entre todos los puntos y obtenemos la siguiente


matriz de distancias euclídeas entre los objetos

Estamos realizando el método jerárquico


aglomerativo, por lo que inicialmente tenemos 5 clusters, uno por cada uno de los
objetos a clasificar.
Paso 4: Observamos en la matriz de distancias cuales son los objetos más
similares, en nuestro ejemplo son el A y B que tienen la distancia menor (1).
Paso 5: Fusionamos los clusters más similares construyendo un nuevo clúster que
contiene A y B. Se han formado los clusters: AB, C, D y E.
Paso 6: Calculamos la distancia entre el clúster AB y los objetos C, D y E. Para medir
esta distancia tomamos como representante del clúster AB el centroide, es decir, el
punto que tiene como coordenadas las medias de los valores de las componentes de
las variables, es decir, las coordenadas de AB son: ((1+2)/2 , (1+1)/2) = (1.5, 1). La
tabla de datos es la siguiente

Paso 7: Repetimos desde el paso 4 hasta que


todos los objetos estén en un único clúster
Paso 4: A partir de estos datos calculamos de nuevo la matriz de distancias

Paso 5: Los clusters más similares son el D y E con una distancia de 2, que se
fusionan en un nuevo clúster DE. Se han formado tres clusters AB, C, DE
Paso 6: Calculamos el centroide del nuevo clúster que es el punto (6,7) y formamos
de nuevo la tabla de datos

Paso 4: A partir de estos datos calculamos de


nuevo la matriz de distancias

Paso 5: Los clusters más similares son el C y DE con


una distancia de 2.8, que se fusionan en un nuevo clúster CDE. Se han formado dos
clusters AB y CDE
Paso 6. Calculamos el centroide del nuevo clúster ((4+5+7)/3 , (5+7+7)/3) = (5.3,
6.3) y formamos de nuevo la tabla de datos

Paso 4 : A partir de estos datos calculamos de


nuevo la matriz de distancias
En este último paso tenemos solamente dos clusters con
distancia 6.4 que se fusionarán en un único clúster en el paso siguiente terminando
el proceso.

A continuación vamos a representar gráficamente el proceso de fusión mediante un


dendograma

El dendograma muestra como


solución más acertada la formada por dos clusters: AB y CDE.
A continuación mostramos varias soluciones, para ello cortamos el dendograma por
medio de líneas horizontales, así por ejemplo
En la figura anterior se muestran 2 clusters: AB y CDE

En esta figura la línea de corte nos muestra 3 clusters: AB, C y DE

El número de clusters depende del sitio donde cortemos el dendograma, por lo tanto
la decisión sobre el número óptimo de clusters es subjetiva. Es conveniente elegir
un número de clusters que sepamos interpretar. Para interpretar los clúster
podemos utilizar:

• ANOVA
• Análisis factorial
• Análisis discriminante
• …
• Sentido común

Para decidir el número de clusters nos puede ser de gran utilidad representar los
distintos pasos del algoritmo y las distancias a la que se produce la fusión de los
clusters. En los primeros pasos el salto de las distancias es pequeño, mientras que
esas diferencias van aumentando en los sucesivos pasos. Podemos elegir como
punto de corte aquel donde comienzan a producirse saltos más bruscos. En nuestro
ejemplo, el salto brusco se produce entre etapas 3 y 4, por lo tanto son dos el número
de clusters óptimo.

Comentarios sobre el clúster jerárquico


• Realizar el clúster jerárquico en conjunto de datos grande es problemático ya que
un árbol con más de 50 individuos es difícil de representar e interpretar.
• Una desventaja general es la imposibilidad de reasignar los individuos a los clusters
en los casos en que la clasificación haya sido dudosa en las primeras etapas del
análisis.
• Debido a que el análisis clúster implica la elección entre diferentes medidas y
procedimientos, con frecuencia es difícil juzgar la veracidad de los resultados.
• Se recomienda comparar los resultados con diferentes métodos de conglomerados.
Soluciones similares generalmente indican la existencia de una estructura en los
datos. Soluciones muy diferentes probablemente indican una estructura pobre.
• En último caso, la validez de los clusters se juzga mediante una interpretación
cualitativa que puede ser subjetiva.
• El número de clusters depende del sitio donde cortemos el dendograma.
Supuesto práctico 1
Los fabricantes de automóviles deben adaptar sus estrategias de desarrollo de
productos y de marketing en función de cada grupo de consumidores para aumentar
las ventas y el nivel de fidelidad a la marca. La tarea de agrupación de los coches
según variables que describen los hábitos de consumo, sexo, edad, nivel de ingresos,
etc. de los clientes puede ser en gran medida automática utilizando el análisis de
clúster.

Se desea hacer un estudio de mercado sobre las preferencias de los consumidores al


adquirir un vehículo, para ello disponemos una base de
datos, ventas_vehículos.sav, de automóviles y camiones en los que figura una serie
de variables como el fabricante, modelo, ventas, etc.
El archivo de datos ventas_vehículos.sav contiene 157 datos y está formado por las
siguientes variables:
Variables tipo cadena: marca (Fabricante); modelo
Variables tipo numérico: ventas (en miles); reventa (Valor de reventa en 4
años); tipo (Tipo de vehículo: Valores: {0, Automóvil; 1, Camión}); precio (en
miles); motor (Tamaño del motor); CV (Caballos); pisada (Base de
neumáticos); ancho (Anchura); largo(Longitud); peso_neto (Peso
neto); depósito (Capacidad de combustible); mpg (Consumo).
El estudio de mercado lo queremos realizar sólo en automóviles de mayor venta y
para ello vamos a utilizar el procedimiento Análisis de conglomerados jerárquico
para agrupar los automóviles de mayor venta en función de sus precios,
fabricante, modelo y propiedades físicas.

En primer lugar restringiremos el archivo de datos sólo a los automóviles de los que
se vendieron al menos 100.000 unidades. Para ello seleccionamos los casos que
cumplan esa condición eligiendo en los menús:

Datos/Seleccionar Casos. Seleccionar Si satisface la condición

y pulsar Si la op… Como el estudio


se va a realizar sólo para los automóviles de los que se vendieron al menos 100.000
unidades, en la ventana de la caja de diálogo Seleccionar casos. Si la
opción escribir (tipo = 0) & (ventas>100).
Pulsar Continuar. En el editor de datos (están tachados los casos para los que no se
va a llevar a cabo el análisis clúster) aparece una nueva variable filter_$ con dos
valores (0 = “Not Selected” y 1 = “Selected”).
Una vez seleccionada la muestra con la que vamos a trabajar, utilizamos el Análisis
de Conglomerados Jerárquicos para agrupar los automóviles de mayor venta en
función de sus precios, fabricante, modelo y propiedades físicas. Para ejecutar este
análisis clúster se elige en los menús: Analizar/ Clasificar/Conglomerados
Jerárquicos …

Como se observa en esta figura, se pueden realizar conglomerados para objetos


(casos) o para variables (agrupar variables por el parecido que presentan en las
respuestas de los individuos) y se pueden etiquetar los grupos con una de las
variables del fichero.

Introducir en el campo Variables: precio (en miles); motor (Tamaño del


motor); CV (Caballos); pisada (Base de
neumáticos);ancho (Anchura); largo (Longitud); peso_neto (Peso
neto); depósito (Capacidad de combustible); mpg (Consumo). Y elegimos una
variable de identificación para etiquetar los casos (opción no obligatoria), para ello
introducimos en el Campo Etiquetar los casos mediante: la variable modelo.
Nota: Si se aglomeran casos, seleccionar al menos una variable numérica. Si se
aglomeran variables, seleccionar al menos tres variables numéricas.
Pulsar Método.

Método de conglomeración. Los métodos de enlace (linkage) utilizan la


proximidad entre pares de individuos para unir grupos de individuos. Existen
diversas formas de medir la distancia entre clúster que producen diferentes
agrupaciones y diferentes dendogramas. No hay un criterio para seleccionar cual es
el algoritmo mejor. La decisión es normalmente subjetiva y depende del método que
mejor refleje los propósitos de cada estudio en particular. Las opciones disponibles
en SPSS son:
• Vinculación inter-grupos. Media Intergrupos
• Vinculación intra-grupos. Media Intragrupos
• Vecino más próximo. Enlace sencillo (salto mínimo). Utiliza la mínima
distancia/disimilitud entre dos individuos de cada grupo (útil para identificar
atípicos). Conduce a clusters encadenados
• Vecino más lejano. Enlace completo (salto máximo). Utiliza la máxima
distancia/disimilitud entre dos individuos de cada grupo. Conduce a clusters
compactos
• Agrupación de centroides. Utiliza la distancia/disimilitud entre los centros de los
grupos
• Agrupación de medianas. Utiliza la mediana de las distancias/disimilitud entre
todos los individuos de los dos grupos
• Método de Ward. Tiene tendencia a formar clusters más compactos y de igual
tamaño y forma, en comparación con el enlace medio

El método de Ward y el método de la media (enlace medio) son los menos sensibles
a outliers.

Medida. La distancia (disimilaridad o similaridad) entre objetos es una medida


que nos permite establecer el grado de semejanza entre dichos objetos. Mediante
esta opción seleccionamos la medida que vamos a utilizar para ver el parecido entre
individuos con distintas distancias dependiendo si la variable es binaria, frecuencia
o de intervalo. La elección inicial del conjunto de medidas que describan a los
elementos a agrupar es fundamental para establecer los posibles clusters. Las
medidas de distancia o similaridad que utilizamos en la aglomeración se deben
seleccionar dependiendo del tipo de datos. SPSS dispone de las siguientes medidas:
• Intervalo (Opción por defecto). Las opciones disponibles son: Distancia euclídea
(No es una distancia invariante por cambios de escala), Distancia euclídea al
cuadrado, Coseno, Correlación de Pearson, Chebychev, Bloque, Minkowski y
Personalizada.
• Recuentos. Las opciones disponibles son: Medida de chi-cuadrado (Medida por
defecto) y Medida de phi-cuadrado.
• Binaria. Las opciones disponibles son: Distancia euclídea, Distancia euclídea al
cuadrado, Diferencia de tamaño, Diferencia de configuración, Varianza, Dispersión,
Forma, Concordancia simple, Correlación phi de 4 puntos, Lambda, D de Anderberg,
Dice, Hamann, Jaccard, Kulczynski 1, Kulczynski 2, Lance y Williams, Ochiai, Rogers
y Tanimoto, Russel y Rao, Sokal y Sneath 1, Sokal y Sneath 2, Sokal y Sneath 3, Sokal
y Sneath 4, Sokal y Sneath 5, Y de Yule y Q de Yule.
Transformar valores. La mayoría de los métodos clúster con muy sensibles al
hecho de que las variables no estén todas medidas en las mismas unidades y que la
variabilidad sea muy diferente. Si queremos que todas las variables tengan la misma
importancia en el análisis, podemos estandarizar los datos. Mediante esta opción se
pueden estandarizar los valores de los datos, para los casos o las variables, antes de
calcular las similaridades (no está disponible para datos binarios). Los métodos
disponibles de estandarización son:
• Puntuaciones Z . Estandarizados a puntuaciones Z, con media 0 y desviación típica
1
• Rango -1 a 1. Cada valor del elemento que se tipifica se divide por el rango de los
valores
• Rango 0 a 1. Sustrae el valor mínimo de cada elemento que se tipifica y lo divide por
el rango
• Magnitud máxima de 1. Divide cada valor del elemento que se tipifica por el
máximo de los valores
• Media de 1. Divide cada valor del elemento que se tipifica por la media de los valores
• Desviación típica 1. Divide cada valor de la variable o caso por la desviación típica.
Se puede escoger el modo de realizar la tipificación. Las opciones son Por
variable o Por caso.
Transformar medidas. Mediante esta opción se pueden transformar los valores
generados por la medida de distancia. Se aplican después de calcular la medida de
distancia. Las opciones disponibles son: Valores absolutos, Cambiar el signo y
Cambiar la escala al rango 0–1.
En nuestro ejemplo, dado que las variables en el análisis son variables de escala que
se miden en unidades diferentes, la elección de la medida de la distancia, la medida
de Intervalo (Distancia euclídea al cuadrado) y la normalización parece
apropiado.
Elegimos como método de clúster Vecino más próximo, este método es apropiado
para usar cuando se desea examinar los grados de similitud pero es pobre en la
construcción de distintos grupos. Por lo tanto, después de examinar los resultados
con este método deberíamos realizar de nuevo el estudio con un método distinto del
clúster.
En la ventana de la figura anterior seleccionar como Medida: Intervalo (Distancia
euclídea al cuadrado), como Método de conglomeración: Vecino más próximo y
seleccionar Puntuaciones Z en Transformar valores, Estandarizar:
Pulsar Continuar y en la caja de diálogo del Análisis de conglomerados
jerárquicos pulsar Gráficos…

Dendrograma. Es una representación gráfica en forma de árbol, en el que los


clusters están representados mediante trazos verticales (horizontales) y las etapas
de fusión mediante trazos horizontales (verticales). La separación entre las etapas
de fusión es proporcional a la distancia a la que están los grupos que se funden en
esa etapa. SPSS representa las distancias entre grupos rescaladas, por tanto son
difíciles de interpretar. Los dendrogramas pueden emplearse para evaluar la
cohesión de los conglomerados que se han formado y proporcionar información
sobre el número adecuado de conglomerados que deben conservarse.
Témpanos. Muestra un diagrama de témpanos, que incluye todos los
conglomerados o un rango especificado de conglomerados. Los diagramas de
témpanos muestran información sobre cómo se combinan los casos en los
conglomerados, en cada iteración del análisis. La orientación permite seleccionar un
diagrama vertical u horizontal.
Seleccionar Dendrograma y
en Témpanos seleccionar Ninguna. Pulsar Continuar y Aceptar. Se obtienen las
siguientes salidas
El dendrograma es un resumen gráfico de la solución de clúster. Los casos (marcas
de coche) se encuentran a lo largo del eje vertical izquierdo. El eje horizontal
muestra la distancia entre los grupos cuando se unieron (de 0 a 25).

Analizar el árbol de clasificación para determinar el número de grupos es un proceso


subjetivo. En general, se comienza por buscar “huecos” entre uniones a lo largo del
eje horizontal. De derecha a izquierda hay un hueco entre 20 y 25, que divide los
coches en dos grupos:

• Un grupo está formado por los modelos: Accord (8), Camry (11), Malibu (2), Grand
Am (9), Impala (3), Taurus (5), Mustang(4) y
• el otro grupo está formado por los modelos: Focus (6), Civic (7), Cavalier (1) y
Corolla (10).

Hay otro hueco aproximadamente 15 y 20 que sugiere 5 clusters (8, 11); (2,9); (3,
5); (4); (6, 7, 1, 10).

Entre 10 y 15 hay otro hueco que sugiere 6 clusters (8, 11); (2,9); (3, 5); (4); (6, 7,
1); (10).

El Historial de conglomeración es una tabla que muestra un resumen numérico de


la solución del método clúster utilizado. El Historial muestra los casos o
conglomerados combinados en cada etapa, las distancias entre los casos o los
conglomerados que se combinan (Coeficientes), así como el último nivel del proceso
de conglomeración en el que cada caso (o variable) se unió a su conglomerado
correspondiente. Cuando se combinan dos clusters, SPSS asigna al nuevo clúster la
etiqueta menor entre las que tienen los clusters que se combinan.

En nuestro ejemplo, en la primera etapa se unen los casos 8 y 11 (Accord (8), Camry
(11)) porque son los que tienen la distancia más pequeña (1.260). El grupo creado
por 8 y 11 aparece de nuevo en la etapa 7 donde se une al clúster 2 (formado en la
etapa 3). Por lo tanto en esta etapa se unen los grupos creados en las etapas 1 y 3 y
el grupo resultante formado por 8, 11, 2 y 9 aparece en la siguiente etapa la 8 .

Si hay muchos casos la tabla es bastante larga, pero suele ser más fácil de estudiar la
columna de coeficientes para distinguir grandes distancias que analizar el
dendrograma. Cuando se observa un salto inesperado en el coeficiente de distancia,
la solución antes de ese hueco indica una buena elección de conglomerados .

Las mayores diferencias en la columna de los coeficientes se producen entre las


etapas 5 y 6, lo que indica una solución de 6-clúster ((8, 11); (2,9); (3, 5); (4); (6, 7,
1); (10)) y entre las etapas 9 y 10, lo que indica una solución de 2-clúster. Estos son
los mismos que los resultados del dendrograma.

En la caja de diálogo del Análisis de conglomerados jerárquicos pulsar Estadísticos…

Matriz de distancias. Proporciona las distancias o similaridades entre los


elementos.
Conglomerado de pertenencia. Muestra el conglomerado al cual se asigna cada
caso en una o varias etapas de la combinación de los conglomerados. Las opciones
disponibles son: Solución única y Rango de soluciones.
En nuestro estudio elegimos Historial de conglomeración, Matriz de distancias y
en Conglomerado de pertenencia la opción Rango de soluciones (Número mínimo
de conglomerados 2 y número máximo 6).
Esta tabla muestra los
casos que pertenecen a cada clúster. Por ejemplo, si la solución son dos clusters, los
casos Cavalier, Focus, Civic y Corolla forman el clúster 1 y los demás casos forman el
clúster 2.

Esta tabla muestra la Matriz de distancias que proporciona las similaridades entre
los casos

El programa permite guardar conglomerados de pertenencia, estas variables se


pueden utilizar en análisis posteriores para explorar otras diferencias entre los
grupos. Para ello en la caja de diálogo del Análisis de conglomerados
jerárquicos pulsar Guardar…
Este cuadro de diálogo presenta las siguientes opciones:

• Ninguna (opción por defecto) no guarda los conglomerados de pertenencia


• Solución única: Guarda un número determinado de conglomerados de pertenencia
• Rango de soluciones: Guarda un rango de soluciones de conglomerados de
pertenencia.
En este estudio no hemos podido obtener unas conclusiones sólidas sobre la
agrupación de los automóviles de mayor venta en función de sus precios, fabricante,
modelo y propiedades físicas. Puede deberse a que hemos utilizado como método
de clúster el Vecino más próximo que, aunque es aconsejable para examinar los
grados de similitud es pobre en la construcción de los distintos grupos. Por ello,
debemos volver a realizar de nuevo el análisis utilizando otro método de
conglomerado.
Supuesto práctico 2
Realizar el supuesto práctico anterior anterior utilizando como Método de
conglomerado, el Vecino más lejano.
Para ejecutar un análisis de conglomerados con vinculación completa (Vecino más
lejano). En la caja de diálogo de conglomerados jerárquicos pulsar Método…

En la ventana seleccionar como Método de conglomeración: Vecino más lejano y


seleccionar Puntuaciones Z . Pulsar Continuar.
En la ventana de diálogo de Análisis de conglomerados jerárquico,
seleccionar Gráficos. Y dentro de esta opción: seleccionarDendrograma y
en Tempanos: Ninguna. Pulsar Continuar y Aceptar
En las primeras etapas, el Historial de conglomeración para la solución de
vinculación completa (vecino más lejano) es similar a la solución de vinculación
única (vecino más próximo). En cambio en las etapas finales los historiales de
conglomeración son muy diferentes. Mediante el método de conglomeración del
vecino más lejano se realiza una clasificación fuerte de dos o tres grupos .

La primera gran diferencia es entre las etapas 5 y 6 (6 clusters), la segunda entre 8


y 9 (3 clusters) y entre 9 y 10 (2 clusters).

La decisión de esta clasificación se refleja en el dendrograma.

• La división inicial del árbol forma dos grupos, (8, 11, 1, 6, 7, 10) y (2, 9, 3, 5, 4). El
clúster primero contiene los automóviles más pequeños y el clúster segundo
contiene los coches más grandes.
• El grupo de coches más pequeños se puede dividir en dos subgrupos, uno de ellos
formado por los coches más pequeños y más baratos. Así la división siguiente en 3
clusters: (Accord (8), Camry (11), Cavalier (1)), (Focus (6), Civic (7), Corolla (10)),
estos tres coches son más pequeños y más baratos que los tres anteriores) y (Malibu
(2), Gran Am (9), Impala (3), Taurus (5), Mustang (4)).
Resumen
La solución de la vinculación completa (vecino más lejano) es satisfactoria debido a
que sus grupos son diferentes, mientras que la solución del vecino más cercano es
menos concluyente. Usando como Método de conglomeración la vinculación
completa (Vecino más lejano), se puede determinar la competencia que hay entre
los vehículos en la fase de diseño mediante la introducción de sus especificaciones
como nuevos casos en el conjunto de datos y volver a ejecutar el análisis.

A continuación vamos a mostrar la Matriz de distancias y los conglomerados de


pertenencia, para ello en la caja de diálogo de Conglomerados
jerárquicos pulsar Estadísticos… y realizar la siguiente selección
Pulsar Continuar y Aceptar

Supuesto práctico 3
Una compañía de telecomunicaciones realiza un estudio con el fin de reducir el
abandono de sus clientes. Para ello dispone de un archivo de datos, donde cada caso
corresponde a un cliente distinto del que registra diversa información demográfica
y del uso del servicio. El objetivo es segmentar su base de clientes por patrones de
uso del servicio. Si los clientes se pueden clasificar por el uso, la empresa puede
ofrecer paquetes más atractivos para sus clientes. Las variables que indican el uso y
no uso de los servicios están contenidas en el archivo Telecomunicaciones1.sav.
El archivo de datos telecomunicaciones1.sav contiene 1000 datos y está formado
por las siguientes variables: región, permanencia, edad, estado_civil, dirección,
ingresos_familiares, nivel_educativo, empleo, género, n-pers_hogar,
llamadas_gratuitas, alquiler_equipo, tarjeta_llamada, inalámbrico,
larga_distancia_mes, llamadas_gratuitas_mes, equipo_mes, tarjeta_mes,
inalámbrico_mes, líneas_múltiples, mensaje_voz, servicio_busca, internet,
identificador_llamada, desvío_llamadas, llamada_a_tres, facturación_electrónica.
Utilizar el procedimiento Análisis de conglomerados jerárquico para estudiar las
relaciones entre los distintos servicios.
Para ejecutar el análisis de conglomerados, elija en los menús: Analizar/
Clasificar/Conglomerados Jerárquicos …
Pulsar Restablecer para restaurar la configuración por defecto.
Seleccionar para Variables: Servicio de llamadas gratuitas, Alquiler de equipo,
Servicio de tarjeta de llamada, Servicio inalámbrico, Líneas múltiples, mensajes de
voz, servicio de busca, internet, Identificador de llamadas, llamadas en espera,
Desvío de llamadas, llamadas a tres, Facturación electrónica
Seleccionar Variables en Conglomerar

Pulsar Gráficos…. Seleccionar Dendrograma y en Témpanos seleccionar Ninguna

Pulsar Continuar y en el cuadro de diálogo Análisis de conglomerados


jerárquico, en Método de conglomeración seleccionar Vinculación inter-
grupos; en Medida seleccionar Binaria y dentro de Binaria, elegir Concordancia
simple. Dado que las variables en el análisis son indicadores de si un cliente tiene
un servicio, se debe elegir entre las medidas binarias.
Pulsar Continuar y Aceptar

En las medidas binarias, la columna de los coeficientes informa de las medidas de


similitud, por lo tanto, los valores de este coeficiente van disminuyendo en cada
etapa del análisis. Es difícil interpretar los resultados, por lo que recurrimos al
Dendrograma.
El dendrograma muestra que los patrones de uso de Líneas múltiples y Servicio
de tarjeta de llamadas son distintos de los otros servicios. Estos otros se agrupan
en tres grupos. Un grupo incluye inalámbrico, servicio_busca y mensaje_voz.
Otro incluye alquiler_equipo, internet, y facturación_electrónica. El último
grupo contiene las
variables llamadas_gratuitas,llamadas_espera, identificador_llamada, desvío_l
lamadas y llamada_a_tres. El grupo servicio inalámbrico está más cerca del
grupo de Internet que el grupo LlamEsp.
Supuesto práctico 4
Realizar de nuevo el estudio con la medida de distancia de Jaccard y comparar los
resultados.
Para ejecutar un análisis de conglomerados con la medida de distancia de Jaccard,
en el cuadro de diálogo de Análisis de Conglomerados Jerárquicos, pulsar Método y
en la ventana correspondiente seleccionar Jaccard como medida binaria.

Pulsar Continuar y Aceptar en el cuadro de diálogo Análisis de conglomerados


jerárquico.
Utilizando la medida de Jaccard, los tres grupos básicos son los mismos, pero el
grupo servicio inalámbrico está más cerca del grupo LlamEsp que el
grupo Internet.

La diferencia entre la simple adaptación y las medidas de Jaccard es que la medida


Jaccard no considera dos servicios similares si una persona no está suscrita. Es decir,
casación simple considera que los servicios inalámbricos y de Internet son similares
cuando un cliente esté en ambos o en ninguno, mientras que Jaccard considera que
son similares sólo cuando un cliente tiene dos servicios. Esto provoca una diferencia
en las soluciones de clúster porque hay muchos clientes que no tienen servicios
inalámbricos o Internet. Por lo tanto, estos grupos son más similares en la solución
de casación simple que la solución de Jaccard. La medida que se utiliza depende de
la definición de “similares” que se aplica a la situación.

Análisis clúster de k-medias


Análisis clúster de K-medias es una herramienta diseñada para asignar los casos a
un número fijo de grupos, cuyas características no se conocen, pero se basan en un
conjunto de variables que deben ser cuantitativas. Es muy útil cuando se quiere
clasificar un gran número de casos. Es un método de agrupación de casos que se
basa en las distancias existentes entre ellos en un conjunto de variables
cuantitativas. Este método de aglomeración no permite agrupar variables. El
objetivo de optimalidad que se persigue es “maximizar la homogeneidad dentro de
los grupos.”

Es el método que se usa más habitualmente, es fácil de programar y da resultados


razonables. Tiene por objetivo separar las observaciones en K clúster, de manera
que cada dato pertenezca a un grupo y sólo a uno. El algoritmo busca con un método
iterativo:

• Los centroides (medias, medianas,… ) de los K clusters


• Asigna cada individuo a un clúster.
El algoritmo requiere que se especifique el número de conglomerados, también
se puede especificar los centros iniciales de los clusters si conoce de antemano dicha
información.
En este método, la medida de distancia o de similaridad entre los casos se calcula
utilizando la distancia euclídea. Es muy importante el tipo de escala de las
variables, si las variables tienen diferentes escalas (por ejemplo, una variable se
expresa en dólares y otra en años), los resultados podrían ser equívocos. En estos
casos, se debería considerar la estandarización de las variables antes de realizar
el análisis de conglomerados de k-medias.

Este procedimiento supone que se ha seleccionado el número apropiado de


conglomerados y que se han incluido todas las variables relevantes. Si se ha
seleccionado un número inapropiado de conglomerados o se han omitido variables
relevantes, los resultados podrían ser equívocos.

Existen varias formas de implementarlo pero todas ellas siguen, básicamente, los
siguientes pasos:

• Paso 1. Se toman al azar k clusters iniciales y se calculan los centroides (medias) de


los clusters
• Paso 2. Se calcula la distancia euclídea de cada observación a los centroides de los
clusters y se reasigna cada observación al grupo más próximo formando los nuevos
clusters que se toman en lugar de los primeros como una mejor aproximación de los
mismos
• Paso 3. Se calculan los centroides de los nuevos clusters
• Paso4. Se repiten los pasos 2) y 3) hasta que se satisfaga un criterio de parada como,
por ejemplo, no se produzca ninguna reasignación, es decir, los clusters obtenidos
en dos iteraciones consecutivas son los mismos.

El método suele ser muy sensible a la solución inicial dada por lo que es conveniente
utilizar una que sea buena. Una forma de construirla es mediante una clasificación
obtenida por un algoritmo jerárquico.

Como aclaración, vamos a realizar el procedimiento para el caso de dos variables


X1 y X2 y cuatro elementos A, B, C. D. Los datos son los siguientes:

Se quiere agrupar estas observaciones en dos clusters (k = 2)


Paso 1. De forma arbitraria se agrupan las observaciones en dos clusters (AB) y (CD)
y se calculan los centroides de cada clúster

Paso 2. Calculamos la distancia euclídea de cada observación a los centroides de los


clusters y reasignamos cada una de estas observaciones al clúster que esté más
próximo
Como A está más próximo al clúster (AB) que al clúster (CD), no se reasigna

Como B está más próximo al clúster (CD) que al clúster (AB), se reasigna al
clúster (CD) formando el clúster (BCD).

A continuación se calculan los centroides de los nuevos clusters

Paso 3. Se repite el paso 2 calculando las distancias de cada observación a los


centroides de los nuevos clusters para ver si se producen cambios de nuevas
reasignaciones

Como no se producen cambios en las ubicaciones de los clusters, la solución para


k=2 clusters es: Clúster 1: (A) y Clúster 2: (BCD).
Existe la posibilidad de utilizar esta técnica de manera exploratoria, clasificando los
casos e iterando para encontrar la ubicación de los centroides, o sólo como técnica
de clasificación, clasificando los casos a partir de centroides conocidos. Cuando se
utiliza como técnica exploratoria, es habitual que se desconozca el número idóneo
de conglomerados, (como el ejemplo numérico que hemos hecho), por lo que es
conveniente repetir el análisis con distinto número de conglomerados y comparar
las soluciones obtenidas; en estos casos también se puede utilizar el método análisis
de conglomerados jerárquico con una submuestra de casos.

Por último hay que interpretar la clasificación obtenida, ello requiere, en primer
lugar, un conocimiento suficiente del problema analizado. Hay que estar abierto a la
posibilidad de que no todos los grupos obtenidos tienen por qué ser significativos.
Algunas ideas que pueden ser útiles en la interpretación de los resultados son las
siguientes:

• Realizar ANOVAS y MANOVAS para ver qué grupos son significativamente distintos
y en qué variables lo son.
• Realizar Análisis Discriminante.
• Realizar un Análisis Factorial o de Componentes Principales para representar
gráficamente los grupos obtenidos y observar las diferencias existentes entre ellos.
• Calcular perfiles medios por grupos y compararlos.
Conviene hacer notar, finalmente, que es una técnica eminentemente exploratoria
cuya finalidad es sugerir ideas al analista a la hora de elaborar hipótesis y modelos
que expliquen el comportamiento de las variables analizadas identificando grupos
homogéneos de objetos. Los resultados del análisis deberían tomarse como punto
de partida en la elaboración de teorías que expliquen dicho comportamiento

Un buen análisis de clúster es:

• Eficiente. Utiliza el menor número de grupos posibles.


• Efectivo. Captura todas las agrupaciones estadísticamente y comercialmente
importante. Por ejemplo, un clúster con cinco clientes puede ser estadísticamente
diferente, pero no es muy rentable.
Supuesto práctico 5
Utilizamos de nuevo el archivo de datos ventas_vehículos.sav que contiene
estimaciones de ventas, listas de precios y especificaciones físicas de varias marcas
y modelos de vehículos. Se desea hacer un estudio de mercado para poder
determinar las posibles competencias para sus vehículos, para ello agrupamos las
marcas de los coches según los datos disponibles, hábitos de consumo, sexo, edad,
nivel de ingresos, etc. de los clientes. Las empresas de coches adaptan sus estrategias
de desarrollo de productos y de marketing en función de cada grupo de
consumidores para aumentar las ventas y el nivel de fidelidad a la marca.
El archivo de datos ventas_vehículos.sav contiene 157 datos y está formado por
las siguientes variables:
Variables tipo cadena: marca (Fabricante); modelo
Variables tipo numérico: ventas (en miles); reventa (Valor de reventa en 4
años); tipo (Tipo de vehículo: Valores: {0, Automóvil; 1, Camión}); precio (en
miles); motor (Tamaño del motor); CV (Caballos); pisada (Base de
neumáticos); ancho (Anchura); largo(Longitud); peso_neto (Peso
neto); depósito (Capacidad de combustible); mpg (Consumo).

Para obtener el análisis de conglomerados de K-medias, elegir en los menús:

Analizar/Clasificar/ conglomerados de K-medias.

La lista de variables del archivo de datos ofrece un listado con todas las variables del
archivo (numéricas y de cadena), pero las variables de cadena sólo pueden utilizarse
para etiquetar casos.
Para obtener un análisis de conglomerados de K medias:
• Seleccionar las variables numéricas que se desea utilizar para diferenciar a los
sujetos y formar los conglomerados, y trasladarlas a la lista Variables:
• Opcionalmente, seleccionar una variable para identificar los casos en las tablas de
resultados y en los gráficos y trasladarla a la lista Etiquetar casos mediante.
Nº de conglomerados. En este cuadro de texto se encuentra seleccionada por
defecto la solución de dos conglomerados. Para solicitar un número mayor de
conglomerados, introducir el número deseado en el cuadro.
Método. Las opciones de este apartado permiten indicar si los centros de los
conglomerados deben o no ser estimados iterativamente:
• Iterar y clasificar. El procedimiento se encarga de estimar
los centros iterativamente y de clasificar a los sujetos con respecto a
los centros estimados.
• Sólo clasificar. Se clasifica a los sujetos según los centros iniciales (sin actualizar sus
valores iterativamente). Al marcar esta opción se desactiva el botón Iterar… ,
impidiendo esto el acceso a las especificaciones del proceso de iteración. Esta opción
suele utilizarse junto con el botón Centros.
Centros de los conglomerados. Muestra dos opciones:
• Leer iniciales de. Permite al usuario decidir qué valor deben tomar los centros de
los conglomerados. El botón Archivo de datos externo sirve para indicar el
nombre y ruta del archivo que contiene los valores de los centros. El nombre del
archivo seleccionado se muestra junto al botón Conjunto de datos abierto. Lo
habitual es designar un archivo resultante de una ejecución previa (guardado con la
opción Escribir finales en) y en conjunción con la opción Sólo clasificar del
apartado Método.
• Escribir finales en. Guarda los centros de los conglomerados finales en un archivo
de datos externo. Este archivo puede utilizarse posteriormente para la clasificación
de nuevos casos. El botón Archivo de datos permite asignar nombre y ruta al
archivo de destino. El nombre del archivo seleccionado se muestra junto al
botón Nuevo conjunto de datos.

Los archivos de datos utilizados por estas dos opciones contienen variables con
nombres especiales reconocidas automáticamente por el sistema. No es
recomendable generar libremente la estructura de estos archivos; es preferible
dejar que sea el propio procedimiento el que los genere.

El archivo ventas_vehículos.sav contiene 157 datos Para hacer más comprensible


la representación gráfica de los resultados, vamos a comenzar utilizando
únicamente el 20 % de los casos de la muestra.
Para ello, en el menú principal seleccionar: Datos/Seleccionar casos
Seleccionar la opción Muestra aleatoria de casos y pulsar Ejemplo…

En el apartado Tamaño de la muestra, introducir el valor 20 en recuadro de texto de


la opción Aproximadamente p % de todos los casos. Pulsar el
botón Continuar y Aceptar.

Aceptando estas selecciones, el archivo de datos queda filtrado, dejando disponibles


sólo 36 de los 157 casos existentes.

Vamos a comenzar representando la distancia existente entre los casos en dos


variables de interés, hemos elegido la variable peso y la variable Tamaño del
motor. Para ello, seleccionar en el menú principal Gráficos/Generador de
gráficos…
En la ventana Galería, en Elija entre , seleccionar Dispersión/…

Arrastrar el gráfico de Dispersión simple a la ventana de presentación preliminar


del gráfico
Desplazar la variable peso (peso total del vehículo en kg) al eje abscisas y
la Tamaño del motor al eje de ordenadas

Pulsar Aceptar y se muestra el siguiente gráfico


En el diagrama de dispersión están representados los valores Peso y Tamaño
motor de los 36 casos seleccionados. Se puede apreciar que existe un grupo de
vehículos relativamente numeroso con peso y tamaño de motor reducidos y otro
grupo más disperso de vehículos de mayor peso y mayor motor.
Pulsar dos veces en el gráfico y en la ventana Editor de
gráficos seleccionar Elementos/Mostrar etiquetas de datos…

Se han identificado, mediante el número de caso, los dos vehículos aparentemente


más alejados entre sí (el caso 79 y el caso 131). La nube de puntos, por tanto, incita
a pensar que existen al menos dos grupos naturales de casos.

Para clasificar los casos en dos grupos:

Seleccionar en el cuadro de diálogo de Análisis de conglomerados de K-medias la


opción Sólo Clasificar. Trasladar las variables motor y peso a la lista Variables.
Aceptando estas selecciones, el Visor ofrece los resultados que muestran las tablas
siguientes

Esta tabla contiene los centros iniciales de los clusters, es decir, los valores que
corresponden, en las dos variables de clasificación utilizadas, a los dos casos que han
sido elegidos como centros respectivos de los dos conglomerados solicitados.
Seleccionando de nuevo, en la ventana del Editor Elementos/Mostrar etiquetas
de datos… y en Propiedades pasar Peso netoy Tamaño de motor a la ventana
de Mostrado:

Pulsar Aplicar
Se comprueba que los casos son el 131 (Conglomerado 1) y el 79 (Conglomerado 2),
los mismos que han sido identificados en el diagrama de dispersión.
Una vez seleccionados los centros de los conglomerados, cada caso es asignado al
conglomerado de cuyo centro se encuentra más próximo y comienza un proceso de
ubicación iterativa de los centros. En la primera iteración se reasignan los casos por
su distancia al nuevo centro y, tras la reasignación, se vuelve a actualizar el valor
del centro. En la siguiente iteración se vuelven a reasignar los casos y a actualizar el
valor del centro. Etc.

Esta tabla muestra los centros de los


conglomerados finales es decir, los centros de los conglomerados tras el proceso de
actualización iterativa. Comparando los centros finales (tras la iteración) de esta
tabla con los centros iniciales (antes de la iteración) se puede apreciar con claridad
un desplazamiento del centro del conglomerado 1 hacia la parte superior del plano
definido por las dos variables de clasificación y un desplazamiento del centro del
conglomerado 2 hacia la parte inferior.
Esta tabla es de gran utilidad para interpretar la constitución de los conglomerados
pues resume los valores centrales de cada conglomerado en las variables de interés.
La interpretación de los resultados de nuestro ejemplo es simple: el primer
conglomerado está constituido por vehículos de gran tamaño de motor y
mucho peso, mientras que segundo conglomerado está constituido por los
vehículos de tamaño de motor reducido y poco peso.

Por último, esta tabla informa sobre el Número de


casos asignado a cada conglomerado. En nuestro ejemplo, los tamaños de los
conglomerados son bastantes diferentes.
Para mostrar el Historial de iteraciones seleccionar en cuadro de diálogo de Análisis
de conglomerados de K-medias la opción Iterar y Clasificar
El subcuadro de diálogo Iterar permite controlar
algunos detalles relacionados con el proceso de iteración utilizado para el cálculo de
los centroides finales. Se puede determinar el número máximo de iteraciones o bien
fijar un criterio de convergencia mayor que cero y menor que uno.
Nº máximo de iteraciones. Limita el número de iteraciones que el algoritmo k-
medias puede llevar a cabo. El proceso de iteración se detiene después del número
de iteraciones especificado, incluso aunque no se haya satisfecho el criterio de
convergencia. Este número debe estar entre el 1 y el 999.
Criterio de convergencia. Permite modificar el criterio de convergencia utilizado
por SPSS para detener el proceso de iteración, determina cuándo cesa la iteración.
El valor de este criterio es, por defecto, cero, pero puede cambiarse introduciendo
un valor diferente en el cuadro de texto. El valor introducido representa la
proporción de la distancia mínima existente entre los centros iniciales de los
conglomerados. Por tratarse de una proporción, este valor debe ser mayor o igual
que cero y menor o igual que 1. Por ejemplo, si se introduce un valor igual a 0,02, el
proceso de iteración cesará cuando entre una iteración y la siguiente no se consiga
desplazar ninguno de los centros una distancia superior al dos por ciento de la
menor de las distancias existentes entre cualquiera de los centros iniciales. La tabla
del historial de las iteraciones muestra, en una nota a pie de tabla, el desplazamiento
obtenido en la última iteración (se haya alcanzado o no el criterio de convergencia).
Usar medias actualizadas. Permite solicitar la actualización de los centros de los
conglomerados (recalcula los centroides con cada individuo asignado al grupo).
Cuando se asigna un caso a uno de los conglomerados se calcula de nuevo el valor
del centro del conglomerado. Cuando se selecciona la actualización de los centros de
los conglomerados, el orden de los casos en el archivo de datos puede afectar a la
solución obtenida.

Si no se selecciona esta opción, los nuevos centros de los conglomerados finales se


calcularán después de la clasificación de todos los casos.

Dejamos el número de iteraciones máximas que viene por defecto, 10,


seleccionamos Usar medias actualizadas y pulsamos Continuar y Aceptar
Comprobamos que no se alcanza la convergencia por lo
que aumentamos las Iteraciones máximas a 20 y se muestra el siguiente Historial
de iteraciones

Esta tabla resume el historial de iteraciones (18 en nuestro ejemplo) con indicación
del cambio (desplazamiento) experimentado por cada centro en cada iteración.
Puede observarse que, conforme avanzan las iteraciones, el desplazamiento de
los centros se va haciendo más y más pequeño, hasta llegar a la 18 iteración, en la
que ya no existe desplazamiento alguno.
El proceso de iteración se detiene, por defecto, cuando se alcanzan 10 iteraciones o
cuando de una iteración a otra no se produce ningún cambio en la ubicación de
los centroides (cambio = 0). En nuestro ejemplo, el proceso ha finalizado antes de
alcanzar 18 iteraciones porque en la 19 ya no se produce ningún cambio.
Supuesto práctico 6
Analicemos de nuevo el archivo de datos telecomunicaciones1.sav sobre una
compañía de telecomunicaciones que realiza un estudio con el fin de reducir el
abandono de sus clientes.
El archivo de datos telecomunicaciones1.sav. contiene 1000 datos y está formado
por las siguientes variables: región, permanencia, edad, estado_civil, dirección,
ingresos_familiares, nivel_educativo, empleo, género, n-pers_hogar,
llamadas_gratuitas, alquiler_equipo, tarjeta_llamada, inalámbrico,
larga_distancia_mes, llamadas_gratuitas_mes, equipo_mes, tarjeta_mes,
inalámbrico_mes, líneas_múltiples, mensaje_voz, servicio_busca, internet,
identificador_llamada, desvío_llamadas, llamada_a_tres, facturación_electrónica.

Es conveniente unificar la escala de las variables con las que vamos a trabajar, por
ello vamos a transformar algunas de ellas tomando en primer lugar logaritmo
neperiano y después tipificando.

Para realizar el logaritmo neperiano, de la variable larga_distancia-mes,


seleccionamos en el menú principal Transformar/Calcular Variable…

En Grupo de
funciones elegir Aritméticas, en Funciones y variables especiales elegir Ln, pulsar la
flecha y en la ventana Expresión numérica pasar la variable Larga_distancia_mes.
En Variable destino poner el nombre de la nueva variable ln_larga_distanca y
pulsar Aceptar.
En el Editor de datos se ha formado una nueva variable que contiene los logaritmos
neperianos de la variable larga_distancia_mes.
A continuación vamos a tipificar la variable creada, para ello, seleccionar en el menú
principal Analizar/Estadísticos descriptivos/Descriptivos…
Seleccionar la
variable ln_larga_distancia y elegir Guardar valores tipificados como
variables. En el editor de datos se ha formado una nueva
variable zln_larga_distancia que contiene los valores tipificados de la
variable ln_larga_distancia.
En el archivo de datos datos telecomunicaciones_1.sav:
• Transformar mediante logaritmo neperiano y tipificación las siguientes
variables: larga_distancia_mes, llamadas_gratuitas, equipos, tarjetas,
inalámbrico
• Transformar mediante tipificación las siguientes variables: lineas_múltiples,
mensaje_voz, servicio_busca, internet, identificador_llamada, llamada_espera,
desvio_llamadas, llamada_a_tres, facturación_electrónica.
El nuevo fichero de datos, lo llamamos datos telecomunicaciones_2.sav

En este nuevo fichero de datos. Se pide

• Utilizar el Análisis de conglomerados de K-medias para encontrar subconjuntos


de clientes “similares”.
• Guardar el conglomerado de pertenencia y la distancia desde centro del
conglomerado en nuevas variables (para 4 clusters).
• Realizar un Diagrama de cajas con las variables conglomerado de pertenencia y
la distancia desde centro. Interpretar esta representación
En primer lugar utilizamos Análisis de conglomerados de K-medias

Seleccionar las variables que se van a utilizar en el análisis de conglomerados, en


nuestro caso del archivo de datos telecomunicaciones_2.sav, seleccionar como
variables: zln_larga_distancia, zln_llamadas_gratuitas, zln_equipos,
zln_tarjetas, zln_inalámbrico, z_lineas_múltiples, z_mensaje_voz,
z_servicio_busca, z_internet, z_identificador_llamada, z_llamada_espera,
z_desvio_llamadas, z_llamada_a_tres, z_facturación_electrónica.
Especificar el Número de conglomerados. (Este número no debe ser inferior a 2 ni
superior al número de casos del archivo de datos.) Ponemos 3

El comando de análisis de conglomerados de k-medias es eficaz principalmente


porque no calcula las distancias entre todos los pares de casos, como hacen muchos
algoritmos de conglomeración, como el utilizado por el comando de conglomeración
jerárquica.
Pulsar Iterar… y poner 20 como número máximo de iteraciones

Pulsar Continuar y en la caja de diálogo de Análisis


de conglomerados K-medias pulsar Opciones. En esta ventana seleccionar,
en Estadísticos, Centro de conglomerados iniciales, tabla ANOVA, Información
de conglomerados para cada caso y en Valores perdidos elegir Excluir casos
según pareja. Hay muchos valores perdidos debido al hecho de que la mayoría de
los clientes no se suscriben a todos los servicios, así que excluir casos según pareja
maximiza la información que se puede obtener de los datos a costa de posiblemente
sesgar los resultados.
El cuadro de diálogo Opciones permite obtener algunos estadísticos y controlar el
tratamiento que se desea dar a los valores perdidos. Para acceder a las opciones:
Estadísticos. Las opciones de este apartado permiten seleccionar algunos
estadísticos adicionales como Centros de conglomerados iniciales, Tabla de
ANOVA e Información del conglomerado para cada caso.
Centros de conglomerados iniciales. Primera estimación de las medias de las
variables para cada uno de los conglomerados. Por defecto se selecciona entre los
datos un número de casos debidamente espaciados igual al número de
conglomerados. Los centros iniciales de los conglomerados se utilizan como criterio
para una primera clasificación y, a partir de ahí, se van actualizando. Muestra una
tabla con los casos que el procedimiento selecciona como centros iniciales de los
conglomerados. Esta opción se encuentra seleccionada por defecto.
Tabla de ANOVA. Muestra una tabla de análisis de varianza que incluye las pruebas
F invariantes para cada una de las variables incluidas en el análisis. Las pruebas F
son sólo descriptivas y las probabilidades resultantes no se deben interpretar. La
tabla de ANOVA no se mostrará si se asignan todos los casos a un único
conglomerado.
El análisis de varianza se obtiene tomando los grupos definidos por
los conglomerados como factor y cada una de las variables incluidas en el análisis
como variable dependiente. Una nota al pie de tabla informa de que los
estadísticos F sólo deben utilizarse con una finalidad descriptiva pues los casos no
se han asignado aleatoriamente a los conglomerados sino que se han asignado
intentando optimizar las diferencias entre los conglomerados. Además, los niveles
críticos asociados a los estadísticos F no se deben interpretar de la manera habitual
pues el procedimiento K-medias no aplica ningún tipo de corrección sobre la tasa de
error (es decir, sobre la probabilidad de cometer errores tipo I cuando se llevan a
cabo muchos contrastes).
Información del conglomerado para cada caso. Muestra un listado de todos los
casos utilizados en el análisis, indicando para cada caso, el conglomerado final al que
ha sido asignado y la distancia euclídea entre el caso y el centro del conglomerado
utilizado para clasificar el caso. También muestra la distancia euclídea entre los
centros de los conglomerados finales. Los casos se muestran en el mismo orden en
el que se encuentran en el archivo de datos.
Valores perdidos. Las opciones disponibles son: Excluir casos según
lista o Excluir casos según pareja.
Excluir casos según lista. Excluye los casos con valores perdidos en cualquiera de
las variables incluidas en el análisis (Opción por defecto).
Excluir casos según pareja. Asigna los casos a los conglomerados en función de las
distancias calculadas en todas las variables en las que no tengan valores perdidos.
Pulsar Continuar y Aceptar y se muestran las siguientes salidas
Muestra una tabla con los casos, debidamente espaciados, que el procedimiento ha
seleccionado como centros iniciales de los tres conglomerados.

El historial de iteraciones muestra el progreso del


proceso de agrupación en cada paso.

La convergencia se consigue debido al nulo o pequeño cambio en los centros de los


conglomerados. En la iteración 18 se ha conseguido que el máximo de coordenadas
absolutas para cualquier centro sea, 0. La distancia mínima entre los centros
iniciales es 6.611.

En las 13 primeras iteraciones, los centros de los conglomerados cambian bastante.

A partir de la iteración 14 se van estableciendo los centros y en las cuatro últimas


iteraciones son ajustes menores.

Si el algoritmo se detiene porque se ha alcanzado el número máximo de iteraciones,


es posible que se deba aumentar ese máximo, ya que la solución si no se aumenta
puede ser inestable.

Por ejemplo, si se hubiera dejado el número máximo de iteraciones en el 10, la


solución obtenida todavía estaría en un estado de flujo.

La tabla de ANOVA indica qué variables contribuyen más a la solución de clúster. Las
variables con valores de F grandes proporcionan la mayor separación entre las
agrupaciones. Las pruebas F sólo se deben utilizar con una finalidad descriptiva
puesto que los conglomerados han sido elegidos para maximizar las diferencias
entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos,
por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros
de los conglomerados son iguales.
Los centros de los conglomerados finales reflejan las características del caso típico
de cada clúster:

• Los clientes del conglomerado 1 tienden a ser grandes consumidores que compran
una gran cantidad de servicios.
• Los clientes del conglomerado 2 tienden a ser derrochadores moderados que
compran los servicios de “el que llama” como identificador de llamada, llamada en
espera, desvío de llamada,…
• Los clientes del conglomerado 3 tienden a gastar muy poco y no compran muchos
servicios.

Esta tabla muestra las distancias euclideas entre


los centros de los conglomerados finales. Mayores distancias entre los grupos se
corresponden con mayores diferencias entre ellos.

Los grupos 1 y 3 son los más diferentes, la distancia entre ellos es 4.863.

El grupo 2 es aproximadamente igual a los grupos 1 y 3.

Estas relaciones entre los grupos también se pueden intuir desde los centros de los
conglomerados finales, pero la interpretación es más complicada ya que el número
de variables es grande.
El tercer clúster es el que tiene el mayor número de casos
asignados (482), que desgraciadamente es el grupo menos rentable ya que como
hemos visto anteriormente es el grupo que gasta menos y compra menos servicios.
Tal vez sería conveniente hacer un cuarto clúster.
A continuación vamos a
• Guardar el conglomerado de pertenencia y la distancia desde centro del
conglomerado en nuevas variables (para 4 clusters)
• Realizar un Diagrama de cajas con las variables conglomerado de pertenencia y
la distancia desde centro. Interpretar esta representación
En primer lugar, vamos a guardar el conglomerado de pertenencia y la distancia
desde centro del conglomerado y para ello, en el cuadro de diálogo de Análisis de
conglomerados de K-medias, ponemos 4 en Número de clusters

Y pulsamos Guardar… y elegir Conglomerado de pertenencia y Distancia desde


centro del conglomerado

Mediante esta opción se guarda en el archivo de datos información de clasificación


para cada caso como nuevas variables para que puedan ser utilizadas en análisis
subsiguientes.

Conglomerado de pertenencia. Crea una nueva variable en el Editor de datos (con


nombre QCL_#) cuyos valores indican el conglomerado final al que pertenece cada
caso. Los valores de la nueva variable van desde 1 hasta el número de
conglomerados. Esta información es útil, por ejemplo, para construir un diagrama
de dispersión con marcas distintas para los casos pertenecientes a distintos
conglomerados, o para llevar a cabo un análisis discriminante con intención de
identificar la importancia relativa de cada variable en la diferenciación entre
conglomerados.
Distancia desde el centro del conglomerado. Crea una variable en el Editor de
datos (con nombre QCL_#) cuyos valores indican la distancia euclídea existente
entre cada caso y el centro del conglomerado al que ha sido asignado.
Pulsar Continuar y Aceptar. SPSS crea dos nuevas variables en el editor de datos:
Las variables QCL_1 (conglomerado de pertenencia) y QCL_2 (distancia desde
el centro del conglomerado).
Con el nuevo archivo de datos vamos a realizar el gráfico Diagrama de cajas
(boxplot). Para ello seleccionamos en el menú principal Gráficos/Generador de
gráficos… y en la salida correspondiente

Hacer clic en la ficha Galería, seleccionar Diagrama de caja de la lista de tipos de


gráficos ,
Arrastrar y soltar el icono Boxplot simple en la ventana superior.
Arrastrar y soltar la variable QCL_2 (distancia desde el centro del conglomerado) en
el eje y.
Arrastrar y soltar QCL_1 (conglomerado de pertenencia) sobre el eje x .
Pulsar Aceptar para crear el gráfico de caja .

Este gráfico nos ayuda a encontrar los valores extremos dentro de los grupos. Vemos
que en el grupo 2 hay una gran variabilidad, pero todas las distancias están dentro
de lo razonable.

Supuesto práctico 7
• Aplicar conglomerados de K-medias al caso de 4 clusters
• Analizar los resultados obtenidos con 4 clusters y compararlos con los obtenidos
para el caso de 3 clusters. ¿Qué solución piensas que es la mejor?
En las salidas del clúster de k-medias tenemos las siguientes tablas
Esta tabla muestra que un grupo importante se pierde en la solución de tres clusters.

Los miembros del clúster 1 (propensos a comprar por Internet, utilizar larga
distancia y líneas múltiples) y el clúster 2 (es un grupo muy poco consumidor).
Ambos clusters proceden en gran parte del grupo 3 en la solución de tres clusters
que era un grupo de clientes que gastaban muy poco y no compraban muchos
servicios. Por lo tanto, en la solución de tres clusters se perdería el clúster 1, cuyos
miembros son altamente propensos a comprar servicios relacionados con Internet,
esto los constituye como un grupo distinto y posiblemente rentable.

Los grupos 3 y 4 parecen corresponder a los grupos 1 y 2 de la solución de tres


clusters.

Los miembros del grupo 3 son grandes consumidores y los miembros del grupo 4
son propensos a comprar los servicios de identificador de llamadas, llamada en
espera, desvío de llamadas, llamadas a 3.

Las distancias entre los grupos no han cambiado en gran medida.

• Grupos 1 y 2 son los más similares, lo cual tiene sentido, ya que se combinaron
• Grupos 2 y 3 son los más disímiles, ya que representan el comportamiento de gastos
opuestos en la solución de tres clusters
• El grupo 4 es igualmente de similar a los otros grupos.

Casi el 25 % de los casos pertenecen al grupo recientemente creado de clientes “e-


servicios”, Clúster 1 con 236 casos, lo cual es muy significativo para sus beneficios.

Con el análisis de conglomerados de k-medias, en un inicio se agrupan los clientes


en tres grupos. Sin embargo, esta solución no fue muy satisfactoria, por lo que se
volvió a ejecutar el análisis con cuatro grupos, cuyos resultados fueron mejores. En
el el análisis de conglomerados con tres clusters un grupo “Internet” potencialmente
rentable se perdió.

Este ejemplo pone de relieve el carácter exploratorio del análisis de conglomerados,


ya que es imposible determinar el “mejor” número de grupos hasta que se haya
ejecutado el análisis y se hayan examinado las soluciones.

Análisis clúster en dos etapas


El procedimiento Análisis de conglomerados en dos fases es una herramienta de
exploración diseñada para descubrir las agrupaciones naturales (o conglomerados)
de un conjunto de datos que, de otra manera, no sería posible detectar. El algoritmo
que emplea este procedimiento incluye una serie de funciones que lo hacen
diferente de las técnicas de conglomeración tradicionales:
• Tratamiento de variables categóricas y continuas. Al suponer que las variables
son independientes, es posible aplicar una distribución normal multinomial
conjunta en las variables continuas y categóricas.
• Selección automática del número de conglomerados. Mediante la comparación
de los valores de un criterio de selección del modelo para diferentes soluciones de
conglomeración, el procedimiento puede determinar automáticamente el número
óptimo de conglomerados.
• Escalabilidad. Mediante la construcción de un árbol de características de
conglomerados (CF) que resume los registros, el algoritmo en dos fases puede
analizar archivos de datos de gran tamaño.
Datos. El procedimiento en dos etapas trabaja tanto con variables continuas como
categóricas. Los casos representan los objetos que se van a conglomerar y las
variables representan los atributos en los que se va a basar la conglomeración.
El árbol de características de conglomerados y la solución final pueden depender
del Orden de los casos. Para minimizar los efectos del orden estos deben ordenarse
aleatoriamente. También se pueden obtener varias soluciones distintas con los
casos ordenados en distintos órdenes aleatorios para comprobar la estabilidad de
una solución determinada. En situaciones en que esto resulta difícil debido a unos
tamaños de archivo demasiado grandes, se pueden sustituir varias ejecuciones por
una muestra de casos ordenados con distintos órdenes aleatorios.
Supuestos. La medida de la distancia de la verosimilitud supone que las variables
del modelo de conglomerados son independientes. Además, se supone que cada
variable continua tiene una distribución normal y que cada variable categórica tiene
una distribución multinomial.

Las comprobaciones empíricas internas indican que este procedimiento es bastante


robusto frente a las violaciones tanto del supuesto de independencia como de las
distribuciones, pero aún así es preciso tener en cuenta hasta qué punto se cumplen
estos supuestos.

Los procedimientos que se pueden utilizar para comprobar si se cumplen estos


supuesto son los siguientes:

• Correlaciones bivariadas para comprobar la independencia de dos variables


continuas.
• Tablas de contingencia para comprobar la independencia de dos variables
categóricas.
• El procedimiento de medias para comprobar la independencia entre una variable
continua y una variable categórica.
• El procedimiento de exploración para comprobar la normalidad de una variable
continua.
• La prueba de Chi-cuadrado para comprobar si una variable categórica sigue una
distribución multinomial.
Procedimiento de clúster en dos etapas
Está basado en un algoritmo que produce resultados óptimos si todas las variables
son independientes, las variables continuas están normalmente distribuidas y las
variables categóricas son multinomiales. Pero es un procedimiento que funciona
razonablemente bien en ausencia de estos supuestos.
La solución final depende del orden de entrada de los datos, para minimizar el efecto
deberíamos ordenar el fichero de forma aleatoria.

Algoritmo del procedimiento. Los dos pasos de este procedimiento se pueden


resumir como sigue:
• Primer paso: formación de preclúster de los casos originales. Estos son clusters de
los datos originales que se utilizarán en lugar de las filas del fichero original para
realizar los clusters jerárquicos en el segundo paso. Todos los casos pertenecientes
a un mismo preclúster se tratan como una entidad sencilla.

El procedimiento se inicia con la construcción de un árbol de características del


Clúster (CF). El árbol comienza colocando el primer caso en la raíz del árbol en un
nodo de hoja que contiene información de la variable sobre ese caso. Cada caso
sucesivamente se añade a continuación a un nodo existente o forma un nuevo nodo,
basado en la similaridad con los nodos existentes y utilizando medidas de distancias
como el criterio de similaridad. Un nodo que contiene varios casos contiene un
resumen de información sobre esos casos. Por lo tanto, el árbol CF proporciona un
resumen del archivo de datos.

• Segundo paso: Los nodos de las hojas del árbol CF se agrupan utilizando un
algoritmo de agrupamiento aglomerativo. El clúster se puede utilizar para producir
un rango de soluciones. Para determinar el número de clusters óptimo, cada una de
estas soluciones de clúster se compara utilizando el Criterio Bayesiano de Schwarz
(BIC) o el Criterio de Información de Akaike (AIC) como criterio de agrupamiento.

Supuesto práctico 8
Utilizamos de nuevo el archivo de datos ventas_vehículos.sav que contiene
estimaciones de ventas, listas de precios y especificaciones físicas hipotéticas de
varias marcas y modelos de vehículos.
El archivo de datos ventas_vehículos.sav está formado por las siguientes variables:
Variables tipo cadena: marca (Fabricante); modelo
Variables tipo numérico: ventas (en miles); reventa (Valor de reventa en 4
años); tipo (Tipo de vehículo: Valores: {0, Automóvil; 1, Camión}); precio (en
miles); motor (Tamaño del motor); CV (Caballos); pisada (Base de
neumáticos); ancho (Anchura); largo(Longitud); peso_neto (Peso
neto); depósito (Capacidad de combustible); mpg (Consumo).
Para obtener un análisis de conglomerados en dos etapas, seleccionar en el menú
principal: Analizar/Clasificar/Conglomerado de bietápico… y se muestra el
cuadro de diálogo del Análisis de conglomerados en dos fases
Medida de distancia. Especifica la medida de similaridad entre dos clusters
• Log-verosimilitud. La medida de la verosimilitud realiza una distribución de
probabilidad entre las variables. Las variables continuas se supone que tienen una
distribución normal, mientras que las variables categóricas se supone que son
multinomiales. Se supone que todas las variables son independientes. Esta medida
de distancia se debe utilizar en datos mixtos. La distancia entre los dos clusters
dependerá del decremento en el log-verosimilitud cuando ambas se combinan en un
único clúster.
• Euclídea. La medida euclídea es la distancia según una “línea recta” entre dos
conglomerados. Sólo se puede utilizar cuando todas las variables son
continuas.
Número de conglomerados. Esta opción permite especificar el número deseado de
clusters o dejar que el algoritmo seleccione ese número
• Determinar automáticamente. El procedimiento determinará automáticamente
el número “óptimo” de conglomerados, utilizando el criterio especificado
en Criterio de conglomeración. Criterio Bayesiano de Schwarz (BIC) o el Criterio
de información Akaike (AIC).
• Especificar número fijo. Permite fijar el número de conglomerados de la solución.
Debe ser un número entero positivo para especificar el número máximo de
conglomerados que el procedimiento debe tener en cuenta.
Recuento de variables continuas. Proporciona un resumen de las especificaciones
acerca de la tipificación de variables continuas realizadas en el cuadro de
diálogo Opciones.
Criterio de conglomeración. Mediante esta opción el algoritmo de conglomeración
determina el número de conglomerados. Se puede especificar tanto el criterio de
información bayesiano (BIC) como el criterio de información de Akaike (AIC).
En este supuesto práctico se selecciona para el campo Variables categóricas: La
variable tipo (Tipo de vehículo) y para el campo Variables
Continuas: precio; motor; CV; pisada; ancho; largo; peso_neto; depósito y mpg.
Se pulsa Opciones

Tratamiento de valores atípicos. Permite tratar los valores atípicos de manera


especial durante la formación de clúster si se llena el árbol de características de los
clusters (CF). Este árbol se considera lleno si no puede aceptar ningún caso más en
un nodo hoja y no hay ningún nodo hoja que se pueda dividir.
Realizar tratamiento de ruido:
• Si selecciona esta opción y el árbol CF se llena, se hará volver a crecer después de
colocar los casos existentes en hojas poco densas, en una hoja de “ruido”. Se
considera que una hoja es poco densa si contiene un número de casos inferior a un
determinado porcentaje de casos del máximo tamaño de hoja. Tras volver a hacer
crecer el árbol, los valores atípicos se colocarán en el árbol CF en caso de que sea
posible. Si no es así, se descartarán los valores atípicos.
• Si no selecciona esta opción y el árbol CF se llena, se hará volver a crecer utilizando
un umbral del cambio en distancia mayor. Tras la conglomeración final, los valores
que no se puedan asignar a un conglomerado se considerarán como valores atípicos.
Al conglomerado de valores atípicos se le asigna un número de identificación de –1
y no se incluirá en el recuento del número de conglomerados.
Asignación de memoria. Permite especificar la cantidad máxima de memoria en
megabytes (MB) que puede utilizar el algoritmo de conglomeración. Si el
procedimiento supera este máximo, utilizará el disco para almacenar la información
que no se pueda colocar en la memoria. Especificar un número mayor o igual que 4.
• Consultar con el administrador del sistema si desea conocer el valor máximo que
puede especificar en su sistema.
• Si este valor es demasiado bajo, es posible que el algoritmo no consiga obtener el
número correcto o deseado de conglomerados.
Tipificación de variables. El algoritmo de conglomeración trabaja con variables
continuas tipificadas. Todas las variables continuas que no estén tipificadas deben
dejarse como variables en la lista Para tipificar. Para ahorrar algún tiempo y
trabajo para el ordenador, se puede seleccionar todas las variables continuas que ya
haya tipificado como variables en la lista Asumidas como tipificadas.
Pulsar Avanzado>>

Criterios de ajuste del árbol CF. Los siguientes ajustes del algoritmo de
conglomeración se aplican específicamente al árbol de características de
conglomerados (CF) y deberán cambiarse con cuidado:
• Umbral del cambio en distancia inicial. Éste es el umbral inicial que se utiliza para
hacer crecer el árbol CF. Si se ha insertado una determinada hoja en el árbol CF que
produciría una densidad inferior al umbral, la hoja no se dividirá. Si la densidad
supera el umbral, se dividirá la hoja.
• Nº máximo de ramas (por nodo hoja). Número máximo de nodos filiales que
puede tener una hoja.
• Máxima profundidad de árbol. Número máximo de niveles que puede tener un
árbol CF.
• Máximo número posible de nodos. Indica el número máximo de nodos del árbol
CF que puede generar potencialmente el procedimiento, de acuerdo con la función
(bd+1 – 1) / (b – 1), donde b es el número máximo de ramas y d es la profundidad
máxima del árbol. Tener en cuenta que un árbol CF excesivamente grande puede
agotar los recursos del sistema y afectar negativamente al rendimiento del
procedimiento. Como mínimo, cada nodo requiere 16 bytes.
Actualización del modelo de conglomerados. Este grupo permite importar y
actualizar un modelo de conglomerados generado en un análisis anterior. El archivo
de entrada contiene el árbol CF en formato XML. A continuación, se actualizará el
modelo con los datos existentes en el archivo activo. Se debe seleccionar los
nombres de las variables en el cuadro de diálogo principal en el mismo orden en que
se especificaron en el análisis anterior. El archivo XML permanecerá inalterado, a no
ser que se escriba específicamente la nueva información del modelo en el mismo
nombre de archivo.

Si se ha especificado una actualización del modelo de conglomerados, se utilizarán


las opciones pertenecientes a la generación del árbol CF que se especificaron para el
modelo original. Concretamente, se utilizarán los ajustes del modelo guardado
acerca de la medida de distancia, el tratamiento del ruido, la asignación de memoria
y los criterios de ajuste del árbol CF, por lo que se ignorarán todos los ajustes de
estas opciones que se hayan especificado en los cuadros de diálogo.

Nota: Al realizar una actualización del modelo de conglomerados, el procedimiento


supone que ninguno de los casos seleccionados en el conjunto de datos activo se
utilizó para crear el modelo de conglomerados original. El procedimiento también
supone que los casos utilizados en la actualización del modelo proceden de la misma
población que los casos utilizados para crear el modelo; es decir, se supone que las
medias y las varianzas de las variables continuas y los niveles de las variables
categóricas son los mismos en ambos conjuntos de casos. Si los conjuntos de casos
“nuevo” y “antiguo” proceden de poblaciones heterogéneas, se deberá ejecutar el
procedimiento Análisis de conglomerados en dos fases para los conjuntos
combinados de casos para obtener los resultados óptimos.
Se pulsa Resultados

Resultado del visor de salida. Proporciona opciones para la presentación los


resultados
Gráficos y tablas. El resultado gráfico incluye un gráfico de calidad del clúster, de
tamaño de conglomerado, de importancia de la variable, de cuadrícula de
comparación de conglomerados e información de la casilla. Las tablas incluyen un
resumen del modelo y una cuadrícula de conglomerados por funciones.
Campos de evaluación. Calcula los datos del clúster de las variables que no se han
utilizado en su creación. Los campos de evaluación se pueden mostrar junto con las
características de entrada del visor de modelos seleccionándolas en el cuadro de
diálogo. Los campos con valores perdidos se ignoran.
Archivo de datos de trabajo. Guarda las variables en el conjunto de datos activo.
• Crear variable del conglomerado de pertenencia. Esta variable contiene un
número de identificación de conglomerado para cada caso. El nombre de esta
variable es tsc_n, donde nes un número entero positivo que indica el ordinal de la
operación de almacenamiento del conjunto de datos activo realizada por este
procedimiento en una determinada sesión.
Archivos XML. El modelo de conglomerados final y el árbol CF son dos tipos de
archivos de resultados que se pueden exportar en formato XML.
• Exportar modelo final. También se puede exportar el modelo de conglomerado
final al archivo especificado en formato XML (PMML). Se puede utilizar este archivo
de modelo para aplicar la información del modelo a otros archivos de datos para
puntuarlo.
• Exportar árbol CF. Esta opción permite guardar el estado actual del árbol de
conglomerados y actualizarlo más tarde utilizando nuevos datos.
Se selecciona Ventas en miles (ventas) y Valor de reventa a los 4 años (reventa)
como Campos de evaluación:

Estos dos campos de evaluación elegidos, ventas y reventas no se han utilizado


para crear los clusters, pero ayudarán a comprender mejor los grupos creados con
este procedimiento. Pulsar Continuar y Aceptar. Se muestra la siguiente salida

El resumen del modelo incluye una tabla que contiene la siguiente información:
• Algoritmo. El algoritmo de clúster utilizado, en este caso, “Dos fases”.
• Características de entrada. El número de variables utilizadas (continuas y
categóricas), también conocidos como entradas o predictores.
• Conglomerados. Número de conglomerados de la solución.

Y muestra un gráfico de calidad del clúster que es una medida de silueta de la


cohesión y separación de los clusters sombreada para indicar resultados pobres,
correctos o buenos. Esta gráfica permite comprobar rápidamente si la calidad es
insuficiente, en cuyo caso se puede optar por volver al nodo de modelado para
cambiar los ajustes del modelo de conglomerado para producir mejores resultados.

Los resultados serán pobres, correctos o buenos de acuerdo con el trabajo de


Kaufman y Rousseeuw (1990) sobre la interpretación de estructuras de
conglomerados. Un resultado “bueno” indica que los datos reflejan una evidencia
razonable o sólida de que existe una estructura de clusters, de acuerdo con la
valoración Kaufman y Rousseeuw; una resultado “correcto” indica que esa evidencia
es débil, y un resultado “pobre” significa que, según esa valoración, no hay
evidencias obvias. Las medias de medida de silueta, en todos los registros,
(B−A)/max(A,B), donde A es la distancia del registro al centro de su conglomerado
y B es la distancia del registro al centro del conglomerado más cercano al que no
pertenece.

Un coeficiente de silueta de 1 podría implicar que todos los casos están


ubicados directamente en los centros de sus conglomerados. Un valor de
−1 significaría que todos los casos se encuentran en los centros de
conglomerado de otro conglomerado. Un valor de 0 implica, de media, que los
casos están equidistantes entre el centro de su propio conglomerado y el
siguiente conglomerado más cercano.

En nuestro ejemplo, la tabla con el resumen del modelo de clúster indica que se han
formado 3 clusters con las diez características de entrada (variables categóricas y
numéricas) seleccionadas y el gráfico de calidad del clúster indica que el resultado
es correcto.

Haciendo doble Clik sobre la gráfica de la figura anterior se muestra en el Visor de


modelos una vista interactiva del modelo utilizado
El Visor de clusters se compone de dos paneles, la vista principal en la parte
izquierda y la vista relacionada o auxiliar de la derecha.

Vista principal. Hay dos vistas principales:


• Resumen del modelo (predeterminado).
• Conglomerados.

Vista auxiliar. Hay cuatro vistas relacionadas/auxiliares:


• Importancia del predictor.
• Tamaños de conglomerados (predeterminado).
• Distribución de casillas.
• Comparación de conglomerados.

Por defecto se muestra Tamaños de conglomerados mediante un gráfico de


sectores que contiene cada clúster. Cada sector contiene la frecuencia en porcentaje
de cada clúster. Pasando con el ratón por encima de los sectores del diagrama se
muestra el número de registros asignados a cada clúster.
El 40,8% (62) de los registros fueron asignados al primer clúster, el 25,7% (39) al
segundo y el 33,6% (51) al tercero.

Esta salida también muestra una tabla con la siguiente información sobre el tamaño
de los clusters:

• El tamaño del clúster más pequeño (recuento y porcentaje)


• El tamaño del clúster mayor (recuento y porcentaje)
• La proporción entre el tamaño del mayor clúster y el del menor
En la salida de la figura de la Vista principal del Visor de Clusters, en la barra de
herramienta, se selecciona Conglomerados y se muestra la siguiente salida
Se muestra una tabla que contiene la siguiente información:

• Clúster. Número de clusters creados por el algoritmo


• Etiqueta. Etiquetas aplicadas a cada clúster (por defecto está en blanco). Pulsando
dos veces sobre la casilla se puede introducir la etiqueta para describir el contenido
del clúster
• Descripción. Sobre el contenido del clúster (por defecto está en blanco). Pulsando
dos veces en la casilla se puede introducir la descripción
• Tamaño. Contiene el recuento de casos del clúster, porcentaje del tamaño y un
gráfico mostrando el porcentaje
• Entradas. De forma predeterminada los predictores o entradas individuales se
muestran ordenados por Importancia global. Dicha importancia global de la
característica se indica por el color sombreado del fondo de la casilla, siendo más
oscuro cuanto más importante sea la característica. Situando el ratón en las casillas
se muestra el nombre/etiqueta de la característica y el valor de importancia de la
casilla. Dicha información depende del tipo de característica y el tipo de vista.
También se pueden ordenar las características por Importancia dentro del
clúster, por Nombre y por Orden de los datos. Estas formas clasificación de las
características se realiza mediante los cuatro botones Clasificar características de
la barra de herramientas.
En la Vista principal de los Conglomerados se puede seleccionar varias formas
de mostrar la información de conglomerados:
• Transponer conglomerados y características
• Clasificar características
• Clasificar conglomerados
• Seleccionar contenido de las casillas.
Transponer conglomerados y características

Por defecto los conglomerados aparecen como columnas y las características


aparecen como filas. Para invertir esta visualización, se pulsa el botón Transponer
conglomerados y entradas. Esta opción es útil cuando hay muchos clusters y de
esta forma se reduce la cantidad de desplazamiento horizontal necesario para
visualizar los datos.
Clasificar características

• Importancia global. Las características se clasifican en orden descendente de


importancia global y el orden de clasificación es el mismo entre los distintos
conglomerados. Si hay características que empatan en valores de importancia, éstas
se muestran en orden de clasificación ascendente según el nombre.
• Importancia dentro del conglomerado. Las características se clasifican con
respecto de su importancia para cada conglomerado. Si hay características que
empatan en valores de importancia, éstas se muestran en orden de clasificación
ascendente según el nombre. Si esta opción está seleccionada, el orden de
clasificación suele variar en los diferentes conglomerados.
• Nombre. Las características se clasifican por nombre en orden alfabético.
• Orden de los datos. Las características se clasifican por orden en el conjunto de
datos.
Clasificar conglomerados

Los tres botones de Clasificar conglomerados de la barra de herramientas


permiten ordenar los clusters por tamaño descendente (opción por defecto), por
nombre en orden alfabético o, si se han creado etiquetas, por orden de etiqueta
alfanumérico. Las características con la misma etiqueta se clasifican por nombre de
conglomerado. Si los conglomerados se clasifican por etiqueta y se modifica la
etiqueta de un conglomerado, el orden de clasificación se actualiza
automáticamente.
Contenido de casilla

Los cuatro botones Casillas de la barra de herramientas permiten cambiar la


visualización del contenido de las casillas y campos de evaluación.
• Las casillas muestran los centros de conglomerados. Por defecto, las casillas
muestran nombres/etiquetas de las características y la tendencia central para cada
combinación de conglomerado/característica. La media se muestra para los campos
continuos y la moda con el porcentaje de categoría para los campos categóricos.
• Las casillas muestran las distribuciones absolutas. Muestra nombres/etiquetas
de las características y distribuciones absolutas de las características de cada
conglomerado. En el caso de las funciones categóricas, la visualización muestra
gráficos de barras superpuestas con las categorías ordenadas en orden ascendente
de valores de datos. En las características continuas, la visualización muestra un
gráfico de densidad suave que utiliza los mismos puntos finales e intervalos para
cada conglomerado. La visualización en color rojo oscuro muestra la distribución de
conglomerados, mientras que la más clara representa los datos generales.
• Las casillas muestran las distribuciones relativas. Muestra los
nombres/etiquetas de características y las distribuciones relativas en las casillas. En
general, las visualizaciones son similares a las mostradas para las distribuciones
absolutas, sólo que en su lugar se muestran distribuciones relativas. La visualización
en color rojo oscuro muestra la distribución de conglomerados, mientras que la más
clara representa los datos generales.
• Las casillas muestran la información básica. Si hay muchos conglomerados,
puede resultar difícil ver todos los detalles sin desplazarse. Para reducir la cantidad
de desplazamiento, seleccionar esta vista para cambiar la visualización a una
versión más compacta de la tabla.

La salida de la tabla de Conglomerados muestra, de forma predeterminada, los


clusters ordenados de izquierda a derecha por el tamaño, siendo la clasificación 1,
3, 2

Las medias de los clusters sugieren que los grupos están bien separados.

• En el clúster 1, el 98.4% de los vehículos son automóviles y se caracterizan por ser


baratos, pequeños y consumir poco combustible.
• En el clúster 2, el 100% de los vehículos son camiones (columna 3) y se caracterizan
por tener un precio moderado, son pesados y disponen de un tanque de combustible
grande.
• En el clúster 3, el 100% de los vehículos son automóviles y se caracterizan por ser
caros, grandes y moderadamente eficientes en el consumo de combustible.

Situando el ratón en las casillas se muestra información sobre esa característica


Las medias de los clusters (para las variables continuas) y las modas (para las
variables categóricas) son útiles, pero sólo dan información de los centros de los
conglomerados. Para obtener una visualización de la distribución de los valores de
cada campo de clúster, hacer clic en la barra de herramientas de la salida
de Clasificar conglomerados y elegir Las casillas muestran las distribuciones
absolutas y se muestra la siguiente salida
En el gráfico se aprecia un cierto solapamiento entre los clusters 1 y 3 (columnas 1
y 2) en las características de Peso neto, Tamaño del motor y Capacidad de
combustible. Respecto de los clusters 3 y 2 (columnas 2 y 3) observamos que los
vehículos con el tamaño del motor más grande están en el clúster 3 mientras que los
vehículos con más Capacidad de combustible pertenecen al clúster 2.
La información de los campos de evaluación se muestra haciendo clic en el
botón Representación(D) de la barra de herramientas de la salida de Clasificar
conglomerados y seleccionando en la salida resultante Campos de evaluación
Se pulsa Aceptar y se muestran los campos de evaluación a continuación de la tabla
clúster

La distribución de las ventas es similar en los clusters con la salvedad de que los
clusters 1 y 2 (columnas 1 y 3) tienen colas más largas que el clúster 3 (columna 2).

La distribución del valor de reventa a 4 años es muy similar en los tres clusters, sin
embargo los clusters 2 y 3 (columnas 2 y 3) se centran en un valor más alto que el
clúster 1 y respecto a la asimetría el clúster 3 tiene una cola más larga que cualquiera
de los otros dos clusters.

La salida de la ventana Representación se utiliza para controlar la visualización de


los clusters:
• Entradas. Está seleccionado por defecto. Para ocultar todas las características de
entrada, se cancela la selección de la casilla de verificación.
• Campos de evaluación. Seleccionar los campos de evaluación (campos que no se
usan para crear el modelo de conglomerado, sino que se envían al visor de modelos
para evaluar los conglomerados) que desea mostrar, ya que ninguno se muestra de
forma predeterminada. Nota: Esta casilla de verificación no está disponible si no hay
ningún campo de evaluación disponible.
• Descripciones de conglomerados. Está seleccionado por defecto. Para ocultar
todas las casillas de descripción de conglomerado, cancelar la selección de la casilla
de verificación.
• Tamaños de conglomerados Está seleccionado por defecto. Para ocultar todas las
casillas de tamaño de conglomerado, cancelar la selección de la casilla de
verificación.
• Número máximo de categorías. Especificar el número máximo de categorías que
se mostrarán en gráficos de características categóricas. El valor predeterminado es
20.
Otra forma de comparar los clusters es mediante el gráfico que se obtiene
seleccionado las tres columnas de los clusters mediante Control+Click en la barra de
herramientas de la Vista auxiliar y seleccionando Comparación de
conglomerados en el menú desplegable de Ver de la barra de herramientas
del Visor de resultados y se muestra la siguiente salida

Este gráfico muestra las características en las filas y conglomerados en las columnas.
Esta visualización ayuda a entender mejor los factores de los que se componen los
conglomerados, y permite ver las diferencias entre los conglomerados no sólo con
respecto a los datos generales, sino entre sí.

Pulsando las teclas Ctrl+Clik en la figura anterior se seleccionan los clusters que se
desean visualizar, en la parte superior de la columna del conglomerado (en el panel
principal Conglomerados).
Nota: Se pueden seleccionar hasta cinco conglomerados para que se muestren. Los
conglomerados se muestran en el orden en que se seleccionan, mientras que el
orden de los campos viene determinado por la opción Clasificar
características por. Si dentro de Clasificar característica se selecciona
Importancia dentro del conglomerado, los campos siempre se clasifican por
importancia general.
En esta salida también se muestran unos gráficos de las distribuciones generales de
cada característica:

• Las características categóricas aparecen como gráficos de puntos, donde el tamaño


del punto indica la categoría más frecuente (moda) para cada conglomerado (por
característica).
• Las características continuas se muestran como diagramas de caja, que muestran las
medianas globales y las amplitudes intercuartiles.

La salida de la figura anterior muestra diagramas de caja para los conglomerados


seleccionados:

• En las características continuas hay marcadores de puntos cuadrados y líneas


horizontales que indican el rango de mediana e intercuartil de cada conglomerado.
• Cada conglomerado viene representado por un color distinto, que se muestra en la
parte superior de la vista.

Estos gráficos confirman, en general lo que hemos visto en los anteriores. Este
gráfico puede ser especialmente útil cuando hay muchos clusters y se desea
compara sólo algunos de ellos.

Es interesante estudiar la importancia del predictor de conglomerados, para ello se


selecciona en la barra de herramientas de Vista auxiliar, Importancia del
predictor y se obtiene el siguiente gráfico

Esta gráfica muestra la importancia relativa de cada característica en la estimación


del modelo.
Ejercicios
Ejercicios Guiados
A continuación se va a proceder a iniciar una aplicación Java, comprueba que
tengas instalada la Máquina Virtual Java para poder ejecutar aplicaciones en
Java.Si no tienes instalada la Máquina Virtual Java (Java Runtime
Environment – JRE) pincha en uno de los enlaces para descargarla: java

Instalación directa de la JRE 7 para WindowsPágina oficial de Sun Microsystems,


descarga de la JRE para cualquier plataforma

Si ya tienes instalada la Máquina Virtual Java pincha en el siguiente enlace Ejercicio 1


para proceder a la ejecución de los ejercicios guiados
Ejercicio 2

IMPORTANTE: Si al descargar el archivo *.JAR del ejercicio tu gestor de


descargas intenta guardarlo como *.ZIP debes cambiar la extensión a .JAR
para poder ejecutarlo.

Enunciado del Ejercicio 1


Realizamos un estudio sobre las pequeñas medianas empresas del sector
textil, para ello disponemos de la situación de 12 empresas en 2013 con
respecto a los criterios: Personal Especializado, Estudio distribución de
Planta, Estudio distribución de Servicios y Aplicación de Sistema de Calidad.
Los datos se muestran en la siguiente tabla
Ejercicios Propuestos
Ejercicio Propuesto 1 (Clasificación de países de la
UE con datos binarios)
Los datos corresponden a la situación de 6 países europeos en 1996 con
respecto a los 4 criterios exigidos por la UE para entrar en la Unión
Monetaria: Inflación, Interés, Déficit Público y Deuda Pública y vienen dados
en la tabla siguiente:

El objetivo es encontrar grupos de países que muestren un comportamiento


similar con respecto a las variables analizadas.
Este es un ejemplo en el que todas las variables son binarias de forma que, 1
significa que el país sí satisfacía el criterio exigido y 0 que no lo satisfacía.
En este caso todas las variables son binarias simétricas y se puede utilizar
como medida de distancia la distancia euclídea al cuadrado.

Se pide:
1. La matriz de distancias e interpretación de la misma
2. Utilizar un análisis de conglomerados jerárquico aglomerativo con enlace
completo para clasificar los países de la UE según las variables Inflación,
Interés, Déficit Público y Deuda Pública, con el objetivo de encontrar grupo de
países con comportamiento similares.

Ejercicio Propuesto 2
Se desea determinar los segmentos de mercado de un determinado producto
en una ciudad pequeña basándose únicamente en la lealtad a las marcas y la
lealtad a las tiendas. Para ello se selecciona una muestra de 10 encuestados
sobre los que se miden las dos variables lealtad a la tienda (tienda) y lealtad a
la marca (marca) en una escala de 0 a 10. Los datos se muestran en la siguiente
tabla

Se pide:
1. Realizar un diagrama de dispersión y estudiar los grupos más homogéneos
2. Realizar un análisis de conglomerados.

Ejercicio Propuesto 3
El archivo de datos jóvenes.sav contiene información sobre 14 jóvenes
respecto a su edad, estudios, hábitos de lectura, fútbol, cine, teatro, concierto,
tv, ámbito familiar…
Se desea clasificar a los 14 jóvenes encuestados por el número de veces que
van anualmente al fútbol (fútbol), la paga semanal que reciben (paga) y el
número de horas semanales que ven la televisión (tv)
Se pide:
1. Realizar un diagrama de dispersión 3-D para mostrar la distribución de los
datos y estudiar los posibles grupos que se pueden hacer
2. Utilizar un análisis clúster jerárquico. (Etiquetar los casos mediante
Identificación personal, id )
3. Método: Vecino más lejano; Medida: Intervalo- Distancia euclidea al cuadrado;
Transformar valores: Estandarizar las variables (puntuaciones Z)
4. Obtener el Historial de conglomeración, Matriz de distancia, Dendograma y en
Témpanos: Todos los conglomerados
5. Analizar las tablas obtenidas y sacar conclusiones
6. Guardar un rango de soluciones de 3 o 4 clusters
7. Repetir el proceso anterior con el Método de Ward
8. Guardar un rango de soluciones de 3 o 4 clusters
9. Repetir el proceso anterior con el Método de Conglomeración: Agrupación de
medianas
10. Obtener conclusiones ¿Nº de clustes? ¿Método de conglomeración?
Nota: Para realizar el apartado 1.
• Seleccionar en el menú principal Gráficos/Cuadro de diálogo
antiguos/Diagrama/Puntos
• Selecciona Dispersión 3D
• Eje Y: futbol; Eje X: paga; Eje Z: tv; Etiquetar los casos mediante Identificación
personal, id
• Opciones: Mostrar el gráfico con las etiquetas de caso
El archivo de datos jóvenes.sav contiene 14 datos y está formado por las
siguientes variables:
Variables tipo cadena: id (Identificación personal).
Variables tipo numérico: centro (Tipo de centro de estudios {1, público}…),
estudios (Estudios que cursa {1, EGB}…); estupadr (Estudios del padre {1, Sin
estudios}…); estumadr (Estudios de la madre {1, Sin estudios}..); paga (Paga
semanal en ptas/100); numher (Nº hermanos incluido sujeto); edad ; califest
(Calificación media en estudios); lect ( Libros leídos anualmente); cine
(Asistencia anual al cine); fútbol (Asistencia anual al futbol); conciert
(Asistencia anual conciertos); tv (Horas semanales tv); sexo ({1, hombre}…);
hábitat ({1, rural}…); lectp (Segunda tasa de lectura); univ (¿Deseas acceder a
la universidad? {1, sí}…); gustcine (Te gusta ir al cine… {1, solo}…); tipocine
(Tipo de película que te gusta {1, amor}…); violen (Nivel de rechazo a la
violencia {1, activo}…); impdin (Importancia das al dinero {1, muy poca}..);
impest (Importancia de estudios {1, muy poca}…); ingr (Ingresos mensuales
{1, <100}…); físico (Importancia al físico {1, muy poca}…); depor (interés
deporte {1,muy poca}…)

Ejercicio Propuesto 4
Utilizamos de nuevo el archivo de datos ventas_vehículos.sav que contiene
estimaciones de ventas, listas de precios y especificaciones físicas hipotéticas
de varias marcas y modelos de vehículos. Se desea hacer un estudio de
mercado para poder determinar las posibles competencias para sus vehículos,
para ello agrupamos las marcas de los coches según los datos disponibles,
hábitos de consumo, sexo, edad, nivel de ingresos, etc. de los clientes. Las
empresas de coches adaptan sus estrategias de desarrollo de productos y de
marketing en función de cada grupo de consumidores para aumentar las
ventas y el nivel de fidelidad a la marca.
Realizar este ejercicio para el caso de 3 clusters utilizando únicamente el 20
% de los casos de la muestra. Analizar los resultados y compararlos con los
obtenidos en el Supuesto práctico 5 para el caso de 2 clusters. ¿Qué solución
piensas que es la mejor?
Nota: El archivo de datos ventas_vehículos .sav contiene 157 datos y está
formado por las siguientes variables:
Variables tipo cadena: marca (Fabricante); modelo
Variables tipo numérico: ventas (en miles); reventa (Valor de reventa en 4
años); tipo (Tipo de vehículo: Valores: {0, Automóvil; 1, Camión}); precio (en
miles); motor (Tamaño del motor); CV (Caballos); pisada (Base de
neumáticos); ancho (Anchura); largo (Longitud); peso_neto (Peso neto);
depósito (Capacidad de combustible); mpg (Consumo).

Ejercicio Propuesto 5

Utilizar de nuevo el archivo de datos jóvenes.sav que contiene información


sobre 14 jóvenes.
Se pide:
1. Tipificar las variables fútbol, paga y tv
1. Realizar un análisis de conglomerados de k-medias con tres conglomerados
según las variables tipificadas fútbol, paga y tv (Zpaga, Zfútbol y Ztv).
Etiquetar los casos mediante Identificación personal, id.
2. Usar medias actualizadas. Calcular los centros de conglomerados iniciales,
Tabla Anova, Información del conglomerado para cada caso
3. Guardar Conglomerado de pertenencia y distancia desde centro del
conglomerado
4. Resumen de los resultados obtenidos. Interpretar la solución.

Ejercicio Propuesto 1 (Clasificación de países de la


UE con datos binarios) (Resuelto)
Los datos corresponden a la situación de 6 países europeos en 1996 con
respecto a los 4 criterios exigidos por la UE para entrar en la Unión Monetaria:
Inflación, Interés, Déficit Público y Deuda Pública y vienen dados en la tabla
siguiente:

El objetivo es encontrar grupos de países que muestren un comportamiento


similar con respecto a las variables analizadas.
Este es un ejemplo en el que todas las variables son binarias de forma que, 1
significa que el país sí satisfacía el criterio exigido y 0 que no lo satisfacía.
En este caso todas las variables son binarias simétricas y se puede utilizar
como medida de distancia la distancia euclídea al cuadrado.

Se pide:
1. La matriz de distancias e interpretación de la misma
2. Utilizar un análisis de conglomerados jerárquico aglomerativo con enlace
completo para clasificar los países de la UE según las variables Inflación,
Interés, Déficit Público y Deuda Pública, con el objetivo de encontrar grupo de
países con comportamiento similares.

Solución:
1. La matriz de distancias e interpretación de la misma

En este caso todas las variables son binarias simétricas y se puede utilizar como
medida de distancia la distancia euclídea al cuadrado.
Así, por ejemplo, la distancia entre España y Francia es 1 puesto que solamente
difieren en un criterio: el de la deuda pública que Francia satisfacía y España no.

2. Utilizar un análisis de conglomerados jerárquico aglomerativo con enlace


completo (Vecino más lejano) para clasificar los países de la UE según las
variables Inflación, Interés, Déficit Público y Deuda Pública, con el objetivo de
encontrar grupo de países con comportamiento similares.
Encontrar grupos de paises que tienen comportamiento similares.

Ejercicio Propuesto 2 (Resuelto)


Se desea determinar los segmentos de mercado de un determinado producto
en una ciudad pequeña basándose únicamente en la lealtad a las marcas y la
lealtad a las tiendas. Para ello se selecciona una muestra de 10 encuestados
sobre los que se miden las dos variables lealtad a la tienda (tienda) y lealtad
a la marca (marca) en una escala de 0 a 10. Los datos se muestran en la
siguiente tabla

Se pide:
1. Realizar un diagrama de dispersión y estudiar los grupos más homogéneos
2. Realizar un análisis de conglomerados.

Solución:
1. Realizar un diagrama de dispersión y estudiar los grupos más homogéneos
Los grupos más homogéneos parecen ser tres formados por: (C, I, J, E, D, B); (H, G, F)
y (A)

2. Realizar un análisis de conglomerados comparando diversos métodos,


distintas medidas de similitud.
La solución más apropiada se puede observar en el dendograma y es la formada por
los grupos: (A); (F, H G) y (I, C, B, D, J, E).
Repetir el análisis con otra medida de similitud y otro procedimiento y
comparar los resultados.

Ejercicio Propuesto 3 (Resuelto)

El archivo de datos jóvenes.sav contiene información sobre 14 jóvenes


respecto a su edad, estudios, hábitos de lectura, fútbol, cine, teatro, concierto,
tv, ámbito familiar…
Se desea clasificar a los 14 jóvenes encuestados por el número de veces que
van anualmente al fútbol (fútbol), la paga semanal que reciben (paga) y el
número de horas semanales que ven la televisión (tv)
Se pide:
1. Realizar un diagrama de dispersión 3-D para mostrar la distribución de los
datos y estudiar los posibles grupos que se pueden hacer
2. Utilizar un análisis clúster jerárquico. (Etiquetar los casos mediante
Identificación personal, id )
3. Método: Vecino más lejano; Medida: Intervalo- Distancia euclidea al cuadrado;
Transformar valores: Estandarizar las variables (puntuaciones Z)
4. Obtener el Historial de conglomeración, Matriz de distancia, Dendograma y en
Témpanos: Todos los conglomerados
5. Analizar las tablas obtenidas y sacar conclusiones
6. Guardar un rango de soluciones de 3 o 4 clusters
7. Repetir el proceso anterior con el Método de Ward
8. Guardar un rango de soluciones de 3 o 4 clusters
9. Repetir el proceso anterior con el Método de Conglomeración: Agrupación de
medianas
10. Obtener conclusiones ¿Nº de clustes? ¿Método de conglomeración?
Nota: Para realizar el apartado 1.
• Seleccionar en el menú principal Gráficos/Cuadro de diálogo
antiguos/Diagrama/Puntos
• Selecciona Dispersión 3D
• Eje Y: futbol; Eje X: paga; Eje Z: tv; Etiquetar los casos mediante Identificación
personal, id
• Opciones: Mostrar el gráfico con las etiquetas de caso
El archivo de datos jóvenes.sav contiene 14 datos y está formado por las
siguientes variables:
Variables tipo cadena: id (Identificación personal).
Variables tipo numérico: centro (Tipo de centro de estudios {1, público}…),
estudios (Estudios que cursa {1, EGB}…); estupadr (Estudios del padre {1, Sin
estudios}…); estumadr (Estudios de la madre {1, Sin estudios}..); paga (Paga
semanal en ptas/100); numher (Nº hermanos incluido sujeto); edad ; califest
(Calificación media en estudios); lect ( Libros leídos anualmente); cine
(Asistencia anual al cine); fútbol (Asistencia anual al futbol); conciert
(Asistencia anual conciertos); tv (Horas semanales tv); sexo ({1, hombre}…);
hábitat ({1, rural}…); lectp (Segunda tasa de lectura); univ (¿Deseas acceder a
la universidad? {1, sí}…); gustcine (Te gusta ir al cine… {1, solo}…); tipocine
(Tipo de película que te gusta {1, amor}…); violen (Nivel de rechazo a la
violencia {1, activo}…); impdin (Importancia das al dinero {1, muy poca}..);
impest (Importancia de estudios {1, muy poca}…); ingr (Ingresos mensuales
{1, <100}…); físico (Importancia al físico {1, muy poca}…); depor (interés
deporte {1,muy poca}…).

Solución:
1. Realizar un diagrama de dispersión 3-D para mostrar la distribución de los
datos y estudiar los posibles grupos que se pueden hacer
Los grupos más similares parecen ser tres formados por: (B, H, K, M, E); (F, A, C, I,
D) y (G, J, N, L)
2. Utilizar un análisis clúster jerárquico. (Etiquetar los casos mediante
Identificación personal, id )
3. Método: Vecino más lejano; Medida: Intervalo- Distancia euclidea al cuadrado;
Transformar valores: Estandarizar las variables (puntuaciones Z)
4. Obtener el Historial de conglomeración, Matriz de distancia, Dendograma y en
Témpanos: Todos los conglomerados
5. Analizar las tablas obtenidas y sacar conclusiones
Los individuos que guardan menor distancia son el tercero (C) y el noveno (I) con
una distancia de (0.0000) y son los primeros que se unen en un mismo clúster. Lo
siguientes serán el segundo (B) y el octavo (H) (guardan aproximadamente la misma
distancia, 0.0000)
Los Coeficientes
(niveles de fusión) se han calculado mediante el método del vecino más lejano y
utilizando como distancia la euclídea al cuadrado. Se puede observar como va
aumentando la variabilidad dentro de los conglomerados conforme se van
agrandando.
• El la primera etapa había 13 clusters ((3, 9) ; (4); (7); (10); (14); (2); (8); (5); (11);
(13); (1); (6) y (12)).
• En la segunda etapa había 12 clusters ((3, 9) ; (2, 8); (4); (7); (10); (14); (5); (11);
(13); (1); (6) y (12)).
• El primer salto grande se produce entre las etapas novena y décima (coeficiente =
6.0009) siendo 4 el número de clusters ((3, 9, 4) ; (2, 8, 5, 11, 13); (7, 10, 14) y (1,
6, 12)).
• El siguiente salto se produce entre las etapas once y doce y los clusters formados
son: ((3, 9, 4, 7, 10, 14, 2, 8, 5, 11, 13) y (1, 6, 12)) y la última etapa que engloba a
los catorce jóvenes.
El dendograma muestra cómo se van formando la clasificación jerárquica de los
individuos, si consideramos un corte entre la distancia 20 y 25, se formarían dos
clusters: Clúster 1: (C, I, D, G J, N, B, H, E. K, M); Clúster 2: (A, F , L)

El diagrama de témpanos vertical muestra la clasificación de individuos


dependiendo del número de clusters que consideremos (cada fila de la tabla). Por
filas se van rellenando en otro color y se deja un hueco cuando se cambia de clúster.
Por ejemplo, si consideramos 4 clusters, la clasificación sería:

• Clúster 1: N, J G
• Clúster 2: D, I, C
• Cúster 3: M, K, E, H, B
• Clúster 4: L, F, A

Ante la pregunta ¿Qué número de clusters vamos a considerar? El criterio que


podemos utilizar es elegir el número de clusters observando los niveles de fusión y
teniendo en cuenta el diagrama de dispersión de los individuos. Así el rango de
soluciones puede ser 3 0 4 clusters (Coeficientes: 0.104 y 0.349).

6. Guardar un rango de soluciones de 3 o 4 clusters

Se añaden al fichero de datos las variables CLU4_1 y CLU3_1 que definen 4 clusters
y 3 clusters, respectivamente.
Se muestra la tabla de conglomerados de pertenencia
con la clasificación de los 14 individuos para los casos elegidos de 3 y 4 clusters. Así:
• Tres clusters: Clúster 1: A, F, L; Clúster 2: B, E, H, K, M; Clúster 3: C, D, G, I, J, N
• Cuatro clusters: Clúster 1: A, F, L; Clúster 2: B, E, H, K, M; Clúster 3: C, D, I; Clúster
4: G, J, N
7. Repetir el proceso anterior con el Método de Ward
Se añaden al fichero de datos las variables CLU4_2 y CLU3_2 que definen 4 clusters
y 3 clusters, respectivamente, mediante el método de Ward

Se muestra la tabla de conglomerados de pertenencia con la clasificación de los 14


individuos para los casos elegidos de 3 y 4 clusters, mediante el método de Ward.
8. Guardar un rango de soluciones de 3 o 4 clusters
9. Repetir el proceso anterior con el Método de Conglomeración: Agrupación
de medianas
Se añaden al fichero de datos las
variables CLU4_3 y CLU3_3 que definen 4 clusters y 3 clusters, respectivamente,
mediante el método de medianas

Se muestra la tabla de conglomerados de pertenencia con a clasificación de los 14


individuos para los casos elegidos de 3 y 4 clusters, mediante el método de
medianas
10. Obtener conclusiones ¿Nº de clusters? ¿Método de conglomeración?

Resumen de los resultados obtenidos mediante el análisis clúster Jerárquico y los


métodos de aglomeración: Vecino más lejano, Método Ward y Vinculación de
medianas

• El método del Vecino más lejano y el método de Ward proporcionan resultados


idénticos y respecto al método de la mediana parece representar peor los datos
observados.
• De las dos soluciones de tres y cuatro clusters nos decidimos por la solución de
tres clusters.
11. Realizar un análisis clúster de K medias y comparar las clasificaciones
En primer lugar tipificamos las variables paga, futbol, tv. Para ello seleccionamos en
el menú principal Analizar/Estadísticos descriptivos/Descriptivos… y el editor
de datos muestra tres nuevas variables: Zpaga, Z fútbol y Ztv
Se realiza un Análisis de conglomerados de K- medias

Se elige una clasificación en 3 conglomerados y se pulsa

• Iterar… donde se solicita Usar medias actualizadas para que el procedimiento vaya
actualizando cada vez las medias de los clusters
• Opciones: Centros de conclomerados iniciales, Tabla ANOVA e Información del
conglomerado para cada caso
• Guardar: Conglomerados de pertenecia y Distancia desde centro del
conglomerado

Se han creado dos nuevas variables en el editor de datos:

• QCL_1: Codificación que indica la pertenencia a cada clúster


• QCL_2: Codificación que indica la distancia euclidea entre cada caso y el centro del
cluster utilizado paraclasificar ese caso.
Tabla de los centros iniciales de los
clusters que muestra las medias de los clusters iniciales. Por defecto se selecciona
entre los datos un número de casso debidamente espaciados igual al número de
conglomerados.

El historial de las iteraciones muestra las


medias (centros) de los clusters en cada caso. El método para en 10 pasos sin
alcanzar el criterio de convergencia

Pertenencia a los conglomerados muestra


la solución final de la clasificación en 3 clusters
Ejercicio Propuesto 4 (Resuelto)
Utilizamos de nuevo el archivo de datos ventas_vehículos.sav que contiene
estimaciones de ventas, listas de precios y especificaciones físicas hipotéticas
de varias marcas y modelos de vehículos. Se desea hacer un estudio de
mercado para poder determinar las posibles competencias para sus vehículos,
para ello agrupamos las marcas de los coches según los datos disponibles,
hábitos de consumo, sexo, edad, nivel de ingresos, etc. de los clientes. Las
empresas de coches adaptan sus estrategias de desarrollo de productos y de
marketing en función de cada grupo de consumidores para aumentar las
ventas y el nivel de fidelidad a la marca.
Realizar este ejercicio para el caso de 3 clusters utilizando únicamente el 20
% de los casos de la muestra y centrándonos en dos variables de interés peso
neto y tamaño del motor. Analizar los resultados y compararlos con los
obtenidos en el Supuesto práctico 5 para el caso de 2 clusters. ¿Qué solución
piensas que es la mejor?
Nota: El archivo de datos ventas_vehículos .sav contiene 157 datos y está
formado por las siguientes variables:
Variables tipo cadena: marca (Fabricante); modelo
Variables tipo numérico: ventas (en miles); reventa (Valor de reventa en 4
años); tipo (Tipo de vehículo: Valores: {0, Automóvil; 1, Camión}); precio (en
miles); motor (Tamaño del motor); CV (Caballos); pisada (Base de
neumáticos); ancho (Anchura); largo (Longitud); peso_neto (Peso neto);
depósito (Capacidad de combustible); mpg (Consumo).

Solución
El archivo ventas_vehículos.sav contiene 157 datos Para hacer más comprensible la
representación gráfica de los resultados, vamos a comenzar utilizando únicamente
el 20 % de los casos de la muestra.

Para ello, en el menú principal seleccionar: Datos/Seleccionar casos

Realizamos un gráfico de dispersión


para ver la distancia entre los casos en las dos variables motor y peso. Para ello,
seleccionamos en el menú principal Gráficos/Generador de gráficos…
En la ventana Galería, en Elija entre, seleccionamos Dispersión/…

Arrastramos el gráfico de Dispersión simple a la ventana de presentación


preliminar del gráfico
Desplazamos la variable peso (peso total del vehículo en kg) al eje abscisas y
la Tamaño del motor al eje de ordenadas
Pulsar Aceptar y se muestra el siguiente gráfico

En el diagrama de dispersión están representados los valores Peso y Tamaño


motor de los 36 casos seleccionados. Se puede apreciar que:
• Hay dos grupos, un grupo de vehículos relativamente numeroso con peso y tamaño
de motor ambos reducidos y otro grupo más disperso de vehículos de mayor peso y
mayor motor.
• O bien tres grupos, un grupo de vehículos con peso y tamaño de motor ambos
reducidos, un segundo grupo con ambas variables de tamaño mediano y un tercer
grupo, menos numeroso y mas disperso, de vehículos de mayor peso y
mayor motor.
Se han identificado, mediante el
número de caso, los dos vehículos aparentemente más alejados entre sí (el caso 3
(Tamaño motor (5.7), Peso (5.572)) y el caso 155 (Tamaño motor (2.240), Peso
(1.5))). La nube de puntos, por tanto, incita a pensar que existen al menos dos grupos
naturales de casos.
Para clasificar los casos en tres grupos:
Seleccionar en el cuadro de diálogo de Análisis de conglomerados de K-medias la
opción Sólo Clasificar. Trasladar las variables motor y peso_neto a la lista
Variables. Elegir como Número de conglomerados: 3 y como Método: Sólo
clasificar

Aceptando estas selecciones,


el Visor ofrece los resultados

Esta tabla contiene los centros iniciales


de tres clusters en las dos variables de clasificación utilizadas (motor y peso).
• Clúster 1: (Tamaño motor (5.7), Peso (5.572)) es el caso 3
• Clúster 2: (Tamaño motor (1.5), Peso (2.240))es el caso 155
• Clúster 3: (Tamaño motor (4.7), Peso (5.115)) es el caso 9
Una vez seleccionados los centros de los conglomerados, cada caso es asignado al
conglomerado de cuyo centro se encuentra más próximo y comienza un proceso de
ubicación iterativa de los centros. En la primera iteración se reasignan los casos por
su distancia al nuevo centro y, tras la reasignación, se vuelve a actualizar el valor
del centro. En la siguiente iteración se vuelven a reasignar los casos y a actualizar el
valor del centro. Etc.

Esta tabla muestra los centros de los


conglomerados finales es decir, los centros de los conglomerados tras el proceso de
actualización iterativa. Comparando los centros finales (tras la iteración) de esta
tabla con los centros iniciales (antes de la iteración) se puede apreciar:
• Un desplazamiento del centro del conglomerado 2 hacia la parte superior del plano
definido por las dos variables de clasificación
• Un desplazamiento del centro del conglomerado 3 hacia la parte inferior.

Para interpretar mejor los resultados añadimos una tabla con resumen descrptivo

• El primer conglomerado está formado vehículos de tamaño gran tamaño de motor


y mucho peso
• El segundo conglomerado está formado por vehículos de tamaño de pequeño y peso
pequeño
• El tercer conglomerado está formado por vehículos de tamaño de mediano y peso
mediano.

Por último, esta tabla informa sobre el Número de


casos asignado a cada conglomerado. En nuestro ejemplo, los tamaños de los tres
conglomerados son bastantes diferentes. Por ejemplo, el clúster 1 está formado por
un caso: (Tamaño motor (5.7), Peso (5.572)) se trata de un Cadillac que es el coche,
de nuestra muestra, que tiene mayor peso y mayor tamaño de motor.
Para mostrar el Historial de iteraciones seleccionar en cuadro de diálogo de Análisis
de conglomerados de K-medias la opción Iterar y Clasificar
El subcuadro de diálogo Iterar permite controlar algunos detalles relacionados con
el proceso de iteración utilizado para el cálculo de los centroides finales. Se puede
determinar el número máximo de iteraciones o bien fijar un criterio de convergencia
mayor que cero y menor que uno.
Dejamos el número de iteraciones máximas que viene por defecto, 10,
seleccionamos Usar medias actualizadas y pulsamos Continuar y Aceptar

Comprobamos que no se alcanza la


convergencia por lo que aumentamos las Iteraciones máximas a 30 y se muestra
el siguiente Historial de iteraciones
Esta tabla resume el historial de iteraciones (21 en nuestro ejemplo) con indicación
del cambio (desplazamiento) experimentado por cada centro en cada iteración.
Puede observarse que, conforme avanzan las iteraciones, el desplazamiento de
los centros se va haciendo más y más pequeño, hasta llegar a la 21 iteración, en la
que ya no existe desplazamiento alguno.
El proceso de iteración se detiene, por defecto, cuando se alcanzan 10 iteraciones o
cuando de una iteración a otra no se produce ningún cambio en la ubicación de
los centroides (cambio = 0). En nuestro ejemplo, el proceso ha finalizado antes de
alcanzar 21 iteraciones donde no se produce ningún cambio.

Ejercicio Propuesto 5 (Resuelto)


Utilizar de nuevo el archivo de datos jóvenes.sav que contiene información
sobre 14 jóvenes.
Se pide:
1. Tipificar las variables fútbol, paga y tv
2. Realizar un análisis de conglomerados de k-medias con tres conglomerados
según las variables tipificadas fútbol, paga y tv (Zpaga, Zfútbol y Ztv).
Etiquetar los casos mediante Identificación personal, id.
3. Usar medias actualizadas. Calcular los centros de conglomerados iniciales,
Tabla Anova, Información del conglomerado para cada caso
4. Guardar Conglomerado de pertenencia y distancia desde centro del
conglomerado
5. Resumen de los resultados obtenidos. Interpretar la solución.

Solución
1. Tipificar las variables fútbol, paga y tv
Seleccionar en el menú principal Analizar/Estadísticos
descriptivos/Descriptivos. Seleccionar las variables fútbol, paga y tv y
elegir Guardar valores tipificados como variables.

Pulsar Aceptar. En el editor de datos


se han creado 3 nuevas variables Zpaga, Zfútbol y Ztv, que contienen los valores
tipificados de las variables correspondientes
2. Realizar un análisis de conglomerados de k-medias con tres
conglomerados según las variables tipificadas fútbol, paga y tv (Zpaga,
Zfútbol y Ztv). Etiquetar los casos mediante Identificación personal, id.

Pulsar Aceptar y se
muestran las siguintes tablas
Los centros iniciales de los conglomerados corresponden a:
• Conglomerado 1: G(10 (paga semanal), 1 (asistencia anual al futbol) y 22 (horas
semanales de tv))
• Conglomerado 2: F (10 paga, 8 futbol y 5 tv)
• Conglomerado B o H (25 paga, 5 futbol y 17 tv)

Los centros finales de los


conglomerados corresponden a:
• Conglomerado 1: entre 10 y 11 (paga semanal), 2 (asistencia anual al futbol) y entre
18 y 22 (horas semanales de tv)
• Conglomerado 2: entre 11 y 25 paga, 5 futbol y entre 5 y 9 tv
• Conglomerado 3: más de 10 de paga, entre 2 y 5 futbol y entre 18 y 22 tv

3. Usar medias actualizadas. Calcular: Centros de conglomerados iniciales,


Tabla Anova, Información del conglomerado para cada caso
En el cuadro de diálogo de Análisis de conglomerados de K medias, elegir Iterar y
clasificar. Pulsar Iterar y seleccionar Usar medias actualizadas

Pulsar Aceptar y se muestran las siguientes salidas


• Conglomerado 1: entre 10 y 11 (paga semanal), entre 5 y 7 (asistencia anual al
futbol) y entre 10 y 13 (horas semanales de tv)
• Conglomerado 2: entre 10 y 11 paga, 2 futbol y entre 18 y 22 tv
• Conglomerado 3: 25 de paga, entre 2 y 5 futbol y 16 tv

Observamos que los clusters mas similares son 2 y 3 y los mas disímiles son 1 y 3.
Los clusters que se han formado son:
Cluster 1: A, C, F, I, L,
Clúster 2: D, G, J, N
Clúster 3: B, E, H, K, M

Comprobamos que no se alcanza la


convergencia por lo que aumentamos la s iteraciones máximas a 25 y se muestra el
siguiente Historial de iteraciones
Esta tabla resume el historial de
iteraciones (24 en nuestro ejemplo) con indicación del desplazamiento
experimentado por cada centro en cada iteración. Puede observarse que, conforme
avanzan las iteraciones, el desplazamiento de los centros se va haciendo más y más
pequeño. Hasta llegar a la iteración 24 que ya no existe desplazamiento alguno.
La tabla ANOVA indica qué variables contribuyen más a la solución de clúster. La
variable Paga es la que ocasiona la mayor separación entre los clusters y la que
proporciona menos separación es la Asistencia anual al futbol.

También podría gustarte