Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Objetivos
• Familiarizarse con el entorno del editor de datos de SPSS
• Definir variables en SPSS
• Crear variables a partir de otras ya existentes
• Seleccionar variables según un condicional, de forma aleatoria, según rango o
según una variable filtro
• Crear una variable que pondere otra existente.
El Editor de Datos
Al iniciar SPSS se muestra la siguiente ventana donde se puede seleccionar ¿Qué
desea hacer? Así, si se desea analizar un conjunto de datos nuevo, se marca la
opción Introducir datos
Ventana de bienvenida
El Editor de datos SPSS está formado por celdas. Cada fila representa un elemento
del conjunto de datos y cada columna representa una variable y se muestra cuando
se tiene activada la casilla Vistas de datos en la Barra de presentación
Marcando cada una de estas variables y pulsando el botón secundario del ratón se
muestran las opciones Insertar variables, Ordenar de forma
ascendente y Ordenar de forma descendente los datos.
En Vista de variables cada una de las filas corresponde a una variable y cada
columna determina una característica de ésta.
• Nombre: Se introduce el nombre de la variable
• Tipo: Se escoge el tipo de variable entre las posibilidades que se ofrecen pulsando
en Tipo
• Numérica: Una variable cuyos valores son números. Los valores se muestran en
formato numérico estándar (se establece la Anchura y Cifras decimales)
• Coma: Una variable numérica donde las comas determinan los miles
• Punto: Una variable numérica donde los puntos determinan los miles
• Notación científica: Una variable numérica cuyos valores se muestran con una E
intercalada y un exponente con signo que representa una potencia de base diez
• Fecha, Dólar: Una variable numérica cuyos valores se muestran en uno de los
diferentes formatos de fecha y de dólar, respectivamente
• Moneda personalizada: Una variable numérica cuyos valores se muestran en uno
de los diferentes formatos de moneda personalizada que se hayan definido
previamente en la pestaña Moneda del cuadro de
diálogo Opciones (Edición/Opciones)
• Cadena: Variables cuyos valores no son numéricos. También se conocen como
variables alfanuméricas.
• Anchura: Determina el ancho de la columna
• Etiqueta: Las variables pueden ser etiquetadas para que en los análisis posteriores
aparezca dicha etiqueta
• Valores: Permite introducir las modalidades de las variables tipo cadena
• Valores Perdidos: SPSS permite codificar los valores perdidos de forma discreta o
en un rango determinado
• Columnas: Permite introducir el ancho de la columna que también puede
cambiarse en la Vista de datos pulsando y arrastrando los bordes de la columna
Derecha o Centrado
• Medida: Permite definir la variable como Ordinal o Nominal
• Ordinal: Los valores de los datos representan categorías con un orden intrínseco
(Ej: grande, medio, pequeño; suspenso, aprobado, notable, sobresaliente)
• Nominal: Los valores de los datos representan categorías sin un orden intrínseco
(Ej: rojo, amarillo, verde)
• Rol: Funciones, roles que se pueden asignar a las variables para el análisis
• Entrada: La variable se utiliza como una entrada (por ejemplo: predictor, variable
independiente)
• Objetivo: La variable se utiliza como salida o de destino (por ejemplo: variable
dependiente)
• Ambos: La variable se utiliza como entrada y salida
• Ninguna: La variable no tiene una asignación de funciones
• Partición: La variable se utiliza para dividir los datos en muestras separadas
• Segmentar: Las variables con este papel no se utilizan como variables de un archivo
segmentado.
Por defecto, a todas las variables se les asigna el papel de entrada. Esto incluye los
datos de los archivos externos y archivos de datos de versiones de SPSS Statistics
anteriores a la versión 18.
casos…
• Si se desean seleccionar los casos que satisfagan un rango, por ejemplo valores
entre 6 y 8, en la ventana Seleccionar casos se elige Basándose en el rango del
tiempo o de los casos/Rango… Se introduce en Observación: Primer
caso un 6 y en Observación: Ultimo caso un 8.
Se
pulsa Continuar y Aceptar y en el Editor de datos SPSS se muestran los 3 valores
que están entre el 6 y el 8
• Finalmente se puede determinar la variable Filtro (mediante ceros y unos). Por
ejemplo se quieren los casos 4, 5, 6, 7 y 8, se define una variable Filtro con unos en
dichos casos y ceros en el resto.
A continuación en la
ventana Seleccionar casos se introduce la variable Filtro en la casilla que se
activa al marcar Usar variable de filtro:
Se pulsa Aceptar y se muestra
la siguiente salida
Ponderación de Casos
Cuando se tabulan los datos en tablas, en muchas ocasiones hay una serie de
observaciones que se repiten un número determinado de veces llamado frecuencia
absoluta. También en otras ocasiones las observaciones son ponderadas según
ciertos valores por estudios previos. SPSS permite introducir estas frecuencias o
ponderaciones en una variable que contenga las frecuencias. Para ello, en primer
lugar definimos una variable que llamamos Ponderaciones y que va a contener las
frecuencias absolutas de la variable Ejemplo
En el Menú principal se elige Datos/Ponderar casos…
Ejemplo
Los siguientes datos muestran información de un grupo de personas encuestadas
Se pide:
1. Añadir a la variable Peso dos veces la variable Estatura y el resultado
dividirlo por 3
En primer lugar creamos un fichero de datos en SPSS denominado Ejemplo1, que
recoge la siguiente información:
• La variable Nombre es de Tipo Cadena
• La variable Fecha es de Tipo fecha
• La variable Sexo es de Tipo Cadena con modalidades Mujer y Hombre codificadas
con los 1 y 2 repectivamente
• Las variables Peso, Estatura y Aciertos son de Tipo Numérico
• La variable Estado es de Tipo Cadena con las modalidades: Soltero, Casado,
Separado y Viudo, codificadas con los valores 1, 2, 3 y 4 respectivamente
• Se definen las variables Nombre, Fecha
Una vez introducidos los datos el siguiente paso es guardar el fichero con el
nombre Ejemplo1, para ello elegir en el menú principal Archivo/Guardar (o
también Ctrl S)
Se pulsa Guardar
1. Calcular
Añadir a la variable Peso dos veces la variable Estatura y el resultado dividirlo por
3
Para resolver la cuestión planteada (añadir a la variable Peso dos veces la
variable Estatura y el resultado dividirlo por 3), en el Menú principal se
elige Transformar/ Calcular variable… En la ventana correspondiente se escribe
el nombre de una sola Variable de destino: Cálculo y en Expresión numérica se
introduce la operación a realizar
Nuevo fichero de datos: Introducir los siguientes datos en otro fichero de datos
denominado Ejemplo2
Pulsar Archivo/Nuevo/Datos y proceder de modo similar al Ejemplo1 para
introducir las variables y los datos. Una vez introducidos los datos guardar el fichero
con el nombre Ejemplo2.
Se pide:
2. Fundir archivos
Generar un nuevo fichero de datos que contenga todos los datos de los
ficheros Ejemplo1 y Ejemplo2
Para Fundir archivos con las mismas variables y casos diferentes se procede de la
siguiente forma
• Abrir uno de los ficheros de datos, por ejemplo. Ejemplo2 (Los datos de este
fichero aparecerán primero en el nuevo archivo de datos fusionado)
• Elegir los menús Datos/Fundir archivos/Añadir casos…
Se pide:
3. Seleccionar casos
En el fichero de datos Ejemplo3 seleccionar sólo los casos que sean mujeres,
filtrando los datos.
Se elige en los menús Datos/Seleccionar casos… y selecciona Si se satisface la
condición
Pulsar Si la op…
y seleccionamos los casos en que “sexo=1”. Se pulsa Continuar y Aceptar y se
muestra la siguiente salida
Al elegir la opción por defecto, Descartar casos no seleccionados, los casos que no
reúnen los criterios de selección, permanecen en el archivo de datos pero se
excluyen del análisis. Comprobamos que el fichero de datos tiene tachados los
casos que son hombres (sexo = 2) y que tiene una nueva variable
llamada filter_$ que indica si el caso ha sido o no seleccionado.
Se pide:
4. Seleccionar casos que cumplen dos condiciones
En el fichero de datos Ejemplo3 seleccionar sólo los casos que tengan
un Peso inferior a 69 y una Estatura inferior a 1.78.
Se elige en los menús Datos/Seleccionar casos… y selecciona Si se satisface la
condición
El fichero añade una nueva variable filtro que sustituye a la anterior y que indica si
el caso ha sido o no seleccionado. Si queremos conservar las variables de filtro para
sucesivos análisis, se deberá ir cambiando el nombre que por defecto da el Sistema,
ya que sólo conserva la variable que registra el último filtro hecho.
Se pide:
5. Dividir archivos
Dividir el fichero de datos Ejemplo3 con el fin de obtener resultados separados
para las mujeres y para los hombres.
Para dividir un archivo de datos según las modalidades de una o más variables, en
primer lugar se deben ordenar los casos según los valores de las variables de
agrupación.
Se elige el menú Datos/Ordenar casos… Se introduce la variable Sexo en la
ventana Ordenar por:
y se pulsa Aceptar
Se pulsa Aceptar y los resultados de los análisis que se realicen con el fichero de
datos se presentaran por separado para las mujeres y para los hombres, sin mezclar.
Se pide:
6. Recodificar variables
Recodificar las variables Aciertos del fichero de datos Ejemplo3 en una nueva
variable de nombre Aciertos1 cuyos nuevos valores sean:
• 1 si Aciertos es menor que 3
• 2 si Aciertos es mayor o igual que 3 y menor que 9
• 3 si Aciertos es mayor o igual que 9
Para recodificar los valores de una variable en una variable nueva, se eligen los
menús Transformar/Recodificar en distintas variables. En la ventana resultante
seleccionar la variable que se va recodificar, Aciertos, y pasarla a la
ventana Variable numérica -> Variable resultado: e introducir en Nombre: el
nuevo nombre de la variable, Aciertos1, y a continuación pulsar Cambiar
Pulsar Valores antiguos y nuevos…. y especificar la nueva recodificación
• 1 si Aciertos es menor o igual que 3: Se activa Rango, INFERIOR hasta valor: y
se añade el 3, se pulsa Valor: en Valor nuevo y se añade 1. Se pulsa Añadir
• 2 si Aciertos es mayor que 3 y menor que 9: Se activa Rango, se añade el 3 y en
la ventana hasta se añade 9, en Valor: se añade 2 y se pulsa Añadir.
• 3 si Aciertos es mayor o igual que 9: Se activa Rango, valor hasta SUPERIOR: y
se añade el 9, en Valor: se añade 3 y se pulsa Añadir
Ejercicios
Ejercicio Guiado
A continuación se va a proceder a iniciar una aplicación Java, comprueba que tengas instalada la Má
Virtual Java para poder ejecutar aplicaciones en Java.
Si no tienes instalada la Máquina Virtual Java (Java Runtime Environment – JRE) pincha en uno de l
para descargarla:
Ejercicios Propuestos
Ejercicio Propuesto 1
Los siguientes datos proceden de un grupo de estudiantes
Se pide:
a) Introducir los nombres y características de cada una de las variables en
Vista de variables (las variables sexo, colorPelo y LugarNac tienen etiquetas
de valor)
b) Introducir los datos de cada una de las variables en el Editor de datos SPSS
c) Presentar las variables con sus respectivas Etiquetas de valor en el Editor
de datos SPSS
d) Introducir una nueva variable con el nombre cálculo igual al triple de la
variable Edad menos el doble de la variable Estatura
e) Ordenar de forma decreciente los datos según la Estatura de los
individuos
f) Seleccionar en la variable Estatura aquellos casos que tengan un valor
menor que 1.77
Ejercicio Propuesto 2
Los siguientes datos proceden de un grupo de opositores
Se pide:
a) Introducir los nombres y características de cada una de las variables en
Vista de variables (las variables Sexo y Calificación tienen etiquetas de valor)
b) Introducir los datos de cada una de las variables en el Editor de datos SPSS
c) Presentar las variables con sus respectivas Etiquetas de valor en el Editor
de datos SPSS
d) Introducir una nueva variable, en el fichero de Datos1, con el
nombre Media que recoja la media de las variables Puntuación1 y
Puntuación2. Guardar el nuevo fichero con el nombre de Datos3
e) Ordenar de forma creciente según la Edad de los individuos en el fichero de
Datos3
f) Generar un nuevo fichero de datos denominado Datos4 que contenga todos
los opositores de los ficheros Datos3 y Datos2
g) En el fichero Datos4 seleccionar sólo los casos en que los opositores estén
aprobados
h) Seleccionar en el fichero de Datos4 sólo los casos que tengan una
Puntuación1 superior a 6 y una Puntuación2 inferior a 8
i) Seleccionar en el fichero de Datos4 sólo los casos que tengan una
Puntuación1 superior a 6 o una Puntuación2 inferior a 8
j) En el fichero Datos4 seleccionar sólo los casos de los aprobados en que los
opositores sean hombres
k) Recodificar la variable Puntuación2 en una nueva variable de nombre
Puntuación3 cuyos nuvos valores sean:
• 1 Si Puntuación2 es menor o igual que 4
• 2 Si Puntuación2 es mayor que 4 y menor que 6
• 3 Si Puntuación2 es mayor o igual que 6
Se pide:
a) Introducir los nombres y características de cada una de las variables en
Vista de variables (las variables sexo, colorPelo y LugarNac tienen etiquetas
de valor)
b) Introducir los datos de cada una de las variables en el Editor de datos SPSS
c) Presentar las variables con sus respectivas Etiquetas de valor en el Editor
de datos SPSS
d) Introducir una nueva variable con el nombre cálculo igual al triple de la
variable Edad menos el doble de la variable Estatura
e) Ordenar de forma decreciente los datos según la Estatura de los individuos
f) Seleccionar en la variable Estatura aquellos casos que tengan un valor
menor que 1.77.
Solución:
a) Introducir los nombres y características de cada una de las variables en
Vista de variables (las variables sexo, colorPelo y LugarNac tienen etiquetas
de valor)
b) Introducir los datos de cada una de las variables en el Editor de datos SPSS y
c) Presentar las variables con sus respectivas Etiquetas de valor en el Editor
de datos SPSS
Se pide:
a) Introducir los nombres y características de cada una de las variables en
Vista de variables (las variables Sexo y Calificación tienen etiquetas de valor)
b) Introducir los datos de cada una de las variables en el Editor de datos SPSS
c) Presentar las variables con sus respectivas Etiquetas de valor en el Editor
de datos SPSS
d) Introducir una nueva variable, en el fichero de Datos1, con el
nombre Media que recoja la media de las variables Puntuación1 y
Puntuación2. Guardar el nuevo fichero con el nombre de Datos3
e) Ordenar de forma creciente según la Edad de los individuos en el fichero de
Datos3
f) Generar un nuevo fichero de datos denominado Datos4 que contenga todos
los opositores de los ficheros Datos3 y Datos2
g) En el fichero Datos4 seleccionar sólo los casos en que los opositores estén
aprobados
h) Seleccionar en el fichero de Datos4 sólo los casos que tengan una
Puntuación1 superior a 6 y una Puntuación2 inferior a 8
i) Seleccionar en el fichero de Datos4 sólo los casos que tengan una
Puntuación1 superior a 6 o una Puntuación2 inferior a 8
j) En el fichero Datos4 seleccionar sólo los casos de los aprobados en que los
opositores sean hombres
k) Recodificar la variable Puntuación2 en una nueva variable de nombre
Puntuación3 cuyos nuvos valores sean:
• 1 Si Puntuación2 es menor o igual que 4
• 2 Si Puntuación2 es mayor que 4 y menor que 6
• 3 Si Puntuación2 es mayor o igual que 6
Solución:
d) Introducir una nueva variable, en el fichero de Datos1, con el
nombre Media que recoja la media de las variables Puntuación1 y
Puntuación2. Guardar el nuevo fichero con el nombre de Datos3
Práctica 2
ESTADÍSTICA DESCRIPTIVA:
REPRESENTACIONES GRÁFICAS
Objetivos
1. Resumir, ordenar y analizar conjuntos de datos
2. Calcular diversas características de una variable estadística univariante
3. Representar gráficamente la distribución de frecuencias
4. Realizar análisis exploratorio de datos.
El SPSS proporciona varias herramientas para realizar esta descripción, todas ellas
bajo el menú Analizar y, dentro de él, la opción Estadísticos descriptivos. Estos
procedimientos son: Frecuencias…, Descriptivos… y Explorar….
Procedimiento “Frecuencias…”
El procedimiento Frecuencias… proporciona representaciones estadísticas y
gráficas que son útiles para la descripción de distintos tipos de variables. Permite
obtener una descripción de la variable a partir de las tablas de frecuencias,
histogramas, gráficos de barras, percentiles, índices de tendencia central e índices
de dispersión.
Para acceder a este procedimiento se selecciona en el Menú principal Analizar/
Estadísticos descriptivos/ Frecuencias…
Procedimiento “Descriptivos…”
El procedimiento Descriptivos… calcula estadísticos de tendencia central,
dispersión y distribución para varias variables, mostrándolos en una única tabla y
calcula valores tipificados (puntuaciones z).
Para acceder a este procedimiento se selecciona en el Menú principal Analizar/
Estadísticos descriptivos/ Descriptivos…
En el Cuadro de diálogo correspondiente, se introducen la variable o variables que
se quieren analizar.
• Restablecer permite restablecer todas las opciones por defecto del sistema y
elimina del Cuadro de diálogo todas las asignaciones hechas con las variables
• Continuar permite aceptar las asignaciones hechas con las variables
• Cancelar permite ignorar todas las asignaciones hechas con las variables
• Pegar envía la sintaxis del procedimiento a la ventana de sintaxis
• Aceptar, elegidas las especificaciones, se pulsa el botón Aceptar para obtener los
resultados del procedimiento.
Pinchando en Opciones… se muestra el siguiente Cuadro de diálogo
Procedimiento “Explorar…”
El procedimiento Explorar genera estadísticos de resumen y representaciones
gráficas como Diagrama de cajas, gráficos de tallo y hojas, histogramas, diagramas
de normalidad y diagramas de dispersión por nivel con pruebas de Levene.
En resumen:
Procedimiento “Gráficos”
Además de las gráficas producidas por los anteriores procedimientos descriptivos,
SPSS cuenta con un menú dedicado expresamente para la obtención de resultados
gráficos. Sirvan estas notas como una breve exposición de las características
generales en el manejo de los procedimientos gráficos. Una exposición más
detallada de estos procedimientos requeriría una extensión que sobrepasaría los
objetivos de este documento introductorio.
Ventana de Resultados
Se observa que la parte superior de la ventana muestra
Ejemplo
Con los datos almacenados en el fichero Datos1
Pulsar Definir
En la ventana resultante introducir en la casilla Eje de categorías: la variable Sexo y
en Panel mediante filas: la variable Calificación. Pulsar el botón Títulos para
escribir el título del gráfico y notas al pie. Se puede seleccionar en Los barras
representan: frecuencias relativas y acumuladas, porcentajes relativos y
acumulados y otro estadístico.
En el Editor de
gráficos, que se muestra haciendo doble clik sobre el gráfico, hay diversos botones
que permiten distintas opciones de edición: se puede cambiar el color, cambiar el
tipo de letra, mover las leyendas de los ejes….
Gráfico de sectores: Seleccionando en el Menú principal Gráficos/Cuadros de
diálogo antiguos/Sectores. En el cuadro de diálogo activar Resúmenes para
grupos de casos (activada por defecto)
Pulsar Definir
2. Estadísticos e Histograma
Realizar tablas de frecuencias, representaciones gráficas (histograma),
calcular estadísticos de tendencia central, dispersión, forma, posición
(Percentiles 25, 50 y 75) con las variables cuantitativas.
Tablas de frecuencias: Se selecciona en el Menú principal Analizar/ Estadísticos
descriptivos/ Frecuencias… Introducir las variables correspondientes en la
ventana Variables: y dejar por defecto Mostrar tablas de frecuencias
Se pulsa Aceptar
2. Realizamos un Diagrama de cajas agrupado por la variable Sexo: Para ello,
seleccionar Agrupado y Resúmenes para distintas variables. Se pulsa Definir y
en el cuadro de diálogo resultante, introducir las
variables Puntuación1 y Puntuación2en la casilla Las cajas representan: y la
Variable Sexo en la casilla Eje de categorías:
Se pulsa Aceptar
4. Gráfico de barras agrupadas
Realizar el gráfico de barras para la variable Edad que compare hombres y
mujeres conjuntamente.
Se selecciona en el Menú principal Gráficos/Cuadros de diálogo
antiguos/Barras, en la ventana resultante elegir Agrupado y Resúmenes para
datos agrupados y se pulsa Definir. A continuación, introducir en la casilla Eje de
categorías: la variable Edady en Definir grupos por: la variable Sexo
Se pulsa Aceptar
Ejercicios
Ejercicio Guiado
A continuación se va a proceder a iniciar una aplicación Java, comprueba que tengas instalada la Máq
Java para poder ejecutar aplicaciones en Java.
Si no tienes instalada la Máquina Virtual Java (Java Runtime Environment – JRE) pincha en uno de l
para descargarla:
Se pide:
1. Introducir los datos en el Editor de datos de SPSS
2. Determinar:
• Tabla de frecuencias
• Número de datos; Percentil 30; Valores máximo y mínimo; Media; Mediana;
Moda; Desviación típica; Varianza
• Histograma de frecuencias
• Histograma de frecuencias interactivo con las siguientes características:
• Representación horizontal
• Efecto 3D
• Considerar 5 clases
• Título : Histograma
• Subtítulo : Efecto 3D
• Pie : Concentracion
• Aspecto: Acero
Ejercicios Propuestos
Ejercicio Propuesto 1
Las autoridades sanitarias de un municipio están interesadas en evaluar la
calidad del agua para consumo, en términos de colonias de bacterias tróficas,
en un acuífero próximo a la ciudad. Se consideran dos zonas diferentes del
acuífero y se obtienen los siguientes resultados (número de colonias por 1000
mm de agua):
zona 1: 194 199 191 202 215 214 197 204 199 202 230 193 194 209
zona 2: 158 161 143 174 220 156 156 156 198 161 188 139 147 116
Se pide:
Un estudio comparativo de la calidad del agua en ambas zonas utilizando
medidas estadísticas y gráficos. Para ello realizar los siguientes apartados:
1. Estudiar media, varianza, moda, mediana, máximo y mínimo de ambas zonas.
2. Representar gráficamente los datos con un histograma para cada variable.
3. Representar gráficamente los datos con un diagrama de caja simple (donde
los datos del gráfico son resúmenes para distintas variables).
Ejercicio Propuesto 2
Un agrónomo mide el contenido de humedad en una variedad de trigo tras ser
secados especialmente. Para ello, hace las mediciones en 56 muestras de una
tonelada de trigo. Los resultados se muestran en la tabla adjunta
Se pide:
1. Resumen estadístico: Tabla de frecuencias, estadísticos de tendencia central,
de dispersión, de posición (Percentil 60)
2. Gráfico de tallo y hojas
3. Gráfico de cajas
4. Estratificar la población en tres grupos de Contenido de humedad
5. Determinar la media, mediana y desviación típica del Contenido de
humedad en cada grupo
6. Construir el gráfico de barras y de sectores para la variable de agrupación.
Solución:
1. Calcular media, varianza, moda, mediana, máximo y mínimo de ambas
zonas.
Los valores de la media, mediana y moda, para el nº de colonias de la zona 2 son
inferiores a los obtenidos para el nº de colonias de la zona 1, de lo que se deduce
que la calidad del agua en la zona 2 es claramente superior. Con respecto a los
valores obtenidos para la varianza en ambas variables, podemos ver que la
variabilidad es superior para el nº de colonias de la zona 2.
Para saber en que zona hay mayor dispersión se debe de calcular el Coeficiente de
Variación de Pearson, CV, (Cociente entre la desviación típica y la media) que
representa el número de veces que la desviación típica contiene a la media, por
tanto, cuanto mayor sea el coeficiente de variación de Pearson significa que mayor
número de veces contiene la desviación típica a la media y por tanto la media
aritmética es menos representativa.
CV(zona1) = 10.77 / 203.07 = 0.053
CV(zona2) = 26.07 / 162.36 = 0.161
Los resultados nos muestran que hay mayor dispersión en la zona 2 ya que el
coeficiente de variación es mayor que el de la zona 1
Se pide:
a) Resumen estadístico: Tabla de frecuencias, estadísticos de tendencia
central, de dispersión, de posición (Percentil 60)
b) Gráfico de tallo y hojas
c) Gráfico de cajas
d) Estratificar la población en tres grupos de Contenido de humedad
e) Determinar la media, mediana y desviación típica del Contenido de
humedad en cada grupo
f) Construir el gráfico de barras y de sectores para la variable de agrupación.
Solución:
La columna Número indica las frecuencias. Es preciso, previo a realizar los análisis,
ponderar los valores de la variable Contenido mediante la
variable Número Datos/Ponderar casos
c) Gráfico de cajas
Gráficos/Cuadro de diálogos antiguos/Diagramas de cajas. En el cuadro
resultante activar Resúmenes para distintas variables.
d) Estratificar la población en tres grupos de Contenido de humedad
Forma una nueva variable con el nombre Contenido1 que se obtiene recodificando
la variable Contenido en tres categorías:
• Valor 1: Contenido de humedad menor que 6.9
• Valor 2: Contenido de humedad entre 6.9 y 7.4
• Valor 3: Contenido de humedad mayor que 7.4
Transformar/Recodificar en distintas variables
e) Determinar la media, mediana y desviación típica del Contenido de
humedad en cada grupo
Para efectuar análisis estadístico para cada grupo se elige en el Menú
principal Datos/Segmentar archivo
Práctica 3
REGRESIÓN Y CORRELACIÓN
Objetivos
1. Representar el diagrama de dispersión
2. Ajustar una recta de regresión a las observaciones
3. Analizar la bondad del ajuste lineal
4. Ajustar una curva parabólica a las observaciones
5. Analizar la bondad del ajuste parabólico
6. Comparar el ajuste lineal y el parabólico.
Introducción
En esta práctica estudiamos dos tipos de problemas. El primero es el de encontrar
una función que se ajuste lo mejor posible a un conjunto de puntos observados,
gráficamente equivale a encontrar una curva que aunque no pase por todos los
puntos esté lo más próxima posible de dichos puntos. El segundo es medir el grado
de ajuste entre la función teórica (función ajustada) y la nube de puntos.
Distinguimos así, entre Teoría de Regresión y Teoría de Correlación.
• Teoría de Regresión: Consiste en la búsqueda de una “función” que exprese lo
mejor posible el tipo de relación entre dos o más variables. Esta práctica sólo estudia
la situación de dos variables.Una de las aplicaciones más interesante que tiene la
Regresión es la de Predecir, es decir, conocido el valor de una de las variables,
estimar el valor que presentará la otra variable relacionada con ella.
• Teoría de Correlación: Estudia el grado de dependencia entre las variables es
decir, su objetivo es medir el grado de ajuste existente entre la función teórica
(función ajustada) y la nube de puntos.Cuando la relación funcional que liga las
variables X e Y es una recta entonces la regresión y correlación reciben el nombre
de Regresión Lineal y Correlación Lineal. Una medida de la Correlación Lineal la
da el Coeficiente de Correlación Lineal de Pearson.
El gráfico muestra una posible adecuación del modelo lineal y la tendencia creciente
del mismo.
Para obtener la recta de regresión mínima cuadrática de Y sobre X , y = b0 + b1 x, se
debe elegir el procedimiento Regresión lineal. Para ello se
selecciona Analizar/Regresión/Lineales…
Por ejemplo:
Histograma
Este mismo gráfico resulta muy útil para detectar indicios de falta de adecuación del
modelo propuesto a los datos, posibles desviaciones de la hipótesis de linealidad. Si
observamos trayectorias de comportamiento no aleatorio esto es indicio de que el
modelo propuesto no describe adecuadamente los datos.
El
modelo ajustado tiene la siguiente expresión y = 442.883 – 0.007 x + 6.64E-006
x^2.
La
comparación del ajuste de ambos modelos se puede realizar a partir de los valores
del coeficiente de determinación de cada uno de ellos, en este caso R cuadrado
(lineal) = 0.481 y R cuadrado (cuadrático) = 0.488. Los resultados en el caso
lineal son un poco menos satisfactorios que el cuadrático.
En la Tabla ANOVA se
muestra un p-valor = 0.002 menor que el nivel de significación α = 0.05, por lo que
se rechaza la hipótesis nula de no regresión curvilínea. Conviene puntualizar que la
elección de un modelo de regresión debe tener en cuenta no sólo la bondad del
ajuste numérico sino también la adecuación gráfica de los datos al mismo y,
finalmente, su adecuación o explicación biológica.
Ejercicios
Ejercicio Guiado
A continuación se va a proceder a iniciar una aplicación Java, comprueba que
tengas instalada la Máquina Virtual Java para poder ejecutar aplicaciones en
Java.
Se pide:
a) Diagrama de dispersión
b) Recta de regresión de la tasa de mortalidad en función del nivel de
humedad. Estudiar la bondad del ajuste
c) Regresión parabólica. Estudiar la bondad del ajuste.
Ejercicios Propuestos
Ejercicio Propuesto 1
Se realiza un estudio para establecer una ecuación mediante la cual se pueda
utilizar la concentración de estrona en saliva (x), para predecir la
concentración de estrona en plasma libre (y). Se obtuvieron los siguientes
datos de 14 hombres sanos:
Se pide:
a) Diagrama de dispersión
b) Recta de regresión de la concentración de estrona en plasma libre en
función de la concentración de estrona en saliva. Estudiar la bondad del ajuste
c) Regresión parabólica. Estudiar la bondad del ajuste.
Ejercicio Propuesto 2
Se realiza un estudio para investigar la relación entre el nivel de humedad del
suelo y la tasa de mortalidad en lombrices. La tasa de mortalidad, Y, es la
proporción de lombrices de tierra que mueren tras un periodo de dos
semanas; el nivel de humedad, X, viene medido en milímetros de agua por
centímetro cuadrado de suelo. Los datos se muestran en la siguiente tabla.
Se pide:
a) ¿Muestran los datos una tendencia lineal?
b) Determinar la recta de regresión Y/X, el grado de asociación lineal entre la
tasa de mortalidad y el nivel de humedad y la bondad del ajuste realizado en
la recta de regresión. ¿Cuánto explica el modelo?
c) Predecir el nivel de humedad del suelo si la tasa de mortalidad de las
lombrices es 0.7
d) Determinar el coeficiente de correlación lineal de las rectas de regresión
Y/X y X/Y
e) Ajustar los datos mediante una regresión curvilínea
d) ¿Qué ajuste es mejor ¿Lineal? ¿Curvilíneo?
Se pide:
a) Diagrama de dispersión
b) Recta de regresión de la concentración de estrona en plasma libre en
función de la concentración de estrona en saliva. Estudiar la bondad del ajuste
c) Regresión parabólica. Estudiar la bondad del ajuste.
Solución:
a) Diagrama de Dispersión
b) Recta de regresión de la concentración de estrona en plasma libre en
función de la concentración de estrona en saliva. Estudiar la bondad del
ajuste.
Los
resultados muestran que
• El coeficiente de correlación lineal de Pearson (R) es igual a 0.954 y el coeficiente
de determinación, R cuadrado, es igual a 0.911. Este valor indica que el 91.1% de
la variabilidad de la concentración de estrona en plasma es explicada por el modelo
propuesto. El grado de ajuste es alto.
• La Tabla ANOVA muestra un valor del estadístico F = 122.880 y un p-valor asociado
menor que 0.001, lo que conduce a rechazar la hipótesis nula de no linealidad. Por
tanto, existe una relación lineal significativa entre Y y X
• La Tabla de los Coeficientes muestra:
• Las estimaciones de los parámetros del modelo de regresión lineal simple, la
ordenada en el origen, ß0=8.645 y la pendiente ß1= 2.727. Por
lo tanto, la ecuación de la recta estimada o ajustada es: y = 8.645 + 2.727 x
• El contraste de la pendiente de la recta que es una alternativa equivalente al
contraste que acabamos de comentar en la Tabla ANOVA. El estadístico de contraste
que aparece en la columna t vale 11.085 tiene un p-valor asociado, columna Sig,
menor que 0.001, menor que el nivel de significación 0.05 que conduce al rechazo
de la hipótesis nula y podemos afirmar que existe una relación lineal significativa
entre Y y X. En la última columna de la tabla se muestran los intervalos de confianza
para ß0 y ß1, al 95%. El intevalo para ß1 es (2.191, 3.263), puesto que el cero no
pertenece al intervalo, hay evidencia empírica para concluir que X influye en Y y por
tanto al nivel de confianza del 95% el parámetro ß1 no podría considerarse igual a
cero.
La
hipótesis de independencia de los residuos la realizamos mediante el contraste
de Durbin-Watson. El estadístico de Durbin-Watson mide el grado de
autocorrelación entre el residuo correspondiente a cada observación y la anterior.
Si su valor está próximo a 2, entonces los residuos están incorrelados, si se aproxima
a 4, estarán negativamente autocorrelados y si su valor está cercano a 0 estarán
positivamente autocorrelados. En nuestro caso, toma el valor 2.524,
próximo a 2 lo que indica la incorrelación de los residuos.
c) Regresión parabólica. Estudiar la bondad del ajuste
El modelo ajustado
tiene la siguiente expresión: y = -0.951 + 4.237 x – 0.053 x^2
En la tabla ANOVA se
muestra un p-valor menor que 0.001 menor que el nivel de significación 0.05, por
lo que se rechaza la hipótesis nula de no regresión curvilínea.
Los valores obtenidos de los coeficientes de determinación son: R cuadrado
(lineal) = 0.911 y R cuadrado (cuadrático) = 0.918, puesto que la diferencia entre
ambos coeficientes es muy pequeña, se considerará el modelo lineal por su
simplicidad.
Solución:
a) ¿Muestran los datos una tendencia lineal?
Para una tasa de mortalidad de 0.7, el nivel de humedad del suelo es 1.1778
d) Determinar el coeficiente de correlación lineal de las rectas de regresión
Y/X y X/Y : r = 0.521
e) Ajustar los datos mediante una regresión curvilínea
Ajuste cuadrático
…………………………………………………………………………………………………………………………………………………
Práctica 4
DISTRIBUCIONES DE PROBABILIDAD:
BINOMIAL, POISSON Y NORMAL
Objetivos
1. Identificar distribuciones
2. Calcular probabilidades de distribuciones
• Función masa de probabilidad
• Función de distribución
3. Calcular cuantiles
4. Generar valores aleatorios de una distribución determinada.
Introducción
En la teoría de la probabilidad existen muchos modelos teóricos que resultan de
utilidad en una gran variedad de situaciones prácticas. En esta práctica se
consideran tres modelos teóricos: Binomial, Poisson y Normal. Para cada uno de
ellos se obtiene la función masa de probabilidad, la función de distribución y se
calculan cuantiles. Por último, se genera una muestra aleatoria de un modelo
determinado.
•
• pi ≥ 0 ∀i
En una variable aleatoria continua no tiene sentido determinar una función, como
en las vv.aa. discretas, que asigne a cada valor posible de dicha v.a. una probabilidad;
puesto que la v.a. continua puede tomar infinitos valores y la probabilidad de que la
v.a. tome un valor determinado vale cero. Por ello, en el caso continuo definiremos
una función que nos permita calcular la probabilidad de que la v.a. esté comprendida
en un intervalo de valores específico. Dicha función recibe el nombre de Función de
Densidad de probabilidad, y se denota por f(x).
La Función de Densidad de probabilidad, es una función definida para todos los
números reales tal que satisface las siguientes condiciones:
1. f(x) ≥ 0 (no negativa)∀x
3. (Para cualquier valor real entre los números a y b, P[a < X <
b] representa el área comprendida entre la gráfica de f(x), el eje OX y las rectas x=a
y x=b).
Para obtener, en SPSS, valores de la función masa de probabilidad y de la función de
densidad de probabilidad de una distribución específica, una vez seleccionado en el
menú principal Transformar/Calcular Variable, en el cuadro de diálogo se
selecciona, en Grupo de funciones, la opción FDP y FDP no centrada.
Esta opción, FDP y FDP no centrada, dado un valor de la variable, permite obtener:
• Si la v.a. es discreta, la probabilidad de que la variable sea igual a dicho valor en el
modelo especificado. Se necesita conocer el valor de la variable y los parámetros que
determinan al modelo.
• Si la v.a. es continua, la densidad de probabilidad del modelo especificado, en el
caso de la distribución Normal, con la media y desviación típica especificadas.
En Funciones y variables especiales se selecciona la distribución
correspondiente:
• PDF.BERNUOILLI(c, prob): Numérico. Devuelve como resultado la probabilidad
de que un valor de la distribución de Bernouilli, con el parámetro de
probabilidad dado sea igual a c, es decir la probabilidad de que la
variable X sea igual a c,P[X = c], siendo X una variable aleatoria con distribución
Bernouilli de parámetros 1 y prob.
• PDF.BINOM(c, n, prob): Numérico. Devuelve como resultado la probabilidad de
que el número de éxitos en n ensayos, con probabilidad de éxito p en cada uno
de ellos, sea igual a c. Es decir, la probabilidad de que la variable X sea igual
a c, P[X = cant], siendo X una variable aleatoria con distribución Binomial de
parámetros n y prob. Cuando n es 1 el valor es el mismo que el de PDF.BERNUOILLI
• PDF.POISSON(c, media): Numérico Devuelve como resultado la probabilidad de
que un valor de la distribución de Poisson, con el parámetro de media o tasa
especificado, sea igual a c. Es decir, probabilidad de que la variable X sea igual
a c, P[X = cant], siendo X una variable aleatoria con distribución de Poisson de
parámetro media.
• PDF.NORMAL(cant, media, desv_tip): Numérico. Devuelve como resultado la
densidad de probabilidad de la distribución Normal, con la media y desviación
típica especificadas, en c.
Función de distribución
Se define la Función de Distribución de la variable aleatoria X, y se denota por F{X},
como la probabilidad de que la v.a. Xtome un valor menor o igual que x
Propiedades
• P1) F{X}(.) es una función no-decreciente
• P2) F{X}(.) es continua a la derecha
• P3) F{X}(+∞) = +1 y F{X}(-∞) = 0
• P4) P[x1 < X ≤ x2] = F(x2) – F(x1)
• P5) P[X > x] = 1 – F(x)
Dada una variable aleatoria continua X, recibe el nombre de Función de
Distribución, y se denota por F{X} (o F cuando en el contexto está claro a la v.a. que
se refiere), la función F: R→ [0,1] definida por:
Calcular cuantiles
Para calcular cuantiles de una distribución específica se selecciona en Grupo de
funciones la opción GL inversos. Dada una probabilidad acumulada, permite
obtener el valor de la variable que acumula dicha probabilidad en un modelo
determinado. Se necesita conocer la probabilidad acumulada y los parámetros del
modelo.
• IDF.NORMAL(p, media, desv_típ): Numérico. Devuelve como resultado el valor de
la distribución Normal de parámetros media y desv_típ especificadas, cuya
probabilidad acumulada es p, es decir, calcula un valor x tal que P[X ≤ x] = p,
siendo X una variable aleatoria con distribución Normal de
parámetros media y desv_típ.
Supuesto práctico 1
El delegado de zona de una casa dedicada a la fabricación de calculadoras
electrónicas vende, el mismo día a distintas empresas de una misma localidad,
5 máquina iguales. La probabilidad de que este tipo de calculadoras estén en
funcionamiento 3 años después es 0,8. Calcular la probabilidad de que:
a) Las cinco calculadoras estén fuera de servicio 3 años más tarde
b) Estén en servicio 3 años más tarde
c) Dos calculadoras a lo sumo estén fuera de servicio
d) Tres calculadoras estén fuera de servicio
e) Generar una muestra de tamaño 15.
Solución
Suceso éxito: “ Máquina que funciona tres años después” => P[éxito] = 0.8
Se define la siguiente variable aleatoria: X = ”Nº de máquinas que funcionan tres
años después de 5 máquinas”. Esta variable aleatoria tiene distribución Binomial de
parámetros n = 5 y prob = 0.8.
Nota: Recordar que es necesario activar el Editor de datos, es decir, abrir algún
fichero de datos o bien introducir algún número en una casilla, de otra forma
aparece un mensaje de error.
a) Las cinco calculadoras estén fuera de servicio 3 años más tarde
P[todas las calculadores esten fuera de servicio] = P[X =0] =
PDF.BINOM(0,5,0.8)
Supuesto práctico 3
Se sabe por experiencia que la altura de la población de pino albar (Pinus
sylvestris) sigue una distribución normal de media 25 metros y desviación
típica 2.5 metros. Se pide:
1. Calcular la probabilidad de que un pico albar tenga una altura inferior a 24.8
metros
2. Calcular la altura máxima del 16.6% de los pinos con menor altura.
Solución
X: {Altura del pino Albar}; X→N(25, 2.5)
1. Calcular la probabilidad de que un pino Albar tenga una altura inferior a
24.8 metros
P[X < 24.8] = CDF.NORMAL(24.8,25,2.5)
P[X < 24.8] = CDF.NORMAL(24.8,25,2.5) = 0.468118
2. Calcular la altura máxima del 16.6% de los pinos con menor altura.
Supuesto práctico 4
La concentración en plomo en partes por millón en la corriente sanguínea de
un individuo tiene una media de 0.25 y una desviación típica de 0.11.
Supongamos que dicha concentración sigue una ley Normal. Se pide:
1. Una concentración superior o igual a 0.6 partes por millón se considera
extremadamente alta. ¿Cuál es la probabilidad de que un individuo
seleccionado aleatoriamente esté incluido en esta categoría?
2. ¿Cuál es la concentración mínima del 30% de los individuos con mas
concentración?
3. Determinar la mediana de esta distribución.
Solución
X: {Concentración en plomo}; X→N(0.25, 0.11)
1. Una concentración superior o igual a 0.6 partes por millón se considera
extremadamente alta. ¿Cuál es la probabilidad de que un individuo
seleccionado aleatoriamente esté incluido en esta categoría?
P[X ≥ 0.6] = 1- CDF.NORMAL(0.60,0.25,0.11)
Supuesto práctico 5
En un laboratorio se está estudiando el crecimiento de cierto cultivo, se
supone que la aparición de nuevas células sigue una ley de Poisson de media
16 células cada minuto. Obtener:
1. La probabilidad de que en un minuto aparezcan al menos 10 células
2. La probabilidad de que aparezcan entre 10 y 20
Solución
X: {Aparición de nuevas celulas}; X→P(16)
1. La probabilidad de que en un minuto aparezcan al menos 10 células
P[X ≥ 10] = 1- CDF.POISSON(10,16)
Ejercicios
Ejercicios Guiados
A continuación se va a proceder a iniciar una aplicación Java, comprueba que
tengas instalada la Máquina Virtual Java para poder ejecutar aplicaciones en
Java.Si no tienes instalada la Máquina Virtual Java (Java Runtime
Environment – JRE) pincha en uno de los enlaces para descargarla: java
1
Ejercicio
Si ya tienes instalada la Máquina Virtual Java pincha en el siguiente
enlace para proceder a la ejecución de los ejercicios guiados
2
Ejercicio
3
IMPORTANTE: Si al descargar el archivo *.JAR del ejercicio tu gestor de
descargas intenta guardarlo como *.ZIP debes cambiar la extensión a .JAR para
poder ejecutarlo.
Enunciado del Ejercicio 1
Se pretende comprobar la efectividad de una determinada vacuna contra la
gripe. Para ello se administra dicha vacuna a un grupo de 15 pacientes. La
probabilidad de que el paciente vacunado contraiga la gripe es 0.3. Calcula las
siguientes probabilidades:
1. Ningún paciente contraiga la gripe
2. Más de dos pacientes contraigan la gripe
3. Contraigan la gripe entre tres y cinco pacientes, ambos inclusive
4. Generar una muestra aleatoria de tamaño 20 de valores de una distribución
Binomial de parámetros n = 10 y prob = 0.2.
Enunciado del Ejercicio 2
En un servicio de urgencias de un determinado hospital se sabe que por
término medio llegan diez pacientes durante una hora. Calcula la
probabilidad de que:
1. Lleguen exactamente cinco pacientes en una hora
2. Lleguen menos de quince pacientes en dos horas
3. Lleguen más de cuatro y menos de ocho pacientes en una hora
4. Generar una muestra de tamaño 15 para una distribución de Poisson de
parámetro media igual a 30.
Enunciado del Ejercicio 3
Se ha estudiado el nivel de glucosa en sangre en ayunas en un grupo de
diabéticos. Esta variable se supone que sigue una distribución Normal, con
media 106 mg/100 ml y desviación típica 8 mg/100 ml.
Se pide:
1. Obtener la probabilidad de que el nivel de glucosa en sangre en un diabético
sea inferior a 120 mg/100 ml
2. ¿Qué porcentaje de diabéticos tienen niveles de glucosa en sangre
comprendidos entre 90 y 130 mg/100 ml?
3. Hallar el valor de la variable caracterizado por la propiedad de que el 25% de
todos los diabéticos tiene un nivel de glucosa en ayunas inferior a dicho valor
4. Generar una muestra de tamaño 12 para la una distribución Normal con
media igual a 5 y desviación típica igual a 3.
Ejercicios Propuestos
Ejercicio Propuesto 1
Una prueba de laboratorio para detectar heroína en sangre tiene un 92% de
precisión. Si se analizan 72 muestras en un mes. Calcular las siguientes
probabilidades:
1. 60 o menos estén correctamente evaluadas
2. Menos de 60 estén correctamente evaluadas
3. Exactamente 60 estén correctamente evaluadas
4. Generar una muestra de tamaño 12.
Ejercicio Propuesto 2
En una cierta población se ha observado que el número medio anual de
muertes por cáncer de pulmón es 12. Si el número de muertes causadas por la
enfermedad sigue una distribución de Poisson, calcular las siguientes
probabilidades:
1. Haya exactamente 10 muertes por cáncer de pulmón en un año
2. 15 o más personas mueran a causa de la enfermedad durante un año
3. 10 o menos personas mueran a causa de la enfermedad en 6 meses.
Ejercicio Propuesto 3
En cierta especie de aves, se ha detectado una contaminación apreciable de
mercurio (Hg) en sangre. La concentración de mercurio en sangre está
distribuida normalmente con media 0.25 ppm (partes de Hg por millón, en
plasma) y desviación típica 0.08 ppm.
1. ¿Cuál es la probabilidad de que un ave presente un nivel de mercurio en
sangre superior a 0.40 ppm ?
2. ¿Cuál es la probabilidad de que un ave tenga un nivel de mercurio en sangre
entre 0.20 y 0.50 ppm?
3. ¿Cuál es el nivel máximo de concentración de mercurio en sangre del 40% de
las aves menos contaminadas?
4. Generar una muestra de tamaño 10.
Solución:
Suceso éxito: “ Prueba evaluada correctamente” => P[éxito] = 0.92
Se define la siguiente variable aleatoria: X = ”Nº de pruebas evaluadas
correctamente de 72 muestras”
Esta variable aleatoria tiene distribución Binomial de parámetros n = 72 y prob =
0.92. A continuación se calculan las probabilidades pedidas.
Nota: Recordar que es necesario activar el Editor de datos, es decir, abrir algún
fichero de datos o bien introducir algún número en una casilla, de otra forma
aparece el siguiente mensaje de error.
1. Calcular la probabilidad de que 60 o menos están correctamente evaluadas
P[60 o menos pruebas estén correctamente evaluadas] = P[X ≤ 60]=
CDF.BINOMIAL(60,72,0.92) = 0.0114
2. Calcular la probabilidad de que menos de 60 estén correctamente evaluadas
P[menos de 60 pruebas estén correctamente evaluadas] = P[X < 60] = P[X ≤ 59] =
0.0043
3. Calcular la probabilidad de que exactamente 60 estén correctamente
evaluadas
P[exactamente 60 estén correctamente evaluadas] = P[X = 60]
= PDF.BINOMIAL(60,72,0.92) = 0.0070
4. Generar una muestra de tamaño 12
En primer lugar hay que activar en el Editor de datos tantas filas como números
aleatorios se vayan a generar, en este caso 12. Para ello, se pincha con el ratón en la
casilla correspondiente de la Columna 1 y Fila 12 y se escribe un número cualquiera
en la última casilla. Se puede comprobar como automáticamente las 12 primeras
filas se han activado (el número de filas aparece en negrita) y esto permite generar
12 números aleatorios.
Solución:
Se define la siguiente variable aleatoria: X = ”Nº de muertes por cáncer de pulmón
en un año”. Esta variable aleatoria tiene distribución de Poisson de parámetro λ =
12. Seguidamente se calculan las probabilidades pedidas.
Se define una nueva variable, Y = ”Nº de muertes por cáncer de pulmón en seis
meses”. Esta variable aleatoria tiene distribución de Poisson de parámetro λ = 6. A
partir de aquí se calcula la probabilidad que se pide.
Solución:
Se define la siguiente variable aleatoria: X = ”Concentración de mercurio en sangre”.
Esta variable aleatoria tiene distribución Normal con parámetros µ = 0.25 y σ = 0.08.
A continuación calculan las probabilidades pedidas.
Se pide calcular el percentil 40 de la distribución, es decir, calcular P40, tal que P[X
< P40] = 0.40.
Se elige en Expresión numérica la función que calcula un valor de la distribución
Normal considerada tal que acumula una probabilidad dada. Para ello, se selecciona
en Grupo de funciones la opción Gl inversos y en Funciones y variables
especialesse selecciona la función IDF.NORMAL(p,media,desv_típ). Se modifican
los parámetros, p = 040., media = 0.25 y desv_típ = 0.08.
P[X < P40] = 0.40 => IDF.NORMAL(0.40,0.25,0.08) = 0.2297 => P40 = 0.2297
4. Generar una muestra de tamaño 10
En primer lugar hay que activar en el Editor de datos tantas filas como números
aleatorios se vayan a generar, en este caso 10. Para ello, se pincha con el ratón en la
casilla correspondiente de la Columna 1 y Fila 10 y se escribe un número cualquiera
en la última casilla. Se puede comprobar como automáticamente las 10 primeras
filas se han activado (el número de fila aparece en negrita) y esto permite generar
10 números aleatorios.
………………………………………………………………………………………………
Práctica 5
INTERVALOS DE CONFIANZA
Objetivos
1. Obtener un intervalo de confianza para la media de una población normal.
Introducción
El objetivo de la estimación por intervalos de confianza es obtener un intervalo,
en el cual se encuentra el verdadero valor del parámetro con una determinada
probabilidad. Dicha probabilidad se denomina nivel de confianza (1−α), donde α es
el nivel de significación.
En término generales, la construcción de un intervalo de confianza para un
parámetro desconocido θ consiste en encontrar dos funciones de los valores
muestrales
t ales que
donde:
Por defecto SPSS calcula el intervalo de confianza a un nivel del 95%, para modificar
este nivel se pulsa Estadísticos…
Para obtener el intervalo se pulsa Continuar y seguidamente Aceptar.
Alternativamente este intervalo de confianza también puede obtenerse
seleccionando en el menú principal Analizar/Comparar medias/Prueba T para
una muestra…
Supuesto práctico 1
En una muestra de 9 preparados de jugo de tomate se ha obtenido los
siguientes datos del contenido de vitamina C en mg/100 cc.
21,60; 19,72; 18,92; 23,01; 17,98; 22,06; 25,01; 21,98; 20,80
Supuesto que el contenido de vitamina C del jugo de tomate se distribuye
normalmente. Se pide:
a) Estimar el contenido medio, en vitamina C, del jugo de tomate
b) Calcular un intervalo de confianza al 95% para dicha cantidad.
Respuesta:
a) Estimar el contenido medio, en vitamina C, del jugo de tomate
El estimador pedido es la media muestral
b) Calcular un intervalo de confianza al 95% para dicha cantidad.
Seleccionar en el menú principal Analizar/Comparar medias/Prueba T para una
muestra…
En el campo Contrastar
variables: se introduce la variable Conte_VitaminaC y en el campo Valor de
prueba se deja el valor 0que viene por defecto. Se pulsa Aceptar y se obtienen las
siguientes salidas
Sea (X1, X2, …, Xnx) una m.a.s. de tamaño nx extraída de la población N(N(μX, σX) y
denotamos por , a la media muestral y a la varianza muestral,
respectivamente.
Sea (Y1, Y2, …, Yny) una m.a.s. de tamaño ny extraída de la población N(μY, σY) y
denotamos por , a la media muestral y a la varianza muestral,
respectivamente.
Supongamos que interesa comparar las dos medias poblaciones, podemos construir
un intervalo de confianza para μX − μY para el caso de varianzas poblacionales
desconocidas. Entonces la variable aleatoria
donde
Supuesto práctico 2
Dos laboratorios A y B realizan determinaciones de nicotina en 4 unidades de
tabaco, con los resultados siguientes:
Lab. A: 16, 14, 13, 17 Lab. B: 18, 21, 18, 19
Suponiendo que las dos poblaciones examinadas son normales e
independientes con igual varianza, estimar la diferencia del contenido medio
en nicotina del tabaco a un nivel de confianza del 95%.
Respuesta:
Se introducen los datos
Se selecciona, en el menú
principal, Analizar/Comparar medias/Prueba T para muestras
independientes… Se
siguientes salidas
En este caso la prueba de Levene nos muestra un p-valor igual a 0.356, al ser mayor
que el nivel de significación 0.05, indica que no se debe rechazar la igualdad de
varianzas con un nivel de confianza del 95%. Por tanto, el intervalo de confianza
resultante es aquel en el que “Se han asumido varianzas iguales” (-6.825, -1.175). De
este resultado se deduce que el contenido medio de nicotina difiere de un
laboratorio a otro, (el intervalo no contiene al 0), siendo dicho contenido mayor en
el laboratorio B que en laboratorio A.
La varianza de D es:
Por lo tanto el problema original de realizar una
inferencia sobre dos muestras se reduce al problema de realizar la inferencia sobre
una muestra que consiste en construir un intervalo de confianza para la media de la
población de diferencias. Para la realización de este intervalo de confianza
recurrimos a los métodos utilizados anteriormente. En particular, construyamos el
intervalo de confianza para μX−μY=μD. Para ello, consideremos la variable aleatoria
donde son la
media muestral y la cuasidesviación típica muestral de la muestra de diferencias,
respectivamente.
En este caso las observaciones se introducen de forma que cada muestra esté en una
columna del Editor de Datos de SPSS
Se selecciona, en el menú
principal, Analizar/Comparar medias/Prueba T para muestras
relacionadas…
Supuesto práctico 3
Se realiza un estudio, en el que participan 10 individuos, para investigar el
efecto del ejercicio físico en el nivel de colesterol en plasma. Antes del
ejercicio se tomaron muestras de sangre para determinar el nivel de
colesterol de cada individuo. Después, los participantes fueron sometidos a un
programa de ejercicios. Al final de los ejercicios se tomaron nuevamente
muestras de sangre y se obtuvo una segunda lectura del nivel de
colesterol. Los resultados se muestran a continuación:
Se pulsa Aceptar y se
muestran las siguientes salidas
Ejercicio
Si ya tienes instalada la Máquina Virtual Java pincha en el siguiente enlace
para proceder a la ejecución de los ejercicios guiados
1
IMPORTANTE: Si al descargar el archivo *.JAR del ejercicio tu gestor de
descargas intenta guardarlo como *.ZIP debes cambiar la extensión a .JAR para
poder ejecutarlo.
Se pide:
1. Obtener un intervalo de confianza al 99% para la producción media de los
árboles tratados con el Fertilizante A y para la producción media de los
árboles tratados con el Fertilizante B
2. Obtener un intervalo de confianza al 98% para la diferencia entre la
producción media de los árboles tratados con el Fertilizante A y con el
Fertilizante B
3. La producción de los árboles tratados con el Fertilizante A en el año anterior
viene reflejada en la siguiente tabla. Obtener un intervalo de confianza al 99%
para la diferencia de medias, en la producción antes y después de tratar los
árboles con dicho fertilizante.
Ejercicios Propuestos
Ejercicio Propuesto 1
Se desea estudiar si la longitud del pico en una especie de loro es distinta entre
los machos y las hembras. Para ello se selecciona una muestra de 14 machos y
12 hembras, cuyos resultados, expresados en milímetros, se muestran en la
siguiente tabla:
Se pide:
1. Obtener un intervalo de confianza a un nivel del 99%
• para la longitud media del pico en los machos
• para la longitud media del pico en las hembras
2. Obtener un intervalo de confianza a un nivel del 99% para la diferencia entre
la longitud media del pico de los machos y de las hembras.
Ejercicio Propuesto 2
Para comprobar si un determinado pienso puede mejorar la producción de
lana de las ovejas, se selecciona una muestra aleatoria simple de 10 ovejas
para ser alimentadas con dicho pienso. En la tabla siguiente se muestra el peso
(en Kgr) de la lana producida antes y después del experimento
Se pide:
1. Obtener un intervalo de confianza a un nivel del 99%
• para la longitud media del pico en los machos
• para la longitud media del pico en las hembras
2. Obtener un intervalo de confianza a un nivel del 99% para la diferencia entre
la longitud media del pico de los machos y de las hembras.
Solución:
1. Obtener un intervalo de confianza a un nivel del 99%
• para la longitud media del pico en los machos
• para la longitud media del pico en las hembras
Los datos se introducen de la siguiente forma
Los intervalos de confianza para la longitud media del pico de los machos y de las
hembras, a un nivel del 99%, son (57.39, 60.90) y (53.57, 56.27), respectivamente.
Como se puede apreciar la longitud del pico en los machos es mayor que en las
hembras.
Alternativamente estos intervalos de confianza también pueden determinarse
seleccionando en el menú principal Analizar/Comparar medias/Prueba T para
una muestra… En el Cuadro de diálogo se introducen las variables Machos y
Hembras en el campo Contrastar variables:
Los intervalos de confianza para la longitud media del pico de los machos y de las
hembras, a un nivel del 99%, son (57.39, 60.90) y (53.57, 56.27), respectivamente.
2. Obtener un intervalo de confianza a un nivel del 99% para la diferencia
entre la longitud media del pico de los machos y de las hembras.
Para obtener el intervalo de confianza pedido, en primer lugar se definen las
variables: Ambos y Niveles y a continuación se introducen los valores
y se selecciona Analizar/Comparar
medias/Prueba T para muestras independientes... En el Cuadro de diálogo se
introduce: la variable Ambos en el campo Contrastar variables: y la
variable Niveles en el campo Variable de agrupación:
Se pulsa sobre Definir grupos…, donde se indican las etiquetas asignadas y que
determinan el grupo al que pertenece cada uno de los valores de la variable Ambos
Se pulsa Continuar y se establece el nivel de
confianza
En este caso la prueba de Levene nos muestra un p-valor igual a 0.161, al ser mayor
que el nivel de significación 0.01, indica que no se debe rechazar la igualdad de
varianzas con un nivel de confianza del 99%. Por tanto, el intervalo de confianza
resultante es aquel en el que “Se han asumido varianzas iguales”: (2.136, 6.317).
Solución:
Los datos se introducen de la siguiente forma:
Se
pulsa Opciones y se selecciona el nivel de confianza del 98%
Se pulsa Continuar y Aceptar, y se obtienen los resultados siguientes
El intervalo de
confianza para la diferencia de los pesos medios de la lana producida antes y
después del experimento, a un nivel del 98%, es (–2.464, –0.536). Como el intervalo
de confianza no contiene el 0 podemos deducir que existen diferencias significativas
entre las medias. Se puede apreciar que el peso de la lana es mayor después del
tratamiento.
…………………………………………………………………………………………………………………
Práctica 6
CONTRASTES DE HIPÓTESIS
Objetivos
1. Realizar contrastes de hipótesis paramétricos para la media de una población
normal.
2. Realizar contrastes de hipótesis paramétricos para comparar dos medias de
variables normales en muestras independientes y en muestras apareadas.
3. Realizar contrastes de hipótesis para comparar dos proporciones.
4. Realizar contrastes de hipótesis no-paramétricos de independencia para variables
cualitativas.
5. Realizar contrastes de hipótesis no-paramétricos de bondad de ajuste de
distribuciones.
6. Realizar contrastes de hipótesis no-paramétricos de aleatoriedad.
7. Realizar contrastes de hipótesis no-paramétricos de dos muestras independientes y
de dos muestras relacionadas.
Conceptos básicos
Contraste de hipótesis. Un contraste de hipótesis es un proceso estadístico
mediante el cual se investiga si una propiedad que se supone que cumple una
población es compatible con lo observado en una muestra de dicha población. Es un
procedimiento que permite elegir una hipótesis de trabajo de entre dos posibles y
antagónicas.
Hipótesis Estadística. Todo contraste de hipótesis se basa en la formulación de dos
hipótesis exhaustivas y mutuamente exclusivas:
1. Hipótesis nula (H0)
2. Hipótesis alternativa (H1)
La hipótesis H0 es la que se desea contrastar. Consiste generalmente en una
afirmación concreta sobre la forma de una distribución de probabilidad o sobre el
valor de alguno de los parámetros de esa distribución. El nombre de “nula” significa
“sin valor, efecto o consecuencia”, lo cual sugiere que H0 debe identificarse con la
hipótesis de no cambio (a partir de la opinión actual); no diferencia, no mejora,
etc. H0 representa la hipótesis que mantendremos a no ser que los datos indiquen su
falsedad, y puede entenderse, por tanto, en el sentido de “neutra”. La
hipótesis H0 nunca se considera probada, aunque puede ser rechazada por los
datos. Por ejemplo, la hipótesis de que dos poblaciones tienen la misma
media puede ser rechazada fácilmente cuando ambas difieren mucho, analizando
muestras suficientemente grandes de ambas poblaciones, pero no puede
ser “demostrada” mediante muestreo, puesto que siempre cabe la posibilidad de
que las medias difieran en una cantidad lo suficientemente pequeña para que no
pueda ser detectada, aunque la muestra sea muy grande. Dado que descartaremos o
no la hipótesis nula a partir de muestras obtenidas (es decir, no dispondremos de
información completa sobre la población), no será posible garantizar que la
decisión tomada sea la correcta.
La hipótesis H1 es la negación de la nula. Incluye todo lo que H0 excluye.
¿Qué asignamos como H0 y H1 ?
La hipótesis H0 asigna un valor específico al parámetro en cuestión y por lo tanto “el
igual” siempre forma parte de H0.
La idea básica de la prueba de hipótesis es que los hechos tengan probabilidad de
rechazar H0. La hipótesis H0 es la afirmación que podría ser rechazada por los
hechos. El interés del investigador se centra, por lo tanto, en la H1.
La regla de decisión. Es el criterio que vamos a utilizar para decidir si la hipótesis
nula planteada debe o no ser rechazada. Este criterio se basa en la partición de la
distribución muestral del estadístico de contraste en dos regiones o zonas
mutuamente excluyentes: Región crítica o región de rechazo y Región de no-
rechazo.
Región de no-rechazo. Es el área de la distribución muestral que corresponde a los
valores del estadístico de contraste próximos a la afirmación establecida en H0. Es
decir, los valores del estadístico de contraste que nos conducen a decidir H0. Es por
tanto, el área correspondiente a los valores del estadístico de contraste que es
probable que ocurran si H0 es verdadera. Su probabilidad se denomina nivel de
confianza y se representa por 1 – α .
Región de rechazo o región crítica. Es el área de distribución muestral que
corresponde a los valores del estadístico de contraste que se encuentran tan
alejados de la afirmación establecida en H0, que es muy poco probable que ocurran
si H0 es verdadera. Su probabilidad se denomina nivel de significación o nivel de
riesgo y se representa con la letra α .
Ya definidas las dos zonas, la regla de decisión consiste en rechazar H0 si el
estadístico de contraste toma un valor perteneciente a la zona de rechazo, o
mantener H0 si el estadístico de contraste toma un valor perteneciente a la zona de
no-rechazo.
El tamaño de las zonas de rechazo y no-rechazo se determina fijando el valor de
α, es decir, fijando el nivel de significación con el que se desea trabajar. Se suele
tomar un 1% o un 5%.
La forma de dividir la distribución muestral en zona de rechazo y de no-rechazo
depende de si el contraste es bilateral o unilateral. La zona crítica debe situarse
donde puedan aparecer los valores muestrales incompatibles con H0.
Estadístico de contraste. Un estadístico de contraste es un resultado muestral que
cumple la doble condición de:
• Proporcionar información empírica relevante sobre la afirmación propuesta en
la H0.
• Poseer una distribución muestral conocida
Tipos de contrastes.
Contrastes paramétricos: Conocida una v.a. con una determinada distribución, se
establecen afirmaciones sobre los parámetros de dicha distribución.
Contrastes no paramétricos: Las afirmaciones establecidas no se hacen en base a
la distribución de las observaciones, que a priori es desconocida .
Tipos de hipótesis del contraste.
Hipótesis simples: La hipótesis asigna un único valor al parámetro desconocido, H:
θ = θ0
Hipótesis compuestas: La hipótesis asigna varios valores posibles al parámetro
desconocido, H: θ ∈ ( θ1 , θ2 )
La Reglas de decisión.
1. Contrastes bilaterales: Si la hipótesis alternativa da lugar a una región crítica “a
ambos lados” del valor del parámetro, diremos que el test es bilateral o de dos
colas.
Se rechaza H0 si el estadístico de contraste cae en la zona crítica, es decir, si el
estadístico de contraste toma un valor tan grande o tan pequeño que la probabilidad
de obtener un valor tan extremo o más que el encontrado es menor que α /2.
b. Contraste unilateral: Si la hipótesis alternativa da lugar a una región crítica “a un
solo lado del valor del parámetro”,diremos que el test es unilateral o de una sola
cola
Se rechaza H0 si el estadístico de contraste cae en la zona crítica, es decir, si toma un
valor tan grande que la probabilidad de obtener un valor como ese o mayor es menor
que α .
Contraste unilateral: Cola a Contraste unilateral: Cola a
Contraste bilateral
la derecha la izquierda
H0 = θ = θ0
H0 = θ ≤ θ0 H0 = θ ≥ θ0
H1 = θ ≠ θ0
H1 =θ > θ0 H1 = θ < θ0
La decisión:
Por tanto,
Relaciones entre los errores de Tipo I y II. El estudio de las relaciones entre los
errores lo realizamos mediante el contraste de hipótesis:
Para ello utilizamos la información muestral proporcionada por el estadístico
media muestral
• Cualquier valor atribuido a μ1 en H1 (siempre mayor a μ0) generará distribuciones
muestrales distintas para la media muestral. Aunque todas tendrán la misma forma,
unas estarán más alejadas que otras de la curva de H0, es decir, unas serán distintas
de otras únicamente en el valor asignado a μ1 .
Cuanto más se aleje el valor μ1 de μ0 , más hacia la derecha se desplazará la
curva H1 , y en consecuencia, más pequeña se hará el área β . Por lo tanto, el valor
de β depende del valor concreto de μ1 que consideremos verdadero dentro
de todos los afirmados por H1 .
• Cuanto mayor es α , menor es β . Se relacionan de forma inversa.
• Para una distancia dada entre μ0 y μ1 , el solapamiento entre las curvas
correspondientes a uno y otro parámetro será tanto mayor cuanto mayor sea el
error típico de la distribución muestral representada por esas curvas (cuanto mayor
es el error típico de una distribución, más ancha es esa distribución). Y cuanto mayor
sea el solapamiento, mayor será el valor de β .
Relaciones_entre_los_errores_de_tipo_I_y_tipo_II
Debido a que H0 especifica un valor único del parámetro, hay un solo valor de
α . Sin embargo, hay un valor diferente de β por cada valor del parámetro
recogido en H1 .
En general, un buen contraste o buena regla de decisión debe tender a minimizar
los dos tipos de error inherentes a toda decisión. Como α queda fijado por el
investigador, trataremos de elegir una región donde la probabilidad de
cometer el error de tipo II sea la menor .
El concepto de potencia nos permite valorar cual entre dos contrastes con la misma
probabilidad de error de tipo I, α, es preferible. Se trata de escoger entre todos los
contrastes posibles con α prefijado aquel que tiene mayor potencia, esto es, menor
probabilidad β de incurrir en el error de tipo II. En este caso el Lema de Neyman-
Pearson garantiza la existencia de un contraste de máxima potencia y determina
cómo construirlo.
Potencia de un contraste de hipótesis
Contrastes de hipótesis paramétricos
El propósito de los contrastes de hipótesis es determinar si un valor propuesto
(hipotético) para un parámetro u otra característica de la población debe aceptarse
como plausible con base en la evidencia muestral.
1.
1. El investigador formula una hipótesis sobre un parámetro poblacional, por
ejemplo que toma un determinado valor
2. Selecciona una muestra de la población
3. Comprueba si los datos están o no de acuerdo con la hipótesis planteada, es decir,
compara la observación con la teoría
• Si lo observado es incompatible con lo teórico entonces el investigador puede
rechazar la hipótesis planteada y proponer una nueva teoría
• Si lo observado es compatible con lo teórico entonces el investigador puede
continuar como si la hipótesis fuera cierta.
Los contrastes de hipótesis que construye SPSS son los proporcionados por las
Pruebas T, estas son de tres tipos: Prueba T para una muestra, Prueba T para
muestras independientes y Prueba T para muestras relacionadas
Esta salida muestra el tamaño muestral, la media, la desviación típica y error típico
de la media.
Esta salida muestra los resultados del contraste de la t de Student con un intervalo
de confianza para la diferencia entre el valor observado y el valor teórico
(contrastado). Cada una de las columnas de la tabla muestra:
• t = 8,878: El valor experimental del estadístico de contraste
• gl = 14: Los grados de libertad
• Sig.= 0,000: El p-valor o nivel crítico del contraste
• Diferencia de medias = 9.31267: Es la diferencia entre la media teórica (20) y la
media observada (29.3127)
• 95% Intervalo de confianza = (7.063, 11.5624): Es el intervalo de confianza para la
diferencia entre la media teórica y la media observada al nivel de confianza del 95%.
Supuesto práctico 1
Se realiza un experimento para estudiar el nivel (en minutos) que se requiere
para que la temperatura del cuerpo de un lagarto del desierto alcance los 45º
partiendo de la temperatura normal de su cuerpo mientras está en la sombra.
Se obtuvieron las siguientes observaciones: 10.1 ; 12.5 ; 12.2 ; 10.2 ; 12.8 ; 12.1
; 11.2 ; 11.4 ; 10.7 ; 14.9 ; 13.9 ; 13.3. Se pide:
a) Hallar estimaciones puntuales de la media y la varianza
b) Supóngase que la variable X: “Tiempo en alcanzar los 45º sigue una ley
Normal
b1) ¿Puede concluirse que el tiempo medio requerido para alcanzar la dosis
letal es de 15 minutos?
b2) ¿Puede concluirse que el tiempo medio requerido para alcanzar la dosis
letal es inferior a 13 minutos?
Solución
a) Hallar estimaciones puntuales de la media y la varianza
El procedimiento que utiliza SPSS es la Prueba T para una muestra que contrasta si
la media de una población difiere de una constante especificada. Para obtener una
Prueba T para una muestra se elige, en el menú principal. Analizar/Comparar
medias/Prueba T para una muestra… En la salida correspondiente se
selecciona tiempo para la Variable para contrastar y el valor de la prueba se
pone 15
El valor del estadístico de contraste experimental, -6.775, deja a la derecha una área
menor que 0.000 < 0.025. Por lo tanto se rechaza la hipótesis nula de que el tiempo
medio requerido para alcanzar la dosis letal es de 15 minutos.
b2) ¿Puede concluirse que el tiempo medio requerido para alcanzar la dosis
letal es inferior a 13 minutos?
Se realiza el siguiente contraste de hipótesis:
El valor del estadístico de contraste experimental, -6.089, deja a la derecha una área
0.030 < 0.05. Por lo tanto se rechaza la hipótesis nula y se concluye que el el tiempo
medio requerido para alcanzar la dosis letal es inferior a 13 minutos.
de hipótesis
conocidas las medias muestrales y los tamaños muestrales.
Para obtener una Prueba T para muestras independiente se selecciona, en el menú
principal, Analizar/Comparar medias/Prueba T para muestras
independientes…
Supuesto práctico 2
Solución
Sean las variables aleatorias
X: “Longitud del cuerpo de ranas 1”; X→ N(μX, σX)
Y: “Longitud del cuerpo de ranas 2”; X→ N(μY, σY)
Al
pulsar Continuar y después Aceptar se obtiene un resumen estadístico para las dos
muestras y la salida del procedimiento.
Para cada
variable se presenta la media, tamaño de la muestra, desviación típica y error típico
de la media.
Supuesto práctico 3
Esta salida muestra para cada pareja de variables: el número de datos, (N = 10) el
coeficiente de correlación (0.816) y el p-valor (0.004) asociado al contraste H0: r = 0
frente a H1: r <> 0. El coeficiente de correlación es igual a 0.816, por lo tanto las
variables están relacionadas en sentido directo, cuando una crece la otra también
crece. Observando el p-valor (0.004) deducimos que se puede rechazar la hipótesis
nula (H0: r = 0) por lo tanto existe correlación entre las variables. (La correlación es
significativa).
expresión
Se pulsa el
botón Casillas… y se selecciona en Frecuencias (Observadas) y en Porcentajes
(Fila)
Se
pulsa Continuar y en la pantalla correspondiente se pulsa el botón Estadísticos… y
se selecciona Chi-cuadrado
Se
pulsa Continuar y Aceptar. Se muestran la Tabla de contingencia y los
contrastes Chi-cuadrado
salidas
Cada casilla de esta tabla muestra la frecuencia observada y el porcentaje que ésta
representa sobre el total de la columna en la tabla de contingencia Curación *
Medicamento. Las proporciones muestrales que vamos a comparar son 60/100 y
55/100 . Para ello se realiza un contraste bilateral para evaluar si existen diferencias
significativas entre ambas proporciones muestrales (H0: pX – pY<=0 frente a H1: pX –
pY >0).
Supuesto práctico 6
Pulsamos Aceptar.
Para obtener una prueba de Chi-cuadrado se eligen en los
menús Analizar/Pruebas no paramétricas/Cuadros de diálogo antiguos/Chi-
cuadrado… Y en la ventana resultante, pasamos Cara_dado a la Lista Contratrar
variables
donde:
• 263: Número de datos válidos con los que se trabaja, es el 100% de los datos
• 0: número de datos no válidos
Por
último muestra el resultado del contraste de hipótesis.
El p-valor (Sig =
0.256) indica que no debe rechazarse la hipótesis de independencia.
Supuesto práctico 7
los casos
Pulsamos Aceptar.
Para obtener tablas de contingencia se selecciona, en el menú
principal, Analizar/Estadísticos descriptivos/Tablas de contingencia… En la
ventana resultante introducimos Éxito en Filas y Sobrepeso en Columnas y
pulsamos Aceptar
Se deja la opción
por defecto Contrastar proporción: 0.50. (Queremos ver si el porcentaje de
mujeres en un determinado estudio es del 50%, es decir, queremos contrastar H0: p
= 0.5 frente a H1: p <> 0.5). En esta ventana se pulsa el botón Opciones… y se accede
a otra ventana para obtener estadísticos descriptivos, cuartiles y controlar el
tratamiento de los datos perdidos.
Se pulsa Aceptar y se muestra la siguiente salida
SPSS
realiza un contraste bilateral. De un total de 474 personas se observa que el 54 %
son hombres y el 46% son mujeres. El p-valor del contraste (Sig. asintót. bilateral)
es 0.06, nos indica que no debe rechazarse la hipótesis nula.
Este procedimiento permite dicotomizar una variable continua. Por ejemplo,
queremos saber si el 30% de las personas de un estudio son menores de 25 años.
Para resolverlo, en el campo Definir la dicotomía pondríamos en el Punto de
corte: el valor de 25 y en el campo Contrastar proporción: pondríamos 0.30.
Supuesto práctico 8
Entre los pacientes con cáncer de pulmón, el 90% o más muere generalmente
en el espacio de tres años. Como resultado de nuevas formas de tratamiento,
se cree que esta tasa se ha reducido. En un reciente estudio sobre 150
paciente diagnosticados de cáncer de pulmón, 128 murieron en el espacio de
tres años. ¿Se puede afirmar que realmente ha disminuido la tasa de
mortalidad?
Solución
Hay que realizar el siguiente contraste de hipótesis: H0: p ≥ 0.90 frente a H1: p <
0.90
Pulsamos Aceptar
SPSS realiza un contraste bilateral. De un total de 150 pacientes con cáncer de
pulmón se observa que el 90 % murieron en el espacio de tres años. El p-valor del
contraste (Sig. asintót. bilateral) es 0.044. El contraste es unilateral, la significación
es 0.022 que nos indica que debe rechazarse la hipótesis nula. Por lo tanto se puede
afirmar que ha disminuido la tasa de mortalidad.
Solución
Supuesto práctico 10
Las observaciones de
ambos grupos se combinan para formar una sola muestra, se ordenan linealmente y
se les asigna un rango, asignándose el rango promedio en caso de producirse
empate, conservando su identidad como grupo. El estadístico W de Wilcoxon
(Wm) es la suma de los rangos asociados con las observaciones que originariamente
constituyen la muestra menor (Fumadores). Se realiza está elección ya que se piensa
que si la población de Fumadores está situada por debajo de la población de
NoFumadores, entonces los rangos menores tenderán a asociarse con los valores de
los Fumadores. Ello producirá un valor pequeño para el estadístico Wm. Si es cierto
lo contrario (la población de Fumadores está situada por encima de la población de
NoFumadores) entonces los rangos mayores se encontrarán entre los Fumadores,
dando lugar a un valor grande del estadístico Wm. De esta forma, se rechaza H0 si el
valor observado Wm fuera demasiado pequeño o demasiado grande para que se
debiera al azar.
Si las diferencias entre los grupos se deben al azar, el rango promedio de los dos
grupos debería ser aproximadamente igual. En la salida anterior se observa que hay
una diferencia de alrededor de siete minutos (Rango promedio de Fumadores es
17.67 el de los NoFumadores es 11.07). Siendo mayor el tiempo que tarda en
dormirse los Fumadores.
Supuesto práctico 11
En unos grandes almacenes se realiza un estudio sobre el rendimiento de
ventas de los vendedores. Para ello, se observa durante 10 dias, el número de
ventas de dos vendedores
Vendedor A: 10 40 60 15 70 90 30 32 22 13
Vendedor B: 45 60 35 30 30 15 50 20 32 9
Solución
Las observaciones de ambos grupos se combinan para formar una sola muestra, se
ordenan linealmente y se les asigna un rango, asignándose el rango promedio en
caso de producirse empate, conservando su identidad como grupo. El estadístico W
de Wilcoxon (Wm) es la suma de los rangos asociados con las observaciones que
originariamente constituyen la muestra menor (Vendedor 2). Se realiza está
elección ya que se piensa que si la población de número de ventas del Vendedor 2
está situada por debajo de la población número de ventas del Vendedor1, entonces
los rangos menores tenderán a asociarse con los valores del número de ventas del
Vendedor 2. Ello producirá un valor pequeño para el estadístico Wm. Si es cierto lo
contrario (la población número de ventas del Vendedor 2 está situada por encima
de la población número de ventas del Vendedor 1) entonces los rangos mayores se
encontrarán entre el número de ventas del Vendedor 2, dando lugar a un valor
grande del estadístico Wm. De esta forma, se rechaza H0 si el valor
observado Wm fuera demasiado pequeño o demasiado grande para que se debiera
al azar.
Si las diferencias entre los grupos se deben al azar, el rango promedio de los dos
grupos debería ser aproximadamente igual. En la salida anterior se observa que
hay una diferencia de alrededor de 125 (Rango promedio de Ventas del Vendedor
1 es 412.03 el del Vendedor 2 es 287.09). Siendo mayor el promedio del Vendedor
1.
En esta salida se
puede elegir una o más variables de contraste numéricas. Para ello, se pulsa en cada
una de las variables. La primera de ellas aparecerá en la sección Selecciones
actuales como Variable1, se pulsa en la variable Crudo; la segunda variable
aparecerá como Variable2, se pulsa en la variable Cocido. A continuación se pulsa
en el botón de flecha para incluir las variables en la campo Contrastar pares: Se
pulsa Aceptar y se muestra la siguiente salida
En el text
de Wilcoxon, los rangos están basados en el valor absoluto de la diferencia entre las
dos variables contrastadas. El signo de la diferencia es usado para clasificar los casos
en uno o tres grupos: diferencia menor que 0 (rangos negativos), mayor que cero
(rangos positivos) o igual a cero (empates). Los casos de empates son ignorados
Ejercicios
Ejercicios Guiados
A continuación se va a proceder a iniciar una aplicación Java,
comprueba que tengas instalada la Máquina Virtual Java para poder
ejecutar aplicaciones en Java.
Ejercicio2
Ejercicio3
Si ya tienes instalada la Máquina Virtual Java pincha en el
siguiente enlace para proceder a la ejecución de los
ejercicios guiados Ejercicio4
Ejercicio5
Ejercicio6
Ejercicio7
IMPORTANTE: Si al descargar el archivo *.JAR del ejercicio tu gestor de
descargas intenta guardarlo como *.ZIP debes cambiar la extensión a .JAR
para poder ejecutarlo.
Se pide:
a) ¿Se puede admitir que el tipo de especies de vertebrados está relacionado
con la situación respecto de la planta de “Aguas arriba del río”?
b) ¿Se puede admitir relación entre la situación respecto a la planta de la
zona del río y el tipo de especies halladas en ella?
¿Se puede concluir que, al nivel de significación del 5%, el ejercicio tiende a
aumentar el máximo de oxígeno admitido por los pacientes?
Ejercicios Propuestos
Ejercicio Propuesto 1
En una unidad de investigación hospitalaria se está realizando un estudio para
conocer si la tolerancia a la glucosa en sujetos sanos tiende a decrecer con la
edad. Para ello se realizó un test oral de glucosa a dos muestras de pacientes
sanos, unos jóvenes y otros adultos. El test consistió en medir el nivel de
glucosa en sangre en el momento de la ingestión (nivel basal) de 100 grs. de
glucosa y a los 60 minutos de la toma. Los resultados fueron los siguientes
Jóvenes
Adultos
Ejercicio Propuesto 2
Continuando con el estudio de la asimetría en la hoja de la encina, (Ejercicio
guiado 1) se ha detectado la presencia de Agallas en Encina (pequeñas agallas
en el envés de una hoja de encina causadas por el díptero Dryomyia
lichtensteini) tanto en las zonas secas como en las zonas con mayor
precipitación.
a) En las dos zonas muy secas (Ladihonda y Fazares) se pretende comprobar
si determinado tratamiento, aplicado durante un mes, ayuda a reducir la
presencia de dichas agallas. Para ello, se realiza un estudio a 10 encinas, en las
que se selecciona aleatoriamente 10 hojas y se registra el promedio de agallas
presentes antes del tratamiento y después del tratamiento (se supone
normalidad). Los resultados se muestran a continuación:
Ejercicio Propuesto 3
Se asegura que la quinta parte de cierto tipo de empresas químicas utilizan
gasoil para su funcionamiento. Para contrastar esta afirmación se toma una
muestra aleatoria de 100 empresas y se obtiene que 23 de ellas utiliza este
combustible. Resolver el contraste a un nivel de significación 0.01.
Ejercicio Propuesto 4
En un laboratorio se observó el número de partículas a emitidas por una
sustancia radioactiva a intervalos iguales de tiempo. La información se
muestra en la siguiente tabla:
¿Se puede considerar al nivel de significación 0.01 que los datos se ajustan a
una distribución de Poisson?
Ejercicio Propuesto 5
Ejercicio Propuesto 6
Solución:
a) ¿Los niveles de glucosa en sangre en el momento de la ingestión (nivel
basal) siguen una distribución normal en las dos poblaciones?
Se debe contrastar si la distribución de nivel de glucosa para los jóvenes y los adultos
en el momento de la ingestión (nivel basal) sigue una distribución normal. Para ello,
una vez introducidos los datos en SPSS, se contrasta la normalidad mediante el
contraste de Kolmogorov-Smirnov.
En esta tabla se observa que el valor del estadístico (t = -1.128) deja a la derecha un
p-valor (Sig. (bilateral)) de 0.289. Para resolver el contraste de una cola el p-valor
asociado al contraste será la mitad del p-valor mostrado en la tabla. Es decir el p-
valor es 0.1445 mayor que el nivel de significación 0.05. Por lo tanto, no se debe
rechazar la hipótesis nula y concluimos que el nivel basal medio de glucosa en los
jóvenes no es menor que 85.
c) ¿Se detecta una variación significativa del nivel de glucosa en sangre en cada
grupo?
Se pretende comprobar si, como muestran los datos, los niveles de glucosa en sangre
son distintos para cada grupo en el momento de la ingestión y a los 60 minutos. Se
realiza un contraste de medias de variables normales en muestras apareadas. Para
realizar este contraste mediante SPSS se selecciona, en el menú
principal, Analizar/Comparar medias/Prueba T para muestras
relacionadas… y se obtiene la siguiente salida
• p-valor < 0,001, que a un nivel de significación del 5 % se debe rechazar la hipótesis
nula y por tanto hay diferencias significativas en el nivel de glucosa de los jóvenes
en el momento de la ingestión y a los 60 minutos.
• p-valor< 0,001, que a un nivel de significación del 5 % se debe rechazar la hipótesis
nula y por tanto hay diferencias significativas en el nivel de glucosa de los adultos
en el momento de la ingestión y a los 60 minutos.
d) Estudiar donde es mayor la concentración de glucosa en sangre:
d1) ¿La concentración de glucosa es mayor en adultos que en jóvenes?
Se trata de un contraste unilateral (de cola a la izquierda) para la diferencia de
medias de dos muestras independientes, H0: µ1 >= µ2 (La concentración media de
glucosa es menor o igual en adultos que en jóvenes) frente a la alternativa H 1: µ1 <
µ2 (la concentración media de glucosa es mayor en adultos que en jóvenes). Para
resolverlo mediante SPSS se selecciona, en el menú principal: Analizar/Comparar
medias/Prueba T para muestras independientes… y se obtiene la siguiente
salida
• p-valor < 0,001, que a un nivel de significación del 5 % se debe rechazar la hipótesis
nula de igualdad de varianzas.
• texp = -1,598, y el p-valor asociado será la mitad del obtenido para el contraste
bilateral, es decir, p-valor = 0,0595, que a un nivel de significación del 5 % no se debe
rechazar la hipótesis nula y por tanto la concentración de glucosa en sangre de los
jóvenes es mayor que la de los adultos.
d2) ¿La concentración de glucosa es mayor a los 60 minutos en adultos que en
jóvenes?
Se trata de un contraste unilateral (de cola a la izquierda) para la diferencia de
medias de dos muestras independientes, H0: µ1 >= µ2 (La concentración media de
glucosa es menor o igual a los 60 minutos en adultos que en jóvenes) frente a la
alternativa H1: µ1 < µ2 (la concentración media de glucosa es mayor a los 60 minutos
en adultos que en jóvenes). Para resolverlo mediante SPSS se selecciona, en el menú
principal: Analizar/Comparar medias/Prueba T para muestras
independientes y se obtiene la siguiente salida
El p-
valor igual a 0,216 nos indica que no se debe rechazar la hipótesis nula de que el
coeficiente de regresión es 0 y por tanto no se debe predecir el nivel basal de glucosa
de los jóvenes a partir del nivel a los 60 minutos.
La
expresión del modelo es: y = 19.609 + 0.427x, donde
• y: nivel basal de glucosa de los jóvenes
• x: nivel de glucosa de los jóvenes a los 60 minutos
Para saber cuánto explica el modelo la siguiente tabla muestra el coeficiente de
determinación R2 = 0,184, este valor indica que el modelo explica el 18,4 % de la
variación del nivel basal de glucosa en los jóvenes.
e2) A un nivel de
significación del 5% ¿Es representativo el ajuste lineal, en los adultos, entre el
nivel de glucosa en sangre en el momento de la ingestión (nivel basal) y a los
60 minutos en los adultos? ¿Cuál sería la expresión del modelo?¿Cuánto
explica el modelo?
Para comprobar si es representativo, mediante SPSS, el ajuste lineal pedido se
selecciona en el menú principal, Analizar/Regresión/Lineal… y se analiza la
siguiente salida de SPSS
El p-
valor igual a 0,450 nos indica que no se debe rechazar la hipótesis nula de que el
coeficiente de regresión es 0 y por tanto no se debe predecir el nivel basal de glucosa
de los adultos a partir del nivel a los 60 minutos.
La
ecuación del modelo está dada por: y = 66.268 + 0.122x, donde
• y: nivel basal de glucosa de los adultos
• x: nivel de glucosa de los adultos a los 60 minutos
¿Cuánto explica el modelo?
El coeficiente de
determinación R = 0,073 indica que el modelo explica el 7,3 % de la variación del
2
La
expresión del modelo es: y = -23.367 + 1.391x, donde
• y: nivel de glucosa de los adultos
• x: nivel de glucosa de los jóvenes
¿Cuánto explica el modelo?
El coeficiente de
determinación R2 = 0,91 indica que el modelo explica el 91 % de la variación del nivel
de glucosa en los adultos. El ajuste realizado es bueno.
Solución:
a) En las dos zonas muy secas (Ladihonda y Fazares) se pretende comprobar
si determinado tratamiento, aplicado durante un mes, ayuda a reducir la
presencia de dichas agallas. Para ello, se realiza un estudio a 10 encinas, en las
que se selecciona aleatoriamente 10 hojas y se registra el promedio de agallas
presentes antes del tratamiento y después del tratamiento (se supone
normalidad).
Para comprobar la efectividad del tratamiento aplicado de la forma especificada
(antes-después) se realiza un contraste unilateral (de cola a la derecha) de
diferencias de medias de variables normales en muestras apareadas, H0: µ1 <= µ2 (El
número medios de agallas antes del tratamiento es menor o igual que después de
haberlo aplicado) frente a la alternativa H1: µ1> µ2; (El número medios de agallas
antes del tratamiento es mayor que después de haberlo aplicado). Para ello, se
selecciona, en el menú principal, Analizar/Comparar medias/Prueba T para
muestras relacionadas. Se obtiene la siguiente pantalla
texp = 3.031 y el p-valor asociado será la mitad del obtenido para el contraste
bilateral, es decir, p-valor < 0,007, que a un nivel de significación del 5 % se debe
rechazar la hipótesis nula, por lo tanto el tratamiento durante un mes ayuda a
reducir la presencia de Agallas en Encina.
b) Se quiere estudiar la asociación entre el nivel de dióxido de sulfúrico del
aire y el número medio de Agallas en Encina en la zona de los árboles de
Molinillo.
Para estudiar la asociación entre el promedio de Agallas en Encina y el nivel de S02 se
realiza un contraste de independencia mediante el contrate no-paramétrico de Chi-
cuadrado. Para ello se elige, en el menú principal, Analizar/Estadísticos
descriptivos/Tablas de contingencia… Se muestra la siguiente salida
El p-valor es igual a
0.475 por lo que no se puede rechazar la hipótesis de independencia.
Solución:
Para contrastar si la proporción de empresas químicas que utilizan gasoil para su
funcionamiento es del 20% (quinta parte de las 100 empresas), tenemos que
realizar el siguiente contraste de hipótesis: H0: p = 0.2 frente a H1: p <> 0.2. Para ello,
una vez definidas las variables e introducidos los datos
¿Se puede considerar al nivel de significación 0.01 que los datos se ajustan a
una distribución de Poisson?
Solución
Para comprobar si el número de partículas emitidas por una sustancia radioactiva
se ajustan a una distribución de Poisson, se realiza un contraste no-paramétrico de
Bondad de ajuste. (H0: Los datos se ajustan a una Poisson H1: Los datos no se ajustan
a una Poisson). Para ello se selecciona, en el menú principal, Analizar/Pruebas no
paramétricas/Cuadros de diálogo antiguos/K-S de una muesta… donde se
selecciona en Poisson Distribución de contraste.
Se obtiene la siguiente salida
Mediante el contraste de
Kolmogorov-Smirnov para una muestra se obtiene el valor de Zexp (1.276), dicho
valor deja a la derecha un área de 0.077, mayor que el nivel de significación 0.01,
por lo tanto no debe rechazarse la hipótesis nula. Se puede admitir que si el número
de partículas emitidas por una sustancia radioactiva se ajustan a una distribución
de Poisson
Solución
Para comprobar si el número de bacterias que aparecen en un determinado cultivo
al cabo de una semana es aleatorio, se realiza un contraste no-paramétrico de
aleatoriedad. (H0: Hay aleatoriedad frente a H1: No hay aleatoriedad). Para ello se
selecciona, en el menú principal, Analizar/Pruebas no paramétricas/Cuadros de
diálogo antiguos/Rachas… Se obtiene la siguiente salida
Solución:
a) Estudiar si el porcentaje de hombres que llegan, durante una semana al
hospital, para ser diagnosticado es del 53%.
Para resolver este apartado, se realiza un contraste para la proporción de una
distribución Binomial. Es decir, se quiere contrastar H0: p = 0.52 frente a H1: p <>
0.52. Siendo p la proporción de hombres.
Para obtener una Prueba binomial, mediante SPSS, se selecciona en el menú
principal, Analizar/Pruebas no paramétricas/Cuadros de diálogo
antiguos/Binomial
La pantalla de resultados de este procedimiento se presenta en la tabla de
la Prueba binomial
Se
observa que la proporción muestral de hombres es 0.55 y que el p-valor (Sig. exacta
(unilateral)) es de 0.483, por lo tanto no se debe rechazar la hipótesis nula.
b) Comparar la proporción de mujeres con carcinoma que reciben la terapia
Para evaluar si existen diferencias significativas entre la proporción muestral de
mujeres que reciben la terapia y la proporción muestral que no la reciben, se realiza
un contraste bilateral con las siguientes hipótesis estadísticas: H0: p1 =
p2(proporciones iguales) frente a H1: p1 <>p2 (proporciones distintas).
El contraste de comparación de dos proporciones es un caso particular del contraste
de homogeneidad de dos muestras de una variable cualitativa cuando ésta sólo
presenta dos modalidades. (Ver Contrastes de hipótesis para dos proporciones
independientes. Muestras grandes en la “Introducción” de la Práctica 6). Por ello, el
procedimiento que vamos a realizar es el análisis de una tabla de contingencia 2×2.
Para obtener el procedimiento Tablas de contingencia se elige en los
menús Analizar/Estadísticos descriptivos/Tablas de contingencia…
La tabla de
contingencia muestra la tabla de frecuencias conjuntas. En cada casilla aparece,
además de la frecuencia observada, el porcentaje que ésta representa sobre el total
de la fila. Así las proporciones muestrales que vamos a comparar son: 3/9 y 6/11.
La siguiente salida de SPSS muestra la tabla Pruebas de chi-cuadrado
Esta tabla presenta los resultados de cinco estadísticos para la comparación de
ambas proporciones. Generalmente, en el caso de muestras grandes se elige el
estadístico Corrección por continuidad. Dicho estadístico calcula el estadístico
Chi-cuadrado con la corrección por continuidad de Yates. En el caso de muestras
pequeñas, se decide a partir del Estadístico exacto de Fisher. El valor p de la
prueba exacta de Fisher es 0.406 (Sig. exacta (bilateral)). Comparando este valor con
el nivel de significación establecido del 5% se concluye que no se debe rechazar la
hipótesis nula, es decir las diferencias observadas entre ambas proporciones no son
estadísticamente significativas.
APÉNDICE
Introducción al Análisis de datos categóricos:
Tablas de Contingencia
Variables cualitativas ordinales: Son aquellas en las que se pueden ordenar sus
distintas modalidades. Es decir, es posible establecer relaciones de orden entre las
categoría. (Ejemplo: el rango militar, la clase social, el nivel de estudios)
Variables cualitativas nominales: Son aquellas en las que no se puede definir un
orden natural entre sus categorías. (Ejemplo: el color del pelo, el color de los ojos, la
raza, la religión).
Variables cualitativas por Intervalo: Proceden de variables cuantitativas
agrupadas en intervalos. Estas variables pueden tratarse como ordinales pero en
éstas se pueden calcular distancias numéricas entre dos niveles de la escala ordinal.
(Ejemplos: el sueldo, la edad, los días del mes, el nivel de presión sanguínea. Son
ejemplos de variables que se pueden agrupar por intervalos).
El conjunto de técnicas estadísticas específicas para el estudio de la asociación
entre variables cualitativas recibe el nombre de Análisis de Datos Categóricos o
Cualitativos.
Tablas de Contingencia
Una tabla de contingencia es una tabla bidimensional en la que las variables objeto
de estudio no son cuantitativas.
Una tabla de doble entrada para las variables X e Y con p filas y k columnas se
muestra a continuación
con
Supuesto práctico 11
Razonar, con una significacción del 5%, si el hecho de ser hombre o mujer
está relacionado con asistir o no a un festival de música.
Solución
Correlaciones
SPSS proporciona los coeficientes de correlación de Pearson y de Spearman.
El coeficiente de correlación de Pearson es una medida de asociación lineal
especialmente apropiada para estudiar la relación entre variables de intervalo o
razón.
El coeficiente de correlación de Spearman también es una medida de asociación
lineal, pero para variables ordinales.
Ambos coeficientes son de poca utilidad en el estudio de las pautas de relación
presentes en una tabla de contingencia.
En el ejempo el coeficiente de correlación es 0.043. La relación entre las variables
es muy pequeña.
Medidas de asociación de variables categóricas
En caso de rechazar la la hipótesis de independencia entre los dos factores de una
tabla de contingencia, se plantea la necesidad de definir índices que describan no
sólo la intensidad de la asociación, sino también su dirección, es decir si la asociación
entre los factores es directa o inversa. El estudio de estos índices recibe el nombre
de medidas de asociación.
Para detectar el grado y sentido de la asociación entre dos factores existen
diferentes métodos. Nosotros vamos a estudiar las medidas de asociación más
empleadas en la práctica.
Estudio de la asociación
Sean X e Y dos características, cualitativas o cuantitativas, con i = 1, …, p y j = 1, …q
modalidades o categorías, respectivamente, presentadas en una tabla pxq.
Medidas de asociación: Chi-cuadrado
La medida de asociación más usada en la práctica es la medida Chi-cuadrado
Medida resumen que compara los valores (nij) observados en la tabla, con los que
teóricamente se obtendría (tij), en el supuesto de que las variables X e Y fuesen
independientes.
El estadístico Chi-cuadrado permite contrastar la hipótesis de independencia
de X e Y, basándose en el conocimiento del comportamiento de Chi-cuadrado bajo
la hipótesis de independencia: Modelo Chi-cuadrado con (p-1)(q-1) grados de
libertad.
Entre las medidas utilizada en escala nominal (aquellas variables en las que no se
puede definir un orden natural entre sus categorias), distinguiremos ls siguientes:
comprendidos entre 0 y
• Si C= ⇒ Asociación perfecta
• Si C = 0 ⇒ Independencia entre las variables
En una tabla de contingencia (k x k) el valor máximo que toma el coeficiente es
Coeficiente Q de YULE
Los valores del coeficiente Lambda están comprendidos entre 0 y 1 para tablas
pxq, con p, q ≥ 2; 0 ≤ (λx, λy) ≤ 1.
Los valores que pueden tomar los coeficientes los resumimos en las siguientes
tablas
Supuesto práctico 12
• Una dirección positiva indica que los valores altos de una variable se asocian con
los valores altos de la otra variable, y los valores bajos con valores bajos.
• Una dirección negativa indica que los valores altos de una variable se asocian con
los valores bajos de la otra, y los valores bajos con los valores altos.
Coeficiente Gamma
(γ) de Goodman y Kruskal
El coeficiente Gamma es uno de los coeficientes más conocidos, para este coeficiente
los empates son irrelevantes, se basa en la relación que siguen los rangos de los dos
atributos
-1 ≤ γ ≤ 1
• γ = − 1: La asociación entre las variables es perfecta y negativa
• γ = 1: La asociación entre las variables es perfecta y positiva
• γ = 0: Hay independencia entre las variables
Coeficiente d de Somers
Este coeficiente, a diferencia de los anteriores, considera que las variables pueden
ser simétricas o dependientes.
• En el caso de que las variables sean simétricas, el estadístico d de Somers
coincide con la Tau‐b de Kendall.
• En caso de que las variables sean dependientes, el estadístico d de Somers se
diferencia del estadístico Gamma en que incluye los empates de la variable que
considera dependiente, lo que da lugar a tres índices (dos asimétricos y uno
simétrico):
• Cuando la variable independiente es Y y siendo Ex los empates en la variable X
• Cuanto más próximos estén los valores de estas medidas a 0 más débil será la
asociación entre las variables.
• Cuanto más cercanos a 1 (o a -1) sean los valores de todas estas medidas mayor
será la asociación positiva (negativa) entre las variables.
Los valores que pueden tomar los coeficientes los resumimos en la siguiente tabla
Nota:
• En tablas no cuadradas la medida TAU-B de Kendall no alcanza los límites.
• Si las variables son independientes entonces γ = 0, sin embargo el recíproco no
es cierto.
• |γ| =1 no implica asociación perfecta.
Supuesto práctico 13
Señalamos, que en caso de ambos estadísticis tengan distinta Sig. asintótica, se elige
el estadístico con menor Sig. asintótica.
Junto al valor concreto adoptado por cada medida de asociación nominal por
nominal (0.108, 0.027 y 0.033) se muestra su valor estandarizado (T aproximada),
que se obtiene dividiendo el valor de la medida entre su error típico (calculado éste
suponiendo independencia entre las variables.
La tabla también muestra el error típico de cada medida calculado sin suponer
independencia (Error típico asintótico).
Las medidas nominales que muestra esta tabla son medidas basadas en el
estadístico chi‐cuadrado: Phi, V de Cramer y el Coeficiente de Contingencia.
Las medidas ordinales se basan en el concepto de concordancias (o inversión) y
discordancias ( o no inversión). Utilizan en el numerador la diferencia entre el
número de concordancias o inversiones y discordancias o no‐inversiones
resultantes de comparar cada caso con otro, diferenciándose en el tratamiento dado
a los empates. son: Tau-b de Kendall, Tau-c de Kendall y Gamma
Y como el valor concreto adoptado por estas medidas (0.283, 0.2, 0.272, 0.216, 0.225
y 0.307) es positivo (relación positiva entre la Sensación de bienestar y la Práctica
deportiva ), se puede interpretar que a una mayor
Práctica deportiva le corresponde una mejor Sensación de bienestar. El grado de
asociación entre las variables es bajo.
Ejercicios Propuestos
Ejercicio Propuesto 7
Se realiza un estudio sobre la posible relación que hay entre la edad de las
mujeres y su grado de aceptación de una ley sobre interrupción del embarazo.
Para ello se ha realizado una encuesta sobre 450 mujeres cuyos resultados se
adjuntan en la tabla
Solución
El valor del estadístico de contraste (observado) de18.037, sigue una
distribución χ2 con 8 grados de libertad (gl = 8) y tiene asociada una probabilidad
(Significación asintótica) de 0,021. Puesto que esta probabilidad (denominada nivel
crítico o nivel de significación observada) es pequeña (menor que 0,05), se decide
rechazar la hipótesis nula, indicando que hay evidencia de asociación entre el grado
de aceptación del aborto y la edad de las mujeres.
El valor de la Razón de verosimilitudes (RV) es 18.699, tiene asociada una
probabilidad (Sig. asintótica) de 0,017 menor que 0,05, indica que hay evidencia de
asociación entre el grado de aceptación del aborto y la edad de las mujeres.
Los estadísticos (χ2 ,RV) llevan a la misma conclusión, en caso contrario, se elige el
estadístico con menor Sig. asintótica.
El valor del estadístico Asociación lineal por lineal tiene un valor de 8.933 con un
nivel crítico de (0.003 < 0,05), por lo que se rechaza la hipótesis nula de
independencia, llegando a la misma conclusión que con los estadísticos anteriores.
Los valores obtenidos de Lambda, Tau de Goodman y Kruskall, Coeficiente de
incertidumbre, y d de Somers (como medidas nominales cuantifican el grado de
asociación) indican una asociación baja entre la edad de las mujeres y la
aceptación del aborto.
Cada medida acompañada de un nivel crítico (Sig. aproximada), que en los casos que
es menor que 0,05, (Tau de Goodman y Kruskal, Coeficiente de incertidumbre d de
Somers) conducen a rechazar la hipótesis nula de independencia y concluir que las
variables (edad de las mujeres, aceptación del aborto) están asociadas.
Observamos que cada coeficiente tiene un valor cuando se considera una de las
variables independiente. Así por ejemplo el coeficiente Tau de Goodman y Kruskall
tiene:
Ejercicio Propuesto 8
Los estadísticos (χ2 ,RV) llevan a la misma conclusión, en caso contrario, se elige el
estadístico con menor Sig. asintótica.
Los valores obtenidos de Lambda, Tau de Goodman y Kruskall, Coeficiente de
incertidumbre (como medidas nominales cuantifican el grado de asociación, la
capacidad de hacer pronósticos de una variable respecto de la otra). Indican una
asociación baja entre el centro hospitalario y el tipo de consulta, es decir, la
capacidad de hacer pronósticos de una variable respecto de la otra es realmente
escasa.
Cada medida acompañada de un nivel crítico (Sig. aproximada), en todos los casos
es menor que 0.05, conduce a rechazar la hipótesis nula de independencia y concluir
que las variables (centro hospitalario, tipo de de la consulta) están asociadas.
El valor
de cada coeficiente aparece acompañado de su correspondiente nivel crítico (Sig.
aproximada), que permite tomar una decisión sobre la hipótesis nula de
independencia. Puesto que estos niveles críticos son menores que 0,05, se puede
afirmar que hay asociación entre el centro hospitalario y el tipo de las
consultas.
Los valores obtenidos del Coeficiente de clos coeficientes Phi, V de Cramer y de
Contingencia (como medidas nominales cuantifican el grado de asociación) indican
una asociación baja entre el centro hospitalario y el tipo de la consulta.
En definitiva, se puede concluir que el centro hospitalario y el tipo de consulta están
relacionados, pero en ningún caso se podría considerar un claro factor de pronóstico
sobre las consultas.
Ejercicio Propuesto 9
Solución
Los estadísticos (χ2 ,RV) llevan a la misma conclusión, en caso contrario, se elige el
estadístico con menor Sig. asintótica.
Junto al valor concreto adoptado por cada medida de asociación nominal por
nominal (0.321, 0.137 y 0.126) se muestra su valor estandarizado (T aproximada),
que se obtiene dividiendo el valor de la medida entre su error típico (calculado éste
suponiendo independencia entre las variables).
La tabla también muestra el error típico de cada medida calculado sin suponer
independencia (Error típico asintótico).
Observamos que cada coeficiente tiene un valor cuando se considera una de las
variables independiente. Así por ejemplo el coeficiente Tau de Goodman y Kruskall
tiene:
Práctica 7
DISEÑO ESTADÍSTICO DE EXPERIMENTOS
CONTENIDOS EN PDF
Objetivos
1. Identificar un diseño unifactorial de efectos fijos.
2. Plantear y resolver el contraste sobre las medias de los tratamientos.
3. Saber aplicar los procedimientos de comparaciones múltiples.
4. Identificar un diseño unifactorial de efectos aleatorios.
5. Estimar los componentes de la varianza.
6. Identificar un diseño en bloque completo aleatorizado con efectos fijos.
7. Identificar un diseño en bloque incompleto aleatorizado con efectos fijos.
8. Identificar un diseño en bloque incompleto balanceado (BIB).
9. Identificar un diseño en cuadrados latinos.
10. Identificar un diseño en cuadrados greco-latinos.
11. Identificar un diseño en cuadrados de Jouden.
12. Plantear y resolver los contrastes de igualdad de tratamientos y de igualdad de
bloques.
13. Identificar un diseño bifactorial de efectos fijos y estudiar las interacciones entre
los factores.
14. Identificar un diseño trifactorial de efectos fijos y estudiar las interacciones entre
los factores
15. Estudiar la influencia de los factores.
16. Analizar en qué sentido se producen las interacciones mediante el gráfico de
medias.
17. Aplicar los procedimientos de comparaciones múltiples: Obtener conclusiones
sobre el experimento planteado y las interacciones.
18. Analizar la idoneidad de los modelos planteados.
Supuesto práctico 1
La contaminación es uno de los problemas ambientales más importantes que
afectan a nuestro mundo. En las grandes ciudades, la contaminación del aire se debe
a los escapes de gases de los motores de explosión, a los aparatos domésticos de la
calefacción, a las industrias,… El aire contaminado nos afecta en nuestro vivir diario,
manifestándose de diferentes formas en nuestro organismo. Con objeto de
comprobar la contaminación del aire en una determinada ciudad, se ha realizado un
estudio en el que se han analizado las concentraciones de monóxido de carbono (CO)
durante cinco días de la semana (lunes, martes, miércoles, jueves y viernes).
donde:
• yij: es la variable aleatoria que representa la observación j-ésima del i-ésimo
tratamiento (Variable respuesta). µ: Es un efecto constante, común a todos los
niveles del factor, denominado media global.
• τi: es la parte de yij debida a la acción del nivel i-ésimo, que será común a todos los
elementos sometidos a ese nivel del factor, llamado efecto del tratamiento i-ésimo.
• uij: son variables aleatorias que engloban un conjunto de factores, cada uno de los
cuales influye en la respuesta sólo en pequeña magnitud pero que de forma conjunta
debe tenerse en cuenta. Es decir, se pueden interpretar como las variaciones
causadas por todos los factores no analizados y que dentro del mismo tratamiento
variarán de unos elementos a otros. Reciben el nombre de perturbaciones o error
experimental.
Donde:
En el Supuesto práctico 1:
• Variable respuesta: Concentración de CO.
• Factor: Día de la semana que tiene cinco niveles. Es un factor de efectos fijos ya
que viene decidido qué niveles concretos se van a utilizar (5 días de la semana).
• Modelo equilibrado: Los niveles de los factores tienen el mismo número de
elementos (8 elementos).
• Tamaño del experimento: Número total de observaciones, en este caso 40
unidades experimentales.
El problema planteado se modeliza a través de un diseño unifactorial totalmente
aleatorizado de efectos fijos equilibrado.
se introduce en el
campo Lista de dependientes: La variable respuesta Concentración_CO y en el
campo Factor: el factor Día_semana. Pulsando Aceptar se obtiene la Tabla ANOVA
se introduce en el campo Lista de dependientes: La variable
respuesta Concentración_CO y en el campo Lista de independientes: el
factor Día_semana. Se pulsa Opciones y se selecciona Número de casos, Media,
Desviación típica, Mínimo, Máximo y Desviación Error de la media.
Pulsar Continuar y Aceptar y se obtiene la
siguiente salida
donde
se presentan los cinco grupos dispuestos en forma comparativa. A simple vista se
puede observar que el valor medio de estos grupos es numéricamente distinto, de
hecho la media del día lunes tiene un valor medio casi equivalente al doble de la
media del viernes. Por tanto, nuestra hipótesis se centra en comprobar si la
concentración de CO es significativamente distinta en los cinco grupos. Para
responder a esta hipótesis recurrimos al Análisis de la Varianza de un factor y
realizamos el contraste de igualdad de medias
mediante SPSS
dicho contraste se puede ejecutar de dos formas:
1. Se selecciona, en el menú principal, Analizar/Comparar medias/ANOVA de un
factor… En la salida correspondiente,
se introduce en el
campo Lista de dependientes: La variable respuesta Concentración_CO y en el
campo Factor: el factor Día_semana. Pulsando Aceptar se obtiene la Tabla ANOVA
donde:
• Inter-grupos: Representa la Suma de cuadrados debida a los tratamientos (SCTr)
• Intra-grupos: Representa la suma de cuadrados residual (SCR)
• Total: Representa la suma de cuadrados total (SCT).
Si el valor de F es mayor que uno quiere decir que hay un efecto positivo del factor
día. Se observa que el P-valor (Sig.) tiene un valor de 0.004, que es menor que el
nivel de significación 0.05. Por lo tanto, hemos comprobado estadísticamente que
estos cinco grupos son distintos. Es decir no se puede rechazar la hipótesis
alternativa que dice que al menos dos grupos son diferentes, pero ¿Cuáles son esos
grupos? ¿Los cinco grupos son distintos o sólo alguno de ellos? Pregunta que
resolveremos más adelante mediante los contrastes de comparaciones múltiples.
2. Se selecciona, en el menú principal, Analizar/Modelo lineal general/
Univariante…
El modelo que hemos propuesto hay que validarlo, para ello hay que comprobar si
se verifican las hipótesis básicas del modelo, es decir, si las perturbaciones son
variables aleatorias independientes con distribución normal de media 0 y varianza
constante (homocedasticidad).
Aunque
podemos observar en el histograma resultante algunas desviaciones de la
normalidad, éstas no implican necesariamente la ausencia de normalidad de los
residuos.
Gráfico probabilístico Normal: Se selecciona en el menú
principal, Analizar/Estadísticos descriptivos/Gráficos Q-Q
se
introduce en el campo Variables: RES_1. Se pulsa Aceptar
Podemos apreciar
en este gráfico que los puntos aparecen próximos a la línea diagonal. Esta gráfica no
muestra una desviación marcada de la normalidad.
Contraste de Kolmogorov-Smirnov: Se selecciona en el menú
principal, Analizar/Pruebas no paramétricas/ Cuadros de diálogos
antiguos/K-S de 1 muestra
se introduce en el
campo Lista Contrastar variables: RES_1. Se pulsa Aceptar
El valor
del p-valor es mayor que el nivel de significación 0.05, no rechazándose la hipótesis
de normalidad.
Hipótesis de independencia
Para comprobar que se satisface el supuesto de independencia entre los residuos
analizamos el gráfico de los residuos frente a los valores pronosticados o predichos
por el modelo. El empleo de este gráfico es útil puesto que la presencia de alguna
tendencia en el mismo puede ser indicio de una violación de dicha hipótesis. Para
obtener dicho gráfico seleccionamos Opciones en el cuadro de diálogo
de Univariante y marcamos la casilla Gráfico de los residuos
Pulsando Continuar y Aceptar se obtiene el gráfico de los residuos. En esta figura,
interpretamos el gráfico que aparece en la fila 3 columna 2, es decir aquel gráfico
que se representan los residuos en el eje de ordenadas y los valores pronosticados
en el eje de abscisas. No observamos, en dicho gráfico, ninguna tendencia
sistemática que haga sospechar del incumplimiento de la suposición de
independencia.
También, podemos realizar un gráfico de dispersión de los residuos y las
predicciones, para ello, tenemos que guardar los valores predichos. Se selecciona,
en la ventana Univariante /Guardar. En la ventana resultante se
selecciona Valores pronosticados No tipificados. Se pulsa Continuar y Aceptar y
en el Editor de datos se ha creado una nueva variable PRE_1 que contiene los
valores predichos por el modelo. Realizamos el gráfico de dispersión, para ello se
selecciona en el menú principal, Gráficos/Cuadros de diálogos
antiguos/Diagramas/Puntos
Y en la salida correspondiente seleccionar Dispersión simple y pulsar Definir
Hipótesis de homocedasticidad
En primer lugar comprobamos la homocedasticidad gráficamente, para ello se
selecciona en el menú principal, Gráficos/Cuadros de diálogos antiguos/Barras
de error…
Y en la salida correspondiente seleccionar Simple y pulsar Definir
Una vez comprobado que se verifican las hipótesis del modelo se puede interpretar
la tabla ANOVA. Si alguna de las hipótesis de homocedasticidad e independencia
fallase no debería aplicarse el ANOVA, en cuanto a la hipótesis de Normalidad hay
que tener en cuenta que las pruebas ANOVA son robustas ante leves desviaciones
de la normalidad.
Antes de resolver el
contraste de igualdad de medias observemos este gráfico de medias, donde en el eje
de ordenadas figuran las concentraciones medias de CO y en el eje de abscisas los
días de la semana. En esta gráfica observamos que la mayor concentración de CO se
produce el lunes y las más bajas el miércoles y el viernes, siendo la concentración de
este último la menor. Para saber entre que parejas de días estas diferencias son
significativas aplicamos una prueba Post-hoc.
Comparaciones múltiples
En Analizar/Comparar medias/ANOVA de un factor… pulsamos en Post_hoc…
En el
menú principal seleccionamos Pivotar/Paneles de pivotado
Los Días_Semana están en fila y los
arrastramos para que figuren en columnas, quedando la siguiente tabla
Los subgrupos homogéneos son los formados por: viernes, miércoles y jueves;
miércoles, jueves y martes y jueves, martes y lunes. De hecho, por ejemplo, si
comparamos en el primer subconjunto, los tres primeros grupos el P-valor (Sig.) es
0.336 mayor que el nivel de significación 0.05 deduciendo que no hay diferencias
significativas en la concentración media de CO entre estos tres.
Veamos estas diferencias de una forma gráfica, para ello se selecciona en el menú
principal, Gráficos/Generador de gráficos…
Se selecciona el Diagrama de cajas y se arrastra el diagrama de caja simple (el
primer gráfico) a la ventana que hay encima. Se pulsa Aceptar
Observamos que las cajas correspondientes a los miércoles, jueves y viernes están
prácticamente superpuestas, de hecho el valor mediano del miércoles (línea negra
dentro de las cajas) está a un nivel interno dentro de la caja del jueves y de la caja
del vierne. Este criterio se utiliza para comparar grupos y en este caso nos indica
que hay homogeneidad o que no hay diferencias significativas en ese grupo de
medias. Observamos que el lunes tiene una distribución superior a los demás, por lo
que concluimos que la concentración de CO es mucho mayor este día de la semana.
Contrastes
Se denomina Contraste a toda combinación lineal C, de los parámetros del modelo
de análisis de la varianza de la forma
Se
utilizan para comparar tratamientos entre sí o grupos de tratamientos, así por
ejemplo:
• Para comparar dos días entre sí, por ejemplo el lunes y jueves el contraste debe
tener los siguientes coeficientes:
Como hay cinco tratamientos deben figurar cinco números indicando los 0 las
categorías que no se comparan.
Si queremos realizar otro contraste pulsamos Siguie_ e introducimos los
coeficientes del segundo contraste
Supuesto práctico 2
Los medios de cultivo bacteriológico en los laboratorios de los hospitales proceden
de diversos fabricantes. Se sospecha que la calidad de estos medios de cultivo varía
de un fabricante a otro. Para comprobar esta teoría, se hace una lista de fabricantes
de un medio de cultivo concreto, se seleccionan aleatoriamente los nombres de cinco
de los que aparecen en la lista y se comparan las muestras de los instrumentos
procedentes de éstos. La comprobación se realiza colocando sobre una placa dos
dosis, en gotas, de una suspensión medida de un microorganismo
clásico, Escherichia coli, dejando al cultivo crecer durante veinticuatro horas, y
determinando después el número de colonias (en millares) del microorganismo que
aparecen al final del período. Se quiere comprobar si la calidad del instrumental
difiere entre fabricantes.
Esta tabla muestra los resultados del contraste planteado. El valor del estadístico de
contraste es igual a 3.976 que deja a la derecha un p-valor de 0.008, así que la
respuesta dependerá del nivel de significación que se fije. Si fijamos un nivel de
significación de 0.05 se concluye que hay evidencia suficiente para afirmar la
existencia de alguna variabilidad entre la calidad del material de los diferentes
fabricantes. Si fijamos un nivel de significación de 0.001, no podemos hacer tal
afirmación.
En el modelo de efectos aleatorios no se necesitan llevar a cabo más contrastes
incluso aunque la hipótesis nula sea rechazada. Es decir, en el caso de rechazar H0 no
hay que realizar comparaciones múltiples para comprobar que medias son distintas,
ya que el propósito del experimento es hacer un planteamiento general relativo a
las poblaciones de las que se extraen las I muestras.
Supuesto práctico 3
El Abeto blanco, Abeto del Pirineo, es un árbol de gran belleza por la elegancia de
sus formas y el exquisito perfume balsámico que destilan sus hojas y cortezas.
Destilando hojas y madera se obtiene aceite de trementina muy utilizado en
medicina contra torceduras y contusiones. En estos últimos años se ha observado
que la producción de semillas ha descendido y con objeto de conseguir buenas
producciones se proponen tres tratamientos. Se observa que árboles diferentes
tienen distintas características naturales de reproducción, este efecto de las
diferencias entre los árboles se debe de controlar y este control se realiza mediante
bloques. En el experimento se utilizan 10 abetos, dentro de cada abeto se
seleccionan tres ramas semejantes. Cada rama recibe exactamente uno de los tres
tratamientos que son asignados aleatoriamente. Constituyendo cada árbol un
bloque completo. Los datos obtenidos se presentan en la siguiente tabla donde se
muestra el número de semillas producidas por rama.
El objetivo del estudio es comparar los tres tratamientos, por lo que se trata de un
factor con tres niveles. Sin embargo, al realizar la medición sobre los distintos
abetos, es posible que estos influyan sobre el número se semillas observadas. Por
ello, y al no ser directamente motivo de estudio, los abetos es un factor secundario
que recibe el nombre de bloque.
Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:
El modelo que hemos propuesto hay que validarlo, para ello hay que comprobar si
se verifican los cuatros supuestos expresados anteriormente.
1. Gráfico de residuos frente a los valores predichos por el modelo. Si este gráfico
no presenta ningún aspecto curvilíneo se admite que el modelo es aditivo. Este
gráfico se puede realizar en SPSS de dos formas:
• Seleccionamos Opciones en el cuadro de diálogo de Univariante y marcamos la
casilla Gráfico de los residuos. Se pulsa, Continuar y Aceptar
Interpretamos el gráfico que
aparece en la fila 3 columna 2, es decir aquel gráfico que se representan los residuos
en el eje de ordenadas y los valores pronosticados en el eje de abscisas. No
observamos, en dicho gráfico, ninguna tendencia curvilínea, es decir no muestra
evidencia de interacción entre el factor bloque y los tratamientos.
• Gráfico de dispersión de los residuos y las predicciones. Para realizar este
gráfico, se selecciona, en el menú principal, Analizar/Modelo lineal general/
Univariante/Guardar… En la ventana resultante se selecciona Residuos No
tipificados y Valores pronosticados No tipificados. Se
pulsa, Continuar y Aceptar. Y en el Editor de datos se han creado dos nuevas
variables RES_1 y PRE_1 que contienen los residuos del modelo y los valores
predichos, respectivamente. Realizamos el gráfico de dispersión, para ello se
selecciona en el menú principal, Gráficos/Cuadros de diálogos
antiguos/Diagramas/Puntos
Podemos apreciar en este gráfico que los puntos aparecen próximos a la línea
diagonal. Esta gráfica no muestra una desviación marcada de la normalidad.
Homogeneidad de varianzas
En primer lugar comprobamos la homocedasticidad gráficamente, para ello se
selecciona en el menú principal, Gráficos/Cuadros de diálogos antiguos/Barras
de error… Y en la salida correspondiente seleccionar Simple y pulsar Definir. Se
introduce en el campo Variable: La variable respuesta Número_semillas y en el
campo Eje de categorías: el factor Tratamientos. En Las barras representan se
selecciona Desviación típica, en Multiplicador: 2 (nos interesa que la desviación
típica esté multiplicada por dos). Se pulsa Aceptar
Cada
grupo tiene su promedio (el círculo en cada una de las barras) y dos desviaciones
típicas a la izquierda y dos desviaciones típicas a la derecha del promedio.
Observamos que en el tratamiento3 hay mucha más dispersión que en los otros dos
y donde hay menos dispersión es en el Tratamiento2. Del gráfico no se deduce
directamente si hay homogeneidad en estas varianzas, por lo que recurrimos
analizarlo analíticamente mediante una prueba el test de Levene.
Realizamos el mismo gráfico para el factor bloque, para ello se introduce en el
campo Eje de categorías: el factor Abetos.
Observamos
que en el Abeto 3 parece que hay mayor dispersión pero seguido a muy poca
distancia del los Abetos 1, 4, 5 y 9 y donde hay menos dispersión es en los Abetos 7
y 8. Como en el gráfico anterior, no se deduce directamente si hay homogeneidad en
estas varianzas, por lo que recurrimos analizarlo analíticamente mediante una
prueba el test de Levene.
Para realizar el test de Levene mediante SPSS, Se selecciona, en el menú
principal, Analizar/Comparar medias/ANOVA de un factor. En la salida
correspondiente, se introduce en el campo Lista de dependientes: La variable
respuesta Número_semillas y en el campo Factor: el factor Tratamientos. Se
pulsa Opciones. Se selecciona Pruebas de homogeneidad de las
varianzas y Gráfico de medias. Se pulsa Continuar y Aceptar
El p-valor es 0.244 por lo tanto no se
puede rechazar la hipótesis de homogeneidad de las varianzas y se concluye que los
tres grupos tienen varianzas homogéneas.
Antes de resolver el
contraste de igualdad de medias observemos este gráfico de medias, donde en el eje
de ordenadas figuran las medias del número de semillas y en el eje de abscisas los
tratamientos. En esta gráfica observamos que la mayor concentración del número
de semillas se produce en el Tratamiento3 y el número más bajo se produce con
el Tratamiento1. Para saber entre que parejas de tratamientos estas diferencias son
significativas aplicamos una prueba Post-hoc.
Realizamos el mismo contraste para los bloques, ya que hay que comprobar la
homocedasticidad tanto en los tratamientos como en los bloques. En la
ventana ANOVA de un factor, en la salida correspondiente, se introduce en el
campo Lista de dependientes: Número_semillas y en el campo Factor: Abetos. Se
pulsa Opciones y a continuación se selecciona Pruebas de homogeneidad de las
varianzas. Se pulsa Continuar y Aceptar
El p-valor es 0.518 por lo tanto no se
puede rechazar la hipótesis de homogeneidad de las varianzas y se concluye que los
diez grupos tienen varianzas homogéneas.
Supuesto práctico 4
Se realiza un estudio para comprobar la efectividad en el retraso del crecimiento de
bacterias utilizando cuatro soluciones diferentes para lavar los envases de la leche.
El análisis se realiza en el laboratorio y sólo se pueden realizar seis pruebas en un
mismo día. Como los días son una fuente de variabilidad potencial, el investigador
decide utilizar un diseño aleatorizado por bloques, pero al recopilar las
observaciones durante seis días no ha sido posible aplicar todos los tratamientos en
cada día, sino que sólo se han podido aplicar dos de las cuatro soluciones cada día.
Se decide utilizar un diseño en bloques incompletos balanceado, donde I = 4 y K = 2.
Un posible diseño para estos parámetros lo proporciona la tabla correspondiente al
Diseño 5 del Fichero-Adjunto, con R = 3, J = 6 y λ = 1. La disposición del diseño y las
observaciones obtenidas se muestran en la siguiente tabla.
En el ejemplo:
Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:
Uno de los diseños en bloques incompletos aleatorizados más importante con dos
factores de control es el modelo en cuadrado latino, dicho modelo requiere el mismo
número de niveles para los tres factores.
En general, para K niveles en cada uno de los factores, el diseño completo en bloques
aleatorizados utiliza K² bloques, aplicándose en cada bloque los K niveles del factor
principal, resultando un total de K³ unidades experimentales.
Los diseños en cuadrado latino reducen el número de unidades experimentales
a K² utilizando los K² bloques del experimento, pero aplicando sólo un tratamiento
en cada bloque con una disposición especial. De esta forma, si K fuese 4, el diseño en
bloques completos necesitaría 4³=64 observaciones, mientras que el diseño en
cuadrado latino sólo necesitaría 4²=16 observaciones.
Los diseños en cuadrados latinos son apropiados cuando es necesario controlar dos
fuentes de variabilidad. En dichos diseños el número de niveles del factor principal
tiene que coincidir con el número de niveles de las dos variables de bloque o factores
secundarios y además hay que suponer que no existe interacción entre ninguna
pareja de factores.
En resumen, podemos decir que un diseño en cuadrado latino tiene las siguientes
características:
Supuesto práctico 5
Se estudia el rendimiento de un proceso químico en seis tiempos de reposo, A, B, C,
D, E y F. Para ello, se consideran seis lotes de materia prima que reaccionan con seis
concentraciones de ácido distintas, de manera que cada lote de materia prima en
cada concentración de ácido se somete a un tiempo de reposo. Tanto la asignación
de los tiempos de reposo a los lotes de materia prima, como la concentración de
ácido, se hizo de forma aleatoria. Los datos del rendimiento del proceso químico se
muestran en la siguiente tabla.
Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:
En el Fichero-Adjunto se muestra una tabla de cuadrados latinos que dan lugar, por
superposición de dos de ellos, a cuadrados greco-latinos. Notamos que no es posible
formar cuadrados greco-latinos de orden 6.
La Tabla siguiente ilustra un cuadrado greco-latino para K=4
Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:
Supuesto práctico 7
Consideremos de nuevo el experimento sobre el rendimiento de un proceso químico
en el que se está interesado en estudiar seis tiempos de reposo, A, B, C, D, E y F y se
desea eliminar estadísticamente el efecto de los lotes materia prima y de las
concentraciones de ácido distintas. Pero supongamos que sólo se dispone de cinco
tipos de concentraciones. Para analizar este experimento se decidió utilizar un
cuadrado de Youden con seis filas (los lotes de materia prima), cinco columnas (las
distintas concentraciones) y seis letras latinas (los tiempos de reposo). Los datos
correspondientes se muestran en la siguiente tabla.
Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:
Diseños Factoriales
En muchos experimentos es frecuente considerar dos o más factores y estudiar el
efecto conjunto que dichos factores producen sobre la variable respuesta. Para
resolver esta situación se utiliza el Diseño Factorial.
Se entiende por diseño factorial aquel diseño en el que se investigan todas las
posibles combinaciones de los niveles de los factores en cada réplica del
experimento. En estos diseños, los factores que intervienen tienen la misma
importancia a priori y se supone por tanto, la posible presencia de interacción. En
este epígrafe vamos a considerar únicamente modelos de efectos fijos.
Diseños factoriales con dos factores
En primer lugar vamos a estudiar los diseños más simples, es decir aquellos en los
que intervienen sólo dos factores. Supongamos que hay a niveles para el
factor A y b niveles del factor B, cada réplica del experimento contiene todas las
posibles combinaciones de tratamientos, es decir contiene los ab tratamientos
posibles.
El modelo sin replicación
El modelo estadístico para este diseño es:
• yij: Representa la
observación correspondiente al nivel (i) del factor A y al nivel (j) del factor B.
• µ: Efecto constante, común a todos los niveles de los factores, denominado media
global.
• τi: Efecto producido por el nivel i-ésimo del factor A, (∑iτi = 0).
• βj: Efecto producido por el nivel j-ésimo del factor B, (∑j βj = 0).
• (τβ)ij: Efecto producido por la interacción entre A×B,(∑i (τβ)ij = ∑j (τβ)ij = 0).
• uij son vv aa. independientes con distribución N(0,σ).
Supondremos que se toma una observación por cada combinación de factores, por
tanto, hay un total de N=ab observaciones.
Parámetros a estimar:
Los residuos de este modelo son nulos, eij = 0, por lo tanto no es posible estimar la
varianza del modelo y no se pueden contrastar la significatividad de los efectos de
los factores. Dichos contrates sólo pueden realizarse si:
1. Suponemos que la interacción entre A×B es cero.
2. Replicamos el experimento (Tomamos varias observaciones por cada combinación
de factores).
Supuesto práctico 8
En unos laboratorios se está investigando sobre el tiempo de supervivencia de unos
animales a los que se les suministra al azar tres tipos de venenos y cuatro antídotos
distintos. Se pretende estudiar si los tiempos de supervivencia de los anímales
varían en función de las combinaciones veneno-antídoto. Los datos que se recogen
en la tabla adjunta son los tiempos de supervivencia en horas.
El objetivo principal es estudiar la influencia de tres tipos de venenos y 4 tipos de
antídotos en el tiempo de supervivencia de unos determinados animales, por lo que
se trata de un modelo con dos factores: el veneno (con tres niveles) y el antídoto
(con cuatro niveles). La variable que va a medir las diferencias entre los
tratamientos es el tiempo que sobreviven los animales. Se combinan todos los
niveles de los dos factores por lo que tenemos en total doce tratamientos.
Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:
Supuesto práctico 9
Consideremos el supuesto práctico anterior en el que realizamos dos réplicas por
cada tratamiento. Los datos que se recogen en la tabla adjunta son los tiempos de
supervivencia en horas de unos animales a los que se les suministra al azar tres
venenos y cuatro antídotos. El objetivo es estudiar qué antídoto es el adecuado para
cada veneno.
El modelo matemático que planteamos es el siguiente:
Esta
tabla muestra dos únicas fuentes de variación, lo efectos principales de los dos
factores (Tipo_veneno y Tipo_antídoto), y se ha suprimido la interacción entre
ambos. Se observa que el valor de la Suma de Cuadrados del error de este modelo
(73.873) se ha formado con los valores de las Sumas de cuadrados del error y de la
interacción del modelo anterior (20.363 + 53.510 = 73.873). Observando los valores
de los p-valores, 0.005 y 0.012 asociados a los contrastes principales, se deduce que
los dos efectos son significativos a un nivel de significación del 5%. Deducimos que
ni la gravedad de los venenos es la misma, ni la efectividad de los antídotos, pero
dicha efectividad no depende del tipo de veneno con el que se administre ya que la
interacción no es significativa.
Como hemos dicho en el enunciado, el objetivo del estudio es determinar qué
antídoto es el adecuado para cada veneno. Con el fin de determinar qué antídoto es
el mejor utilizamos el método de Tukey, para ello en la
ventana Univarianteseleccionamos Post_hoc…y, se pasa la
variable Tipo_antídoto al campo Pruebas posthoc para: y seleccionamos la prueba
de Tukey. Se pulsa Continuar y Aceptar.
La tabla nos muestra dos subconjuntos homogéneos, el primero está formado por
los antídotos 1, 3 y 4; esto nos indica que no se aprecian diferencias significativas
entre ellos. El segundo subconjunto homogéneo está formado por los antídotos 3, 4
y 2 indicándonos, como en el caso anterior que no hay diferencias significativas
entre estos tres tipos de antídotos. Sin embargo si hay diferencias significativas
entre ambos subconjuntos, siendo el Antídoto2 significativamente más efectivo que
el Antídoto1 (su tiempo medio de supervivencia es 7.2167, superior a los obtenidos
con los otros antídotos), y significativamente superior al del Antídoto1.
Diseños factoriales con tres factores
Supongamos que hay a niveles para el factor A, b niveles del factor B y c niveles
para el factor C y que cada réplica del experimento contiene todas las posibles
combinaciones de tratamientos, es decir contiene los abc tratamientos posibles.
El modelo sin replicación
El modelo estadístico para este diseño es:
donde
• yijk: Representa la observación correspondiente al nivel (i) del factor A, al nivel (j)
del factor B y al nivel (k) del factor C.
• µ: Efecto constante, común a todos los niveles de los factores, denominado media
global.
• τi: Efecto producido por el nivel i-ésimo del factor A, (∑iτi = 0).
• βj: Efecto producido por el nivel j-ésimo del factor B, (∑j βj = 0).
• γk: Efecto producido por el nivel k -ésimo del factor C, (∑k γk = 0).
• (τβ)ij: Efecto producido por la interacción entre A×B, (∑i (τβ)ij = ∑j (τβ)ij = 0).
• (τγ)ik: Efecto producido por la interacción entre A×C, (∑i (τγ)ik = ∑k (τγ)ik = 0).
• (βγ)jk: Efecto producido por la interacción entre B×C, (∑j (βγ)jk = ∑j (βγ)jk = 0).
• (τβγ)ijk: Efecto producido por la interacción entre A×B×C,(∑i (τβγ) ijk =
∑j (τβγ) ijk = ∑k(τβγ)ijk = 0).
• uijk: Vv aa. independientes con distribución N(0,σ).
Supondremos que se toma una observación por cada combinación de factores, por
tanto, hay un total de N=abcobservaciones.
Parámetros a estimar:
∑iτi = ∑j βj = ∑k γk = ∑i (τβ)ij =
∑j (τβ)ij = , …., = ∑k(τβγ)ijk = 0,
el número de parámetros (abc+1)
supera al número de
observaciones (abc).
SCT=SCA+SCB+SCC+SC(AB)+SC(AC)+SC(BC)+SC(ABC)+SCR
Que representan:
donde
• yijk: Representa la desviación de la altura objetivo en la botella al porcentaje i de
carbono, a la concentración j y a la velocidad k.
• µ: Efecto constante, común a todos los niveles de los factores, denominado media
global.
• τi: Efecto medio producido por el tanto por ciento i de carbono.
• βj: Efecto medio producido por la presión j.
• γk: Efecto producido por la velocidad k.
• (τβ)ij : Efecto medio producido por la interacción entre el porcentaje i de carbono y
la presión j.
• (τγ)ik: Efecto producido por la interacción entre el porcentaje i de carbono y la
velocidad k.
• (βγ)jk: Efecto producido por la interacción entre la presión j y la velocidad k.
• (τβγ)ijk: Efecto producido por la interacción entre el porcentaje i de carbono,
la presión j y la velocidad k.
• Estos efectos son parámetros a estimar, con las condiciones
∑iτi = ∑j βj = ∑k γk = ∑i (τβ)ij = ∑j (τβ)ij = , …., = ∑k (βγ)jk = 0,
• uijk son vv aa. independientes con distribución N(0,σ).
La variable respuesta de este experimento es la Desviación que se produce en la
altura de llenado en las botellas de refresco, siendo dichas botellas las unidades
experimentales. En estas desviaciones de la altura de llenado marcada como
objetivo intervienen tres factores: Porcentaje de carbono que presenta tres niveles
10%, 12% y 14%; Presión, con dos niveles 25 psi y 30 psi y Velocidad, con dos
niveles 200 y 250. Los niveles de los factores han sido fijados por el experimentador,
por lo que todos los factores son de efectos fijos. Se trata de un diseño trifactorial
de efectos fijos, donde el número de tratamientos es 3×2×2 = 12.
Para realizar este experimento mediante SPSS, se comienza definiendo las variables
e introduciendo los datos:
donde los efectos deben cumplir las condiciones expuestas anteriormente. Para
resolverlo mediante SPSS, en la ventana Univariante: Modelo suprimimos la
interacción Carbono*Presión. Se pulsa Continuar y Aceptar. La tabla ANOVA que
corresponde a este modelo es la siguiente
El efecto Presión*Velocidad sigue siendo no significativo por lo que lo suprimimos
del modelo y replanteamos el siguiente modelo matemático
donde los efectos deben cumplir las condiciones expuestas anteriormente. Para
resolverlo mediante SPSS, en la ventana Univariante: Modelo suprimimos la
interacción Presión*Velocidad. Se pulsa Continuar y Aceptar. La tabla ANOVA que
corresponde a este modelo es la siguiente:
Todos los efectos de este último modelo planteado son significativos y por lo tanto
es en este modelo donde vamos a realizar el estudio. Existen diferencias
significativas entre los distintos porcentajes del Carbono, los dos tipos de presión,
las dos velocidades de llenado y la interacción entre el porcentaje de Carbono y
la Velocidad de llenado.
En primer lugar estudiamos qué porcentajes de carbono son significativamente
diferentes mediante el método de Tukey. Para ello en la
ventana Univariante seleccionamos Post_hoc…y, se pasa la variable Carbono al
campo Pruebas posthoc para: y seleccionamos la prueba de Tukey. Se
pulsa Continuar y Aceptar.
Comprobamos que el porcentaje de Carbono que produce mayores desviaciones en
el llenado de las botellas es el 10% y el que produce la menor desviación es el 14%.
También se observa que hay dos grupos muy diferenciados, siendo el porcentaje
de Carbono del 14% el que presenta diferencias significativas con los otros dos
porcentajes. No habiendo diferencias significativas entre los porcentajes 12% y
10%.
Los factores Presión y Velocidad tienen cada uno dos niveles por lo tanto no se
puede aplicar ningún método de comparaciones múltiples para comprobar qué tipo
de Presión y qué Velocidad de llenado produce mayor/menor desviación en el
llenado de las botellas. Podemos resolverlo calculando los llenados medios de cada
uno de los niveles de los factores, para ello seleccionamos Analizar/Estadísticos
descriptivos/Explorar… y en la ventana resultante, se introduce en el campo Lista
de dependiente: Desviación, en el campo Lista de f actores: Presión y
Velocidad y en Visualizar se selecciona Estadísticos
Se pulsa Aceptar y se obtienen las siguientes salidas:
La Presión a 25 psi produce mayor desviación de llenado que a 30 psi ya que su
desviación media es de 5.33 fente a 0.67 y respecto a la Velocidad observamos que
a una Velocidad de 200 se produce mayor desviación en el llenado de las botellas de
refresco (valor medio de desviación es de 5 frente a un valor medio de 1 para
la Velocidad de 250).
A continuación analizamos el efecto de la interacción de los
factores Carbono*Velocidad mediante el gráfico de medias. Para ello, en la
ventana Univariante se selecciona Gráficos… En la salida correspondiente se
especifica cuál de los dos factores se representa en el eje de abscisas y cuál se utiliza
para dibujar las rectas. Seleccionamos en el campo Eje horizontal: la
variable Carbono y en Líneas separadas: la
variable Velocidad. Pinchamos Añadir y pulsando Continuar y Aceptar se
obtiene el siguiente gráfico de medias.
Al cruzarse
las medias de las distintas velocidades se confirma la presencia de interacción entre
los factores Carbono*Velocidad se observa que:
• Al variar el porcentaje de Carbono de 12 % al 14% y manteniendo
una Velocidad de 200, la Desviación de llenado varía dependiendo del porcentaje
de Carbono, produciéndose la mayor Desviación Media de llenado al porcentaje
de Carbonodel 12% y la menor al 14%.
• Manteniendo la Velocidad a 200, la Desviación de llenado aumenta levemente
del porcentaje del 10% al 12% y disminuye bruscamente al 14%.
• Manteniendo la Velocidad a 250 la Desviación de llenado disminuye
del porcentaje del 10% al 12% y aumenta al 14%.
• Lo que se desea averiguar en cuando se producen las menores Desviaciones de
llenado y observando la gráfica comprobamos que dichas Desviaciones se
producen al porcentaje del 12% y 250 de Velocidad y al 14% y Velocidad de
200.
También se puede realizar gráfico de medias Velocidad*Carbono, para ello
seleccionamos en el campo Eje horizontal: la variable Velocidad y en Líneas
separadas: la variable Carbono. Pinchamos Añadir y
pulsando Continuar y Aceptar se obtiene el siguiente gráfico de medias
• Al variar la Velocidad de 200 a 250 y manteniendo el porcentaje de Carbono al
10%, la desviación de llenado varía dependiendo de la Velocidad, produciéndose
la mayor Desviación media de llenado a la Velocidad de 200 y la menor a
la Velocidad de 250.
• La Desviación de llenado desciende bruscamente de la Velocidad 200 a 250 tanto
con el porcentaje de Carbono de 10% y de 12%. En cambio el comportamiento es
diferente al 14 % de Carbono. A este último porcentaje la Desviación de llenado de
las botellas es menor a una Velocidad de 200 y va aumentando a una Velocidad de
250.
• Concluyendo, la menor Desviación de llenado se produce a una Velocidad de
250 y una Concentración del 12%.
El modelo con replicación
El modelo estadístico para este diseño es:
donde los efectos deben cumplir las condiciones expuestas anteriormente. Para
resolverlo mediante SPSS, en la ventana Univariante: Modelo suprimimos la
interacción Carbono*Presión*Velocidad,. Se pulsa Continuar y Aceptar. La tabla
ANOVA que corresponde a este modelo es la siguiente
Los
efectos Carbono*Presión y Presión*Velocidad siguen siendo no significativos.
Suprimimos el efecto Presión*Velocidad que tiene una significatividad más alta y
replanteamos el siguiente modelo matemático
donde los efectos deben cumplir las condiciones expuestas anteriormente. Para
resolverlo mediante SPSS, en la ventana Univariante: Modelo suprimimos la
interacción Presión*Velocidad. Se pulsa Continuar y Aceptar. La tabla ANOVA
que corresponde a este modelo es la siguiente:
El
efecto Carbono*Presión sigue siendo no significativo por lo tanto lo suprimimos y
replanteamos el siguiente modelo matemático
donde los
efectos deben cumplir las condiciones expuestas anteriormente. Para resolverlo
mediante SPSS, en la ventana Univariante: Modelo suprimimos la
interacción Carbono*Presión. Se pulsa Continuar y Aceptar. La tabla ANOVA que
corresponde a este modelo es la siguiente:
Todos los
efectos de este último modelo planteado son significativos y por lo tanto es en este
modelo donde vamos a realizar el estudio. Existen diferencias significativas entre
los distintos porcentajes del Carbono, los dos tipos de presión, las dos velocidades
de llenado y la interacción entre el porcentaje de Carbono y la Velocidad de
llenado.
En primer lugar estudiamos qué porcentaje de carbono son significativamente
diferentes mediante el método de Duncan. Para ello en la
ventana Univariante seleccionamos Post_hoc…y, se pasa la variable Carbono al
campo Pruebas posthoc para: y seleccionamos la prueba de Duncan. Se
pulsa Continuar y Aceptar.
Comprobamos que el porcentaje de Carbono que produce mayores desviaciones en
el llenado de las botellas es el 10% y el que produce la menor desviación es el 14%.
También se observa que hay dos grupos muy diferenciados, siendo el porcentaje
de Carbono del 14% el que presenta diferencias significativas con los otros dos
porcentajes. No habiendo diferencias significativas entre los porcentajes 12% y
10%.
Los factores Presión y Velocidad tienen cada uno dos niveles por lo tanto no se
puede aplicar ningún método de comparaciones múltiples para comprobar qué tipo
de Presión y qué Velocidad de llenado produce mayor/menor desviación en el
llenado de las botellas. Podemos resolverlo calculando los llenados medios de cada
uno de los niveles de los factores, para ello seleccionamos Analizar/Estadísticos
descriptivos/Explorar… y en la ventana resultante, se introduce en el campo Lista
de dependiente: Desviación, en el campo Lista de f actores: Presión y
Velocidad y en Visualizar se selecciona Estadísticos. Se pulsa Aceptar y se
muestran las siguientes salidas
La Presión a 25 psi produce mayor desviación de llenado que a 30 psi ya que
su desviación media es de 6.42 frente a 1.42(desviación media de llenado a la
presión 30 psi) y respecto a la Velocidad observamos que a una Velocidad de 200
se produce mayor desviación en el llenado de las botellas de refresco (valor medio
de desviación es de 5.75 frente a un valor medio de 2.08 para la Velocidad de 250).
A continuación analizamos el efecto de la interacción de los
factores Carbono*Velocidad mediante el gráfico de medias. Para ello, en la
ventana Univariante se selecciona Gráficos… En la salida correspondiente se
especifica cuál de los dos factores se representa en el eje de abscisas y cuál se utiliza
para dibujar las rectas. Seleccionamos en el campo Eje horizontal: la
variable Carbono y en Líneas separadas: la
variable Velocidad. Pinchamos Añadir. De nuevo seleccionamos en el campo Eje
horizontal:la variable Velocidad y en Líneas separadas: la
variable Carbono. Pinchamos Añadir y pulsando Continuar y Aceptar se obtienen
los siguientes gráficos de medias.
En el primer
gráfico:
Al cruzarse las medias de las distintas velocidades se confirma la presencia de
interacción entre los factores Carbono*Velocidad se observa que:
• Al variar el porcentaje de Carbono de 12 % al 14% y manteniendo una Velocidad de
200, la Desviación de llenado varía dependiendo del porcentaje de Carbono,
produciéndose la mayor Desviación Media de llenado al porcentaje de Carbonodel
12% y la menor al 14%.
• Manteniendo la Velocidad a 200, la Desviación de llenado disminuye bruscamente
conforme los porcentajes aumentan.
• Manteniendo la Velocidad a 250 la Desviación de llenado aumenta conforme los
porcentajes aumentan.
• Lo que se desea averiguar en cuando se producen las menores Desviaciones de
llenado y observando la gráfica comprobamos que dichas Desviaciones se
producen al 14% de Carbono y 200 de Velocidad.
En el segundo gráfico:
Ejercicios
Ejercicios Guiados
A continuación se va a proceder a iniciar una aplicación Java, comprueba
que tengas instalada la Máquina Virtual Java para poder ejecutar
aplicaciones en Java.Si no tienes instalada la Máquina Virtual Java (Java
Runtime Environment – JRE) pincha en uno de los enlaces para java
descargarla:
1
Si ya tienes instalada la Máquina Virtual Java pincha en el Ejercicio
siguiente enlace para proceder a la ejecución de los ejercicios
guiados 2
Ejercicio
3
IMPORTANTE: Si al descargar el archivo *.JAR del ejercicio tu gestor de
descargas intenta guardarlo como *.ZIP debes cambiar la extensión a .JAR para
poder ejecutarlo.
Para un nivel de
significación del 5%.
1. ¿Se puede afirmar que los distintos niveles de agua influyen en la longitud del
tallo de los guisantes? ¿Y el tipo de planta?
2. ¿La efectividad del nivel del agua es la misma para los dos tipos de plantas?
3. Interpretar el gráfico de medias para analizar en qué sentido se producen las
interacciones.
4. Estudia, utilizando el método de Newman- Keuls, qué nivel de agua es más
efectivo.
Ejercicios Propuestos
Ejercicio Propuesto 1
La convección es una forma de transferencia de calor por los fluidos debido a
sus variaciones de densidad por la temperatura; las partes calientes
ascienden y las frías descienden formando las corrientes de convección que
hacen uniforme la temperatura del fluido. Se ha realizado un experimento
para determinar las modificaciones de la densidad de fluido al elevar la
temperatura en una determinada zona. Los resultados obtenidos han sido los
siguientes:
Ejercicio Propuesto 2
Un laboratorio de reciclaje controla la calidad de los plásticos utilizados en
bolsas. Se desea contrastar si existe variabilidad en la calidad de los plásticos
que hay en el mercado. Para ello, se eligen al azar cuatro plásticos y se les
somete a una prueba para medir el grado de resistencia a la degradación
ambiental. De cada plástico elegido se han seleccionado ocho muestras y los
resultados de la variable que mide la resistencia son los de la tabla adjunta.
Ejercicio Propuesto 3
Debido a la proliferación de los campos de golf y a la gran cantidad de agua
que necesitan, un grupo de científicos estudia la calidad de varios tipos de
césped para implantarlo en invierno en los campos de golf. Para ello, miden la
distancia recorrida por una pelota de golf, en el campo, después de bajar por
una rampa (para proporcionar a la pelota una velocidad inicial constante). El
terreno del que disponen tiene mayor pendiente en la dirección norte-sur, por
lo que se aconseja dividir el terreno en cinco bloques de manera que las
pendientes de las parcelas individuales dentro de cada bloque sean las
mismas. Se utilizó el mismo método para la siembra y las mismas cantidades
de semilla. Las mediciones son las distancias desde la base de la rampa al
punto donde se pararon las pelotas. En el estudio se incluyeron las variedades:
Agrostis Tenuis (Césped muy fino y denso, de hojas cortas y larga duración),
Agrostis Canina (Hoja muy fina, estolonífera. Forma una cubierta muy tupida),
Paspalum Notatum (Hojas gruesas, bastas y con rizomas. Forma una cubierta
poco densa), Paspalum Vaginatum (Césped fino, perenne, con rizomas y
estolones).
Se
pide:
1. Identificar los elementos del estudio (factores, unidades experimentales,
variable respuesta, etc.) y plantear detalladamente el modelo matemático
utilizado en el experimento.
2. ¿Son los bloques fuente de variación?
3. Existen diferencias reales entre las distancias medias recorridas por una
pelota de golf en los distintos tipos de césped?
4. Estudiar las interacciones de los factores.
5. Comprobar que se cumplen las hipótesis del modelo.
6. Utilizando el método de Newman-Keuls, ¿qué tipo de cesped ofrece menor
resistencia al recorrido de las pelotas?
Ejercicio Propuesto 4
Consideremos de nuevo el ejercicio propuesto 3 sobre un grupo de científicos
que estudia la calidad de varios tipos de césped para implantarlo en invierno
en los campos de golf. Para ello, miden la distancia recorrida por una pelota
de golf, en el campo, después de bajar por una rampa (para proporcionar a la
pelota una velocidad inicial constante). El terreno del que disponen tiene
mayor pendiente en la dirección norte-sur, por lo que se aconseja dividir el
terreno en cinco bloques de manera que las pendientes de las parcelas
individuales dentro de cada bloque sean las mismas. Se utilizó el mismo
método para la siembra y las mismas cantidades de semilla. Las mediciones
son las distancias desde la base de la rampa al punto donde se pararon las
pelotas, y al realizar dichas mediciones no se han podido obtener una para
cada combinación de tipo de césped y tipo de terreno, sino que sólo se han
podido realizar con tres de las variedades del césped en cada uno de los
bloques de terreno. Para controlar el efecto del tipo de terreno deciden
utilizar un diseño en bloques incompletos. En el estudio se incluyeron las
variedades: Agrostis Tenuis (Césped muy fino y denso, de hojas cortas y larga
duración), Agrostis Canina (Hoja muy fina, estolonífera. Forma una cubierta
muy tupida), Paspalum Notatum (Hojas gruesas, bastas y con rizomas. Forma
una cubierta poco densa), Paspalum Vaginatum (Césped fino, perenne, con
rizomas y estolones).
Se pide:
1. Identificar los elementos del estudio (factores, unidades experimentales,
variable respuesta, etc.) y plantear detalladamente el modelo matemático
utilizado en el experimento.
2. ¿Son los bloques fuente de variación?
3. Existen diferencias reales entre las distancias medias recorridas por una
pelota de golf en los distintos tipos de césped?
4. Comprobar que se cumplen las hipótesis del modelo.
5. Utilizando el método de Newman-Keuls, ¿qué tipo de cesped ofrece menor
resistencia al recorrido de las pelotas?
Ejercicio Propuesto 5
Un investigador quiere evaluar la productividad de cuatro variedades de
aguacates, A, B, C y D. Para ello decide realizar el ensayo en un terreno que
posee un gradiente de pendiente de oriente a occidente y además, diferencias
en la disponibilidad de Nitrógeno de norte a sur, para controlar los efectos de
la pendiente y la disponibilidad de Nitrógeno, utilizó un diseño de cuadrado
latino, los datos corresponden a la producción en kg/parcela.
Responder a las
siguientes cuestiones:
1. ¿Se puede afirmar que la productividad media de las cuatro variedades de
aguacate es la misma?
2. ¿Qué supuestos han de verificarse?
3. ¿Se obtiene la misma producción con las cuatro variedades de aguacate? En
caso negativo, analizar mediante el procedimiento de Tukey, con qué variedad
de aguacate hay mayor producción.
Ejercicio Propuesto 6
Consideremos de nuevo el ejercicio propuesto 5 del investigador que quiere
evaluar la productividad de cuatro variedades de aguacate, A, B, C y D. Para
ello, decide realizar el ensayo en un terreno que posee un gradiente de
pendiente de oriente a occidente y además, diferencias en la disponibilidad de
Nitrógeno de norte a sur. Se seleccionan cuatro disponibilidades de nitrógeno,
pero sólo dispone de tres gradientes de pendiente. Para controlar estas
posibles fuentes de variabilidad, el investigador decide utilizar un diseño en
cuadrado de Youden con cuatro filas, las cuatro disponibilidades de Nitrógeno
(NI, N2, N3, N4), tres columnas, los tres gradientes de pendientes (P1, P2, P3)
y cuatro letras latinas, las variedades de aguacates (A, B, C, D). Los datos
corresponden a la producción en kg/parcela.
Ejercicio Propuesto 7
En un invernadero se está estudiando el crecimiento de determinadas plantas,
para ello se quiere controlar los efectos del terreno, abono, insecticida y
semilla. El estudio se realiza con cuatro tipos de semillas diferentes que se
plantan en cuatro tipos de terreno, se les aplican cuatro tipos de abonos y
cuatro tipos de insecticidas. La asignación de los tratamientos a las plantas se
realiza de forma aleatoria. Para controlar estas posibles fuentes de
variabilidad se decide plantear un diseño por cuadrados greco-latinos como
el que se muestra en la siguiente tabla, donde las letras griegas corresponden
a los cuatro tipos de semilla y las latinas a los abonos.
Responder a las siguientes cuestiones:
1. Estudiar cuál es el tipo de diseño adecuado a este experimento y escribir el
modelo matemático asociado.
2. ¿Qué supuestos han de verificarse?
3. ¿Se puede afirmar que el crecimiento de las plantas es el mismo para los
cuatro tipos de abonos?¿Y con los distintos insecticidas?
4. ¿Existen diferencias significativas en el crecimiento de las plantas con las
distintas semillas? ¿Y el tipo de tierra influye en dicho crecimiento?
5. ¿Con qué tipo de semilla se produce el mayor crecimiento de las plantas?
6. ¿El crecimiento de las plantas es el mismo utilizando al mismo tiempo los
abonos A y B que utilizando los abonos C y D?
Ejercicio Propuesto 8
Se realiza un estudio sobre el efecto que produce la descarga de aguas
residuales de un planta sobre la ecología del agua natural de un río. En el
estudio se utilizaron dos lugares de muestreo. Un lugar está aguas arriba del
punto en el que la planta introduce aguas residuales en la corriente; el otro
está aguas abajo. Se tomaron muestras durante un periodo de cuatro semanas
y se obtuvieron los datos sobre el número de diatomeas halladas. Los datos se
muestran en la tabla adjunta:
Ejercicio Propuesto 9
La cotinina es uno de los principales metabolitos de la nicotina. Actualmente
se le considera el mejor indicador de la exposición al humo de tabaco. Se ha
realizado un estudio con distintas marcas de tabaco distinguiendo
principalmente entre negro y rubio para detectar las posibles diferencias en
el nivel de nicotina de personas expuestas al humo de tabaco. Para ello, se han
analizado personas de distintas edades (niños, jóvenes y adultos) y se ha
distinguido entre mujeres y hombres. Se han obtenido los datos de la siguiente
tabla sobre el nivel de nicotina en miligramos por mililitro.
Solución:
El problema planteado se modeliza a través de un diseño unifactorial totalmente
aleatorizado de efectos fijos no-equilibrado.
Se
selecciona Analizar/Modelo lineal general/Univariante. En la salida
correspondiente, se introduce en el campo Variable dependiente: La variable
respuesta Densidad del fluido y en el campo Factores fijos: el
factor Temperatura. Pulsando Aceptar se obtiene la Tabla ANOVA
En la tabla ANOVA el valor del estadístico de contrates de igualdad de medias F =
6.983, deja a su derecha un p-valor = 0.004 inferior a 0.05, por lo que se rechaza la
hipótesis nula de igualdad de medias. Concluyendo que existen diferencias
significativas en la densidad del fluido en función de la modificación de la
temperatura.
2. Determinar qué temperaturas producen modificaciones
significativas en la densidad media del fluido.
Se plantea la pregunta de si la densidad media del fluido es significativamente
diferente para las 4 temperaturas analizadas o sólo para alguna de ellas. Esta
cuestión se resuelve mediante los contrastes de comparaciones múltiples.
Utilizando la prueba de Tukey,se obtienen los siguientes resultados:
Para poder analizar esta tabla más fácilmente la ponemos de la siguiente forma
En esta tabla es más cómodo comparar cualquier pareja de temperaturas para saber
si hay diferencias significativas. Se deduce que sólo se observan diferencias
significativas entre las densidades de los fluidos cuando se ha modificado la
temperatura a 125 y 175 grados (significación inferior a 0.05).
Hipótesis de Homocedasticidad
El primer aspecto que vamos a considerar es el de la homocedasticidad, la igualdad
de varianzas. Para ello, a través del botón Opciones del menú Analizar/Modelo
lineal general/Univariante, pulsando en Pruebas de homogeneidad se obtiene:
De donde se deduce a partir del valor de la significación, 0.585, que se puede asumir
la igualdad de varianzas entre las densidades registradas para las diferentes
temperaturas.
Gráficamente, representamos las barras de error para la desviación típica
seleccionando en el menú principal Gráficos/Cuadros de diálogo
antiguos/Barras de error
Se obtiene para cada grupo de temperaturas una representación gráfica de la
densidad media (círculo de cada una de las barras) y dos desviaciones típicas a
izquierda y derecha del promedio. Se observa una mayor dispersión en la densidad
para las temperaturas 125 y 150. Este gráfico no aporta evidencias sobre la
homogeneidad de las varianzas, por lo que siempre habrá que recurrir al contraste
de Levene para dicha comparación.
Hipótesis de Independencia
Para comprobar que se satisface el supuesto de independencia entre los residuos,
representamos gráficamente los residuos frente a los valores pronosticados. La
presencia de alguna tendencia en el gráfico puede indicar la alteración de dicha
hipótesis. Seleccionando Opciones en el cuadro de diálogo de Análisis
Univariante, se selecciona la casilla Gráfico de los residuos y se obtienen los
gráficos de residuos asociados al análisis
En el gráfico de la tercera fila y la segunda columna (residuos frente a valores
pronosticados) no se observa ninguna tendencia concreta lo que muestra la no
existencia de relación de dependencia.
Hipótesis de Normalidad
En primer lugar analizamos la normalidad de las densidades y continuaremos con
el análisis de la normalidad de los residuos. Se selecciona en
SPSS Analizar/Estadísticos descriptivos/Explorar y se obtienen los ajustes de
normalidad
Para
realizarlo con SPSS, en Analizar/Comparar medias/Anova de un factor…
pulsamos Contrastes. Introduciendo los correspondientes coeficientes se obtiene
la siguiente salida
Solución:
Los cuatro tipos de plásticos analizados corresponden a una selección aleatoria de
4 conjuntos de observaciones extraídos aleatoriamente del total de diferentes tipos
de plásticos que hay en el mercado, entre los cuales debemos observar si existen o
no diferencias significativas. Nos encontramos por tanto ante un diseño unifactorial
completamente aleatorio con efectos aleatorios .
En este modelo, se supone que las variables τi son variables aleatorias normales
independientes con media 0 y varianza común .
Dado que trabajamos con el modelo de efectos aleatorios, analizar si las medias
poblacionales son iguales será equivalente a contrastar:
No rechazar H0 será equivalente a afirmar que no hay variedad en los efectos de los
tratamientos, es decir, que la resistencia que ofrecen los plásticos empleados en la
fabricación de bolsas de cara a la degradación ambiental es la misma.
Dado que estamos ante un modelo de efectos aleatorios, no tenemos que realizar
contrastes adicionales para comprobar qué medias son diferentes, ya que la
respuesta es generalizada a todos los tipos de plásticos.
La media cuadrática esperada, así como los cálculos necesarios para la obtención de
las esperanzas de los cuadrados medios del factor y del error vienen dados en la
tabla:
Se
pide:
1. Identificar los elementos del estudio (factores, unidades experimentales,
variable respuesta, etc.) y plantear detalladamente el modelo matemático
utilizado en el experimento.
2. ¿Son los bloques fuente de variación?
3. Existen diferencias reales entre las distancias medias recorridas por una
pelota de golf en los distintos tipos de césped?
4. Estudiar las interacciones de los factores.
5. Comprobar que se cumplen las hipótesis del modelo.
6. Utilizando el método de Newman-Keuls, ¿qué tipo de cesped ofrece menor
resistencia al recorrido de las pelotas?
Solución:
1. Identificar los elementos del estudio (factores, unidades experimentales,
variable respuesta, etc.) y plantear detalladamente el modelo matemático
utilizado en el experimento.
• Variable respuesta: Distancia.
• Factor: Tipo_Cesped que tiene cuatro niveles. Es un factor de efectos fijos ya que
viene decidido qué niveles concretos se van a utilizar.
• Bloque: Bloques que tiene cinco niveles. Es un factor de efectos fijos ya que viene
decidido qué niveles concretos se van a utilizar.
• Modelo completo: Los cuatro tratamientos se prueban en cada bloque exactamente
una vez.
• Tamaño del experimento: Número total de observaciones (20).
Este experimento se modeliza mediante un diseño en Bloques completos al azar.
El modelo matemático es:
Gráfico de residuos frente a los valores predichos por el modelo. Si este gráfico no
presenta ningún aspecto curvilíneo se admite que el modelo es aditivo.
Seleccionamos Opciones en el cuadro de diálogo de Univariante y marcamos la
casilla Gráfico de los residuos. Se pulsa, Continuar y Aceptar
El valor del p-
valor, 0.901, es mayor que el nivel de significación 0.05, aceptándose la hipótesis de
normalidad.
Independencia de los residuos
Homogeneidad de varianzas
En primer lugar comprobamos la homocedasticidad gráficamente, para ello se
selecciona en el menú principal, Gráficos/Cuadros de diálogos antiguos/Barras
de error… Y en la salida correspondiente seleccionar Simple y pulsar Definir. Se
introduce en el campo Variable: La variable respuesta Distancia y en el campo Eje
de categorías: el factor Tipo_Cesped. En Las barras representan se
selecciona Desviación típica, en Multiplicador: 2 (nos interesa que la desviación
típica esté multiplicada por dos). Se
pulsa Aceptar
Cada grupo tiene su promedio (el círculo en cada una de las barras), dos
desviaciones típicas a la izquierda y dos desviaciones típicas a la derecha del
promedio. Observamos que en los tipos de césped Agrostis Canina y Paspalum
Vaginatum hay mucha más dispersión que en los otros dos. Del gráfico no se deduce
directamente si hay homogeneidad en las varianzas, por lo que recurrimos a
analizarlo numéricamente mediante una prueba, el test de Levene.
Realizamos el mismo gráfico para el factor bloque, para ello introducimos en el
campo Eje de categorías: el factor Bloques.
Observamos que en el Bloque 2 parece que hay mayor dispersión pero seguido a
muy poca distancia del los Bloques 4, 1 y 5 y donde hay menos dispersión es en
el Bloque 3. Como en el gráfico anterior, no se deduce directamente si hay
homogeneidad en estas varianzas, por lo que recurrimos a analizarlo
numéricamente mediante el test de Levene.
Para realizar el test de Levene mediante SPSS, se selecciona, en el menú
principal, Analizar/Comparar medias/ANOVA de un factor. En la salida
correspondiente, se introduce en el campo Lista de dependientes: La variable
respuesta Distancia y en el campo Factor: el factor Tipo_Cesped. Se
pulsa Opciones. Se selecciona Pruebas de homogeneidad de las
varianzas y Gráfico de medias. Se pulsa Continuar y Aceptar
El p-valor es 0.412 por lo tanto no se puede rechazar la hipótesis de homogeneidad
de las varianzas y se concluye que los tres grupos tienen varianzas homogéneas.
En el gráfico de medias, donde en el eje de ordenadas figuran las medias de las
distancias recorridas por las pelotas y en el eje de abscisas los tipos de césped. En
esta gráfica observamos que la mayor distancia recorrida se produce en el
tratamiento 4 (Paspalum Vaginatum) y el número más bajo se produce con el
tratamiento1 (Agrostis Tenuis). Para saber entre que parejas de tratamientos estas
diferencias son significativas se realiza una prueba Post-hoc.
Realizamos el mismo contraste para los bloques, ya que hay que comprobar la
homocedasticidad tanto en los tratamientos como en los bloques. En este caso se
introduce en el campo Factor: Bloques.
El p-valor es 0.899 por lo tanto no se puede rechazar la hipótesis de homogeneidad
de las varianzas entre los bloques y se concluye que los diez grupos tienen varianzas
homogéneas.
En esta gráfica observamos que la mayor distancia recorrida se produce en
el Bloque 2 y el número más bajo se produce en el Bloque 3. Para saber entre que
parejas de Bloques estas diferencias son significativas, aplicamos una prueba Post-
hoc.
5. Utilizando el métdodo de Newman-Keuls, ¿qué tipo de cesped ofrece menor
resistencia al recorrido de las pelotas?
A partir de los
resultados obtenidos, se deduce que las distancias medias recorridas por las pelotas
es similar para los céspedes Agrostis Tenuis y Paspalum Notatum por una parte,
también son similares en el Paspalum Notatum y Agrostis Canina, y en ambos
grupos dichas distancias medias difieren significativamente de las recorridas en el
césped Paspalum Vaginatum. Por lo tanto, se pueden establecer tres agrupaciones
con características similares para las distancias medias recorridas. El tipo de césped
que ofrece menor resistencia al recorrido de las pelotas es el Paspalum Vaginatum,
donde las pelotas tienen un recorrido medio de 3.56 u.d.
Solución:
Para resolver las cuestiones planteadas sobre los tratamientos y los bloques, en el
menú principal se selecciona: Analizar\Modelo lineal
general\Univariante… Introduciendo la información relativa al diseño en la
ventana de análisis: La variable dependiente es la Distancia y el resto de
variables, Tipo_Cesped y Bloques corresponden a los factores fijos del modelo. En
la opción Modelo, hay que indicar al programa que se trata de un modelo sin
interacción entre los tratamientos y los bloques. Además hay que tener en cuenta
que se trata de un diseño en bloques incompletos. En este tipo de diseño los
tratamientos no están en todos los bloques, entonces los bloques y tratamientos no
son ortogonales (como lo son en el diseño de bloques completos al azar), por lo tanto
no es posible realizar una descomposición de la variabilidad del experimento como
en el diseño en bloques completos. Para resolver está cuestión, SPSS utiliza
las Sumas de cuadrados de tipo I.
• Para evaluar el efecto de los bloques, la suma de cuadrados de bloques debe
ajustarse por tratamientos, por lo tanto primero se introducen los tratamientos y
después los bloques.
De la
tabla ANOVA se deduce que los bloques son una fuente de variación.
• Para evaluar el efecto de los tratamientos, la suma de cuadrados de tratamientos
debe ajustarse por bloques, por lo tanto primero se introducen los bloques y
después los tratamientos
Se observa en la tabla ANOVA que hay diferencias reales entre las distancias medias
recorridas por una pelota de golf en los distintos tipos de césped ya que el p-valor
es menor que 0.001.
Responder a las
siguientes cuestiones:
1. ¿Se puede afirmar que la productividad media de las cuatro variedades de
aguacate es la misma?
2. ¿Qué supuestos han de verificarse?
3. ¿Se obtiene la misma producción con las cuatro variedades de aguacate? En
caso negativo, analizar mediante el procedimiento de Tukey, con qué
variedad de aguacate hay mayor producción.
Solución:
1. ¿Se puede afirmar que la productividad media de las cuatro variedades de
aguacate es la misma?
El análisis de la productividad de las variedades de aguacate corresponde al
análisis de un factor con 4 niveles. Dado que en el estudio intervienen dos fuentes
de variación: la Disponibilidad de Nitrógeno y la Pendiente, se consideran dos
factores de bloque, cada uno de ellos con 4 niveles.
Homogeneidad de varianzas
En primer lugar comprobamos la homocedasticidad gráficamente, para ello se
selecciona en el menú principal, Gráficos/Cuadros de diálogos antiguos/Barras
de error… Y en la salida correspondiente seleccionar Simple y pulsar Definir. Se
introduce en el campo Variable: La variable respuesta Productividad y en el
campo Eje de categorías: el factor Variedad. En Las barras representan se
selecciona Desviación típica, en Multiplicador: 2 (nos interesa que la desviación
típica esté multiplicada por dos). Se pulsa Aceptar
Se debe realizar el mismo gráfico para cada uno de los factores de bloque.
Realizamos el mismo contraste para los bloques, ya que hay que comprobar la
homocedasticidad tanto en los tratamientos como en los bloque
Los p-valores son mayores que
0.05, por lo tanto no se puede rechazar la hipótesis de homogeneidad de las
varianzas.
Aditividad de los factores
Gráfico de residuos frente a los valores predichos por el modelo. Si el gráfico
que aparece en la fila 3 columna 2 no presenta ningún aspecto curvilíneo se admite
que el modelo es aditivo.
Gráfico de perfil. Es un gráfico de las medias de los tratamientos, realizamos los
siguientes gráficos para comprobar la no interacción entre los factores
Cuando no existe interacción, los segmentos lineales que unen dos medias
cualesquiera serán paralelos a través de los bloques. Es decir, es posible hacer
consideraciones generales relativas a los tratamientos sin tener que especificar el
bloque implicado. Cuando estos segmentos no son paralelos se deduce que hay
interacción entre los bloques y tratamientos. Esto significa que debemos tener
cuidado cuando hagamos declaraciones relativas a los tratamientos, porque el
bloque implicado es también importante.
3. ¿Se obtiene la misma producción con las cuatro variedades de aguacate? En
caso negativo, analizar mediante el procedimiento de Tukey, con qué variedad
de aguacate hay mayor producción.
La tabla de comparaciones
múltiples muestra los intervalos simultáneos construidos por el método de Tukey
para cada posible combinación de variedades de aguacates. Como se puede
observar, todos los intervalos de confianza construidos para las diferencias entre las
producciones medias de las variedades no contienen al 0, excepto el
correspondiente a la pareja de variedades de aguacates A y D. Lo que significa que
todas las producciones medias pueden considerarse distintas estadísticamente
excepto las producciones medias correspondientes a las variedades A y D. En la
tabla de la derecha es más cómodo comparar cualquier pareja de variedades de
aguacates para saber si hay diferencias significativas. Se deduce que únicamente no
se observan diferencias significativas entre las producciones de las variedades de
aguacates A y D (P-valor = 0.429).
En la tabla Subconjuntos
homogéneos asociada al contraste de Tukey se muestra por columnas los subgrupos
de medias iguales. En nuestro estudio sobre las producciones de aguacates se
observan que hay tres subgrupos homogéneos, al primer subgrupo pertenece
la Variedad B, al segundo las variedades A y D y al tercero la Variedad C. Y se
observa que la producción media mayor se obtiene con la Variedad C (827.5 Kg/
parcela) y la menor con la Variedad B (777.50 Kg/parcela).
Solución:
El análisis de la productividad de las variedades de aguacate corresponde al análisis
de un factor con 4 niveles. Dado que en el estudio intervienen dos fuentes de
variación: la Disponibilidad de Nitrógeno y la Pendiente, se consideran dos
factores de bloque, el primero con 4 niveles y el segundo con tres niveles.
Los resultados del ANOVA dependerán del orden en que se introduzcan los factores.
A la
vista del valor de Sig. (0.024), podemos afirmar que en la productividad del
aguacate influyen las distintas variedades utilizadas.
La mayor productividad de
aguacates se obtiene con la Variedad B, con un productividad media de 901.33
Kg/parcela.
Solución:
Solución:
1. Identificar el diseño adecuado a este experimento, escribir el modelo
matemático y explicar los distintos elementos que intervienen.
En este experimento los factores de interés que intervienen son la Semana en la que
se realiza el recuento de diatomeas y el Lugar del río donde se realiza dicho
recuento, Son factores de efectos fijos, el primero tiene cuatro niveles y el segundo
tiene dos niveles y se realizan cuatro réplicas con cada tratamiento. El número de
tratamientos es de ocho, formados a partir de las combinaciones de los niveles de
los dos factores. Es un modelo bifactorial de efectos fijos con interacción, el
modelo matemático adecuado para este experimento es:
1.
2. Estudiar si la semana y el lugar son factores determinantes en el número de
diatomeas halladas en el agua del río. ¿Hay posibilidad que una semana sea
más recomendable en un lugar del río en concreto y no lo sea en el otro
lugar?
El único efecto que no es significativo es la interacción de los dos factores, por lo que
se debe modificar el modelo suprimiendo la interacción entre ambos factores y
realizar un estudio del modelo modificado.
3. Estudiar en qué semana se producen menos contaminación en el río,
utilizando el método de Duncan.
4. Estudiar en qué lugar del río se producen menos diatomeas..
Ejercicio Propuesto 9 (Resuelto)
La cotinina es uno de los principales metabolitos de la nicotina. Actualmente
se le considera el mejor indicador de la exposición al humo de tabaco. Se ha
realizado un estudio con distintas marcas de tabaco distinguiendo
principalmente entre negro y rubio para detectar las posibles diferencias en
el nivel de nicotina de personas expuestas al humo de tabaco. Para ello, se han
analizado personas de distintas edades (niños, jóvenes y adultos) y se ha
distinguido entre mujeres y hombres. Se han obtenido los datos de la siguiente
tabla sobre el nivel de nicotina en miligramos por mililitro.
Responder a las siguientes cuestiones:
1. Identificar el diseño adecuado a este experimento, escribir el modelo
matemático y explicar los distintos elementos que intervienen.
2. Contrastar la hipótesis nula de no interacción entre los factores. Adecuar el
modelo al resultado de las interacciones y contrastar los efectos principales.
3. ¿Hay diferencias significativas en el nivel de nicotina en las distintas
edades?¿En qué edad el nivel de nicotina es mayor?
4. ¿El tipo de tabaco es un factor determinante en el nivel de nicotina?
5. Comparar el nivel medio de nicotina entre las mujeres y los hombres. ¿Se
detectan diferencias significativas?
Solución:
El único efecto significativo son las distintas edades. Hay que seguir analizando el
diseño suprimiendo una a una las interacciones, empezando por las de mayor orden.
……………………….
Práctica 8
MÉTODOS DE ANÁLISIS MULTIVARIANTE:
ANÁLISIS CLÚSTER
Objetivos
1. Identificar grupos de objetos homogéneos.
2. Determinar el criterio de similitud.
3. Distinguir los Métodos de clasificación Jerárquicos y los Métodos de clasificación No-
Jerárquicos o Repartición.
4. Plantear y aplicar el Análisis Clúster Jerárquico.
5. Distinguir los Métodos Jerárquicos Aglomerativos y los Métodos Jerárquicos
Divisivos.
6. Entender y aplicar el proceso algorítmico del Análisis Clúster Jerárquico
Aglomerativo.
7. Saber construir una matriz de distancias.
8. Representar e Interpretar un dendograma.
9. Plantear y aplicar el Análisis Clúster de K medias.
10. Entender y aplicar el proceso algorítmico del Análisis Clúster de K medias.
11. Plantear y aplicar el Análisis Clúster en dos etapas o bietápico.
Paso 3: La medida de distancia que vamos a tomar entre los objetos va a ser la
distancia euclídea cuya expresión es:
Paso 5: Los clusters más similares son el D y E con una distancia de 2, que se
fusionan en un nuevo clúster DE. Se han formado tres clusters AB, C, DE
Paso 6: Calculamos el centroide del nuevo clúster que es el punto (6,7) y formamos
de nuevo la tabla de datos
El número de clusters depende del sitio donde cortemos el dendograma, por lo tanto
la decisión sobre el número óptimo de clusters es subjetiva. Es conveniente elegir
un número de clusters que sepamos interpretar. Para interpretar los clúster
podemos utilizar:
• ANOVA
• Análisis factorial
• Análisis discriminante
• …
• Sentido común
Para decidir el número de clusters nos puede ser de gran utilidad representar los
distintos pasos del algoritmo y las distancias a la que se produce la fusión de los
clusters. En los primeros pasos el salto de las distancias es pequeño, mientras que
esas diferencias van aumentando en los sucesivos pasos. Podemos elegir como
punto de corte aquel donde comienzan a producirse saltos más bruscos. En nuestro
ejemplo, el salto brusco se produce entre etapas 3 y 4, por lo tanto son dos el número
de clusters óptimo.
En primer lugar restringiremos el archivo de datos sólo a los automóviles de los que
se vendieron al menos 100.000 unidades. Para ello seleccionamos los casos que
cumplan esa condición eligiendo en los menús:
El método de Ward y el método de la media (enlace medio) son los menos sensibles
a outliers.
• Un grupo está formado por los modelos: Accord (8), Camry (11), Malibu (2), Grand
Am (9), Impala (3), Taurus (5), Mustang(4) y
• el otro grupo está formado por los modelos: Focus (6), Civic (7), Cavalier (1) y
Corolla (10).
Hay otro hueco aproximadamente 15 y 20 que sugiere 5 clusters (8, 11); (2,9); (3,
5); (4); (6, 7, 1, 10).
Entre 10 y 15 hay otro hueco que sugiere 6 clusters (8, 11); (2,9); (3, 5); (4); (6, 7,
1); (10).
En nuestro ejemplo, en la primera etapa se unen los casos 8 y 11 (Accord (8), Camry
(11)) porque son los que tienen la distancia más pequeña (1.260). El grupo creado
por 8 y 11 aparece de nuevo en la etapa 7 donde se une al clúster 2 (formado en la
etapa 3). Por lo tanto en esta etapa se unen los grupos creados en las etapas 1 y 3 y
el grupo resultante formado por 8, 11, 2 y 9 aparece en la siguiente etapa la 8 .
Si hay muchos casos la tabla es bastante larga, pero suele ser más fácil de estudiar la
columna de coeficientes para distinguir grandes distancias que analizar el
dendrograma. Cuando se observa un salto inesperado en el coeficiente de distancia,
la solución antes de ese hueco indica una buena elección de conglomerados .
Esta tabla muestra la Matriz de distancias que proporciona las similaridades entre
los casos
• La división inicial del árbol forma dos grupos, (8, 11, 1, 6, 7, 10) y (2, 9, 3, 5, 4). El
clúster primero contiene los automóviles más pequeños y el clúster segundo
contiene los coches más grandes.
• El grupo de coches más pequeños se puede dividir en dos subgrupos, uno de ellos
formado por los coches más pequeños y más baratos. Así la división siguiente en 3
clusters: (Accord (8), Camry (11), Cavalier (1)), (Focus (6), Civic (7), Corolla (10)),
estos tres coches son más pequeños y más baratos que los tres anteriores) y (Malibu
(2), Gran Am (9), Impala (3), Taurus (5), Mustang (4)).
Resumen
La solución de la vinculación completa (vecino más lejano) es satisfactoria debido a
que sus grupos son diferentes, mientras que la solución del vecino más cercano es
menos concluyente. Usando como Método de conglomeración la vinculación
completa (Vecino más lejano), se puede determinar la competencia que hay entre
los vehículos en la fase de diseño mediante la introducción de sus especificaciones
como nuevos casos en el conjunto de datos y volver a ejecutar el análisis.
Supuesto práctico 3
Una compañía de telecomunicaciones realiza un estudio con el fin de reducir el
abandono de sus clientes. Para ello dispone de un archivo de datos, donde cada caso
corresponde a un cliente distinto del que registra diversa información demográfica
y del uso del servicio. El objetivo es segmentar su base de clientes por patrones de
uso del servicio. Si los clientes se pueden clasificar por el uso, la empresa puede
ofrecer paquetes más atractivos para sus clientes. Las variables que indican el uso y
no uso de los servicios están contenidas en el archivo Telecomunicaciones1.sav.
El archivo de datos telecomunicaciones1.sav contiene 1000 datos y está formado
por las siguientes variables: región, permanencia, edad, estado_civil, dirección,
ingresos_familiares, nivel_educativo, empleo, género, n-pers_hogar,
llamadas_gratuitas, alquiler_equipo, tarjeta_llamada, inalámbrico,
larga_distancia_mes, llamadas_gratuitas_mes, equipo_mes, tarjeta_mes,
inalámbrico_mes, líneas_múltiples, mensaje_voz, servicio_busca, internet,
identificador_llamada, desvío_llamadas, llamada_a_tres, facturación_electrónica.
Utilizar el procedimiento Análisis de conglomerados jerárquico para estudiar las
relaciones entre los distintos servicios.
Para ejecutar el análisis de conglomerados, elija en los menús: Analizar/
Clasificar/Conglomerados Jerárquicos …
Pulsar Restablecer para restaurar la configuración por defecto.
Seleccionar para Variables: Servicio de llamadas gratuitas, Alquiler de equipo,
Servicio de tarjeta de llamada, Servicio inalámbrico, Líneas múltiples, mensajes de
voz, servicio de busca, internet, Identificador de llamadas, llamadas en espera,
Desvío de llamadas, llamadas a tres, Facturación electrónica
Seleccionar Variables en Conglomerar
Existen varias formas de implementarlo pero todas ellas siguen, básicamente, los
siguientes pasos:
El método suele ser muy sensible a la solución inicial dada por lo que es conveniente
utilizar una que sea buena. Una forma de construirla es mediante una clasificación
obtenida por un algoritmo jerárquico.
Como B está más próximo al clúster (CD) que al clúster (AB), se reasigna al
clúster (CD) formando el clúster (BCD).
Por último hay que interpretar la clasificación obtenida, ello requiere, en primer
lugar, un conocimiento suficiente del problema analizado. Hay que estar abierto a la
posibilidad de que no todos los grupos obtenidos tienen por qué ser significativos.
Algunas ideas que pueden ser útiles en la interpretación de los resultados son las
siguientes:
• Realizar ANOVAS y MANOVAS para ver qué grupos son significativamente distintos
y en qué variables lo son.
• Realizar Análisis Discriminante.
• Realizar un Análisis Factorial o de Componentes Principales para representar
gráficamente los grupos obtenidos y observar las diferencias existentes entre ellos.
• Calcular perfiles medios por grupos y compararlos.
Conviene hacer notar, finalmente, que es una técnica eminentemente exploratoria
cuya finalidad es sugerir ideas al analista a la hora de elaborar hipótesis y modelos
que expliquen el comportamiento de las variables analizadas identificando grupos
homogéneos de objetos. Los resultados del análisis deberían tomarse como punto
de partida en la elaboración de teorías que expliquen dicho comportamiento
La lista de variables del archivo de datos ofrece un listado con todas las variables del
archivo (numéricas y de cadena), pero las variables de cadena sólo pueden utilizarse
para etiquetar casos.
Para obtener un análisis de conglomerados de K medias:
• Seleccionar las variables numéricas que se desea utilizar para diferenciar a los
sujetos y formar los conglomerados, y trasladarlas a la lista Variables:
• Opcionalmente, seleccionar una variable para identificar los casos en las tablas de
resultados y en los gráficos y trasladarla a la lista Etiquetar casos mediante.
Nº de conglomerados. En este cuadro de texto se encuentra seleccionada por
defecto la solución de dos conglomerados. Para solicitar un número mayor de
conglomerados, introducir el número deseado en el cuadro.
Método. Las opciones de este apartado permiten indicar si los centros de los
conglomerados deben o no ser estimados iterativamente:
• Iterar y clasificar. El procedimiento se encarga de estimar
los centros iterativamente y de clasificar a los sujetos con respecto a
los centros estimados.
• Sólo clasificar. Se clasifica a los sujetos según los centros iniciales (sin actualizar sus
valores iterativamente). Al marcar esta opción se desactiva el botón Iterar… ,
impidiendo esto el acceso a las especificaciones del proceso de iteración. Esta opción
suele utilizarse junto con el botón Centros.
Centros de los conglomerados. Muestra dos opciones:
• Leer iniciales de. Permite al usuario decidir qué valor deben tomar los centros de
los conglomerados. El botón Archivo de datos externo sirve para indicar el
nombre y ruta del archivo que contiene los valores de los centros. El nombre del
archivo seleccionado se muestra junto al botón Conjunto de datos abierto. Lo
habitual es designar un archivo resultante de una ejecución previa (guardado con la
opción Escribir finales en) y en conjunción con la opción Sólo clasificar del
apartado Método.
• Escribir finales en. Guarda los centros de los conglomerados finales en un archivo
de datos externo. Este archivo puede utilizarse posteriormente para la clasificación
de nuevos casos. El botón Archivo de datos permite asignar nombre y ruta al
archivo de destino. El nombre del archivo seleccionado se muestra junto al
botón Nuevo conjunto de datos.
Los archivos de datos utilizados por estas dos opciones contienen variables con
nombres especiales reconocidas automáticamente por el sistema. No es
recomendable generar libremente la estructura de estos archivos; es preferible
dejar que sea el propio procedimiento el que los genere.
Esta tabla contiene los centros iniciales de los clusters, es decir, los valores que
corresponden, en las dos variables de clasificación utilizadas, a los dos casos que han
sido elegidos como centros respectivos de los dos conglomerados solicitados.
Seleccionando de nuevo, en la ventana del Editor Elementos/Mostrar etiquetas
de datos… y en Propiedades pasar Peso netoy Tamaño de motor a la ventana
de Mostrado:
Pulsar Aplicar
Se comprueba que los casos son el 131 (Conglomerado 1) y el 79 (Conglomerado 2),
los mismos que han sido identificados en el diagrama de dispersión.
Una vez seleccionados los centros de los conglomerados, cada caso es asignado al
conglomerado de cuyo centro se encuentra más próximo y comienza un proceso de
ubicación iterativa de los centros. En la primera iteración se reasignan los casos por
su distancia al nuevo centro y, tras la reasignación, se vuelve a actualizar el valor
del centro. En la siguiente iteración se vuelven a reasignar los casos y a actualizar el
valor del centro. Etc.
Esta tabla resume el historial de iteraciones (18 en nuestro ejemplo) con indicación
del cambio (desplazamiento) experimentado por cada centro en cada iteración.
Puede observarse que, conforme avanzan las iteraciones, el desplazamiento de
los centros se va haciendo más y más pequeño, hasta llegar a la 18 iteración, en la
que ya no existe desplazamiento alguno.
El proceso de iteración se detiene, por defecto, cuando se alcanzan 10 iteraciones o
cuando de una iteración a otra no se produce ningún cambio en la ubicación de
los centroides (cambio = 0). En nuestro ejemplo, el proceso ha finalizado antes de
alcanzar 18 iteraciones porque en la 19 ya no se produce ningún cambio.
Supuesto práctico 6
Analicemos de nuevo el archivo de datos telecomunicaciones1.sav sobre una
compañía de telecomunicaciones que realiza un estudio con el fin de reducir el
abandono de sus clientes.
El archivo de datos telecomunicaciones1.sav. contiene 1000 datos y está formado
por las siguientes variables: región, permanencia, edad, estado_civil, dirección,
ingresos_familiares, nivel_educativo, empleo, género, n-pers_hogar,
llamadas_gratuitas, alquiler_equipo, tarjeta_llamada, inalámbrico,
larga_distancia_mes, llamadas_gratuitas_mes, equipo_mes, tarjeta_mes,
inalámbrico_mes, líneas_múltiples, mensaje_voz, servicio_busca, internet,
identificador_llamada, desvío_llamadas, llamada_a_tres, facturación_electrónica.
Es conveniente unificar la escala de las variables con las que vamos a trabajar, por
ello vamos a transformar algunas de ellas tomando en primer lugar logaritmo
neperiano y después tipificando.
En Grupo de
funciones elegir Aritméticas, en Funciones y variables especiales elegir Ln, pulsar la
flecha y en la ventana Expresión numérica pasar la variable Larga_distancia_mes.
En Variable destino poner el nombre de la nueva variable ln_larga_distanca y
pulsar Aceptar.
En el Editor de datos se ha formado una nueva variable que contiene los logaritmos
neperianos de la variable larga_distancia_mes.
A continuación vamos a tipificar la variable creada, para ello, seleccionar en el menú
principal Analizar/Estadísticos descriptivos/Descriptivos…
Seleccionar la
variable ln_larga_distancia y elegir Guardar valores tipificados como
variables. En el editor de datos se ha formado una nueva
variable zln_larga_distancia que contiene los valores tipificados de la
variable ln_larga_distancia.
En el archivo de datos datos telecomunicaciones_1.sav:
• Transformar mediante logaritmo neperiano y tipificación las siguientes
variables: larga_distancia_mes, llamadas_gratuitas, equipos, tarjetas,
inalámbrico
• Transformar mediante tipificación las siguientes variables: lineas_múltiples,
mensaje_voz, servicio_busca, internet, identificador_llamada, llamada_espera,
desvio_llamadas, llamada_a_tres, facturación_electrónica.
El nuevo fichero de datos, lo llamamos datos telecomunicaciones_2.sav
La tabla de ANOVA indica qué variables contribuyen más a la solución de clúster. Las
variables con valores de F grandes proporcionan la mayor separación entre las
agrupaciones. Las pruebas F sólo se deben utilizar con una finalidad descriptiva
puesto que los conglomerados han sido elegidos para maximizar las diferencias
entre los casos en diferentes conglomerados. Los niveles críticos no son corregidos,
por lo que no pueden interpretarse como pruebas de la hipótesis de que los centros
de los conglomerados son iguales.
Los centros de los conglomerados finales reflejan las características del caso típico
de cada clúster:
• Los clientes del conglomerado 1 tienden a ser grandes consumidores que compran
una gran cantidad de servicios.
• Los clientes del conglomerado 2 tienden a ser derrochadores moderados que
compran los servicios de “el que llama” como identificador de llamada, llamada en
espera, desvío de llamada,…
• Los clientes del conglomerado 3 tienden a gastar muy poco y no compran muchos
servicios.
Los grupos 1 y 3 son los más diferentes, la distancia entre ellos es 4.863.
Estas relaciones entre los grupos también se pueden intuir desde los centros de los
conglomerados finales, pero la interpretación es más complicada ya que el número
de variables es grande.
El tercer clúster es el que tiene el mayor número de casos
asignados (482), que desgraciadamente es el grupo menos rentable ya que como
hemos visto anteriormente es el grupo que gasta menos y compra menos servicios.
Tal vez sería conveniente hacer un cuarto clúster.
A continuación vamos a
• Guardar el conglomerado de pertenencia y la distancia desde centro del
conglomerado en nuevas variables (para 4 clusters)
• Realizar un Diagrama de cajas con las variables conglomerado de pertenencia y
la distancia desde centro. Interpretar esta representación
En primer lugar, vamos a guardar el conglomerado de pertenencia y la distancia
desde centro del conglomerado y para ello, en el cuadro de diálogo de Análisis de
conglomerados de K-medias, ponemos 4 en Número de clusters
Este gráfico nos ayuda a encontrar los valores extremos dentro de los grupos. Vemos
que en el grupo 2 hay una gran variabilidad, pero todas las distancias están dentro
de lo razonable.
Supuesto práctico 7
• Aplicar conglomerados de K-medias al caso de 4 clusters
• Analizar los resultados obtenidos con 4 clusters y compararlos con los obtenidos
para el caso de 3 clusters. ¿Qué solución piensas que es la mejor?
En las salidas del clúster de k-medias tenemos las siguientes tablas
Esta tabla muestra que un grupo importante se pierde en la solución de tres clusters.
Los miembros del clúster 1 (propensos a comprar por Internet, utilizar larga
distancia y líneas múltiples) y el clúster 2 (es un grupo muy poco consumidor).
Ambos clusters proceden en gran parte del grupo 3 en la solución de tres clusters
que era un grupo de clientes que gastaban muy poco y no compraban muchos
servicios. Por lo tanto, en la solución de tres clusters se perdería el clúster 1, cuyos
miembros son altamente propensos a comprar servicios relacionados con Internet,
esto los constituye como un grupo distinto y posiblemente rentable.
Los miembros del grupo 3 son grandes consumidores y los miembros del grupo 4
son propensos a comprar los servicios de identificador de llamadas, llamada en
espera, desvío de llamadas, llamadas a 3.
• Grupos 1 y 2 son los más similares, lo cual tiene sentido, ya que se combinaron
• Grupos 2 y 3 son los más disímiles, ya que representan el comportamiento de gastos
opuestos en la solución de tres clusters
• El grupo 4 es igualmente de similar a los otros grupos.
• Segundo paso: Los nodos de las hojas del árbol CF se agrupan utilizando un
algoritmo de agrupamiento aglomerativo. El clúster se puede utilizar para producir
un rango de soluciones. Para determinar el número de clusters óptimo, cada una de
estas soluciones de clúster se compara utilizando el Criterio Bayesiano de Schwarz
(BIC) o el Criterio de Información de Akaike (AIC) como criterio de agrupamiento.
Supuesto práctico 8
Utilizamos de nuevo el archivo de datos ventas_vehículos.sav que contiene
estimaciones de ventas, listas de precios y especificaciones físicas hipotéticas de
varias marcas y modelos de vehículos.
El archivo de datos ventas_vehículos.sav está formado por las siguientes variables:
Variables tipo cadena: marca (Fabricante); modelo
Variables tipo numérico: ventas (en miles); reventa (Valor de reventa en 4
años); tipo (Tipo de vehículo: Valores: {0, Automóvil; 1, Camión}); precio (en
miles); motor (Tamaño del motor); CV (Caballos); pisada (Base de
neumáticos); ancho (Anchura); largo(Longitud); peso_neto (Peso
neto); depósito (Capacidad de combustible); mpg (Consumo).
Para obtener un análisis de conglomerados en dos etapas, seleccionar en el menú
principal: Analizar/Clasificar/Conglomerado de bietápico… y se muestra el
cuadro de diálogo del Análisis de conglomerados en dos fases
Medida de distancia. Especifica la medida de similaridad entre dos clusters
• Log-verosimilitud. La medida de la verosimilitud realiza una distribución de
probabilidad entre las variables. Las variables continuas se supone que tienen una
distribución normal, mientras que las variables categóricas se supone que son
multinomiales. Se supone que todas las variables son independientes. Esta medida
de distancia se debe utilizar en datos mixtos. La distancia entre los dos clusters
dependerá del decremento en el log-verosimilitud cuando ambas se combinan en un
único clúster.
• Euclídea. La medida euclídea es la distancia según una “línea recta” entre dos
conglomerados. Sólo se puede utilizar cuando todas las variables son
continuas.
Número de conglomerados. Esta opción permite especificar el número deseado de
clusters o dejar que el algoritmo seleccione ese número
• Determinar automáticamente. El procedimiento determinará automáticamente
el número “óptimo” de conglomerados, utilizando el criterio especificado
en Criterio de conglomeración. Criterio Bayesiano de Schwarz (BIC) o el Criterio
de información Akaike (AIC).
• Especificar número fijo. Permite fijar el número de conglomerados de la solución.
Debe ser un número entero positivo para especificar el número máximo de
conglomerados que el procedimiento debe tener en cuenta.
Recuento de variables continuas. Proporciona un resumen de las especificaciones
acerca de la tipificación de variables continuas realizadas en el cuadro de
diálogo Opciones.
Criterio de conglomeración. Mediante esta opción el algoritmo de conglomeración
determina el número de conglomerados. Se puede especificar tanto el criterio de
información bayesiano (BIC) como el criterio de información de Akaike (AIC).
En este supuesto práctico se selecciona para el campo Variables categóricas: La
variable tipo (Tipo de vehículo) y para el campo Variables
Continuas: precio; motor; CV; pisada; ancho; largo; peso_neto; depósito y mpg.
Se pulsa Opciones
Criterios de ajuste del árbol CF. Los siguientes ajustes del algoritmo de
conglomeración se aplican específicamente al árbol de características de
conglomerados (CF) y deberán cambiarse con cuidado:
• Umbral del cambio en distancia inicial. Éste es el umbral inicial que se utiliza para
hacer crecer el árbol CF. Si se ha insertado una determinada hoja en el árbol CF que
produciría una densidad inferior al umbral, la hoja no se dividirá. Si la densidad
supera el umbral, se dividirá la hoja.
• Nº máximo de ramas (por nodo hoja). Número máximo de nodos filiales que
puede tener una hoja.
• Máxima profundidad de árbol. Número máximo de niveles que puede tener un
árbol CF.
• Máximo número posible de nodos. Indica el número máximo de nodos del árbol
CF que puede generar potencialmente el procedimiento, de acuerdo con la función
(bd+1 – 1) / (b – 1), donde b es el número máximo de ramas y d es la profundidad
máxima del árbol. Tener en cuenta que un árbol CF excesivamente grande puede
agotar los recursos del sistema y afectar negativamente al rendimiento del
procedimiento. Como mínimo, cada nodo requiere 16 bytes.
Actualización del modelo de conglomerados. Este grupo permite importar y
actualizar un modelo de conglomerados generado en un análisis anterior. El archivo
de entrada contiene el árbol CF en formato XML. A continuación, se actualizará el
modelo con los datos existentes en el archivo activo. Se debe seleccionar los
nombres de las variables en el cuadro de diálogo principal en el mismo orden en que
se especificaron en el análisis anterior. El archivo XML permanecerá inalterado, a no
ser que se escriba específicamente la nueva información del modelo en el mismo
nombre de archivo.
El resumen del modelo incluye una tabla que contiene la siguiente información:
• Algoritmo. El algoritmo de clúster utilizado, en este caso, “Dos fases”.
• Características de entrada. El número de variables utilizadas (continuas y
categóricas), también conocidos como entradas o predictores.
• Conglomerados. Número de conglomerados de la solución.
En nuestro ejemplo, la tabla con el resumen del modelo de clúster indica que se han
formado 3 clusters con las diez características de entrada (variables categóricas y
numéricas) seleccionadas y el gráfico de calidad del clúster indica que el resultado
es correcto.
Esta salida también muestra una tabla con la siguiente información sobre el tamaño
de los clusters:
Las medias de los clusters sugieren que los grupos están bien separados.
La distribución de las ventas es similar en los clusters con la salvedad de que los
clusters 1 y 2 (columnas 1 y 3) tienen colas más largas que el clúster 3 (columna 2).
La distribución del valor de reventa a 4 años es muy similar en los tres clusters, sin
embargo los clusters 2 y 3 (columnas 2 y 3) se centran en un valor más alto que el
clúster 1 y respecto a la asimetría el clúster 3 tiene una cola más larga que cualquiera
de los otros dos clusters.
Este gráfico muestra las características en las filas y conglomerados en las columnas.
Esta visualización ayuda a entender mejor los factores de los que se componen los
conglomerados, y permite ver las diferencias entre los conglomerados no sólo con
respecto a los datos generales, sino entre sí.
Pulsando las teclas Ctrl+Clik en la figura anterior se seleccionan los clusters que se
desean visualizar, en la parte superior de la columna del conglomerado (en el panel
principal Conglomerados).
Nota: Se pueden seleccionar hasta cinco conglomerados para que se muestren. Los
conglomerados se muestran en el orden en que se seleccionan, mientras que el
orden de los campos viene determinado por la opción Clasificar
características por. Si dentro de Clasificar característica se selecciona
Importancia dentro del conglomerado, los campos siempre se clasifican por
importancia general.
En esta salida también se muestran unos gráficos de las distribuciones generales de
cada característica:
Estos gráficos confirman, en general lo que hemos visto en los anteriores. Este
gráfico puede ser especialmente útil cuando hay muchos clusters y se desea
compara sólo algunos de ellos.
Se pide:
1. La matriz de distancias e interpretación de la misma
2. Utilizar un análisis de conglomerados jerárquico aglomerativo con enlace
completo para clasificar los países de la UE según las variables Inflación,
Interés, Déficit Público y Deuda Pública, con el objetivo de encontrar grupo de
países con comportamiento similares.
Ejercicio Propuesto 2
Se desea determinar los segmentos de mercado de un determinado producto
en una ciudad pequeña basándose únicamente en la lealtad a las marcas y la
lealtad a las tiendas. Para ello se selecciona una muestra de 10 encuestados
sobre los que se miden las dos variables lealtad a la tienda (tienda) y lealtad a
la marca (marca) en una escala de 0 a 10. Los datos se muestran en la siguiente
tabla
Se pide:
1. Realizar un diagrama de dispersión y estudiar los grupos más homogéneos
2. Realizar un análisis de conglomerados.
Ejercicio Propuesto 3
El archivo de datos jóvenes.sav contiene información sobre 14 jóvenes
respecto a su edad, estudios, hábitos de lectura, fútbol, cine, teatro, concierto,
tv, ámbito familiar…
Se desea clasificar a los 14 jóvenes encuestados por el número de veces que
van anualmente al fútbol (fútbol), la paga semanal que reciben (paga) y el
número de horas semanales que ven la televisión (tv)
Se pide:
1. Realizar un diagrama de dispersión 3-D para mostrar la distribución de los
datos y estudiar los posibles grupos que se pueden hacer
2. Utilizar un análisis clúster jerárquico. (Etiquetar los casos mediante
Identificación personal, id )
3. Método: Vecino más lejano; Medida: Intervalo- Distancia euclidea al cuadrado;
Transformar valores: Estandarizar las variables (puntuaciones Z)
4. Obtener el Historial de conglomeración, Matriz de distancia, Dendograma y en
Témpanos: Todos los conglomerados
5. Analizar las tablas obtenidas y sacar conclusiones
6. Guardar un rango de soluciones de 3 o 4 clusters
7. Repetir el proceso anterior con el Método de Ward
8. Guardar un rango de soluciones de 3 o 4 clusters
9. Repetir el proceso anterior con el Método de Conglomeración: Agrupación de
medianas
10. Obtener conclusiones ¿Nº de clustes? ¿Método de conglomeración?
Nota: Para realizar el apartado 1.
• Seleccionar en el menú principal Gráficos/Cuadro de diálogo
antiguos/Diagrama/Puntos
• Selecciona Dispersión 3D
• Eje Y: futbol; Eje X: paga; Eje Z: tv; Etiquetar los casos mediante Identificación
personal, id
• Opciones: Mostrar el gráfico con las etiquetas de caso
El archivo de datos jóvenes.sav contiene 14 datos y está formado por las
siguientes variables:
Variables tipo cadena: id (Identificación personal).
Variables tipo numérico: centro (Tipo de centro de estudios {1, público}…),
estudios (Estudios que cursa {1, EGB}…); estupadr (Estudios del padre {1, Sin
estudios}…); estumadr (Estudios de la madre {1, Sin estudios}..); paga (Paga
semanal en ptas/100); numher (Nº hermanos incluido sujeto); edad ; califest
(Calificación media en estudios); lect ( Libros leídos anualmente); cine
(Asistencia anual al cine); fútbol (Asistencia anual al futbol); conciert
(Asistencia anual conciertos); tv (Horas semanales tv); sexo ({1, hombre}…);
hábitat ({1, rural}…); lectp (Segunda tasa de lectura); univ (¿Deseas acceder a
la universidad? {1, sí}…); gustcine (Te gusta ir al cine… {1, solo}…); tipocine
(Tipo de película que te gusta {1, amor}…); violen (Nivel de rechazo a la
violencia {1, activo}…); impdin (Importancia das al dinero {1, muy poca}..);
impest (Importancia de estudios {1, muy poca}…); ingr (Ingresos mensuales
{1, <100}…); físico (Importancia al físico {1, muy poca}…); depor (interés
deporte {1,muy poca}…)
Ejercicio Propuesto 4
Utilizamos de nuevo el archivo de datos ventas_vehículos.sav que contiene
estimaciones de ventas, listas de precios y especificaciones físicas hipotéticas
de varias marcas y modelos de vehículos. Se desea hacer un estudio de
mercado para poder determinar las posibles competencias para sus vehículos,
para ello agrupamos las marcas de los coches según los datos disponibles,
hábitos de consumo, sexo, edad, nivel de ingresos, etc. de los clientes. Las
empresas de coches adaptan sus estrategias de desarrollo de productos y de
marketing en función de cada grupo de consumidores para aumentar las
ventas y el nivel de fidelidad a la marca.
Realizar este ejercicio para el caso de 3 clusters utilizando únicamente el 20
% de los casos de la muestra. Analizar los resultados y compararlos con los
obtenidos en el Supuesto práctico 5 para el caso de 2 clusters. ¿Qué solución
piensas que es la mejor?
Nota: El archivo de datos ventas_vehículos .sav contiene 157 datos y está
formado por las siguientes variables:
Variables tipo cadena: marca (Fabricante); modelo
Variables tipo numérico: ventas (en miles); reventa (Valor de reventa en 4
años); tipo (Tipo de vehículo: Valores: {0, Automóvil; 1, Camión}); precio (en
miles); motor (Tamaño del motor); CV (Caballos); pisada (Base de
neumáticos); ancho (Anchura); largo (Longitud); peso_neto (Peso neto);
depósito (Capacidad de combustible); mpg (Consumo).
Ejercicio Propuesto 5
Se pide:
1. La matriz de distancias e interpretación de la misma
2. Utilizar un análisis de conglomerados jerárquico aglomerativo con enlace
completo para clasificar los países de la UE según las variables Inflación,
Interés, Déficit Público y Deuda Pública, con el objetivo de encontrar grupo de
países con comportamiento similares.
Solución:
1. La matriz de distancias e interpretación de la misma
En este caso todas las variables son binarias simétricas y se puede utilizar como
medida de distancia la distancia euclídea al cuadrado.
Así, por ejemplo, la distancia entre España y Francia es 1 puesto que solamente
difieren en un criterio: el de la deuda pública que Francia satisfacía y España no.
Se pide:
1. Realizar un diagrama de dispersión y estudiar los grupos más homogéneos
2. Realizar un análisis de conglomerados.
Solución:
1. Realizar un diagrama de dispersión y estudiar los grupos más homogéneos
Los grupos más homogéneos parecen ser tres formados por: (C, I, J, E, D, B); (H, G, F)
y (A)
Solución:
1. Realizar un diagrama de dispersión 3-D para mostrar la distribución de los
datos y estudiar los posibles grupos que se pueden hacer
Los grupos más similares parecen ser tres formados por: (B, H, K, M, E); (F, A, C, I,
D) y (G, J, N, L)
2. Utilizar un análisis clúster jerárquico. (Etiquetar los casos mediante
Identificación personal, id )
3. Método: Vecino más lejano; Medida: Intervalo- Distancia euclidea al cuadrado;
Transformar valores: Estandarizar las variables (puntuaciones Z)
4. Obtener el Historial de conglomeración, Matriz de distancia, Dendograma y en
Témpanos: Todos los conglomerados
5. Analizar las tablas obtenidas y sacar conclusiones
Los individuos que guardan menor distancia son el tercero (C) y el noveno (I) con
una distancia de (0.0000) y son los primeros que se unen en un mismo clúster. Lo
siguientes serán el segundo (B) y el octavo (H) (guardan aproximadamente la misma
distancia, 0.0000)
Los Coeficientes
(niveles de fusión) se han calculado mediante el método del vecino más lejano y
utilizando como distancia la euclídea al cuadrado. Se puede observar como va
aumentando la variabilidad dentro de los conglomerados conforme se van
agrandando.
• El la primera etapa había 13 clusters ((3, 9) ; (4); (7); (10); (14); (2); (8); (5); (11);
(13); (1); (6) y (12)).
• En la segunda etapa había 12 clusters ((3, 9) ; (2, 8); (4); (7); (10); (14); (5); (11);
(13); (1); (6) y (12)).
• El primer salto grande se produce entre las etapas novena y décima (coeficiente =
6.0009) siendo 4 el número de clusters ((3, 9, 4) ; (2, 8, 5, 11, 13); (7, 10, 14) y (1,
6, 12)).
• El siguiente salto se produce entre las etapas once y doce y los clusters formados
son: ((3, 9, 4, 7, 10, 14, 2, 8, 5, 11, 13) y (1, 6, 12)) y la última etapa que engloba a
los catorce jóvenes.
El dendograma muestra cómo se van formando la clasificación jerárquica de los
individuos, si consideramos un corte entre la distancia 20 y 25, se formarían dos
clusters: Clúster 1: (C, I, D, G J, N, B, H, E. K, M); Clúster 2: (A, F , L)
• Clúster 1: N, J G
• Clúster 2: D, I, C
• Cúster 3: M, K, E, H, B
• Clúster 4: L, F, A
Se añaden al fichero de datos las variables CLU4_1 y CLU3_1 que definen 4 clusters
y 3 clusters, respectivamente.
Se muestra la tabla de conglomerados de pertenencia
con la clasificación de los 14 individuos para los casos elegidos de 3 y 4 clusters. Así:
• Tres clusters: Clúster 1: A, F, L; Clúster 2: B, E, H, K, M; Clúster 3: C, D, G, I, J, N
• Cuatro clusters: Clúster 1: A, F, L; Clúster 2: B, E, H, K, M; Clúster 3: C, D, I; Clúster
4: G, J, N
7. Repetir el proceso anterior con el Método de Ward
Se añaden al fichero de datos las variables CLU4_2 y CLU3_2 que definen 4 clusters
y 3 clusters, respectivamente, mediante el método de Ward
• Iterar… donde se solicita Usar medias actualizadas para que el procedimiento vaya
actualizando cada vez las medias de los clusters
• Opciones: Centros de conclomerados iniciales, Tabla ANOVA e Información del
conglomerado para cada caso
• Guardar: Conglomerados de pertenecia y Distancia desde centro del
conglomerado
Solución
El archivo ventas_vehículos.sav contiene 157 datos Para hacer más comprensible la
representación gráfica de los resultados, vamos a comenzar utilizando únicamente
el 20 % de los casos de la muestra.
Para interpretar mejor los resultados añadimos una tabla con resumen descrptivo
Solución
1. Tipificar las variables fútbol, paga y tv
Seleccionar en el menú principal Analizar/Estadísticos
descriptivos/Descriptivos. Seleccionar las variables fútbol, paga y tv y
elegir Guardar valores tipificados como variables.
Pulsar Aceptar y se
muestran las siguintes tablas
Los centros iniciales de los conglomerados corresponden a:
• Conglomerado 1: G(10 (paga semanal), 1 (asistencia anual al futbol) y 22 (horas
semanales de tv))
• Conglomerado 2: F (10 paga, 8 futbol y 5 tv)
• Conglomerado B o H (25 paga, 5 futbol y 17 tv)
Observamos que los clusters mas similares son 2 y 3 y los mas disímiles son 1 y 3.
Los clusters que se han formado son:
Cluster 1: A, C, F, I, L,
Clúster 2: D, G, J, N
Clúster 3: B, E, H, K, M