Está en la página 1de 81

Dra.

Josefa Marn Fernndez


Departamento de Estadstica e Investigacin Operativa
Facultad de Matemticas. Universidad de Murcia
Manual de MINITAB 15
(con aplicaciones a las
Ciencias de la Documentacin)
Murcia, 2011
Contenidos
Contenidos
1. Introduccin a Minitab 7
1.1. Elementos de Minitab para Windows . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Barra de mens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3. Entrada de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4. Grabacin de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5. Lectura de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6. Opciones principales del men Calc . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6.1. Operaciones por las mediante la opcin CalcCalculator . . . . . . . . . 11
1.6.2. Operaciones por columnas mediante la opcin CalcColumn Statistics . . . 12
1.6.3. Operaciones por las mediante la opcin CalcRow Statistics . . . . . . . 14
1.6.4. Tipicacin de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.5. Creacin de datos por patrn . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.6. Creacin de resultados aleatorios de una distribucin conocida . . . . . . . . 15
1.7. Opciones principales del men Data . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.7.1. Apilamiento de columnas . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.7.2. Desapilamiento de columnas . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.7.3. Ordenacin de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.7.4. Codicacin o clasicacin de datos . . . . . . . . . . . . . . . . . . . . . . 16
1.8. Algo ms sobre la ventana Session . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.9. Algo ms sobre la ventana Proyect Manager . . . . . . . . . . . . . . . . . . . . . . 17
1.10. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2. Estadstica descriptiva 21
2.1. Distribucin de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2. Estadstica descriptiva con la opcin Stat Basic Statistics Display Descriptive
Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3. Representaciones grcas con la opcin Stat Basic Statistics Display Descrip-
tive Statistics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4. Representaciones grcas con la opcin Graph . . . . . . . . . . . . . . . . . . . . 24
3
4 Contenidos
2.4.1. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4.2. Diagrama de sectores o de pastel . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.3. Diagrama de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.3.1. Diagrama de barras simple . . . . . . . . . . . . . . . . . . . . . 26
2.4.3.2. Diagrama de barras agrupado (o apilado) . . . . . . . . . . . . . . 27
2.4.4. Diagramas bivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4.4.1. Diagrama de dispersin o nube de puntos . . . . . . . . . . . . . . 28
2.4.4.2. Representacin grca de una funcin y=f(x) . . . . . . . . . . . . 29
2.5. Correlacin y regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.6. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3. Variables aleatorias 35
3.1. Muestras aleatorias de las distribuciones usuales . . . . . . . . . . . . . . . . . . . . 35
3.2. Funcin de densidad y funcin de probabilidad . . . . . . . . . . . . . . . . . . . . 35
3.3. Funcin de distribucin (probabilidad acumulada) . . . . . . . . . . . . . . . . . . . 37
3.4. Inversa de la funcin de distribucin (percentiles) . . . . . . . . . . . . . . . . . . . 38
3.5. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
4. Contrastes no paramtricos en una poblacin 43
4.1. Contraste de aleatoriedad de la muestra . . . . . . . . . . . . . . . . . . . . . . . . 43
4.2. Contrastes de Normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.3. Contraste chi-cuadrado sobre independencia de dos variables aleatorias . . . . . . . 44
4.3.1. Datos en una tabla de doble entrada . . . . . . . . . . . . . . . . . . . . . . 44
4.3.2. Datos en dos (o tres) columnas . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5. Contrastes paramtricos en una poblacin 51
5.1. Contrastes sobre la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.1. Contraste sobre la media cuando la desviacin tpica poblacional es conocida 51
5.1.2. Contraste sobre la media cuando la desviacin tpica poblacional es desconocida 53
5.2. Contrastes sobre la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3. Contrastes sobre la proporcin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.4. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
6. Contrastes paramtricos en dos poblaciones 59
6.1. Comparacin de dos varianzas con muestras independientes . . . . . . . . . . . . . 59
6.2. Comparacin de dos medias con muestras independientes . . . . . . . . . . . . . . . 61
6.2.1. Comparacin de dos medias con muestras independientes y varianzas pobla-
cionales desconocidas pero iguales . . . . . . . . . . . . . . . . . . . . . . . 61
6.2.2. Comparacin de dos medias con muestras independientes y varianzas pobla-
cionales desconocidas y distintas . . . . . . . . . . . . . . . . . . . . . . . . 63
6.3. Comparacin de dos medias con muestras apareadas . . . . . . . . . . . . . . . . . 64
Contenidos 5
6.4. Comparacin de dos proporciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.5. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7. Contrastes no paramtricos en dos o ms poblaciones 73
7.1. Contraste de homogeneidad con dos o ms muestras independientes (Kruskal-Wallis) 73
7.2. Contraste de homogeneidad con dos o ms muestras apareadas (Friedman) . . . . . . 74
7.3. Contraste chi-cuadrado sobre homogeneidad de dos o ms poblaciones . . . . . . . . 75
7.4. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
1
Introduccin a Minitab
Introduccin a Minitab
1.1. Elementos de Minitab para Windows
Al ejecutar Minitab 15 aparece la pantalla de la Figura 1.
Como en cualquier otra aplicacin Windows, esta pantalla inicial puede modicarse en cuanto al
tamao y a la disposicin de sus elementos. Se trata de una ventana tpica de una aplicacin Windows
que, de arriba a abajo, consta de los siguientes elementos:
En la primera lnea aparece la barra de ttulo con el nombre de la ventana y los botones de
minimizar, maximizar y cerrar.
En la segunda lnea est la barra de mens con los 10 mens que luego comentaremos.
Las lneas tercera y cuarta conforman la barra de herramientas donde, mediante botones con ico-
nos, se representan algunas de las operaciones ms habituales. Si pasamos el puntero del ratn
por cualquiera de ellos, aparecer en la pantalla un texto indicando la funcin que se activa.
Despus aparece la ventana de sesin (Session). Es la parte donde aparecen los resultados de los
anlisis realizados. Tambin sirve para escribir instrucciones, como forma alternativa al uso de
los mens.
A continuacin tenemos la hoja de datos (Worksheet). Tiene el aspecto de una hoja de clculo, con
las y columnas. Las columnas se denominan C1, C2, . . ., tal como est escrito, pero tambin
se les puede dar un nombre, escribindolo debajo de C1, C2, . . . Cada columna es una variable
y cada la corresponde a una observacin o caso.
En la parte inferior aparece (minimizada) la ventana de proyecto (Proyect Manager). En Minitab
un proyecto incluye la hoja de datos, el contenido de la ventana de sesin, los grcos que se
hayan realizado, los valores de las constantes y de las matrices que se hayan creado, etc.
Para activar la ventana de sesin (Session) podemos hacer clic sobre ella o podemos hacer clic
sobre su icono en la barra de herramientas (primer icono de la Figura 2). Para activar la hoja de
datos (Worksheet) podemos hacer clic sobre ella o podemos hacer clic sobre su icono en la barra de
7
8 Dra. Josefa Marn Fernndez
Figura 1: Pantalla inicial de Minitab 15
herramientas (segundo icono de la Figura 2). Para activar la ventana de proyecto (Proyect Manager)
podemos maximizarla o podemos hacer clic sobre su icono en la barra de herramientas (tercer icono
de la Figura 2).
Figura 2: Iconos para activar las ventanas de sesin, de datos o de proyecto
1.2. Barra de mens
A continuacin se da un resumen de lo que se puede encontrar en la barra de mens:
File: Mediante este men se pueden abrir, crear o grabar los diferentes archivos que Minitab emplea,
ya sean de datos, instrucciones, resultados o procesos. Igualmente, es posible controlar las tareas
de impresin.
Edit: Permite realizar las tareas habituales de edicin: modicar, borrar, copiar, pegar, seleccionar,
etc.
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 9
Data: Este men permite, entre otras cosas, efectuar modicaciones en los archivos de datos: extraer
un subconjunto de datos, apilar y desapilar, ordenar, codicar, etc.
Calc: Aqu se encuentran todas las opciones relativas a la modicacin y generacin de nuevas varia-
bles, clculo de los estadsticos, introduccin de datos por patrn, clculo de las distribuciones
de probabilidad, etc.
Stat: Mediante este men se accede a los diferentes anlisis estadsticos que se pueden realizar con
los datos.
Graph: Permite la creacin y edicin de diversos tipos de grcos. Algunos de ellos son tambin
accesibles a travs de determinadas tcnicas estadsticas.
Editor: Tiene distintas opciones segn est activada la ventana de sesin o la hoja de datos. Con
la ventana de sesin activada permite, por ejemplo, que se pueda escribir en dicha ventana en
lenguaje de comandos.
Tools: Entre otras cosas, permite personicar la barra de herramientas y la barra de mens.
Windows: Dispone de las funciones habituales para controlar las ventanas.
Help: Proporciona ayuda al usuario en el formato tpico de Windows.
Para salir del programa se selecciona la opcin File Exit o se pulsa el botn de la esquina superior
derecha: .
1.3. Entrada de datos
Antes de realizar ningn anlisis estadstico es necesario tener un conjunto de datos en uso, para
lo cual podemos proceder de cuatro formas:
Escribirlos a travs del teclado.
Obtenerlos desde un archivo.
Pegarlos.
Generarlos por patrn o de forma aleatoria.
Para introducir datos a travs del teclado, activamos, en primer lugar, la ventana de datos. En la
parte superior aparece C1, C2, C3, . . . y debajo un espacio en blanco para poner el nombre de cada
variable. La echita del extremo superior izquierdo de la hoja de datos seala hacia dnde se mueve
el cursor al pulsar la tecla

Intro. Por defecto apunta hacia abajo,


; si se hace clic sobre ella, apuntar


hacia la derecha,

. Para escribir datos por columna no hay ms que situarse en la casilla del caso 1,
teclear el dato y pulsar la tecla

Intro. La casilla activa se mover hacia abajo. Si tecleamos datos que


no son numricos podemos observar que junto a CJ aparece un guin y la letra T (es decir, CJ T),
lo que signica que Minitab reconoce que la variable es cualitativa (o de texto).
Por ejemplo, podemos introducir los datos de la Figura 3, correspondientes a las calicaciones de
una muestra de 8 alumnos en un determinado examen y el tiempo empleado en realizar dicho examen.
Si el nombre de la variable (columna) no es sucientemente explicativo, podemos escribir una
descripcin de la variable para poder consultarla en cualquier momento. Para ello, hacemos clic sobre
10 Dra. Josefa Marn Fernndez
Figura 3: Ejemplo para introducir datos a travs del teclado
el nombre de la variable (o sobre su nmero de columna: CJ); pulsamos con el botn derecho del
ratn y seleccionamos ColumnDescription.
Para cambiar el formato de una variable (columna) numrica, hacemos clic sobre el nombre de la
variable (o sobre su nmero de columna: CJ); pulsamos con el botn derecho del ratn y selecciona-
mos Format ColumnNumeric. Esta opcin es importante, por ejemplo, para cambiar el nmero de
decimales que se muestran en la hoja de datos.
Una hoja de datos puede contener hasta 4 000 columnas, 1 000 constantes y hasta 10 000 000 de
las, dependiendo de la memoria que tenga el ordenador.
1.4. Grabacin de datos
Una vez introducidos los datos, stos pueden guardarse en un archivo para poder ser utilizados en
cualquier otro momento.
Para guardar nicamente la hoja de datos hay que seleccionar FileSave Current Worksheet As (si
vamos a grabar el archivo de datos por primera vez y, por tanto, vamos a ponerle un nombre a dicho
archivo) FileSave Current Worksheet (si el archivo de datos ya tiene nombre pero queremos guardar
los ltimos cambios realizados). Por ejemplo, podemos guardar los datos de la Figura 3 en un archivo
que denominaremos Notas_Tiempo.mtw. Para ello, elegimos la opcin FileSave Current Worksheet As;
en Guardar en seleccionamos la carpeta en la que vamos a grabar esta hoja de datos; en Nombre escribi-
mos Notas_Tiempo (Minitab le asigna automticamente la extensin .mtw) y, por ltimo, pulsamos en
Guardar.
Si queremos grabar toda la informacin (la hoja de datos, el contenido de la ventana de sesin, los
grcos que se hayan realizado, los valores de las constantes y de las matrices que se hayan creado,
etc.) usaremos la opcin FileSave Project As (si vamos a grabar el proyecto de Minitab por primera
vez y, por tanto, vamos a ponerle un nombre a dicho archivo) FileSave Project (si el proyecto ya
tiene nombre pero queremos guardar los ltimos cambios realizados). Es muy importante diferenciar
entre archivos de datos (.mtw) y archivos de proyectos (.mpj).
Tambin se puede guardar solamente la ventana de sesin. Para ello, la activamos y seleccionamos
la opcin FileSave Session Windows As.
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 11
1.5. Lectura de datos
Un archivo slo puede ser recuperado de la forma en que fue grabado. Si se ha grabado como hoja
de datos (.mtw) se recupera con la opcin FileOpen Worksheet. Si se ha grabado como proyecto de
Minitab (.mpj) se recupera con la opcin FileOpen Proyect.
Normalmente los archivos de datos de Minitab 15 se encuentran en C:\Archivos de programa\Minitab
15\English\Sample Data y, como ya sabemos, llevan la extensin .mtw.
Por ejemplo, podemos abrir el archivo de datos Pulse.mtw. Su contenido fue recogido en una clase
de 92 alumnos. De cada estudiante se observ su pulso antes de correr, Pulse1; su pulso despus de
correr, Pulse2; si corri o no, Ran (1=S corri, 2=No corri); si es fumador o no, Smokes (1=S fuma,
2=No fuma); el sexo, Sex (1=Hombre, 2=Mujer); su altura en pulgadas, Height; su peso en libras,
Weight; y su nivel de actividad fsica, Activity (0=Ninguna actividad fsica, 1=Baja, 2=Media, 3=Alta).
Se puede encontrar ms informacin de este archivo de datos con la opcin HelpHelpIndice. Bajo
la frase Escriba la palabra clave a buscar se teclea Pulse.mtw y despus se hace clic en Mostrar o se hace
doble clic sobre el nombre de dicho archivo.
Con la opcin FileOpen Worksheet se pueden leer otros tipos de archivos de datos, como hojas
de clculo de Excel, Lotus 1-2-3, dBase, etc. Para tener informacin ms detallada sobre el tipo de
archivos que se pueden leer, se puede seleccionar FileOpen Worksheet y, en el cuadro de dilogo
resultante, se hace clic sobre Ayuda.
1.6. Opciones principales del men Calc
Si queremos que en la ventana de sesin (Session) aparezcan los comandos que va a utilizar Minitab
en las opciones que vamos a explicar en los siguientes apartados, activamos la ventana de sesin y
luego seleccionamos EditorEnable Commands.
1.6.1. Operaciones por las mediante la opcin CalcCalculator
En este apartado vamos a ver el modo de generar nuevas variables mediante transformaciones
efectuadas sobre los valores de las variables ya denidas.
Para practicar esta opcin tendremos abierto el archivo de datos Pulse.mtw.
En la Tabla 4 se encuentran recogidos los operadores aritmticos, relacionales y lgicos que estn
permitidos. Tanto las expresiones aritmticas como las lgicas se evalan de izquierda a derecha.
Todas las expresiones entre parntesis se evalan antes que las que estn fuera de los parntesis y ante
varios operadores en el mismo nivel, el orden de preferencia (de mayor a menor) es el que gura en
la Tabla 4 (de arriba hacia abajo).
Para construir una nueva variable mediante transformaciones de otras ya existentes, se tiene que
elegir la opcin Calc Calculator, con lo que se abre una ventana que tiene cinco partes fundamentales:
arriba a la derecha est el lugar para escribir el nombre de la nueva variable (Store result in variable), a
la izquierda aparece la lista de variables y constantes existentes, a la derecha est el lugar destinado a
la denicin de la nueva variable (Expression), debajo hay una calculadora y la lista de funciones que
se pueden utilizar (Functions).
En primer lugar se asigna un nombre a la variable que queremos generar, escribiendo el mismo en
el cuadro Store result in variable. Normalmente se va a tratar de una variable nueva, pero tambin cabe
12 Dra. Josefa Marn Fernndez
() Parntesis
Exponenciacin
Multiplicacin
/ Divisin
+ Suma
Resta
(a) Operadores aritmticos
< Menor que
> Mayor que
<= Menor o igual que
>= Mayor o igual que
= Igual que
<> No igual que
(b) Operadores relacionales
AND Operador Y
OR Operador O
NOT Operador NO
(c) Operadores lgicos
Tabla 4: Operaciones aritmticas, relacionales y lgicas
la posibilidad de especicar una de las ya existentes. En tal caso la modicacin consistir en sustituir
los valores antiguos de la variable con los nuevos resultantes de la transformacin numrica que se
efecte.
Una vez que se ha asignado el nombre a la variable, el siguiente paso es denir la expresin que va
a permitir calcular los valores de la misma. Tal expresin se escribe en el cuadro Expression y puede
constar de los siguientes elementos: nombres de variables del archivo original, constantes, operadores
y funciones. Para escribir dicha expresin, se puede teclear directamente pero es recomendable em-
plear la calculadora, la lista de variables y constantes y la lista de funciones (haciendo clic dentro
del recuadro Expression y haciendo doble clic sobre la variable, sobre la constante o sobre la funcin).
Una vez que hemos terminado de escribir la expresin, pulsamos en OK.
Por ejemplo, del archivo de datos Pulse.mtw vamos a calcular la media geomtrica de las variables
Pulse1 y Pulse2 (raz cuadrada del producto de ambas variables; es decir, producto de ambas variables
elevado a 1/2). Para ello, seleccionamos la opcin CalcCalculator; en Store result in variable tenemos
que teclear la posicin de la columna que contendr los resultados (una columna, CJ, que est vaca)
o el nombre que queremos darle a dicha columna.
En este cuadro de dilogo (en realidad, en todos los cuadros de dilogo de Minitab), cuando haya
que escribir el nombre de una nueva variable (columna) y el nombre contenga espacios en blanco,
guiones, parntesis, etc., entonces hay que escribirlo entre comillas simples. La comilla simple
suele estar en la misma tecla que el smbolo de cerrar interrogacin.
En nuestro ejemplo, junto a Store result in variable vamos a teclear Media geomtrica Pulse1 Pulse2.
En Expression tenemos que colocar (utilizando, como hemos dicho, la calculadora y la lista de va-
riables) la operacin que se realiza para determinar la media geomtrica indicada: (Pulse1
*
Pulse2)
**
(1 / 2). Por ltimo, pulsamos en OK.
1.6.2. Operaciones por columnas mediante la opcin CalcColumn
Statistics
La opcin CalcColumn Statistics calcula, para una columna (variable), uno de los estadsticos
siguientes:
Sum suma
n

i=1
x
i
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 13
Mean media aritmtica x =
n

i=1
x
i
n
Standard deviation desviacin tpica corregida S =

i=1
(x
i
x)
2
n 1
Minimum mnimo dato x
min
Maximum mximo dato x
max
Range recorrido total R = x
max
x
min
Median mediana=valor que deja por debajo de l el 50 % de los datos
Sum of squares suma de cuadrados
n

i=1
x
2
i
N total nmero total de casos=N nonmissing+N missing
N nonmissing nmero de casos para los cuales sabemos el resultado de la variable = n
N missing nmero de casos para los cuales no sabemos el resultado de la variable
El resultado del estadstico calculado se puede almacenar (opcionalmente) en una constante, si lo
indicamos en Store result in.
Por ejemplo, del archivo de datos Pulse.mtw vamos a determinar la desviacin tpica corregida de
los datos de la columna Height y vamos a guardar el resultado en una constante que vamos a denominar
desv-Altura. Para ello, seleccionamos CalcColumn Statistics; activamos la opcin Standard deviation;
hacemos clic en el recuadro que hay a la derecha de Input variable y seleccionamos (haciendo doble
clic sobre su nombre) la columna Height; en Store result in tecleamos desv-Altura (con comillas simples,
al principio y al nal, por llevar guiones) y pulsamos en OK. Minitab guarda esta constante tambin
como K1 (o, en general, KJ, con J = 1, 2, 3, . . .). Esta constante se puede consultar, en cualquier
momento, en la ventana Proyect Manager (concretamente, en Worksheets\Pulse.mtw\Constants) y puede
ser utilizada en clculos posteriores.

Importante No es posible cambiar el nmero de decimales de los resultados que aparecen en la ventana
de sesin. Hay una forma de aumentar el nmero de decimales de un resultado
solamente en el caso en que sea posible almacenar dicho resultado en una constante; es decir,
si en el cuadro de dilogo en el cual estamos solicitando a Minitab que calcule dicho resultado
aparece la opcin de guardar el resultado. Si, por ejemplo, tenemos guardado un resultado en
la constante K1 y queremos tener una precisin de 6 decimales, hacemos lo siguiente: selec-
cionamos DataCopyConstants to Column; hacemos clic en el recuadro que hay debajo de
Copy from constants y seleccionamos (haciendo doble clic sobre su nombre) la constante K1;
en In current worksheet, in column tenemos que teclear la posicin de la columna que contendr
el resultado (una columna, CJ, que est vaca) o el nombre que queremos darle a dicha columna.
14 Dra. Josefa Marn Fernndez
Recordemos que si el nombre contiene espacios en blanco, guiones, parntesis, etc., hay que
escribirlo entre comillas simples. Si hemos puesto un nombre a esta columna, desactivamos Na-
me the column containing the copied data. Por ltimo, pulsamos en OK. Una vez que tenemos la
constante K1 copiada en una columna, podemos cambiar su formato como hemos visto ante-
riormente: hacemos clic sobre el nombre de la variable (o sobre su nmero de columna: CJ);
pulsamos con el botn derecho del ratn; seleccionamos Format ColumnNumeric; activamos
Fixed decimal; en Decimal places tecleamos 6 y pulsamos en OK.
1.6.3. Operaciones por las mediante la opcin CalcRow Statistics
La opcin CalcRow Statistics calcula los mismos estadsticos del apartado anterior, pero por las,
en vez de por columnas. En este caso, a diferencia del anterior, es totalmente necesario rellenar el
recuadro Store result in ya que los resultados forman una nueva variable o columna.
Por ejemplo, del archivo de datos Pulse.mtw vamos a hallar la media aritmtica (por las) de la
variables Pulse1 y Pulse2 y guardar los resultados en una nueva columna (variable) que denominaremos
Media aritmtica Pulse1 Pulse2. Para ello, seleccionamos CalcRow Statistics; activamos la opcin Mean;
hacemos clic en el recuadro que hay debajo de Input variables y seleccionamos (haciendo doble clic
sobre sus nombres) las columnas Pulse1 y Pulse2; en Store result in tecleamos Media aritmtica Pulse1
Pulse2 (con comillas simples, al principio y al nal, por tener espacios en blanco) y pulsamos en OK.
Las operaciones realizadas con esta opcin tambin pueden realizarse mediante CalcCalculator.
1.6.4. Tipicacin de datos
Esta opcin se entender mejor cuando estudiemos la tipicacin de una variable aleatoria Normal
(Tema 6).
Con la opcin CalcStandardize se calcula, en una nueva columna (variable), los datos tipicados
o estandarizados de una de las columnas de nuestra hoja de datos. Hay varias formas de tipicar los
datos pero la ms usual es la siguiente: Si x
i
son los datos de la muestra, x es la media (aritmtica)
y s es la desviacin tpica, los datos tipicados o estandarizados son z
i
= (x
i
x)/s. Esto se logra
dejando activada la opcin subtract mean and divide by standard deviation.
Por ejemplo, vamos a crear una nueva variable (columna), que denominaremos Pulse1 Tipicada, que
contendr los datos de Pulse1 tipicados. Para ello, seleccionamos CalcStandardize; en Input columns
seleccionamos (haciendo doble clic sobre su nombre) la columna Pulse1; en Store results in tecleamos
Pulse1 Tipicada (con comillas simples, al principio y al nal, por tener espacios en blanco); dejamos
activada la opcin Substract mean and divide by standard deviation y pulsamos en OK.
Las operaciones realizadas con esta opcin tambin pueden realizarse mediante CalcCalculator.
1.6.5. Creacin de datos por patrn
Con la opcin CalcMake Patterned Data se generan datos siguiendo un determinado patrn.
Por ejemplo, si queremos generar una lista de los siguientes 100 nmeros: 0

01, 0

02, 0

03, . . ., 1,
seguiremos los siguientes pasos:
Como estos datos no tienen nada que ver con los datos del archivo Pulse.mtw, abrimos una nueva
hoja de datos con la opcin FileNew. En el cuadro de dilogo que aparece seleccionamos Minitab
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 15
Woorksheet. A esta nueva hoja de datos Minitab le asignar el nombre Worksheet J, siendo J un
nmero natural. Luego podemos cambiarle el nombre con la opcin FileSave Current Worksheet As.
Seleccionamos, a continuacin, la opcin CalcMake Patterned DataSimple Set of Numbers. En Store
patterned data in podemos teclear C1 o un nombre, por ejemplo Patrn entre 0 y 1 (con comillas simples,
al principio y al nal, por tener espacios en blanco). En From rst value tecleamos 0,01, en To last value
escribimos 1 y en In steps of ponemos 0,01. Tanto en List each value como en List the whole sequence deja-
mos lo que est puesto por defecto, que es 1. Una vez obtenida la nueva columna vamos a denominar
Ejemplo_Practica_1.mtw a la nueva hoja de datos utilizando la opcin FileSave Current Worksheet As.
1.6.6. Creacin de resultados aleatorios de una distribucin conocida
La utilidad principal de esta opcin la veremos en el captulo 3.
En Minitab podemos generar datos de distribuciones usuales utilizando la opcin CalcRandom
Data.
Por ejemplo, en el archivo de datos Ejemplo_Practica_1.mtw vamos a generar 100 datos de una dis-
tribucin Uniforme en el intervalo (0, 1) (es decir, 100 nmeros aleatorios comprendidos entre 0 y 1).
Para ello, seleccionamos la opcin CalcRandom DataUniform; en Number of rows of data to generate
ponemos 100; en Store in column escribimos el nombre de la nueva columna: 100 datos de U(0,1) (con
comillas simples, al principio y al nal, por tener espacios en blanco y parntesis); en Lower endpoint
tecleamos 0 y en Upper endpoint escribimos 1.
1.7. Opciones principales del men Data
Slo se explicarn algunas de las opciones ms utilizadas del men Data. En el cuadro de dilogo
de cada opcin existe un botn Help que la explica bastante bien.
1.7.1. Apilamiento de columnas
Con la opcin DataStackColumns se pueden apilar varias columnas en una sola. Opcionalmente
se puede indicar de qu columna procede cada valor mediante una nueva variable (subndices). Si no
se hace esta indicacin no se podr identicar la procedencia de cada dato.
Para practicar esta opcin vamos a apilar los datos de la columna Patrn entre 0 y 1 y de la colum-
na 100 datos de U(0,1) del archivo de datos Ejemplo_Practica_1.mtw. Para ello, seleccionamos la opcin
DataStackColumns; activamos el recuadro Stack the following columns y seleccionamos (haciendo
doble clic sobre sus nombres) las dos columnas que queremos apilar: Patrn entre 0 y 1 100 datos de
U(0,1); en Store stacked data in activamos la opcin Column of current worksheet y tecleamos la posicin
de una columna que est vaca, por ejemplo, C3. En Store subscripts in tecleamos la posicin de la
columna en la que queremos guardar la procedencia de cada dato, por ejemplo, C4. Es conveniente
dejar activada la opcin Use variable names in subscript column.
16 Dra. Josefa Marn Fernndez
1.7.2. Desapilamiento de columnas
La opcin DataUnstack columns permite separar una columna en varias segn los valores de la
columna de alguna variable (que contiene los subndices). Esta opcin es la contraria de la explicada
en el apartado anterior.
Por ejemplo, de la hoja de datos Pulse.mtw vamos a desapilar los resultados de la variable Pulse2
(pulso despus de correr) segn los resultados de la variable Ran (corri o no?). Para ello, selec-
cionamos DataUnstack Columns; en Unstack the data in seleccionamos (haciendo doble clic sobre su
nombre) la variable o columna Pulse2; en Using subscripts in seleccionamos (haciendo doble clic sobre
su nombre) la columna que contiene la procedencia de cada dato, que es Ran; en Store unstacked data in
activamos la opcin After last column in use y dejamos activado Name the columns containing the unstaked
data.
1.7.3. Ordenacin de los datos
La opcin DataSort ordena los datos de una columna segn los resultados de una o varias colum-
nas. Lo normal es ordenar una columna segn los resultados de dicha columna. Esto es lo que vamos
a explicar.
Por ejemplo, en la hoja de datos Pulse.mtw vamos a crear una nueva variable (columna), designada
por Pulse1 ordenado, que contenga los resultados de la variable Pulse1 ordenados de menor a mayor.
Para ello, seleccionamos DataSort; en Sort column seleccionamos (haciendo doble clic sobre su nom-
bre) la variable Pulse1; en By column volvemos a seleccionar la misma columna. Si dejamos desactivada
la opcin Descending la ordenacin se har de menor a mayor resultado, que es lo que queremos. En
Store sorted data in activamos Column of current worksheet y tecleamos el nombre que queremos ponerle
a dicha columna: Pulse1 ordenado (con comillas simples, al principio y al nal, por tener espacios en
blanco).
Tenemos que tener cuidado con la ordenacin de columnas debido a que los resultados de esta
nueva variable no guardan correspondencia con los casos originales. Por ejemplo, la primera persona
observada tiene un pulso antes de correr (resultado de Pulse1) igual a 64 pulsaciones por minuto, no 48
pulsaciones por minuto, como nos ha salido en el primer lugar de la columna Pulse1 ordenado. Como
podemos observar, el menor valor de Pulse1 es 48 y el mayor valor es 100.
1.7.4. Codicacin o clasicacin de datos
La opcin DataCode permite la clasicacin o codicacin de los datos de una columna. Se
puede codicar transformando datos numricos en datos numricos, datos numricos en datos de
texto, datos de texto en datos de texto, datos de texto en datos numricos, etc.
Por ejemplo, con la hoja de datos Pulse.mtw podemos codicar la variable Pulse1 de la forma si-
guiente:
intervalo de Pulse1 nueva categora
[48,65] Pulso bajo
(65,83] Pulso medio
(83,100] Pulso alto
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 17
Para ello, seleccionamos DataCodeNumeric to Text. En Code data from columns seleccionamos
(haciendo doble clic sobre su nombre) la variable Pulse1. En Store coded data in column escribimos el
nombre la nueva variable, por ejemplo, Codicacin de Pulse1 (con comillas simples, al principio y al
nal, por tener espacios en blanco). En la primera lnea de Original values escribimos 48:65 (todos los
resultados comprendidos entre 48, incluido, y 65, incluido) y en la primera lnea de New escribimos
Pulso bajo. En la segunda lnea de Original values escribimos 65:83 (todos los resultados comprendidos
entre 65, sin incluir, y 83, incluido) y en la segunda lnea de New escribimos Pulso medio. En la tercera
lnea de Original values escribimos 83:100 (todos los resultados comprendidos entre 83, sin incluir, y
100, incluido) y en la tercera lnea de New escribimos Pulso alto.
1.8. Algo ms sobre la ventana Session
Ya hemos visto que una de las utilidades de la ventana de sesin es la de servir para la presentacin
de los comandos aplicados en cada opcin de las que hemos realizado. Adems, podemos repasar
resultados obtenidos con anterioridad movindonos hacia arriba en dicha ventana. Los resultados
incluidos en la ventana de sesin pueden grabarse como un archivo de texto (.txt) activando dicha
ventana y seleccionando FileSave Session Window As. Tambin podemos usar las opciones de marcar,
copiar y pegar para pasar los resultados obtenidos a editores de texto. Adems, es posible imprimir
todos sus contenidos activando dicha ventana y seleccionando FilePrint Session Window.
Una vez seleccionada la ventana de sesin, la activacin de la opcin EditorEnable Commands
permite ejecutar los comandos de Minitab. Por ejemplo, si tecleamos en la ventana de sesin (tras
MTB >) Mean C1 y pulsamos el botn

Intro, el programa calcula media aritmtica de los datos de la


columna C1 de la hoja de datos activa. Si escribimos Let K2=1/3 y pulsamos el botn

Intro, el programa
guarda el valor 1/3 en la correspondiente constante. Si tecleamos ahora Print K2, el programa nos da el
valor de dicha constante.
Lgicamente, es ms sencillo el manejo de Minitab utilizando los mens, pero los comandos
pueden incorporarse posteriormente a los programas (macros) que construyamos. Adems, una vez
habilitado el lenguaje de comandos, cuando ejecutemos una opcin del men, sta se escribir en la
ventana de sesin, con lo que podremos ver cul es la sintaxis concreta del comando que queremos
utilizar.
Para que el contenido de la ventana de sesin pueda modicarse, debemos activar dicha ventana y
seleccionar EditorOutput Editable, con lo que podemos recticar fcilmente cualquier error, modicar
comandos ejecutados anteriormente o simplemente preparar los resultados para ser imprimidos.
Una vez activada la opcin EditorOutput Editable, la ventana de sesin es el lugar en el que se
ejecutan los macros o programas, tanto los que construyamos nosotros como los que incluye Minitab
o los realizadas por otros usuarios. Los macros llevan la extensin .mac y normalmente estn incluidos
en el directorio C:\Archivos de programa\Minitab 15\English\Macros. En la versin 15 de Minitab sola-
mente se incluyen cuatro macros, pues los resultados del resto de los macros de la versin anterior
pueden conseguirse con distintas opciones de los mens.
1.9. Algo ms sobre la ventana Proyect Manager
Esta ventana presenta toda la informacin disponible en forma de directorios. Resulta ser especial-
mente til cuando se maneja una gran cantidad de datos. El directorio Session nos muestra, de forma
18 Dra. Josefa Marn Fernndez
resumida y organizada, la informacin correspondiente a dicha ventana. El directorio History presenta
(en lenguaje de comandos) todas las operaciones que hemos realizado. A diferencia de lo que ocu-
rra con la ventana de sesin, no sirve para ejecutar comandos ni macros, y en l no se muestran los
resultados de la ejecucin de los comandos. En este directorio aparece solamente el programa de las
operaciones que hemos realizado, y su contenido puede consultarse o copiarse directamente para la
realizacin de macros. Los directorios de datos, Worksheets, contienen informacin sobre las columnas
(variables), constantes y matrices manejadas en cada ventana de datos que se est utilizando. Ade-
ms, indican el nmero de datos incluidos en una columna, as como los datos ausentes de la misma
(Missing).
1.10. Ejercicios propuestos
Ejercicio 1.1 En la Tabla 5 se muestra el nmero anual de usuarios de una biblioteca determinada y
el nmero anual de prstamos durante 10 aos elegidos al azar.
ao usuarios prstamos
1 296 155
2 459 275
3 602 322
4 798 582
5 915 761
6 1145 856
7 1338 1030
8 1576 1254
9 1780 1465
10 2050 1675
Tabla 5
a) Crea un nuevo proyecto de Minitab.
b) Introduce los datos (sin incluir, obviamente, la primera columna, que indica el nmero de
caso). Pon los siguientes nombres a las dos variables: Usuarios y Prstamos. Graba la hoja
de datos en un archivo denominado Prestamos.mtw
c) Calcula, en una nueva columna, la variable que indica el porcentaje anual de prstamos
por usuario, resultado de multiplicar por 100 el resultado de dividir el nmero anual de
prstamos entre el nmero anual de usuarios. Pon a la nueva variable el siguiente nombre:
PPU. Haz que los resultados aparezcan con tres decimales. Pon una etiqueta descriptiva a
esta variable. Vuelve a grabar la hoja de datos.
d) Calcula el mnimo y el mximo de la variable PPU.
e) Clasica los datos de la variable PPU en 4 categoras o intervalos de la misma amplitud.
Llama a la nueva variable Intervalos PPU. Las categoras han de denotarse como lo hacemos
en las clases de teora; es decir, [a, b] o (a, b] (sustituyendo, obviamente, a y b por los
lmites de los intervalos de clase). Vuelve a grabar la hoja de datos.
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 19
f) Graba el proyecto con el siguiente nombre: Ejercicio1-1.mpj
Ejercicio 1.2 En la Tabla 6 aparece el nmero anual de transacciones de referencia y el nmero anual
de transacciones de referencia nalizadas en 20 biblioteca elegidas al azar.
biblioteca tipo de biblioteca transacciones de referencia transacciones de referencia nalizadas
1 1 11500 9400
2 1 8600 7200
3 1 20400 18100
4 1 5800 4600
5 1 6500 5800
6 1 13700 10900
7 1 12400 11200
8 1 5300 4700
9 1 6700 5600
10 1 15600 12500
11 2 1900 1700
12 2 9600 7800
13 2 8400 6900
14 2 6200 4900
15 2 7700 5900
16 2 5600 4200
17 2 6200 4900
18 2 4800 3500
19 2 3800 2600
20 2 2400 2200
Tabla 6
a) Crea un nuevo proyecto de Minitab.
b) Introduce los datos (sin incluir, obviamente, la primera columna, que indica el nmero
de caso). Pon los siguientes nombres a las variables: Tipo, TR y TRF. Pon una etiqueta
descriptiva a cada variable. En lo que respecta a la variable Tipo hay que dejar claro que el
valor 1 signica biblioteca pblica y el valor 2 signica biblioteca universitaria. Graba la
hoja de datos en un archivo denominado Transacciones.mtw
c) Crea una nueva variable, denominada Tipo biblioteca, que contenga las categoras de la va-
riable Tipo designadas de la siguiente manera: bib. pblica (en vez de 1) y bib. universitaria
(en vez de 2). Vuelve a grabar la hoja de datos.
d) Calcula, en una nueva columna, la variable que indica el porcentaje de transacciones de
referencia nalizadas, que se determina multiplicando por cien el resultado de dividir el
nmero anual de transacciones de referencia nalizadas entre el nmero anual de transac-
ciones de referencia. Pon a la nueva variable el siguiente nombre: Porcentaje TRF. Haz que
20 Dra. Josefa Marn Fernndez
los resultados aparezcan con 5 decimales. Pon una etiqueta descriptiva a esta variable.
Vuelve a grabar la hoja de datos.
e) Desapila los resultados de la variable Porcentaje TRF segn los resultados de la variable
Tipo biblioteca. Calcula la media aritmtica de estas dos nuevas columnas. Interpreta los
resultados.
f) Ordena los datos de la variable Porcentaje TRF en orden creciente. Pon un nombre ade-
cuado a la nueva columna. Pon una etiqueta descriptiva a esta columna. A partir de esta
ordenacin determina el valor mnimo y el valor mximo de Porcentaje TRF.
g) Clasica los datos de la variable Porcentaje TRF en 3 categoras o intervalos de la misma am-
plitud. Llama a la nueva variable Intervalos Porcentaje TRF. Las categoras han de denotarse
como lo hacemos en las clases de teora; es decir, [a, b] o (a, b] (sustituyendo, obviamente,
a y b por los lmites de los intervalos de clase). Vuelve a grabar la hoja de datos.
h) Graba el proyecto con el siguiente nombre: Ejercicio1-2.mpj
2
Estadstica descriptiva
Estadstica descriptiva
2.1. Distribucin de frecuencias
Con Minitab, para determinar la distribucin de frecuencias de una (o ms variables) utilizamos
la opcin StatTables Tally Individual Variables.
Para practicar esta opcin, podemos abrir el archivo de datos (Worksheet) Pulse.mtw. Recordemos
que su contenido fue recogido en una clase de 92 alumnos. De cada estudiante se observ su pulso
antes de correr, Pulse1; su pulso despus de correr, Pulse2; si corri o no, Ran (1=S corri, 2=No
corri); si es fumador o no, Smokes (1=S fuma, 2=No fuma); el sexo, Sex (1=Hombre, 2=Mujer); su
altura en pulgadas, Height; su peso en libras, Weight; y su nivel de actividad fsica, Activity (0=Ninguna
actividad, 1=Baja, 2=Media, 3=Alta).
Si queremos saber el nmero de casos (frecuencia absoluta) y el porcentaje de cada una de las
categoras de la variable Activity, utilizamos la opcin StatTablesTally Individual Variables; en el re-
cuadro Variables seleccionamos, de la lista de variables de la izquierda, la columna Activity y en Display
activamos Counts y Percents. Podemos ver, en la ventana de sesin (Session), que hay 21 alumnos con
nivel alto de actividad fsica, y que un 663 % de ellos tiene un nivel medio de actividad fsica.
2.2. Estadstica descriptiva con la opcin Stat Basic
Statistics Display Descriptive Statistics
En el captulo anterior vimos que la opcin CalcColumn Statistics calcula, para una columna (o
variable), uno de los estadsticos siguientes: Sum (suma), Mean (media arimtica), Standard deviation
(desviacin tpica corregida), Minimum (mnimo resultado), Maximum (mximo resultado), Range (reco-
rrido o amplitud total), Median (mediana), Sum of squares (suma de cuadrados), N total (nmero total de
casos o tamao muestral), N nonmissing (nmero de casos para los cuales sabemos el resultado de la
variable) y N mising (nmero de casos para los cuales no sabemos el resultado de la variable).
A continuacin vamos a trabajar con una opcin mucho ms amplia, que nos permite, entre otras
cosas, calcular ms de un estadstico y trabajar con ms de una variable (columna) a la vez.
21
22 Dra. Josefa Marn Fernndez
La opcin StatBasic StatisticsDisplay Descriptive Statistics de Minitab permite obtener los esta-
dsticos ms importantes de las columnas (variables) de la hoja de datos. Tambin permite calcularlos
separando los valores de una columna segn el valor de otra. Adems puede realizar una serie de
grcas que nos permiten resumir la informacin contenida en los datos.
Para practicar esta opcin, vamos a calcular los estadsticos descriptivos ms importantes de las
variables Pulse1, Height y Weight de la hoja de datos Pulse.mtw. Para ello, seleccionamos StatBasic
StatisticsDisplay Descriptive Statistics y en el recuadro Variables del cuadro de dilogo resultante se-
leccionamos, de la lista de columnas que tenemos a la izquierda, las tres variables Pulse1, Height y
Weight. A continuacin pulsamos en Statistics. Nos aparece un nuevo cuadro de dilogo en el cual se
pueden elegir los estadsticos que queremos determinar de las variables que hemos seleccionado en
el recuadro Variables. Haciendo clic sobre el botn Help se obtiene informacin sobre el signicado de
cada uno de estos estadsticos. Los estadsticos que podemos seleccionar son los siguientes:
Mean media aritmtica x =
n

i=1
x
i
n
SE of mean error estndar de la media
S
x

n
Standard deviation desviacin tpica corregida S
x
=

i=1
(x
i
x)
2
n 1
Variance varianza corregida S
2
x
Coefcient of variation coeciente de variacin media CV =
s
x
|x|
100 %
First quartile primer cuartil Q
1
Median mediana M
e
= Q
2
Third quartile tercer cuartil Q
3
Interquartile range recorrido intercuartlico R
I
= Q
3
Q
1
Trimmed mean media de los datos eliminando el 5 % de los menores y el 5 % de los mayores
Sum suma
n

i=1
x
i
Minimum mnimo dato x
min
Maximum mximo dato x
max
Range recorrido o rango R = x
max
x
min
N nonmissing nmero de casos para los cuales sabemos el resultado de la variable = n
N missing nmero de casos para los cuales no sabemos el resultado de la variable
N total nmero total de casos=N nonmissing+N missing
Cumulative N nmero acumulado de casos (solo cuando se ha rellenado el recuadro By variables)
Percent porcentaje de casos (solo cuando se ha rellenado el recuadro By variables)
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 23
Cumulative percent porcentaje acumulado de casos (solo cuando se ha rellenado el recuadro By variables)
Sum of squares suma de cuadrados
n

i=1
x
2
i
Skewness coeciente de asimetra g
1
=
m
3
s
3
x
, con m
3
=
n

i=1
(x
i
x)
3
n
Kurtosis coeciente de apuntamiento g
2
=
m
4
s
4
x
3, con m
4
=
n

i=1
(x
i
x)
4
n
MSSD media de los cuadrados de las sucesivas diferencias
Siguiendo con nuestro ejemplo (clculo de los estadsticos ms importantes de las variables Pulse1,
Height y Weight), podemos seleccionar todos los estadsticos menos Cumulative N, Percent y Cumulative
percent. Podemos comprobar, por ejemplo, que la suma de los datos de la variable Pulse1 es 6704 y la
suma de los cuadrados de los datos de la misma variable es 499546.
Con la misma hoja de datos (Pulse.mtw) podemos calcular los estadsticos de la variable Pulse2
(Pulso despus de correr) separando sus resultados segn los valores de la variable Ran (corri o no
corri?). Para ello, seleccionamos StatBasic StatisticsDisplay Descriptive Statistics; en el recuadro
Variables del cuadro de dilogo resultante seleccionamos la variable Pulse2; y en By variables (Optional)
seleccionamos la variable Ran. En consecuencia, en la ventana de sesin aparecen los resultados
de los mencionados estadsticos de la variable Pulse2 separados para cada grupo de resultados de la
variable Ran. Por ejemplo, podemos comprobar que para el grupo de personas que s corri (Ran=1) la
media del pulso es 92

51 y la mediana es 88, mientras que para el grupo de personas que no corri


(Ran=2) la media del pulso es 72

32 y la mediana es 70.
2.3. Representaciones grcas con la opcin Stat
Basic Statistics Display Descriptive Statistics
El botn Graphs del cuadro de dilogo que aparece con la opcin StatBasic StatisticsDisplay
Descriptive Statistics permite elegir alguno de los siguientes grcos (por defecto no se realiza ninguno)
de las variables que hemos seleccionado en el recuadro Variables:
Histogram of data o histograma, que agrupa los datos en intervalos, representando sobre ellos rec-
tngulos de rea proporcional a la frecuencia absoluta de cada intervalo;
Histogram of data, with normal curve o histograma al que se le superpone la curva de la distribu-
cin normal de media igual a media muestral de la variable seleccionada y desviacin tpica
igual a la desviacin tpica corregida muestral de dicha variable;
Individual value plot o grco de valores individuales, que representa los datos en forma de puntos,
y
24 Dra. Josefa Marn Fernndez
Boxplot of data o diagrama caja-bigote, que representa los valores mnimo y mximo (extremos
de los bigotes), los cuartiles Q1 y Q3 (extremos de la caja) y la mediana. Dentro de la caja
tendremos el 50 % de los datos de la muestra y en cada bigote tendremos el 25 % de los datos
ms extremos. Este ltimo tipo de grco nos permite visualizar tanto el valor central como
la dispersin de los datos, y es muy til a la hora de comparar datos de distintas muestras o
grupos.
Por ejemplo, con la hoja de datos Pulse.mtw vamos a dibujar el histograma (con la curva normal
superpuesta) de la variable Height.
2.4. Representaciones grcas con la opcin Graph
Adems de los grcos que se obtienen con la StatBasic StatisticsDisplay Descriptive Statistics,
podemos crear representaciones grcas con el men Graph.
Una opcin importante de todos los grcos creados a travs del men Graph es que haciendo clic
sobre ellos con el botn derecho del ratn y activando la opcin Update Graph Automatically del men
contextual que aparece, el grco cambia automticamente al modicar los datos con que se han
construido (ya sea aadiendo, modicando o eliminando).
2.4.1. Histograma
Se puede obtener el histograma de una variable con la opcin GraphHistogram. Esta opcin ofrece
4 tipos: Simple, With Fit, With Outline and Groups y With Fit and Groups.
Por ejemplo, podemos hacer el histograma simple de la variable Weight de la hoja de datos Pul-
se.mtw. Para ello, seleccionamos la opcin GraphHistogram. De las cuatro opciones que aparecen
seleccionamos Simple. En el cuadro de dilogo resultante seleccionamos la variable Weight para po-
nerla en el recuadro Graph variables. Podemos cambiar el aspecto que tendra el grco por defecto,
pulsando en los botones que aparecen en este cuadro de dilogo: Scale, Labels, Data View, Multiple Graphs
y Data Options. Para ms informacin sobre las acciones de estos botones, pulsar el botn Help del mis-
mo cuadro de dilogo. En principio, podramos dejar todas las opciones por defecto a la hora de
realizar este primer histograma.
El histograma resultante podemos copiarlo en el portapapeles, haciendo clic sobre el grco con
el botn derecho del ratn y seleccionando, del men contextual que resulta, la opcin Copy Graph.
De esta manera, podramos pegarlo en otro programa bajo Windows, por ejemplo, uno de edicin de
grcos. Tambin podemos almacenarlo en la ventana de proyecto, Proyect Manager (concretamente en
el directorio ReportPad) haciendo clic sobre el grco con el botn derecho del ratn y seleccionando,
del men contextual que resulta, la opcin Append Graph to Report. Tambin tenemos la posibilidad de
grabarlo en varios formatos (grco propio de Minitab, mgf, jpg, png, bmp, etc.). Para ello solo tenemos
que cerrar el grco (botn ) y pulsar en S cuando Minitab nos pregunte si queremos guardar el
grco en un archivo aparte.
Una vez obtenido el histograma es posible cambiar su aspecto. Para ello, hacemos doble clic sobre
la parte del grco que queremos cambiar. Aparece, entonces, una nueva ventana que nos permite
hacer dicha transformacin. Los cambios ms usuales son: cambio en la escala del eje horizontal,
cambio en el eje vertical, aspecto de las barras, intervalos sobre los que se sitan las barras, aspecto
de la ventana del grco y cambio en las proporciones del grco. Para practicar con estas opciones
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 25
vamos a cambiar el histograma simple de la variable Weight de la hoja de datos Pulse.mtw de la siguiente
manera:
Que el ttulo sea Histograma de la variable Peso, en letra Arial, cursiva, negrita, de color azul
oscuro y con un tamao de 10 puntos.
Que las barras sean de color azul claro con una trama de relleno oblicua y con los bordes de
color azul oscuro.
Que haya 7 intervalos de la misma amplitud y que en el eje horizontal aparezcan los lmites de
los intervalos (no los puntos medios).
Que el texto del eje horizontal sea Peso de los alumnos, en libras, en letra Arial, cursiva, no
negrita, de color azul oscuro y con un tamao de 9 puntos.
Que en el eje vertical se muestren 13 marcas (ticks), en letra Arial, de color azul oscuro y con
un tamao de 8 puntos.
Que el texto del eje vertical sea Frecuencia absoluta, en letra Arial, cursiva, no negrita, de color
azul oscuro y con un tamao de 9 puntos.
2.4.2. Diagrama de sectores o de pastel
Este grco resume los datos de una columna contando el nmero de datos iguales y represen-
tndolos mediante sectores proporcionales al nmero de datos de cada clase. Se utiliza con datos
cualitativos o de tipo discreto con pocos resultados distintos. Se obtiene con la opcin GraphPie
Chart.
Por ejemplo, podramos hacer el diagrama de sectores de los datos de la columna Activity de la
hoja de datos Pulse.mtw. Para ello, en el cuadro de dilogo que resulta al seleccionar GraphPie Chart,
dejamos activada la opcin Chart counts of unique values y seleccionamos la columna Activity en el
recuadro Categorical variables. Podemos cambiar el aspecto que tendra el grco por defecto, pulsando
en los botones que aparecen en este cuadro de dilogo: Pie Options, Labels, Multiple Graphs y Data Options.
En principio, podramos dejar todas las opciones por defecto a la hora de realizar este primer diagrama
de sectores.
Igual que ocurra con el histograma, una vez obtenido el diagrama de sectores podemos copiarlo
en el portapapeles, o almacenarlo en el directorio ReportPad de la ventana Proyect Manager, o grabarlo
en un archivo aparte. Tambin es posible cambiar su aspecto una vez obtenido, haciendo doble clic
sobre la parte del grco que queremos cambiar. Para practicar vamos a cambiar el anterior grco
de sectores de la siguiente manera:
Que el ttulo sea Grco de sectores de la variable Actividad Fsica, en letra Verdana, cursiva,
negrita, de color rojo oscuro y con un tamao de 10 puntos.
Que junto a los sectores circulares aparezca la frecuencia absoluta y el porcentaje de cada
categora (clic sobre uno de los sectores circulares con el botn derecho del ratn, opcin Add,
Slice Labels).
Vamos a aprender a hacer un diagrama de sectores cuando tenemos en una columna las categoras
de una variable y en otra columna las frecuencias absolutas de dichas categoras. Por ejemplo, vamos
26 Dra. Josefa Marn Fernndez
Figura 7: Idioma de los libros de una biblioteca
a realizar el diagrama de sectores de los datos de la Figura 7, correspondientes a los idiomas en que
estn escritos los libros de los estantes de una determinada biblioteca.
Como estos datos no tienen nada que ver con los datos del archivo Pulse.mtw, abrimos una nueva
hoja de datos con la opcin FileNew. En el cuadro de dilogo que aparece seleccionamos Minitab
Woorksheet. A esta nueva hoja de datos Minitab le asignar el nombre Worksheet J, siendo J un
nmero natural. A continuacin introducimos los datos tal como se muestra en la Figura 7. Luego
guardamos esta hoja de datos con el nombre IdiomaLibros.mtw (FileSave Current Worksheet As). Para
dibujar el diagrama de sectores seleccionamos GraphPie Chart. En el cuadro de dilogo resultante,
activamos la opcin Chart values from a table; seleccionamos la columna Idioma en el recuadro Catego-
rical Variable; seleccionamos la columna N
o
de estantes en el recuadro Summary variables y pulsamos en
OK. Como ya sabemos, podemos modicar este grco.
2.4.3. Diagrama de barras
2.4.3.1. Diagrama de barras simple
Este tipo de grco se utiliza con datos cualitativos o de tipo discreto con pocos resultados distin-
tos. El diagrama de barras se construye colocando en el eje horizontal los resultados (o categoras) de
la variable y subiendo, sobre ellos, unas barras (rectngulos o segmentos rectilneos) de altura igual
a la frecuencia absoluta (o la frecuencia relativa o el porcentaje) de cada resultado (o categora). Se
obtiene con la opcin GraphBar Chart.
Por ejemplo, podramos hacer el diagrama de barras de los datos de la columna Activity de la hoja de
datos Pulse.mtw. Para ello, en el cuadro de dilogo que resulta al seleccionar GraphBar Chart, dejamos
activada la opcin Counts of unique values del recuadro Bars represent y dejamos tambin activado el
modelo Simple del diagrama de barras. En el cuadro de dilogo resultante, seleccionamos la columna
Activity en el recuadro Categorical Variables. Como las categoras son nmeros concretos (0, 1, 2 y 3) es
ms riguroso que, en vez de barras, aparezcan solamente segmentos rectilneos; por tanto, activamos
el botn Data View y en el cuadro de dilogo resultante activamos solo la opcin Proyect lines.
Igual que ocurra con los grcos anteriores, una vez obtenido el diagrama de barras podemos
copiarlo en el portapapeles, o almacenarlo en el apartado ReportPad de la ventana Proyect Manager,
o grabarlo en un archivo aparte. Tambin es posible cambiar su aspecto, una vez obtenido, haciendo
doble clic sobre la parte del grco que queremos cambiar. Podemos observar, adems, que si hacemos
clic sobre el grco (para activarlo) y luego pasamos el ratn por encima de las barras, se nos indica la
frecuencia absoluta de cada categora. Para practicar vamos a cambiar el diagrama de barras anterior
de la siguiente manera:
Que el ttulo sea Diagrama de barras de la variable Actividad Fsica, en letra Comic Sans
MS, cursiva, negrita, de color rojo y con un tamao de 11 puntos.
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 27
Que las barras (lneas) sean de color rojo y de un tamao (grosor) de 3 puntos.
Que en el eje vertical se muestren 13 marcas (ticks), en letra Arial, no negrita, de color rojo y
con un tamao de 10 puntos.
Que el texto del eje vertical sea Frecuencia absoluta, en letra Arial, cursiva, no negrita, de color
rojo y con un tamao de 9 puntos.
Que el texto del eje horizontal sea Actividad Fsica (0=Ninguna, 1=Baja, 2=Media, 3=Alta),
en letra Arial, cursiva, no negrita, de color rojo y con un tamao de 8 puntos.
Que en la parte superior de cada barra aparezca la frecuencia absoluta de cada categora (clic
sobre una de las barras con el botn derecho del ratn, opcin Add, Data Labels, dejar activado
Use y-values labels).
Vamos a aprender a hacer un diagrama de barras cuando tenemos en una columna las categoras de
una variable y en otra columna las frecuencias absolutas de dichas categoras. Por ejemplo, vamos a
realizar el diagrama de barras de los datos de la Figura 7, correspondientes a los idiomas en que estn
escritos los libros de los estantes de una determinada biblioteca. En primer lugar, abrimos la hoja de
datos IdiomaLibros.mtw. Para dibujar el diagrama de barras seleccionamos GraphBar Chart, activamos
la opcin Values from a table del apartado Bars represent; activamos el modelo Simple del apartado One
column of values y pulsamos en OK. En el cuadro de dilogo resultante, seleccionamos la columna N
o
de estantes en el recuadro Graph variables; seleccionamos la columna Idioma en el recuadro Categorical
Variable y pulsamos en OK. Como ya sabemos, podemos modicar este grco.
2.4.3.2. Diagrama de barras agrupado (o apilado)
Con la opcin GraphBar Chart existe la posibilidad de seleccionar una nueva variable para de-
terminar las barras dentro de cada grupo; esto se realiza seleccionando Cluster (para un diagrama de
barras agrupado segn los resultados de otra variable) o Stack (para un diagrama de barras apilado
segn los resultados de otra variable). Por ejemplo, con el archivo de datos Pulse.mtw vamos a hacer
el diagrama de barras de la variable Activity en grupos denidos por la variable Sex. Para ello, en el
cuadro de dilogo que resulta al seleccionar GraphBar Chart, dejamos activada la opcin Counts of
unique values del recuadro Bars represent y activamos el modelo Cluster del diagrama de barras. En el si-
guiente cuadro de dilogo seleccionamos, de la lista de variables de la izquierda, las columnas Activity
y Sex para ponerlas en el recuadro Categorical variables. Una vez obtenido dicho diagrama de barras es
conveniente modicarlo para que sea ms explicativo, por ejemplo vamos a hacer lo siguiente:
Que el ttulo sea Diagrama de barras de la variable Actividad Fsica en grupos denidos por
la variable Sexo, en letra Verdana, negrita, de color morado y con un tamao de 9 puntos.
Que las barras tengan distinto color segn los resultados de la variable Sex y que aparezca
una leyenda explicativa (doble clic sobre una de las barras, en el cuadro de dilogo resultante
seleccionar la carpeta Groups, en el recuadro Assign attributes by categorical variables seleccionar
la variable Sex.)
Que en el eje vertical se muestren 10 marcas (ticks), en letra Verdana, no negrita, de color
morado y con un tamao de 10 puntos.
Que el texto del eje vertical sea Frecuencia absoluta, en letra Verdana, no negrita, de color
morado y con un tamao de 11 puntos.
28 Dra. Josefa Marn Fernndez
Que en el eje horizontal todo est escrito con la fuente Verdana, no negrita, de color morado y
con un tamao de 9 puntos. Que en dicho eje aparezcan los nombres de las variables en espaol:
Actividad Fsica en vez de Activity, y Sexo en vez de Sex. Que en el mismo eje los resultados
de la variable Sex no sean 1 y 2 sino Hombre y Mujer. Y los resultados de la variable Activity
no sean 0, 1, 2 y 3 sino Ninguna, Poca, Media y Alta.
Vamos a aprender a hacer un diagrama de barras agrupado (o apilado) cuando tenemos los datos
en una tabla de doble entrada. Por ejemplo, vamos a realizar el diagrama de barras agrupado de los
datos de la Figura 8, correspondientes al nmero de citas en diferentes campos de investigacin y en
tres distintos aos.
Figura 8: Citas anuales en distintos campos de investigacin
En primer lugar, abrimos una nueva hoja de datos con la opcin FileNew. En el cuadro de dilogo
que aparece seleccionamos Minitab Woorksheet. A continuacin introducimos los datos tal como se
muestra en la Figura 8. Luego guardamos esta hoja de datos con el nombre Citas.mtw. Para dibujar el
diagrama de barras agrupado seleccionamos GraphBar Chart, activamos la opcin Values from a table
del apartado Bars represent; activamos el modelo Cluster del apartado Two-way table y pulsamos en OK. En
el cuadro de dilogo resultante, seleccionamos las columnas 1970, 1980 y 1990 en el recuadro Graph
variables; seleccionamos la columna Campo investigacin en el recuadro Row labels; activamos Rows
are outermost categories and columns are innermost y, por ltimo, pulsamos en OK. Como ya sabemos,
podemos modicar este grco.
2.4.4. Diagramas bivariantes
2.4.4.1. Diagrama de dispersin o nube de puntos
La opcin GraphScatterplot realiza una grca con los datos (bivariantes) de dos columnas de la
misma longitud.
Por ejemplo, con la hoja de datos Pulse.mtw podemos dibujar el diagrama de dispersin, con la
recta de regresin superpuesta, de la altura en pulgadas, Height, sobre el peso en libras, Weight. Para
ello, seleccionamos la opcin GraphScatterplot; en el cuadro de dilogo que aparece seleccionamos
With Regression y pulsamos en OK. En el siguiente cuadro de dilogo, en el recuadro Y Variables se-
leccionamos, de la lista de variables de la izquierda, la columna Height; y en el recuadro X Variables
seleccionamos, de la lista de variables de la izquierda, la columna Weight. Podemos cambiar el aspec-
to que tendra el grco por defecto, pulsando en los botones que aparecen en este cuadro de dilogo:
Scale, Labels, Data View, Multiple Graphs y Data Options. En principio, podramos dejar todas las opciones
por defecto a la hora de realizar este primer diagrama de dispersin. Se puede comprobar que el dia-
grama de dispersin o nube de puntos se agrupa cerca de una lnea recta, lo que signica que hay una
relacin lineal fuerte entre las dos variables.
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 29
Igual que ocurra con los grcos anteriores, una vez obtenido el diagrama de dispersin se puede
copiar en el portapapeles, o almacenar en el apartado ReportPad de la ventana Proyect Manager, o grabar
en un archivo aparte. Tambin es posible cambiar su aspecto, una vez obtenido, haciendo doble clic
sobre la parte del grco que queremos modicar. Para practicar, vamos a modicar el diagrama de
dispersin anterior de la siguiente manera:
Que el ttulo sea Diagrama de dispersin de la Altura frente al Peso, en letra Times New
Roman, cursiva, negrita, de color rojo y con un tamao de 14 puntos.
Que los smbolos sean rombos rojos de tamao 1.
Que en el eje horizontal se muestren 14 marcas (ticks), en letra Times New Roman, no negrita,
de color rojo y con un tamao de 12 puntos.
Que el texto del eje horizontal sea Peso de los alumnos, en libras, en letra Times New Roman,
cursiva, no negrita, de color rojo y con un tamao de 12 puntos.
Que en el eje vertical se muestren 10 marcas (ticks), en letra Times New Roman, no negrita, de
color rojo y con un tamao de 12 puntos.
Que el texto del eje vertical sea Altura de los alumnos, en pulgadas, en letra Times New Roman,
cursiva, no negrita, de color rojo y con un tamao de 12 puntos.
Que la recta de regresin sea de color rojo y de tamao 2.
2.4.4.2. Representacin grca de una funcin y=f(x)
La opcin GraphScatterplot es la que se utiliza para hacer la representacin grca de una de-
terminada funcin f(x). Para ello es necesario tener en una columna los valores de x (generalmente
creados por patrn) y en otra columna los resultados de y = f(x) (generalmente calculados a partir
de la opcin CalcCalculator). Por ejemplo, vamos a hacer la representacin grca de la funcin
f(x) = x
2
+ 2x 4 en el intervalo [3, 3]. Para ello se procede de la siguiente manera:
1) Se abre una hoja de datos nueva (File, New, Minitab Worksheet).
2) Mediante la opcin CalcMake Patterned DataSimple Set of Numbers se crea una nueva columna
que denominaremos x y que contendr todos los nmeros comprendidos entre el -3 y el 3 con
un incremento de 0, 01. Se puede comprobar que en la columna x hay un total de 601 nmeros.
3) En otra columna se calculan los resultados de la funcin funcin f(x) = x
2
+2x 4 para cada
valor de la columna x. Para hacerlo, se selecciona CalcCalculator; en Store result in variable te-
cleamos f(x); en Expression tenemos que colocar, utilizando la calculadora y la lista de variables
que aparecen en este cuadro de dilogo, la siguiente expresin: x
**
2+2
*
x-4
4) Para representar grcamente la funcin se elige la opcin GraphScatterplot, despus se elige
With connect line. En el siguiente cuadro de dilogo, en Y variables se selecciona, de la lista de
variables de la izquierda, la columna f(x) y en X variables se selecciona la columna x. Sera
conveniente quitar los puntos del grco, dejando slo la lnea de conexin, para lo cual se
hace doble clic sobre la curva, en AttributesSymbols se marca la opcin Custom y en Type se
selecciona None (buscando hacia arriba). Luego se hace un clic dentro del grco, pero no sobre
la curva.
Tambin se puede lograr lo mismo de la siguiente manera: se elige la opcin GraphScatterplot;
se selecciona Simple; en el siguiente cuadro de dilogo, en Y variables se selecciona la columna
30 Dra. Josefa Marn Fernndez
f(x) y en X variables se selecciona la columna x; se activa el botn Data View y en el cuadro de
dilogo resultante se deja activada solamente la opcin Connect line.
2.5. Correlacin y regresin lineal
En el apartado 2.4.4 hemos visto cmo obtener (y cmo modicar) el diagrama de dispersin o
nube de puntos de una variable estadstica bidimensional.
Para obtener el coeciente de correlacin lineal de Pearson se selecciona StatBasic Statistics
Correlation. En el cuadro de dilogo que aparece, en el recuadro de la izquierda est la lista de
variables, de las cuales podemos seleccionar dos o ms.
Por ejemplo, de la hoja de datos Pulse.mtw vamos a calcular el coeciente de correlacin lineal de
Pearson entre las variables Altura en pulgadas, Height, y Peso en libras, Weight y lo vamos a guardar
para poder aumentar el nmero de decimales que se obtienen. Para ello, seleccionamos StatBasic
StatisticsCorrelation. En el cuadro de dilogo resultante hacemos clic en el recuadro que hay debajo
de Variables y seleccionamos, de la lista de variables de la izquierda, las columnas Height y Weight;
desactivamos Display p-values y activamos Store matrix (display nothing) y pulsamos en OK. Minitab no
muestra el resultado en la ventana de sesin pero guarda, con el nombre CORR1 (en general, CORRj,
con j = 1, 2, . . .), la matriz de correlaciones siguiente:
1, 00000 0, 78487
0, 78487 1, 00000
lo cual quiere decir que el coeciente de correlacin lineal entre las variables Height y Weight es igual
a 0

78487. Por tanto, la fuerza de la relacin lineal entre estas dos variables es moderada. El primer
1 signica que el coeciente de correlacin lineal entre Height y Height es igual a 1 (lo cual es lgico)
y, por supuesto, el segundo 1 signica que el coeciente de correlacin lineal entre Weight y Weight es
igual a 1.
Para aumentar el nmero de decimales del resultado del coeciente de correlacin lineal entre
las variables Height y Weight hacemos lo siguiente: seleccionamos DataCopyMatrix to Column; hace-
mos clic en el recuadro que hay debajo de Copy from matrix y seleccionamos (haciendo doble clic sobre
su nombre) la matriz CORR1; en In current worksheet, in columns tenemos que teclear las posiciones de
dos columnas (CJ y CK que estn vacas) que contendrn las dos columnas de la matriz de correlacio-
nes. Podemos dejar activada la opcin Name the column containing the copied data. Por ltimo, pulsamos
en OK. Ahora ya podemos aumentar el nmero de decimales como hemos visto en el captulo anterior:
hacemos clic sobre el nombre de la variable (o sobre su nmero de columna: CJ); pulsamos con el
botn derecho del ratn; seleccionamos Format ColumnNumeric; activamos Fixed decimal y en Decimal
places tecleamos, por ejemplo, 8 y pulsamos en OK. Podemos observar que el resultado del coeciente
de correlacin lineal entre las variables Height y Weight es igual a 0

78486641.
La opcin StatBasic StatisticsCovariance es similar a lo que acabamos de explicar pero en lugar
de determinar el coeciente de correlacin lineal entre cada par de variables calcula lo que Minitab
llama covarianza, pero que en realidad es la covarianza corregida (similar a la covarianza, pero divi-
diendo por (n 1) en vez de por n; siendo n el tamao muestral). La covarianza corregida, S
xy
, est
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 31
relacionada con la covarianza, s
xy
, de la siguiente manera:
S
xy
=
n

i=1
(x
i
x)(y
j
y)
n 1
=
n
n 1
s
xy
.
De esto se deduce que el coeciente de correlacin lineal de Pearson se puede calcular de cualquiera
de las dos formas siguientes:
r
xy
=
s
xy
s
x
s
y
=
S
xy
S
x
S
y
.
Para obtener la ecuacin de la recta de regresin (mnimo cuadrtica) de una variable cuantitativa
Y sobre otra variable cuantitativa X, se selecciona la opcin Stat Regression Regression.
Puesto que hemos obtenido anteriormente el coeciente de correlacin lineal entre las variables
Height y Weight, vamos ahora a encontrar la ecuacin de la recta de regresin de la variable Weight sobre
la variable Height (de la hoja de datos Pulse.mtw). Para ello, seleccionamos la opcin Stat Regression
Regression; en el cuadro de dilogo resultante seleccionamos la variable Weight en Response y la
variable Height en Predictors; pulsamos en Results y, en el cuadro de dilogo resultante, activamos la
opcin Regression equation, table of coefcients, s, R-squared, and basic analysis of variance y pulsamos en OK;
en el siguiente cuadro de dilogo volvemos a pulsar en OK. En la ventana de sesin aparecen varios
resultados, la mayora de los cuales no pueden ser interpretados en este momento pues todava no
hemos explicado la parte de Estadstica Inferencial. Lo que a nosotros nos interesa en este momento
son los resultados de los coecientes de regresin, que son: A = 204

74, B = 5

0918, siendo la
ecuacin de la recta de regresin Y = A+BX; donde Y =Weight (peso) y X=Height (altura). Es decir,
la ecuacin de la recta de regresin de la variable Weight sobre la variable Height es:
Weight = 204

74 + 5

0918 Height
2.6. Ejercicios propuestos
Ejercicio 2.1
a) Crea un nuevo proyecto de Minitab.
b) Abre la hoja de datos Prestamos.mtw (datos del Ejercicio 1.1).
c) Determina la distribucin de frecuencias de la variable Intervalos PPU.
d) Para las variables Usuarios, Prstamos y PPU calcula todas las medidas descriptivas que
hemos estudiado en las clases tericas.
e) Dibuja el diagrama de dispersin, con la recta de regresin superpuesta, de la variable
Prstamos sobre la variable Usuarios. Modifcalo de la siguiente forma:
Que el ttulo sea Diagrama de dispersin del N
o
anual de prstamos frente al N
o
anual de usuarios en letra Verdana, itlica, negrita, de color rojo y con un tamao de
9 puntos.
Que los smbolos sean cuadrados rellenos, de color verde oscuro y de tamao 2.
Que en el eje horizontal se muestren 20 marcas (ticks) y que los nmeros sean de
color azul y con un tamao de 8 puntos.
32 Dra. Josefa Marn Fernndez
Que el texto del eje horizontal sea Nmero anual de usuarios, en letra Verdana, itlica,
no negrita, de color rojo y con un tamao de 11 puntos.
Que en el eje vertical se muestren 18 marcas (ticks) y que los nmeros sean de color
azul y de un tamao de 8 puntos.
Que el texto del eje vertical sea Nmero anual de prstamos, en letra Verdana, itlica,
no negrita, de color rojo y con un tamao de 11 puntos.
Que la recta de regresin sea de color rojo y de tamao 2.
f) Calcula, con una precisin de 6 decimales, el coeciente de correlacin lineal entre las
variables Prstamos y Usuarios.
g) Determina la ecuacin de la recta de regresin de la variable Prstamos sobre la variable
Usuarios.
h) Dibuja el histograma simple de la variable PPU.
Que haya 4 intervalos de la misma amplitud y que en el eje horizontal aparezcan los
lmites de los intervalos (no los puntos medios).
Que el ttulo sea Histograma del Porcentaje anual de prstamos por usuario, en
letra Times New Roman, negrita, de color rojo oscuro y con un tamao de 14 puntos.
Que las barras sean de color rojo claro con una trama de relleno horizontal y con los
bordes de color rojo oscuro, de tamao 2.
Que el texto del eje horizontal sea Porcentaje anual de prstamos por usuario, en
letra Times New Roman, cursiva, no negrita, de color rojo oscuro y con un tamao de
12 puntos.
Que en el eje vertical se muestren 7 marcas (ticks) y que los nmeros sean de color
rojo oscuro y con un tamao de 12 puntos.
Que el texto del eje vertical sea Frecuencia absoluta, en letra Times New Roman,
cursiva, no negrita, de color rojo oscuro y con un tamao de 12 puntos.
i) Dibuja el grco de sectores de la variable Intervalos PPU.
Que el ttulo sea Grco de sectores de la variable Intervalos PPU, en letra Verda-
na, cursiva, negrita, de color azul oscuro y con un tamao de 12 puntos.
Que junto a los sectores circulares aparezca la frecuencia absoluta y el porcentaje de
cada categora.
En la leyenda, tanto la fuente de la cabecera como la fuente del cuerpo sea Verdana,
de color azul oscuro y con un tamao de 10 puntos.
j) Graba el proyecto con el siguiente nombre: Ejercicio2-1.mpj
Ejercicio 2.2
a) Crea un nuevo proyecto de Minitab.
b) Abre la hoja de datos Transacciones.mtw (datos del Ejercicio 1.2).
c) Determina la distribucin de frecuencias de la variable Intervalos Porcentaje TRF.
d) Para las variables TR, TRF y Porcentaje TRF calcula las medidas descriptivas siguientes: m-
nimo, primer cuartil, mediana, tercer cuartil, mximo, recorrido, recorrido intercuartlico,
media, varianza corregida, desviacin tpica corregida, suma de los datos y suma de los
cuadrados de los datos.
e) Calcula la media, la mediana y la desviacin tpica corregida de la variable Porcentaje TRF
separando sus resultados segn los valores de la variable Tipo Biblioteca.
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 33
f) Dibuja el diagrama de dispersin, con la recta de regresin superpuesta, de la variable TRF
sobre la variable TR. Modifcalo de la siguiente forma:
Que el ttulo sea Nube de puntos y recta de regresin en letra Verdana, negrita, de
color azul y con un tamao de 12 puntos.
Que los smbolos sean tringulos rellenos, de color magenta y de tamao 1.
Que en el eje horizontal se muestren 10 marcas (ticks) y que los nmeros sean de
color azul y de un tamao de 9 puntos.
Que el texto del eje horizontal sea Nmero anual de transacciones de referencia, en
letra Verdana, itlica, no negrita, de color azul y con un tamao de 10 puntos.
Que en el eje vertical se muestren 10 marcas (ticks) y que los nmeros sean de color
azul y de un tamao de 9 puntos.
Que el texto del eje vertical sea Nmero anual de transacciones de referencia nali-
zadas, en letra Verdana, itlica, no negrita, de color azul y con un tamao de 9 puntos.
Que la recta de regresin sea de color morado y de tamao 2.
g) Calcula, con una precisin de 6 decimales, el coeciente de correlacin lineal entre las
variables TR y TRF.
h) Determina la ecuacin de la recta de regresin de la variable TRF sobre la variable TR.
i) Dibuja el diagrama de barras de la variable Intervalos Porcentaje TRF en grupos denidos por
la variable Tipo Biblioteca.
Que las barras tengan distinto color segn los resultados de la variable Tipo Biblioteca
y que aparezca una leyenda explicativa.
Que el ttulo sea Diagrama de barras agrupado, escrito con letra Arial, negrita, de
color rojo oscuro y con un tamao de 16 puntos.
Que el texto del eje vertical sea Frecuencia absoluta, escrito con letra Arial, negrita,
de color rojo oscuro y con un tamao de 12 puntos.
Que en el eje horizontal todo est escrito con la fuente Arial, de color rojo oscuro y
con un tamao de 10 puntos.
j) Graba el proyecto con el siguiente nombre: Ejercicio2-2.mpj
Ejercicio 2.3 El gasto de una biblioteca, en euros, durante un ao determinado, es:
Gasto en personal 6570
Gasto en libros 3450
Otros gastos 2380
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo GastoBiblioteca.mtw
c) Haz un diagrama de barras y modifcalo a tu gusto.
d) Haz un grco de sectores y modifcalo a tu gusto.
e) Graba el proyecto con el siguiente nombre: Ejercicio2-3.mpj
Ejercicio 2.4 La estadstica de fotocopias de 4 bibliotecas (A, B, C y D), durante un ao, est reco-
gida en la siguiente tabla:
34 Dra. Josefa Marn Fernndez
A B C D
Reproduccin de catlogos 16110 3640 0 3400
Trabajo del personal de la biblioteca 63350 11360 3080 5500
Prstamo interbibliotecario 2600 1090 560 250
Copias para usuarios de la biblioteca 43540 58040 1980 0
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo TipoFotocopias.mtw
c) Haz un diagrama de barras agrupado y modifcalo a tu gusto.
d) Graba el proyecto con el siguiente nombre: Ejercicio2-4.mpj
Ejercicio 2.5 El nmero de descriptores (keywords) de 72 artculos de investigacin viene dado por:
N
o
de descriptores 3 4 5 6 7 8 9 10 11 12 13 14
N
o
de artculos 5 8 12 7 9 9 10 5 3 2 1 1
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo Keywords.mtw
c) Haz un diagrama de barras en el cual las barras sean segmentos rectilneos. Modifcalo a
tu gusto.
d) Graba el proyecto con el siguiente nombre: Ejercicio2-5.mpj
3
Variables aleatorias
Variables aleatorias
3.1. Muestras aleatorias de las distribuciones usuales
Como ya se ha visto anteriormente, en Minitab podemos generar datos de distribuciones usuales
utilizando la opcin CalcRandom Data. Esta opcin permite generar una muestra de datos de cual-
quier columna de la hoja de datos actualmente abierta o de una de las distribuciones de probabilidad
que aparecen listadas.
En primer lugar, vamos a crear una nueva hoja de datos que llevar por nombre Probabilidad.mtw.
A continuacin, vamos a crear una columna, en dicha hoja de datos, que lleve por nombre 100 datos
de N(5,2) y que contenga 100 datos aleatorios procedentes de una distribucin N(5, 2) (Normal de
media 5 y desviacin tpica 2). Para ello, seleccionamos CalcRandom DataNormal; en Number of
rows of data to generate tecleamos 100; en Store in column tecleamos el nombre 100 datos de N(5,2); en
Mean tecleamos 5 y en Standard deviation ponemos un 2.
A continuacin vamos a hacer el histograma, con la curva Normal superpuesta, de la muestra
aleatoria obtenida en la columna 100 datos de N(5,2). Para ello, recordemos que hay que seleccionar la
opcin GraphHistogram. En el cuadro de dilogo resultante elegimos With Fit. En el siguiente cuadro
de dilogo, en Graph variables seleccionamos, de la lista de variables que tenemos a la izquierda, la
columna 100 datos de N(5,2) y pulsamos en OK. En la representacin grca podemos apreciar que el
histograma est cerca de la curva Normal superpuesta, lo cual es lgico puesto que hemos creado
una muestra de una distribucin Normal. Tambin podemos ver, en la leyenda que aparece en la parte
superior derecha del grco, que la media de la muestra obtenida se aproxima a 5 y la desviacin
tpica se aproxima a 2.
3.2. Funcin de densidad y funcin de probabilidad
Minitab puede calcular el resultado de la funcin de densidad (o de la funcin de probabilidad)
para un valor concreto o para una lista de valores. Para ello hay que elegir la opcin CalcProbability
35
36 Dra. Josefa Marn Fernndez
Distributions y a continuacin el nombre de la variable aleatoria: Chi-square (chi-cuadrado de Pearson),
Normal, F (de Snedecor), t (de Student), etc.
Dentro del cuadro de dilogo que aparecer hay que seleccionar Probability Density (para las distri-
buciones continuas) o Probability (para las distribuciones discretas).
Para entender mejor el inters de esta opcin, vamos a determinar los resultados de la funcin
de densidad de una distribucin N(0, 1) (Normal Estndar) para una lista de valores que vamos a
crear (todos los nmeros comprendidos entre -4 y 4, con un incremento de 0, 01). Luego haremos la
representacin grca de esta funcin de densidad. Para ello se procede de la siguiente manera:
a) Mediante la opcin CalcMake Patterned DataSimple Set of Numbers crearemos una nueva co-
lumna que denominaremos x de -4 a 4 y que contendr todos los nmeros comprendidos entre
el -4 y el 4 con un incremento de 0, 01. Podemos comprobar que en la columna x de -4 a 4 hay
801 nmeros.
b) En otra columna se calculan los resultados de la funcin de densidad de la variable aleato-
ria Normal Estndar para cada valor de la columna x de -4 a 4. Para hacerlo, se selecciona
CalcProbability DistributionsNormal; se activa Probability density; en Mean y en Standard deviation
se deja lo que aparece por defecto (cero y uno, respectivamente); en Input column se selecciona,
de la lista de variables de la izquierda, la columna x de -4 a 4 y en Optional storage se teclea el
nombre de la columna que contendr los resultados de la funcin de densidad; por ejemplo, f(x)
N(0,1).
c) Finalmente, para representar grcamente la funcin de densidad de la variable aleatoria Nor-
mal Estndar se elige la opcin GraphScatterplot, despus se elige With connect line. En el si-
guiente cuadro de dilogo, en Y variables se selecciona, de la lista de variables de la izquierda, la
columna f(x) N(0,1) y en X variables se selecciona la columna x de -4 a 4. Sera conveniente quitar
los puntos del grco, dejando slo la lnea de conexin, para lo cual se hace doble clic sobre la
curva, en AttributesSymbols se marca la opcin Custom y en Type se selecciona None (buscando
hacia arriba). Luego se hace un clic dentro del grco, pero no sobre la curva.
Ahora vamos a calcular los resultados de la funcin de probabilidad de la distribucin discreta
B(200, 0

4) (Binomial de parmetros n = 200 y p = 0

4), vamos a hacer su representacin graca y


vamos a averiguar el valor de la media de dicha variable aleatoria discreta. Para ello procedemos de
la siguiente manera:
1) Mediante la opcin CalcMake Patterned DataSimple Set of Numbers crearemos una nueva co-
lumna que denominaremos x de 0 a 200 y que contendr todos los resultados posibles de la
distribucin B(200, 0

4), que, como sabemos, son: 0, 1, 2, , 200.


2) Calculamos los resultados de la funcin de probabilidad de B(200, 0

4) para todos y cada uno


de los valores de la columna x de 0 a 200. Para ello, seleccionamos la opcin CalcProbability
DistributionsBinomial; activamos Probability; en Numbers of trials tecleamos 200; en Event probabi-
lity tecleamos 0,4; en Input column elegimos, de la lista de variables de la izquierda, la columna x
de 0 a 200 y en Optional storage tecleamos el nombre de la columna que contendr los resultados
de la funcin de probabilidad; por ejemplo, p(x) B(200,0,4).
3) Ahora vamos a hacer la representacin grca bidimensional que tiene en el eje horizontal los
resultados de la columna x de 0 a 200 y en el eje vertical los resultados de la columna p(x)
B(200,0,4). Para ello, se selecciona la opcin GraphScatterplot, despus se elige With connect
line. En el siguiente cuadro de dilogo, en Y variables se selecciona, de la lista de variables de la
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 37
izquierda, la columna p(x) B(200,0,4) y en X variables se selecciona la columna x de 0 a 200. Como
ya hemos dicho anteriormente, sera conveniente quitar los puntos del grco, dejando slo la
lnea de conexin.
Se puede comprobar que esta representacin grca se aproxima mucho a la curva de densidad
de una distribucin Normal, lo cual se debe a lo siguiente: cuando n es grande y p no se acerca
a 0 ni a 1, entonces B(n, p) se aproxima a N(np,

npq), siendo q = 1 p.
4) Tambin vamos a calcular la media terica de la distribucin B(200, 0

4). Recordemos que la


media de una distribucin discreta es E(X) =

x
i
p(x
i
). Por tanto, usamos la opcin Calc
Calculator. En Store result in variable tecleamos el nombre de la columna que contendr los
resultados de los productos x
i
p(x
i
); por ejemplo, x p(x); en Expression ponemos (empleando
la lista de variables y la calculadora de dicho cuadro de dilogo) x de 0 a 200
*
p(x)
B(200,0,4). Ahora tenemos que calcular la suma de todos los resultados de la columna
x p(x), para lo cual elegimos la opcin CalcColumn Statistic; activamos Sum; en Input variable
seleccionamos, de la lista de variables de la izquierda, la columna x p(x) y dejamos desactivada
la opcin Store result in. En la ventana de sesin podemos ver el resultado de la media, que es
igual a E(X) = n p = 200 0

4 = 80.
3.3. Funcin de distribucin (probabilidad acumulada)
Para calcular el resultado de la funcin de distribucin de una variable aleatoria, F(t) = P(X
t), hay que elegir la opcin CalcProbability Distributions y a continuacin el nombre de la variable
aleatoria. Dentro del cuadro de dilogo que aparece hay que seleccionar Cumulative Probability.
Por ejemplo, vamos a calcular la probabilidad P(X 1

36), siendo X una variable aleatoria


Normal Estndar. Como P(X 1

36) = F(1

36), para calcular su resultado seleccionamos la


opcin CalcProbability DistributionsNormal; activamos Cumulative Probability; en Mean y en Standard
deviation dejamos lo que aparece por defecto (cero y uno, respectivamente). No activamos la opcin
Input column sino la opcin Input constant, en donde colocamos el valor -1,36. Podemos almacenar el
resultado en una constante tecleando en el recuadro Optional storage una K seguida de un nmero
o poniendo un nombre a dicho resultado. Si no rellenamos el recuadro Optional storage, el resultado
aparece en la ventana de sesin. Se puede comprobar que la probabilidad pedida es P(X 1

36) =
F(1

36) = 0

086915.
Si queremos calcular probabilidades de los tipos P(X > a), P(a < X < b), etc., tenemos
que utilizar lpiz y papel, y aplicar las propiedades de la probabilidad para llegar a expresiones en
las que slo aparezcan probabilidades del tipo P(X x) (funcin de distribucin), pues stas son
las que calcula Minitab. No tenemos que olvidar, por ejemplo, que si X es una variable aleatoria
continua, entonces P(X = a) = 0 para todo a, por lo que se cumplen las siguientes igualdades:
P(X x) = P(X < x), P(X x) = P(X > x), . Pero si X es una variable aleatoria discreta,
las probabilidades P(X x) y P(X < x) no son (en general) iguales.
Como ya hemos dicho, cuando n es grande y p no se acerca a 0 ni a 1, entonces B(n, p) se aproxima
a N(np,

npq), siendo q = 1 p. Vamos a poder observarlo con el siguiente ejemplo:


Sea X una variable aleatoria B(200, 0

4) y sea Y una variable aleatoria Normal de media 80 y


desviacin tpica 6928203. Vamos a comprobar (mediante una representacin grca conjunta) que
las funciones de distribucin de ambas variables son muy parecidas. La solucin es la siguiente:
38 Dra. Josefa Marn Fernndez
a) Calculamos los resultados de la funcin de distribucin de B(200, 0

4) para todos y cada uno de


los valores de dicha columna x de 0 a 200. Para ello, seleccionamos la opcin CalcProbability
DistributionsBinomial; activamos Cumulative probability; en Numbers of trials tecleamos 200; en
Event probability tecleamos 0,4; en Input column elegimos, de la lista de variables de la izquierda,
la columna x de 0 a 200 y en Optional storage tecleamos el nombre de la columna que contendr
los resultados de la funcin de distribucin de la Binomial; por ejemplo, F(x) B(200,0,4).
b) Calculamos los resultados de la funcin de distribucin de N(80, 6

928203) para los mis-


mos valores de x, es decir, para los valores de la columna x de 0 a 200. Para ello, se elige
CalcProbability DistributionsNormal; se activa Cumulative probability; en Mean se teclea 80; en
Standard deviation se pone 6,928203; en Input column elegimos, de la lista de variables de la iz-
quierda, la columna x de 0 a 200 y en Optional storage tecleamos el nombre de la columna que
contendr los resultados de la funcin de distribucin de la Normal; por ejemplo, F(x) N(80,6,9).
c) Ahora vamos a superponer, en un mismo grco, las dos funciones de distribucin. Para ello, se
selecciona la opcin GraphScatterplotWith connect line. En el cuadro de dilogo que aparece,
junto al 1 en Y variables seleccionamos la columna F(x) B(200,0,4) y en X variables seleccionamos
la columna x de 0 a 200, y junto al 2 en Y variables seleccionamos la columna F(x) N(80,6,9) y
en X variables seleccionamos otra vez la columna x de 0 a 200. Luego pulsamos Multiple graphs y
en el cuadro de dilogo resultante activamos Overlay on the same graph. Como ya hemos dicho
anteriormente, sera conveniente quitar los puntos del grco, dejando slo la lnea de conexin.
3.4. Inversa de la funcin de distribucin (percentiles)
En ocasiones, en lugar de querer calcular probabilidades de sucesos, se desea justamente lo con-
trario, conocer el valor x que hace que la probabilidad del suceso (X x) sea igual a un valor
determinado p; es decir, hallar x para que se cumpla P(X x) = p; esto no es ms que calcular
percentiles de variables aleatorias. Para calcular el resultado de los percentiles de una variable alea-
toria hay que elegir la opcin CalcProbability Distributions y a continuacin el nombre de la variable
aleatoria. Dentro del cuadro de dilogo que aparece hay que seleccionar Inverse cumulative probability.
Por ejemplo, vamos a calcular el valor x que verica P(X x) = 0

98, cuando X
2
20
(chi-
cuadrado de Pearson con 20 grados de libertad). Para ello seleccionamos la opcin CalcProbability
DistributionsChi-Square. En el cuadro de dilogo activamos Inverse cumulative probability. Dejamos lo
que aparece por defecto (cero) en Noncentrality parameter. En Degrees of freedom tecleamos 20. No ac-
tivamos la opcin Input column sino la opcin Input constant, en donde colocamos el valor 0,98. Pode-
mos almacenar el resultado en una constante tecleando en el recuadro Optional storage una K seguida
de un nmero o poniendo un nombre a dicho resultado. Si no rellenamos el recuadro Optional sto-
rage, el resultado aparece en la ventana de sesin. Se puede comprobar que el valor x que verica
P(X x) = 0

98 es 35

0196; es decir, P(X 35

0196) = 0

98, siendo X
2
20
.
Si queremos calcular el valor a tal que las probabilidades de los tipos P(X > a), P(|X| < a),
P(|X| > a), etc., sean iguales a un cierto resultado, tenemos que utilizar lpiz y papel, y aplicar las
propiedades de la probabilidad para llegar a expresiones en las que slo aparezcan ecuaciones del tipo
P(X x) = p (percentiles), pues stas son las que calcula Minitab.
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 39
3.5. Ejercicios propuestos
Ejercicio 3.1 Genera 10000 datos aleatorios procedentes de una variable aleatoria Binomial de par-
metros n = 50 y p = 0

25. Calcula la media de esta columna de datos aleatorios.


Ejercicio 3.2 Haz la representacin grca de la funcin de probabilidad de una variable aleatoria
Binomial de parmetros n = 50 y p = 0

25.
Ejercicio 3.3 Haz la representacin grca de la funcin de distribucin de una variable aleatoria
Binomial de parmetros n = 50 y p = 0

25.
Ejercicio 3.4 Sea X una variable aleatoria Binomial de parmetros n = 50 y p = 0

25. Calcula:
a) P(X = 10).
b) P(X 12).
c) P(X 3).
d) P(X < 5).
e) P(X > 7).
f) P(10 < X < 20).
g) P(10 X < 20).
h) P(10 < X 20).
i) P(10 X 20).
Ejercicio 3.5 Si Z es una variable Normal Estndar, determina:
a) P(Z 2

21).
b) P(Z < 3

47).
c) P(Z 1

75).
d) P(Z > 2

46).
e) P(Z 3

24).
f) P(Z > 3

08).
g) P(1

12 Z 2

68).
h) P(0

85 < Z < 1

27).
i) P(2

97 < Z 1

33).
Ejercicio 3.6 Si X es una variable Normal con media 8

46 y desviacin tpica 1

14, halla:
a) P(X 9

11).
b) P(X < 12

33).
c) P(X 6

41).
d) P(X > 10

52).
e) P(X 12

61).
f) P(X > 4

01).
40 Dra. Josefa Marn Fernndez
g) P(6

11 X 11

91).
h) P(7

53 < X < 10

33).
i) P(5

05 X < 6

83).
Ejercicio 3.7 Halla el valor de los siguientes cuantiles:
a) Z
0

58
.
b) Z
0

42
.
c) Z
0

999
.
d) Z
0

001
.
Ejercicio 3.8 Genera 10000 datos aleatorios procedentes de una distribucin chi-cuadrado de Pear-
son con 100 grados de libertad. Calcula la media de esta columna de datos aleatorios. Haz un
histograma de los datos aleatorios generados, con la curva Normal superpuesta. Puedes extraer
alguna conclusin?
Ejercicio 3.9 Haz la representacin grca de la funcin de densidad de una variable aleatoria chi-
cuadrado de Pearson con 100 grados de libertad. Los valores del eje horizontal pueden ser todos
los comprendidos entre 0 y 200 con un incremento de 0

1.
Ejercicio 3.10 Haz la representacin grca de la funcin de distribucin de una variable aleatoria
chi-cuadrado de Pearson con 100 grados de libertad. Los valores del eje horizontal pueden ser
todos los comprendidos entre 0 y 200 con un incremento de 0

1.
Ejercicio 3.11 Calcula el valor de los siguientes cuantiles:
a)
2
6 , 0

01
.
b)
2
6 , 0

99
.
c)
2
72 , 0

975
.
Ejercicio 3.12 Sea X una variable aleatoria que sigue una distribucin chi-cuadrado de Pearson con
15 grados de libertad. Determina el valor de a que verica la siguiente igualdad:
a) P(X a) = 0

05.
b) P(X > a) = 0

99.
Ejercicio 3.13 Calcula el valor de los siguientes cuantiles:
a) t
26 , 0

9
.
b) t
26 , 0

1
.
c) t
75 , 0

8
.
Ejercicio 3.14 Sea X una variable aleatoria que sigue una distribucin t de Student con 20 grados de
libertad. Determina el valor de a que verica la siguiente igualdad:
a) P(X a) = 0

99.
b) P(X a) = 0

25.
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 41
Ejercicio 3.15 Calcula el valor de los siguientes cuantiles:
a) F
8 , 6 , 0

975
.
b) F
25 , 50 , 0

01
.
c) F
45 , 35 , 0

01
.
Ejercicio 3.16 Sea X una variable aleatoria que sigue una distribucin F de Snedecor con 10 grados
de libertad en el numerador y 8 grados de libertad en el denominador. Determina el valor de a
que verica la siguiente igualdad:
a) P(X < a) = 0

9.
b) P(X > a) = 0

05.
4
Contrastes no paramtricos en una
poblacin
Contrastes no paramtricos en una
poblacin
4.1. Contraste de aleatoriedad de la muestra
El contraste de las rachas sobre aleatoriedad de una muestra se realiza mediante la opcin Stat
Nonparametrics Run Test. Esta prueba no puede utilizarse si los valores de la variable han sido
ordenados en el archivo de datos.
Como ya sabemos, este contraste se basa en el concepto de racha, que es una secuencia de ob-
servaciones de un mismo tipo precedida y continuada por otro tipo de observaciones o por ninguna.
Esto supone que los datos son slo de dos tipos; es decir, que la variable est dicotomizada. Si esto
no sucediera, se pueden reducir los datos a dos tipos mediante lo siguiente: asignar un smbolo (por
ejemplo, +) a los datos que son mayores que la media (o la mediana) y otro smbolo (por ejemplo,
) a los que son menores o iguales que la media (o la mediana, respectivamente).
Con los datos del archivo Pulse.mtw vamos a comprobar si se puede aceptar, con un nivel de sig-
nicacin de 0

05, que la muestra de resultados de la variable Pulse1 es aleatoria. Vamos a realizar la


dicotomizacin de los datos a travs de la mediana, por lo cual la calculamos previamente. Podemos
comprobar que dicha mediana es 71. Ahora seleccionamos Stat Nonparametrics Run Test. En el
cuadro de dilogo resultante, activamos el recuadro Variables (haciendo clic dentro de l); selecciona-
mos (haciendo doble clic sobre su nombre) la columna Pulse1. Si dejamos activada la opcin Above
and below the mean la variable se dicotomizara a travs de su media. Como queremos dicotomizar a
travs de la mediana, activamos Above and below y tecleamos el valor de la mediana; es decir, 71. Pul-
sando en OK podemos comprobar, en la ventana de sesin, que el p-valor es 0

294, mayor que el nivel


de signicacin elegido (0

05), por lo que podemos aceptar que la muestra de resultados de dicha


variable es aleatoria.
43
44 Dra. Josefa Marn Fernndez
4.2. Contrastes de Normalidad
En Minitab hay varias formas de comprobar la Normalidad de una variable. Una de ellas es la
opcin StatBasic StatisticsNormality Test.
Recordemos que para poder aplicar un contraste de Normalidad es necesario comprobar previa-
mente que la muestra de datos es aleatoria.
Con la hoja de datos Pulse.mtw hemos comprobado que la muestra de resultados de la columna
Pulse1 es aleatoria. Por tanto, podemos ahora realizar un contraste de Normalidad para ver si se puede
aceptar, con un nivel de signicacin de 0

05, que la variable Pulse1 es Normal. Para ello, usamos


StatBasic StatisticsNormality Test. En el cuadro de dilogo resultante, en Variable seleccionamos,
de la lista de variables de la izquierda, la columna Pulse1; en Percentile Lines dejamos lo que est
activado por defecto, que es None; en Tests for Normality podemos activar uno de los siguientes tres
contrastes: Anderson-Darling, Ryan-Joiner o Kolmogorov-Smirnov. Por ejemplo, vamos a activar el
ltimo test, Kolmogorov-Smirnov. El recuadro Title vamos a dejarlo en blanco. Por ltimo, pulsamos en
OK. El resultado es un grco probabilstico en el cual tambin est indicado el p-valor, que es mayor
que 0

15. Este p-valor es mayor que el nivel de signicacin elegido (0

05) y, por tanto, podemos


aceptar que la variable Pulse1 es Normal.
4.3. Contraste chi-cuadrado sobre independencia de dos
variables aleatorias
Hasta ahora se ha considerado una nica variable cuyas observaciones en una poblacin daban
lugar a ciertas hiptesis convenientes de contrastar mediante un test. Sin embargo, es frecuente el
problema de estudiar conjuntamente dos variables en los mismos individuos y preguntarse si existe o
no algn tipo de relacin entre ellas, es decir, si los valores que tome una de ellas van a condicionar de
algn modo los valores de la otra. El mtodo estadstico para responder a tal pregunta vara con el tipo
de variables implicadas. Cuando ambas son cualitativas, la tcnica oportuna es el test chi-cuadrado
de Pearson; aunque este mtodo tambin se puede emplear cuando las variables son cuantitativas.
En Minitab hay dos formas de aplicar este contraste, segn tengamos recogidos los datos. Expli-
camos estos dos casos en los dos sub-apartados siguientes.
4.3.1. Datos en una tabla de doble entrada
Si los datos estn recogidos en una tabla de doble entrada, se utiliza la opcin StatTablesChi-
Square Test (Two-Way Table in Worksheet).
Vamos a hacer el siguiente ejemplo: Se desea averiguar si existe asociacin entre el sexo y el uso
de la biblioteca. A tal efecto, se tom una muestra aleatoria de 30 mujeres y 30 hombres y se les
clasic de la siguiente manera:
usuarios no usuarios
hombres 6 24
mujeres 14 16
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 45
Para realizar este contraste con Minitab, en primer lugar tenemos que introducir la tabla de doble
entrada anterior en una nueva hoja de datos que podemos denominar Ejemplo_Independencia.mtw. Los
datos tienen que ser introducidos tal y como se muestra a continuacin:
Ahora seleccionamos StatTablesChi-Square Test (Two-Way Table in Worksheet); en Columns contai-
ning the table elegimos, de la lista de variables de la izquierda, las columnas C1 y C2; es decir, SI y
NO y pulsamos en OK. En la ventana de sesin podemos ver el resultado del p-valor, que es 0

028. Si
consideramos un nivel de signicacin de = 0

01 entonces el p-valor es mayor que , por lo que


podramos aceptar la hiptesis nula de independencia. Pero si consideramos un nivel de signicacin
de = 0

05 (que es lo usual) entonces el p-valor es menor que , por lo que no podramos aceptar la
hiptesis nula de independencia, aceptando entonces que existe relacin entre el sexo y el uso de la
biblioteca.
4.3.2. Datos en dos (o tres) columnas
Si los datos estn recogidos en dos (o tres) columnas, se utiliza la opcin StatTablesCross
Tabulation and Chi-Square.
Ejemplo 1. Vamos a hacer el mismo ejemplo que en el apartado anterior, pero utilizando la opcin
StatTablesCross Tabulation and Chi-Square. Para ello, en primer lugar tenemos que introducir los
datos (en la hoja de datos Ejemplo_Independencia.mtw) tal como se muestra a continuacin:
Como se puede observar, hemos creado tres nuevas columnas que contienen todas las combinacio-
nes posibles de resultados de las dos variables y sus frecuencias conjuntas: la columna sexo tiene por
resultados H (hombre) y M (mujer); la columna usuario tiene por resultados SI (la persona s es usuaria
de la biblioteca) y NO (la persona no es usuaria de la biblioteca); la columna frecuencia contiene las
frecuencias conjuntas de todas y cada una de las combinaciones posibles de los resultados de las dos
variables mencionadas.
Ahora seleccionamos StatTablesCross Tabulation and Chi-Square. En Categorical variables se tienen
que especicar las variables para las cuales vamos a hacer el test de independencia; en nuestro ejem-
plo, en For rows tenemos que seleccionar, de la lista de variables de la izquierda, la columna sexo;
en For columns tenemos que seleccionar, de la lista de variables de la izquierda, la columna usuario.
El recuadro For layers (capas) lo dejamos en blanco. En Frequencies are in tenemos que seleccionar,
de la lista de variables de la izquierda, la columna frecuencia. Pulsamos el botn Chi-Square y, en el
46 Dra. Josefa Marn Fernndez
cuadro de dilogo resultante, dejamos activada la opcin Chi-Square Analysis y pulsamos en OK. Deja-
mos lo que aparece por defecto en el cuadro de dilogo inicial y pulsamos en OK. En la ventana de
sesin podemos comprobar que los resultados del contraste de hiptesis son los mismos que antes
(p-valor=0

028) y, por tanto, las conclusiones, obviamente, son las mismas.


Ejemplo 2. Para utilizar la opcin StatTablesCross Tabulation and Chi-Square no es necesario que
tengamos una columna con las frecuencias de cada combinacin de resultados de dos variables; tam-
bin se puede utilizar dicha opcin si solamente tenemos dos columnas que contienen los resultados
de una variable bidimensional, (x
i
, y
i
), pero es necesario que las dos variables sean de tipo discreto,
con pocos resultados distintos; de lo contrario no se puede aplicar este contraste.
Para hacer un ejemplo de este caso, vamos a activar (o abrir) la hoja de datos Pulse.mtw. Vamos
a comprobar si existe dependencia entre las variables Smokes (la persona es fumadora o no) y Sex
(sexo). La hiptesis nula es H
0
: No existe relacin entre el sexo y ser fumador o no. Como vemos,
en la Worksheet los datos estn recogidos en dos columnas (no en tres). Para realizar este contraste
seleccionamos StatTablesCross Tabulation and Chi-Square; en For rows seleccionamos la columna
Smokes; en For columns seleccionamos la columna Sex; no escribimos nada en For layers (capas)
y tampoco escribimos nada en Frequencies are in. Pulsamos el botn Chi-Square y, en el cuadro de
dilogo resultante, activamos Chi-Square Analysis y Expected cell counts, y pulsamos en OK. Finalmente,
volvemos a pulsar OK en el cuadro de dilogo inicial. En la ventana de sesin aparece lo siguiente:
Como podemos observar, aparecen las frecuencias observadas y las frecuencias esperadas bajo la
hiptesis nula. Podemos comprobar que estas ltimas frecuencias son todas mayores o iguales que
5, por lo cual se puede aplicar esta tcnica (el test chi-cuadrado de independencia). Recordemos que
este contraste solamente puede aplicarse si todas las frecuencias esperadas bajo la hiptesis nula son
mayores o iguales que 1 y, adems, todas las frecuencias esperadas bajo la hiptesis nula son mayores
o iguales que 5, salvo para un 20 %como mximo. Si no ocurriera esto, Minitab nos lo especicara en
la ventana de sesin, y por tanto el test quedara invalidado. Como podemos ver, tenemos el resultado
del estadstico
2
y el resultado del p-valor, que es 0

216, claramente mayor que los habituales niveles


de signicacin (0

05 0

01), por lo que podemos aceptar la hiptesis nula de independencia de las


dos variables aleatorias; es decir, podemos aceptar que no existe relacin entre el sexo y ser fumador
o no.
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 47
4.4. Ejercicios propuestos
Ejercicio 4.1
a) Crea un nuevo proyecto de Minitab.
b) Abre la hoja de datos Prestamos.mtw (datos del Ejercicio 1.1).
c) Calcula de mediana de la columna PPU.
d) Utilizando la mediana (para dicotomizar) en el contraste de las rachas, se puede aceptar,
con un nivel de signicacin de = 0

05, que la muestra de datos de la variable PPU


(porcentaje anual de prstamos por usuario) es aleatoria? Por qu?
e) Se puede aceptar, con un nivel de signicacin de = 0

05, que la variable PPU es


Normal? Por qu?
f) Graba el proyecto con el siguiente nombre: Ejercicio4-1.mpj
Ejercicio 4.2
a) Crea un nuevo proyecto de Minitab.
b) Abre la hoja de datos Transacciones.mtw (datos del Ejercicio 1.2).
c) Utilizando la media (para dicotomizar) en el contraste de las rachas, se puede aceptar,
con un nivel de signicacin de = 0

05, que las muestras de los datos de las variables


TR, TRF y Porcentaje TRF son aleatorias? Por qu?
d) Se puede aceptar, con un nivel de signicacin de = 0

05, que las variables TR, TRF y


Porcentaje TRF son Normales? Por qu?
e) Graba el proyecto con el siguiente nombre: Ejercicio4-2.mpj
Ejercicio 4.3 Los siguientes datos corresponden a las edades de una muestra de 10 personas que
visitan una biblioteca.
19 24 83 30 17 23 33 19 68 56
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo Edad.mtw
c) Calcula de mediana.
d) Utilizando la mediana (para dicotomizar) en el contraste de las rachas, se puede aceptar,
con un nivel de signicacin de = 0

05, que la muestra es aleatoria? Por qu?


e) Se puede aceptar, con un nivel de signicacin de = 0

05, que la variable aleatoria


edad de las personas que visitan la biblioteca es Normal? Por qu?
f) Graba el proyecto con el siguiente nombre: Ejercicio4-3.mpj
Ejercicio 4.4 El rector de una universidad espaola desea saber la opinin del profesorado en relacin
con un proyecto por el cual todos los libros comprados por los departamentos se llevaran a una
biblioteca general universitaria ubicada en un edicio independiente de las facultades. Para ello,
selecciona una muestra aleatoria de 370 profesores de distintos rangos acadmicos (A.E.U.=
Ayudante de Escuela Universitaria, A.F.= Ayudante de Facultad, T.E.U.=Titular de Escuela
Universitaria, T.U.= Titular de Universidad, C.U.= Catedrtico de Universidad). Los resultados
se reejan en la siguiente tabla:
48 Dra. Josefa Marn Fernndez
A.E.U. A.F. T.E.U. T.U. C.U.
en contra 30 55 95 14 12
indiferente 15 20 17 8 10
a favor 10 25 38 8 13
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo Rango-Opinion.mtw
c) Se puede aceptar, con un nivel de signicacin de = 0

01, que existe relacin entre el


rango acadmico y la opinin de los profesores respecto del proyecto mencionado? Por
qu?
d) Graba el proyecto con el siguiente nombre: Ejercicio4-4.mpj
Ejercicio 4.5 Un profesor de estadstica de un Grado en Informacin y Documentacin quiere estu-
diar la mejor forma de obtener un buen resultado en la asignatura y para ello solicita la cola-
boracin de los alumnos durante varios cursos acadmicos plantendoles el siguiente esquema:
al nal del primer parcial calica a todos los alumnos segn los resultados del examen en A
(sobresaliente y notable), B (aprobado) y C (suspenso); luego les pide que contesten cul ha
sido su mtodo de trabajo ante la signatura (I= slo estudia teora, II= slo estudia problemas,
III= estudia teora y problemas). Conocidos los resultados, el profesor construye la siguiente
tabla:
Mtodo de trabajo
I II III
A 15 12 65
Calicacin B 58 70 85
C 40 102 53
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo Calicacion-Metodo.mtw
c) Se puede aceptar, con un nivel de signicacin de = 0

05, que la calicacin es inde-


pendiente del mtodo de trabajo empleado? Por qu?
d) Graba el proyecto con el siguiente nombre: Ejercicio4-5.mpj
Ejercicio 4.6 En una determinada facultad se considera una muestra de 807 alumnos y se realiza
una encuesta para saber cuntas horas diarias dedica cada alumno al estudio en la biblioteca,
obtenindose la siguiente tabla de resultados:
Curso de la licenciatura
1
o
2
o
3
o
4
o
5
o
menos de 1 hora 18 20 32 77 96
N
o
de horas entre 1 y 3 horas 22 35 90 83 50
ms de 3 horas 60 70 80 60 14
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 49
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo Curso-Tiempo.mtw
c) Se puede aceptar, con un nivel de signicacin de = 0

05, que existe relacin entre el


curso al que pertenece el alumno y el tiempo que dedica al estudio en la biblioteca? Por
qu?
d) Graba el proyecto con el siguiente nombre: Ejercicio4-6.mpj
5
Contrastes paramtricos en una
poblacin
Contrastes paramtricos en una
poblacin
5.1. Contrastes sobre la media
El contraste de hiptesis sobre una media sirve para tomar decisiones acerca del verdadero valor
poblacional de la media de una variable aleatoria.
5.1.1. Contraste sobre la media cuando la desviacin tpica
poblacional es conocida
Esta tcnica es vlida solamente si la muestra es aleatoria y la poblacin es Normal o el tamao
muestral, n, es grande (en la prctica, n 30).
Para hacer este test hay que seleccionar Stat Basic Statistics 1-Sample Z. Esta opcin tambin
nos da el intervalo de conanza para la media poblacional, .
Abrimos el archivo de datos Pulse.mtw. Vamos a suponer que conocemos el valor de la desviacin
tpica poblacional de la variable Pulse1 (pulso antes de correr), = 10 pulsaciones por minuto.
Comprobemos si se puede aceptar, con un nivel de signicacin de = 0

05, que el pulso medio


poblacional antes de correr es mayor que 70 pulsaciones por minuto. Si denota la media poblacional
de la variable X=Pulso antes de correr, el contraste es H
0
: 70 frente a H
1
: > 70.
En el captulo anterior ya hemos comprobado que la muestra de resultados de la variable Pulse1 es
aleatoria. Adems, el tamao muestral es grande (n = 92). Por tanto, podemos utilizar este procedi-
miento estadstico.
Seleccionamos la opcin Stat Basic Statistics 1-Sample Z. En Samples in columns seleccionamos,
de la lista de variables de la izquierda, la columna o columnas para las cuales se va a realizar este tipo
de contraste; en nuestro caso, Pulse1. Dejamos desactivada la opcin Summarized data. En Standard
deviation tecleamos el valor de la desviacin tpica poblacional, , que suponemos que es 10. Activa-
mos Perform hypothesis test y en Hypothesized mean especicamos el valor,
0
, con el que se compara la
51
52 Dra. Josefa Marn Fernndez
media poblacional, que es 70. Si pulsamos el botn Options nos aparece un nuevo cuadro de dilogo
con las siguientes opciones:
Condence level: Por defecto se muestra un intervalo de conanza al 95 % para la media poblacional
. Se puede introducir un valor entre 1 y 99 para solicitar otro nivel de conanza. En nuestro
caso, podemos dejar lo que aparece por defecto, es decir, 95.
Alternative: Aqu se especica cul es la hiptesis alternativa: less than signica que la hiptesis
alternativa es H
1
: <
0
, not equal signica que la hiptesis alternativa es H
1
: =
0
y
greater than signica que la hiptesis alternativa es H
1
: >
0
. Tengamos en cuenta que con
la opcin less than el intervalo de conanza para la media ser del tipo (, b), con la opcin
not equal el intervalo de conanza para la media ser del tipo (a, b) y con la opcin greater than
el intervalo de conanza para la media ser del tipo (a, +). En nuestro caso, tenemos que
seleccionar greater than ya que la hiptesis alternativa es H
1
: > 70.
Podemos comprobar, en la ventana de sesin, que el p-valor es 0

003, claramente menor que el ni-


vel de signicacin, = 0

05. En consecuencia, rechazamos la hiptesis nula y, por tanto, aceptamos


la hiptesis alternativa; es decir, aceptamos que la media poblacional de la variable Pulse 1 es mayor
que 70 pulsaciones por minuto. El intervalo de conanza al 95 % para la media poblacional, asociado
a este contraste de hiptesis, es (71

15, +).
Tambin se puede realizar este contraste de hiptesis si sabemos el tamao muestral y el resultado
de la media muestral. Vemoslo con un ejemplo:
En el volumen de Julio de 1992 de Economics Abstracts, la media del nmero de palabras por
resumen es 79

56, con una varianza de 615

04. Se extrae una muestra aleatoria simple de 30 resmenes


escritos en alemn y se observa que la media del nmero de palabras por resumen es 67

47. Se quiere
decidir si existe una diferencia signicativa entre la media de palabras por resumen de los escritos en
alemn y la media de palabras por resumen de todos los de este volumen.
Vamos a suponer que la varianza del nmero de palabras por resumen de los escritos en alemn
coincide con la varianza del nmero de palabras por resumen de todos los de este volumen. As pues,
los datos que tenemos son los siguientes:

0
= 79

56 ,

2
= 615

04 =

615

04 = 24

8 ,
X = 67

47 ,
n = 30 .
La variable observada en la poblacin no puede ser Normal pues es discreta, pero como el tamao
muestral es 30, entonces podemos aplicar esta tcnica. As pues, consideramos el siguiente contraste
de hiptesis:
H
0
: = 79

56 ,
H
1
: = 79

56 .
Seleccionamos la opcin Stat Basic Statistics 1-Sample Z. Activamos la opcin Summarized data,
con lo cual se desactiva automticamente la opcin Samples in columns. En Sample size tenemos que
teclear el tamao muestral, que es 30 y en Mean tenemos que teclear el resultado de la media muestral,
que es 67,47. En Standard deviation tecleamos el valor de la desviacin tpica poblacional, , que su-
ponemos que es 24,8. Activamos Perform hypothesis test y en Hypothesized mean especicamos el valor,
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 53

0
, con el que se compara la media poblacional, que es 79,56. Pulsamos en Options y, en el cuadro de
dilogo resultante, en Alternative seleccionamos not equal puesto que nuestra hiptesis alternativa es
H
1
: = 79

56.
Podemos comprobar, en la ventana de sesin, que el p-valor es 0

008, claramente menor que los


niveles de signicacin usuales ( = 0

05 = 0

01). En consecuencia, rechazamos la hiptesis


nula y, por tanto, aceptamos que existe diferencia signicativa entre la media del nmero de palabras
por resumen en alemn y la media del nmero de palabras por resumen de todos ellos. El intervalo de
conanza al 95 % para la media poblacional, asociado a este contraste de hiptesis, es (58

60, 76

34).
5.1.2. Contraste sobre la media cuando la desviacin tpica
poblacional es desconocida
Igual que en el apartado anterior, esta tcnica es vlida solamente si la muestra es aleatoria y la
poblacin es Normal o el tamao muestral, n, es grande (en la prctica, n 30).
Para realizar este contraste paramtrico hay que seleccionar Stat Basic Statistics 1-Sample t. La
manera de utilizar esta opcin es la misma que la explicada en el apartado anterior.
Con el archivo de datos Pulse.mtw, veamos si se puede aceptar, con un nivel de signicacin de
= 0

05, que el pulso medio poblacional antes de correr es igual a 71 pulsaciones por minuto. Lo
que queremos comprobar es si la media poblacional de la variable Pulse1 es igual a 71 pulsaciones
por minuto, suponiendo ahora desconocida la desviacin tpica poblacional (lo cual es cierto). Si
denota la media poblacional de la variable Pulse1, el contraste es H
0
: = 71 frente a H
1
: = 71.
Podemos comprobar, en la ventana de sesin, que el p-valor es 0

107, claramente mayor que el


nivel de signicacin, = 0

05, por lo que podemos aceptar la hiptesis nula; es decir, aceptamos


que la media poblacional del nmero de pulsaciones por minuto antes de correr es igual a 71. El
intervalo de conanza al 95 % para la media poblacional de dicha variable es (70

59, 75

15).
Tambin se puede realizar este contraste de hiptesis si sabemos el tamao muestral, el resultado
de la media muestral y el resultado de la desviacin tpica corregida muestral. Vemoslo con un
ejemplo:
El nmero medio de libros por estante de una biblioteca es 24. Extrada una muestra de 91 estantes
de libros de matemticas se obtiene una media de 25 libros, con una desviacin tpica corregida de 1

5.
Queremos decidir si existe diferencia signicativa entre el nmero medio de libros de matemticas
por estante y el nmero medio de libros por estante.
La variable X = Nmero de libros de matemticas por estante no puede ser Normal porque es
discreta; pero como n = 91 30 entonces se puede utilizar este procedimiento.
Los datos conocidos son:

0
= 24 ,
S = 1

5 ,
X = 25 ,
n = 91 .
El contraste de hiptesis que vamos a hacer es el siguiente:
H
0
: = 24 ,
H
1
: = 24 .
54 Dra. Josefa Marn Fernndez
Seleccionamos la opcin Stat Basic Statistics 1-Sample t. Activamos la opcin Summarized data,
con lo cual se desactiva automticamente la opcin Samples in columns. En Sample size tenemos que
teclear el tamao muestral, que es 91, en Mean tenemos que teclear el resultado de la media muestral,
que es 25, y en Standard deviation tenemos que teclear el resultado de la desviacin tpica corregida
muestral, que es 1,5. Activamos Perform hypothesis test y en Hypothesized mean especicamos el valor,

0
, con el que se compara la media poblacional, que es 24. Pulsamos en Options y, en el cuadro de
dilogo resultante, en Alternative seleccionamos not equal puesto que nuestra hiptesis alternativa es
H
1
: = 24.
Podemos comprobar, en la ventana de sesin, que el p-valor es 0, el mnimo posible y, por su-
puesto, claramente menor que los niveles de signicacin usuales ( = 0

05 = 0

01). En conse-
cuencia, rechazamos la hiptesis nula y, por tanto, aceptamos que existe diferencia signicativa entre
el nmero medio de libros de matemticas por estante y el nmero medio de libros por estante. El
intervalo de conanza al 95 % para la media poblacional, asociado a este contraste de hiptesis, es
(24

688, 25

312).
5.2. Contrastes sobre la varianza
El contraste de hiptesis sobre una varianza sirve para tomar decisiones acerca del verdadero valor
poblacional de la varianza de una variable aleatoria. Minitab realiza el contraste solamente en el caso
en el que la media poblacional es desconocida.
Esta tcnica es vlida solamente si la muestra es aleatoria y la poblacin es Normal.
Para hacer el contraste de hiptesis sobre una varianza poblacional hay que seleccionar Stat Basic
Statistics 1 Variance. Esta opcin tambin se utiliza para realizar un test sobre la desviacin tpica
poblacional.
En el captulo anterior ya hemos comprobado que la muestra de resultados de la variable Pulse1 (del
archivo de datos Pulse.mtw) es aleatoria, y que la variable Pulse1 es Normal. Por tanto, podemos utilizar
este procedimiento estadstico para comprobar si se puede aceptar, con un nivel de signicacin de
= 0

05, que la varianza poblacional del pulso antes de correr es menor que 130 pulsaciones al
cuadrado. Si
2
denota la varianza poblacional de la variable X=Pulso antes de correr, el contraste
es H
0
: 130 frente a H
1
:
2
< 130.
Seleccionamos, por tanto, la opcin Stat Basic Statistics 1 Variance. En el cuadro de dilogo
resultante, arriba a la derecha, seleccionamos Enter variance (si quisiramos realizar un contraste sobre
la desviacin tpica poblacional, seleccionaramos Enter standard deviation); en Samples in columns se
selecciona, de la lista de variables de la izquierda, la columna o columnas para las cuales se va a
realizar este tipo de contraste; en nuestro caso se selecciona Pulse1. Dejamos desactivada la opcin
Summarized data. Activamos Perform hypothesis test y en Hypothesized variance se especica el valor,
2
0
,
con el que se compara la varianza poblacional, que es 130. Si pulsamos el botn Options nos aparece
un nuevo cuadro de dilogo con las siguientes opciones:
Condence level: Por defecto se muestra un intervalo de conanza al 95 % para la varianza pobla-
cional
2
. Se puede introducir un valor entre 1 y 99 para solicitar otro nivel de conanza. En
nuestro caso, podemos dejar lo que aparece por defecto, es decir, 95.
Alternative: Aqu se especica cul es la hiptesis alternativa: less than signica que la hiptesis
alternativa es H
1
:
2
<
2
0
, not equal signica que la hiptesis alternativa es H
1
:
2
=
2
0
y
greater than signica que la hiptesis alternativa es H
1
:
2
>
2
0
. Tengamos en cuenta que con
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 55
la opcin less than el intervalo de conanza para la varianza ser del tipo (, b), con la opcin
not equal el intervalo de conanza para la varianza ser del tipo (a, b) y con la opcin greater than
el intervalo de conanza para la varianza ser del tipo (a, +). En nuestro caso, tenemos que
seleccionar less than ya que la hiptesis alternativa es H
1
:
2
< 130.
Podemos comprobar, en la ventana de sesin, que el p-valor (para el mtodo Standard) es 0

338,
claramente mayor que el nivel de signicacin, = 0

05. En consecuencia, aceptamos la hiptesis


nula y, por tanto, no podemos aceptar la hiptesis alternativa; es decir, no podemos aceptar que la
varianza poblacional del pulso antes de correr es menor que 130 pulsaciones al cuadrado. El intervalo
de conanza al 95 % para la varianza poblacional, asociado a este contraste de hiptesis (con el mto-
do Standard), es (, 158). El intervalo de conanza al 95 % para la desviacin tpica poblacional,
asociado a este contraste de hiptesis (con el mtodo Standard), es (, 12

6).
Tambin se puede realizar este contraste de hiptesis si sabemos el tamao muestral y el resultado
de la varianza corregida muestral. Vemoslo con un ejemplo:
Se sabe que las calicaciones en la asignatura A es una variable Normal de media y varianza
desconocidas. Se extrae una muestra aleatoria simple de 81 alumnos de la asignatura A, obtenindose
una media de 6

8 puntos, con una varianza corregida de 1

69 puntos al cuadrado, en las calicaciones


de dichos alumnos. Sabemos que la varianza de las calicaciones en otra asignatura B es de 2

6 puntos
al cuadrado. Queremos saber si la verdadera varianza de las calicaciones en la asignatura Aes menor
que la varianza en las calicaciones en la asignatura B.
Como la varianza corregida muestral es S
2
= 1

69 < 2

6, esta evidencia debe ser compatible con


la hiptesis alternativa. As pues, vamos a realizar el siguiente contraste:
H
0
:
2
2

6 ,
H
1
:
2
< 2

6 .
Seleccionamos la opcin Stat Basic Statistics 1 Variance. En el cuadro de dilogo resultante,
arriba a la derecha, seleccionamos Enter variance. Activamos la opcin Summarized data, con lo cual se
desactiva automticamente la opcin Samples in columns. En Sample size tenemos que teclear el tamao
muestral, que es 81, y en Sample variance tenemos que teclear el resultado de la varianza corregida
muestral, que es 1,69. Activamos Perform hypothesis test y en Hypothesized variance se especica el valor,

2
0
, con el que se compara la varianza poblacional, que es 2,6. Pulsamos en Options y, en el cuadro
de dilogo resultante, en Alternative seleccionamos less than puesto que nuestra hiptesis alternativa es
H
1
:
2
< 2

6.
Podemos comprobar, en la ventana de sesin, que el p-valor es 0

006, claramente menor que los


niveles de signicacin usuales ( = 0

05 = 0

01). En consecuencia, rechazamos la hiptesis


nula y, por tanto, aceptamos que la varianza de las calicaciones en la asignatura A es menor que la
varianza de las calicaciones en la asignatura B. El intervalo de conanza al 95 % para la varianza
poblacional, asociado a este contraste de hiptesis, es (, 2

24).
5.3. Contrastes sobre la proporcin
Supongamos una poblacin en la que observamos una caracterstica que slo tiene dos resultados
o modalidades, que podemos denominar xito y fracaso. Sea p la proporcin poblacional de xitos.
56 Dra. Josefa Marn Fernndez
Para hacer el contraste de hiptesis sobre la proporcin poblacional de xitos, p, hay que selec-
cionar Stat Basic Statistics 1 Proportion. Esta opcin tambin nos da el intervalo de conanza para
p.
Recordemos que en la hoja de datos Pulse.mtw la variable Smokes tena solamente dos resultados:
1=S fuma, 2=No fuma. Vamos a comprobar si se puede aceptar, con un nivel de signicacin de
= 0

05, que el porcentaje poblacional de fumadores es menor que 35 %; es decir, si la proporcin


poblacional de fumadores es menor que 0

35. El contraste es H
0
: p 0

35 frente a H
1
: p < 0

35.
Seleccionamos la opcin Stat Basic Statistics 1 Proportion. En el cuadro de dilogo resultante,
en Samples in columns seleccionamos, de la lista de variables de la izquierda, la columna Smokes;
dejamos desactivada la opcin Summarized data; activamos Perform hypothesis test y en Hypothesized
proportion especicamos el valor, p
0
, con el que comparamos la proporcin poblacional, que es 0,35.
Si pulsamos el botn Options nos aparece un nuevo cuadro de dilogo con las siguientes opciones:
Condence level: Por defecto se muestra un intervalo de conanza al 95 % para la proporcin po-
blacional p. Se puede introducir un valor entre 1 y 99 para solicitar otro nivel de conanza. En
nuestro caso, podemos dejar lo que aparece por defecto, es decir, 95.
Alternative: Aqu se especica cul es la hiptesis alternativa: less than signica que la hiptesis
alternativa es H
1
: p < p
0
, not equal signica que la hiptesis alternativa es H
1
: p = p
0
y greater
than signica que la hiptesis alternativa es H
1
: p > p
0
. Tengamos en cuenta que con la opcin
less than el intervalo de conanza para la proporcin ser del tipo (, b), con la opcin not
equal el intervalo de conanza para la proporcin ser del tipo (a, b) y con la opcin greater than
el intervalo de conanza para la proporcin ser del tipo (a, +). En nuestro caso, tenemos
que seleccionar less than ya que la hiptesis alternativa es H
1
: p < 0

35.
Podemos comprobar, en la ventana de sesin, que el p-valor es 1, el mximo posible y, por supues-
to, claramente mayor que el nivel de signicacin, = 0

05. En consecuencia, aceptamos la hiptesis


nula y, por tanto, no podemos aceptar que la proporcin poblacional de fumadores es menor que 0

35;
es decir, no podemos aceptar que el porcentaje poblacional de fumadores es menor que 35 %. El in-
tervalo de conanza al 95 % para la proporcin poblacional, asociado a este contraste de hiptesis, es
(, 0

774287).
Tambin se puede realizar el contraste de hiptesis sobre una proporcin poblacional si sabemos
el tamao muestral y el nmero de xitos en la muestra. Vemoslo con un ejemplo:
Deseamos conocer la postura de los bibliotecarios frente a la informatizacin de las bibliotecas.
Para ello, preguntamos a 150 de ellos (elegidos aleatoria e independientemente) sobre este tema,
obligndoles a manifestarse a favor o en contra. El resultado es que 82 se maniestan a favor y con-
siguientemente, 68 en contra. Es compatible este resultado con que la proporcin de bibliotecarios
(en el colectivo total) a favor de informatizar las bibliotecas es la misma que la proporcin de biblio-
tecarios en contra?
Sea p la proporcin de bibliotecarios (en el colectivo total) a favor de informatizar las bibliotecas.
El contraste que hemos de realizar es H
0
: p = 0

5 frente a H
1
: p = 0

5. Seleccionamos la opcin
Stat Basic Statistics 1 Proportion. En el cuadro de dilogo resultante, activamos la opcin Summa-
rized data, con lo cual se desactiva automticamente la opcin Samples in columns. En Number of events
tenemos que teclear el nmero de xitos en la muestra, que es 82 y en Number of trials tenemos que
teclear el tamao muestral, que es 150. Activamos Perform hypothesis test y en Hypothesized proportion
especicamos el valor, p
0
, con el que se compara la proporcin poblacional, que es 0,5. Pulsamos en
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 57
Options y, en el cuadro de dilogo resultante, en Alternative seleccionamos not equal puesto que nuestra
hiptesis alternativa es H
1
: p = 0

5.
Podemos comprobar, en la ventana de sesin, que el p-valor es 0

288, claramente mayor que los ni-


veles de signicacin usuales ( = 0

05 = 0

01). En consecuencia, aceptamos la hiptesis nula y,


por tanto, aceptamos que la proporcin de bibliotecarios (en el colectivo total) a favor de informatizar
las bibliotecas es la misma que la proporcin de bibliotecarios en contra. El intervalo de conanza al
95 % para la proporcin poblacional, asociado a este contraste de hiptesis, es (0

463428, 0

628026).
5.4. Ejercicios propuestos
Ejercicio 5.1
a) Crea un nuevo proyecto de Minitab.
b) Abre la hoja de datos Prestamos.mtw (datos del Ejercicio 1.1).
c) Se puede aceptar, con un nivel de signicacin de 0

05, que la media poblacional del


porcentaje anual de prstamos por usuario es igual a 70? Por qu?
d) Se puede aceptar, con un nivel de signicacin de 0

05, que la varianza poblacional del


porcentaje anual de prstamos por usuario es igual a 140? Por qu?
e) Graba el proyecto con el siguiente nombre: Ejercicio5-1.mpj
Ejercicio 5.2
a) Crea un nuevo proyecto de Minitab.
b) Abre la hoja de datos Transacciones.mtw (datos del Ejercicio 1.2).
c) Se puede aceptar, con un nivel de signicacin de 0

05, que la media poblacional del


porcentaje de transacciones de referencia nalizadas es menor que 86? Por qu?
d) Se puede aceptar, con un nivel de signicacin de 0

05, que la desviacin tpica pobla-


cional del porcentaje de transacciones de referencia nalizadas es mayor que 5? Por qu?
e) Graba el proyecto con el siguiente nombre: Ejercicio5-2.mpj
Ejercicio 5.3 En una muestra aleatoria simple de 15 individuos que consultan bases de datos, el
tiempo (en minutos) que estn utilizando el ordenador para realizar esta tarea es:
22 13 17 14 15 18 19 14 17 20 21 13 15 18 17
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo Minutos.mtw
c) Se puede aceptar, con un nivel de signicacin de = 0

05, que la muestra es aleatoria?


Por qu?
d) Se puede aceptar, con un nivel de signicacin de = 0

05, que la variable aleatoria


tiempo empleado en consultar bases de datos por ordenador es Normal? Por qu?
e) Se puede aceptar, con un nivel de signicacin de = 0

05, que la media poblacional


del tiempo empleado en consultar bases de datos por ordenador es mayor que 15 minutos?
Por qu?
58 Dra. Josefa Marn Fernndez
f) Se puede aceptar, con un nivel de signicacin de = 0

05, que la desviacin tpica


poblacional del tiempo empleado en consultar bases de datos por ordenador es menor que
2 minutos? Por qu?
g) Graba el proyecto con el siguiente nombre: Ejercicio5-3.mpj
Ejercicio 5.4 El nmero medio de libros por estante en una biblioteca es de 24

4, con una desviacin


tpica de 1

6. Una muestra aleatoria simple de 36 estantes de dicha biblioteca tiene una media
de 25

2 libros por estante. La informacin proporcionada por la muestra es representativa de


toda la poblacin?
Ejercicio 5.5 El nmero medio recomendado de usuarios servidos semanalmente por cada miembro
del personal de una biblioteca es de 100. En una muestra aleatoria simple de 81 miembros del
personal de las bibliotecas de una determinada regin se obtiene una media de 132

88 usuarios
servidos semanalmente, con una desviacin tpica corregida de 55

19. Las bibliotecas de dicha


regin siguen la recomendacin mencionada?
Ejercicio 5.6 El precio medio de los libros en rstica es de 63

4 euros, con una desviacin tpica de


14

8 euros. Una muestra aleatoria simple de 61 libros en rstica con ilustraciones en color tiene
un precio medio de 69

5 euros, con una desviacin tpica corregida de 16

6 euros.
a) Permiten los datos armar que los libros en rstica con ilustraciones en color son ms
caros que el resto de libros en rstica?
b) La varianza del precio de los libros en rstica con ilustraciones en color es mayor que la
del precio de los libros en rstica?
Ejercicio 5.7 Se sabe que el nmero medio de veces que un artculo cientco es citado durante los 5
siguientes aos a su publicacin es de 6

5. Se eligen aleatoria e independientemente 71 artculos


de medicina, obtenindose una media de 7

8 citas durante los 5 siguientes aos a su publicacin,


con una desviacin tpica corregida de 2

3. Se puede armar que durante los 5 siguientes aos


a su publicacin se citan ms los artculos de medicina que el resto de artculos cientcos?
Ejercicio 5.8 En una biblioteca desconocemos la proporcin de libros escritos en espaol. De una
muestra aleatoria simple de 125 libros, 80 de ellos estn escritos en espaol, y el resto en otros
idiomas. Segn estos datos, se puede armar que la proporcin de libros escritos en espaol
en dicha biblioteca es mayor que 0

6?
Ejercicio 5.9 En una biblioteca escolar hay una proporcin de libros prestados que se devuelven con
retraso. De una muestra aleatoria simple de 250 libros, 50 de ellos se han devuelto con retraso.
Permiten los datos armar que la proporcin de libros prestados que se devuelven con retraso
a dicha biblioteca escolar es mayor que 0

15?
6
Contrastes paramtricos en dos
poblaciones
Contrastes paramtricos en dos
poblaciones
6.1. Comparacin de dos varianzas con muestras
independientes
En el apartado siguiente vamos a estudiar el problema de la comparacin de dos medias poblacio-
nales en el caso en que observemos dos variables aleatorias Normales (una en cada poblacin), supo-
niendo que se han extrado dos muestras aleatorias (una de cada poblacin) independientes. Veremos
en dicho apartado que necesitamos saber si las varianzas poblacionales (que sern desconocidas) son
iguales o distintas. Por este motivo estudiamos ahora el contraste de comparacin de varianzas en el
caso en que desconozcamos los valores de las medias poblacionales.
Este procedimiento estadstico solamente es vlido cuando las dos muestras son aleatorias y las
dos poblaciones son Normales.
Para realizar este test paramtrico hay que seleccionar Stat Basic Statistics 2 Variances.
Ejemplo 1. Con el archivo de datos Pulse.mtw, comprobemos si se puede aceptar, con un nivel de
signicacin de = 0

05, que la varianza poblacional del pulso de los hombres antes de correr es
igual a la varianza poblacional del pulso de las mujeres antes de correr. Lo que se quiere es com-
parar la varianza poblacional de la variable Pulse1 para los grupos en los que la variable Sex vale 1
(Hombre) y 2 (Mujer). El contraste que tenemos que hacer es H
0
:
2
1
=
2
2
frente a H
1
:
2
1
=
2
2
,
siendo X
1
=Pulso de los hombres antes de correr y X
2
=Pulso de las mujeres antes de correr.
Como no hay relacin alguna entre el grupo de hombres y el grupo de mujeres, podemos armar que
las muestras son independientes. Por tanto, nos encontramos ante un contraste de comparacin de
dos varianzas poblacionales, con muestras independientes y medias poblacionales desconocidas. Ya
hemos comprobado, en la captulo 4, que las dos variables, X
1
y X
2
, son Normales.
Para hacer este contraste seleccionamos Stat Basic Statistics 2 Variances. Activamos la opcin
Samples in one column, con lo cual se desactivan automticamente las opciones Samples in different co-
lumns y Summarized data. En Samples seleccionamos, de la lista de variables de la izquierda, la columna
59
60 Dra. Josefa Marn Fernndez
Pulse1; en Subscripts seleccionamos, de la lista de la izquierda, la columna Sex. Si pulsamos el botn
Options nos aparece un nuevo cuadro de dilogo con las siguientes opciones:
Condence level: Por defecto se muestra un intervalo de conanza al 95 % para la diferencia de
desviaciones tpicas poblacionales,
1

2
. Se puede introducir un valor entre 1 y 99 para
solicitar otro nivel de conanza. En nuestro ejemplo, podemos dejar lo que aparece por defecto,
es decir, 95.
Title: Aqu se puede escribir un ttulo para el resultado del contraste. En nuestro ejemplo, podemos
dejarlo en blanco.
Como resultado de este contraste obtenemos una nueva ventana que contiene dos grcos y los
resultados de dos tests de hiptesis sobre comparacin de dos varianzas (el test F de Snedecor y el
test de Levene). Podemos comprobar que el p-valor para el test F de Snedecor es 0

299; claramente
mayor que el nivel de signicacin, = 0

05, por lo que podemos aceptar la hiptesis nula; es


decir, podemos aceptar que la varianza poblacional del pulso de los hombres antes de correr es igual
a la varianza poblacional del pulso de las mujeres antes de correr. Con el test de Levene tambin
aceptaramos la hiptesis nula pues el p-valor es igual a 0

148.
Ejemplo 2. Con el archivo de datos Pulse.mtw, comprobemos si se puede aceptar, con un nivel de
signicacin de = 0

05, que la varianza poblacional del pulso de los hombres despus de correr
es igual a la varianza poblacional del pulso de las mujeres despus de correr. Lo que se quiere es
comparar la varianza poblacional de la variable Pulse2 para los grupos en los que la variable Sex vale
1 (Hombre) y 2 (Mujer). El contraste que tenemos que hacer es H
0
:
2
1
=
2
2
frente a H
1
:
2
1
=

2
2
, siendo X
1
=Pulso de los hombres despus de correr y X
2
=Pulso de las mujeres despus de
correr.
Para hacer este contraste seleccionamos Stat Basic Statistics 2 Variances. Activamos la opcin
Samples in one column, con lo cual se desactivan automticamente las opciones Samples in different co-
lumns y Summarized data. En Samples seleccionamos, de la lista de variables de la izquierda, la columna
Pulse2; en Subscripts seleccionamos, de la lista de la izquierda, la columna Sex.
Se puede comprobar que el p-valor para el test F de Snedecor es 0

003, claramente menor que


el nivel de signicacin, = 0

05, por lo que tenemos que rechazar la hiptesis nula y, por tanto,
aceptar que la varianza poblacional del pulso de los hombres despus de correr es distinta de la
varianza poblacional del pulso de las mujeres despus de correr. Con el test de Levene llegamos a la
misma conclusin pues el p-valor es igual a 0

011.
Tambin se puede realizar este contraste de hiptesis si sabemos los dos tamaos muestrales y los
resultados de las dos varianzas corregidas muestrales. Vemoslo con un nuevo ejemplo:
Ejemplo 3. Supongamos que, de una muestra aleatoria de 21 personas que son socias de una biblio-
teca, la media del nmero de horas por semana que pasan en la biblioteca es 10, con una varianza
corregida de 9. Y para una muestra aleatoria independiente de la primera, de 16 personas que no son
socias de la biblioteca, la media es 6, con una varianza corregida de 4. Existe diferencia signicati-
va entre las varianzas del nmero de horas semanales que pasan en la biblioteca los socios y los no
socios?
Como la varianza corregida muestral en el grupo de los socios es mayor que en el grupo de los
no socios, entonces S
2
1
ser la varianza corregida en el grupo de los socios; es decir, X
1
=Tiempo
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 61
semanal que permanecen en la biblioteca los socios y X
2
=Tiempo semanal que permanecen en la
biblioteca los no socios. Hemos de suponer que las variables aleatorias X
1
y X
2
son Normales.
As pues, se tienen los siguientes datos:
n
1
= 21 , S
2
1
= 9 ,
n
2
= 16 , S
2
2
= 4 .
Vamos a decidir sobre el siguiente contraste de hiptesis:
H
0
:
2
1
=
2
2
,
H
1
:
2
1
=
2
2
.
Seleccionamos la opcin Stat Basic Statistics 2 Variances. Activamos la opcin Summarized data,
con lo cual se desactivan automticamente las opciones Samples in one column y Samples in different
columns. Dentro de First, en Sample size tenemos que teclear el tamao muestral de la primera muestra,
que es 21, y en Variance tenemos que teclear el resultado de la varianza corregida de la primera muestra,
que es 9. Dentro de Second, en Sample size tenemos que teclear el tamao muestral de la segunda
muestra, que es 16, y en Variance tenemos que teclear el resultado de la varianza corregida de la
segunda muestra, que es 4.
Tanto en la ventana de sesin como en el grco generado comprobamos que el p-valor para el test
F de Snedecor es 0

114, mayor que los niveles de signicacin usuales ( = 0

05 = 0

01) y, por
tanto, aceptamos la hiptesis nula. En consecuencia, aceptamos que no existe diferencia signicativa
entre las varianzas del nmero de horas semanales que pasan en la biblioteca los socios y los no
socios.
6.2. Comparacin de dos medias con muestras
independientes
En general, un contraste para decidir sobre la hiptesis nula H
0
:
1
=
2
frente a la hiptesis
alternativa H
1
:
1
=
2
es bastante frecuente y constituye uno de los primeros objetivos de cualquier
investigador que se inicia en estadstica. Los mtodos de resolucin del problema varan segn las
muestras sean independientes o apareadas, y segn las varianzas poblacionales sean conocidas o des-
conocidas. Dentro del caso en que las varianzas poblacionales sean desconocidas, el mtodo depende
de si son iguales o distintas. El caso de muestras independientes y varianzas poblacionales conocidas
no se puede hacer con Minitab. Trataremos, a continuacin, el resto de los casos.
6.2.1. Comparacin de dos medias con muestras independientes y
varianzas poblacionales desconocidas pero iguales
Este procedimiento solamente es vlido cuando las dos muestras son aleatorias y las dos poblacio-
nes son Normales o los dos tamaos muestrales son grandes (en la prctica n
1
, n
2
30).
Para realizar este test paramtrico hay que seleccionar Stat Basic Statistics 2-Sample t.
Con el archivo de datos Pulse.mtw, comprobemos si se puede aceptar, con un nivel de signicacin
de = 0

05, que el pulso medio poblacional de los hombres antes de correr es igual al pulso medio
62 Dra. Josefa Marn Fernndez
poblacional de las mujeres antes de correr. Lo que se quiere es comparar la media poblacional de la
variable Pulse1 para los grupos en los que la variable Sex vale 1 (Hombre) y 2 (Mujer). El contraste
que tenemos que hacer es H
0
:
1
=
2
frente a H
1
:
1
=
2
, siendo X
1
=Pulso de los hombres
antes de correr y X
2
=Pulso de las mujeres antes de correr.
En el Ejemplo 1 de la seccin 6.1 hemos comprobado que se puede aceptar que la varianza po-
blacional del pulso de los hombres antes de correr es igual a la varianza poblacional del pulso de
las mujeres antes de correr. Por tanto, nos encontramos ante un contraste de comparacin de dos me-
dias poblacionales, con muestras independientes y varianzas poblacionales desconocidas pero iguales.
Aunque las variables aleatorias X
1
y X
2
no fuesen Normales (que s lo son, pues lo hemos com-
probado en el captulo 4), se puede aplicar este contraste debido a que los tamaos muestrales son
sucientemente grandes: n
1
= 57 y n
2
= 35.
Para hacer este contraste seleccionamos Stat Basic Statistics 2-Sample t. Activamos la opcin
Samples in one column, con lo cual se desactivan automticamente las opciones Samples in different co-
lumns y Summarized data. En Samples seleccionamos, de la lista de variables de la izquierda, la columna
Pulse1; en Subscripts seleccionamos, de la lista de la izquierda, la columna Sex; y activamos Assu-
me equal variances ya que hemos comprobado que las varianzas poblacionales son desconocidas pero
iguales. Si pulsamos el botn Options nos aparece un nuevo cuadro de dilogo con las siguientes
opciones:
Condence level: Por defecto se muestra un intervalo de conanza al 95 % para la diferencia de
medias poblacionales,
1

2
. Se puede introducir un valor entre 1 y 99 para solicitar otro
nivel de conanza. En nuestro ejemplo, podemos dejar lo que aparece por defecto, es decir, 95.
Test difference: Aqu se pone el valor con el que se compara la diferencia de medias poblacionales,

0
. La hiptesis nula H
0
:
1
=
2
es equivalente a H
0
:
1

2
= 0, por lo que el valor
con el que se compara la diferencia de medias poblacionales, en este ejemplo, es cero; es decir,

0
= 0. En consecuencia, nosotros dejamos lo que aparece por defecto (cero).
Alternative: Aqu se especica cul es la hiptesis alternativa: less than signica que la hiptesis
alternativa es H
1
:
1

2
<
0
, not equal signica que la hiptesis alternativa es H
1
:
1

2
=

0
y greater than signica que la hiptesis alternativa es H
1
:
1

2
>
0
. Tengamos en cuenta
que con la opcin less than el intervalo de conanza para
1

2
ser del tipo (, b), con
la opcin not equal el intervalo de conanza ser del tipo (a, b) y con la opcin greater than el
intervalo de conanza ser del tipo (a, +). En nuestro ejemplo, tenemos que dejar lo que
aparece por defecto, que es not equal, ya que la hiptesis alternativa es H
1
:
1
=
2
, que es
equivalente a H
1
:
1

2
= 0.
Podemos comprobar, en la ventana de sesin, que el p-valor es 0

006, claramente menor que el


nivel de signicacin, = 0

05, por lo que debemos rechazar la hiptesis nula y, por tanto, aceptar
la hiptesis alternativa. Aceptamos que el pulso medio poblacional de los hombres antes de correr es
distinto del pulso medio poblacional de las mujeres antes de correr. Como la media muestral del pulso
de las mujeres antes de correr (76

9) es mayor que la media muestral del pulso de los hombres antes


de correr (70

42) podramos, incluso, aceptar que la media poblacional del pulso de las mujeres antes
de correr es mayor que la media poblacional del pulso de los hombres antes de correr. El intervalo de
conanza al 95 % para la diferencia de medias poblacionales,
1

2
, es (10

96, 1

91).
Tambin se puede realizar este contraste de hiptesis si sabemos los dos tamaos muestrales, los
resultados de las dos medias muestrales y los resultados de las dos desviaciones tpicas corregidas
muestrales. Vemoslo con un nuevo ejemplo:
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 63
Con los datos del Ejemplo 3 (de la seccin 6.1) queremos decidir si existe diferencia signicativa
entre el nmero medio de horas semanales que permanecen en la biblioteca los socios y los no socios.
Como en dicho ejemplo hemos decidido aceptar que no existe diferencia signicativa entre las
varianzas poblacionales, entonces nos encontramos ante un contraste de comparacin de dos me-
dias poblacionales, con muestras independientes y varianzas poblacionales desconocidas pero iguales.
Realizaremos el siguiente contraste de hiptesis:
H
0
:
1
=
2
,
H
1
:
1
=
2
.
Los datos son:
n
1
= 21 , X
1
= 10 , S
1
= 3 ,
n
2
= 16 , X
2
= 6 , S
2
= 2 .
Seleccionamos la opcin Stat Basic Statistics 2-Sample t. Activamos la opcin Summarized data,
con lo cual se desactivan automticamente las opciones Samples in one column y Samples in different
columns. Dentro de First, en Sample size tenemos que teclear el tamao muestral de la primera muestra,
que es 21, en Mean tenemos que teclear el resultado de la media de la primera muestra, que es 10, y
en Standard deviation tenemos que teclear el resultado de la desviacin tpica corregida de la primera
muestra, que es 3. Dentro de Second, en Sample size tenemos que teclear el tamao muestral de la
segunda muestra, que es 16, en Mean tenemos que teclear el resultado de la media de la segunda
muestra, que es 6, y en Standard deviation tenemos que teclear el resultado de la desviacin tpica
corregida de la segunda muestra, que es 2. Activamos Assume equal variances ya que hemos comprobado
(en el Ejemplo 3, como ya hemos dicho) que las varianzas poblacionales son desconocidas pero
iguales. Pulsamos en Options y en el cuadro de dilogo resultante dejamos lo que aparece por defecto
(Condence level: 95, Test difference: 0, Alternative: not equal).
Podemos comprobar, en la ventana de sesin, que el p-valor es 0, el mnimo posible y, por supuesto,
menor que los niveles de signicacin usuales ( = 0

05 = 0

01), por lo que debemos rechazar


la hiptesis nula. Aceptamos, en consecuencia, que existe diferencia signicativa entre el nmero
medio de horas semanales que permanecen en la biblioteca los socios y los no socios. Como la media
muestral del nmero de horas semanales que permanecen en la biblioteca los socios (10) es mayor que
la media muestral del nmero de horas semanales que permanecen en la biblioteca los no socios (6)
podramos, incluso, aceptar que la media poblacional del nmero de horas semanales que permanecen
en la biblioteca los socios es mayor que la media poblacional del nmero de horas semanales que
permanecen en la biblioteca los no socios. El intervalo de conanza al 95 % para la diferencia de
medias poblacionales,
1

2
, es (2

326, 5

674).
6.2.2. Comparacin de dos medias con muestras independientes y
varianzas poblacionales desconocidas y distintas
Igual que en el apartado anterior, este procedimiento solamente es vlido cuando las dos muestras
son aleatorias y las dos poblaciones son Normales o los dos tamaos muestrales son grandes (en la
prctica n
1
, n
2
30).
Para realizar este test paramtrico hay que seleccionar, igual que antes, Stat Basic Statistics 2-
Sample t. Hay que rellenar el cuadro de dilogo de manera similar al apartado anterior, con la salvedad
de que, en este caso, hay que desactivar la opcin Assume equal variances.
64 Dra. Josefa Marn Fernndez
Con el archivo de datos Pulse.mtw, comprobemos si se puede aceptar, con un nivel de signicacin
de = 0

05, que el pulso medio poblacional de los hombres despus de correr es igual al pulso
medio poblacional de las mujeres despus de correr. Queremos comparar la media poblacional de la
variable Pulse2 para los grupos en los que la variable Sex vale 1 (Hombre) y 2 (Mujer). El contraste
que tenemos que hacer es H
0
:
1
=
2
frente a H
1
:
1
=
2
, siendo X
1
=Pulso de los hombres
despus de correr y X
2
=Pulso de las mujeres despus de correr.
En el Ejemplo 2 de la seccin 6.1 hemos comprobado que se puede aceptar que la varianza pobla-
cional del pulso de los hombres despus de correr es distinta de la varianza poblacional del pulso de
las mujeres despus de correr. Por tanto, nos encontramos ante un contraste de comparacin de dos
medias poblacionales, con muestras independientes y varianzas poblacionales desconocidas y dis-
tintas. Aunque las variables aleatorias X
1
y X
2
no fuesen Normales, se puede aplicar este contraste
debido a que los tamaos muestrales son sucientemente grandes: n
1
= 57 y n
2
= 35.
Para hacer el contraste seleccionamos Stat Basic Statistics 2-Sample t. Activamos la opcin Sam-
ples in one column, con lo cual se desactivan automticamente las opciones Samples in different columns y
Summarized data. En Samples seleccionamos, de la lista de variables de la izquierda, la columna Pulse2;
y en Subscripts seleccionamos, de la lista de la izquierda, la columna Sex. Si se pulsa el botn Options
aparece un cuadro de dilogo similar al ejemplo anterior. En este cuadro de dilogo dejamos lo que
aparece por defecto (Condence level: 95, Test difference: 0, Alternative: not equal).
Podemos comprobar, en la ventana de sesin, que el p-valor es 0

007, claramente menor que el


nivel de signicacin, = 0

05, por lo que debemos rechazar la hiptesis nula y, por tanto, aceptar
la hiptesis alternativa. Aceptamos que el pulso medio poblacional de los hombres despus de correr
es distinto del pulso medio poblacional de las mujeres despus de correr. Como la media muestral
del pulso de las mujeres despus de correr (86

7) es mayor que la media muestral del pulso de los


hombres despus de correr (75

9) podramos, incluso, aceptar que la media poblacional del pulso de


las mujeres despus de correr es mayor que la media poblacional del pulso de los hombres despus
de correr. El intervalo de conanza al 95 % para la diferencia de medias poblacionales,
1

2
, es
(18

65, 3

02).
6.3. Comparacin de dos medias con muestras
apareadas
Este procedimiento solamente es vlido cuando las dos muestras son aleatorias y la variable alea-
toria diferencia, D = X
1
X
2
, es Normal o el tamao muestral comn, n, es grande (en la prctica,
n 30).
Para realizar este test paramtrico hay que seleccionar Stat Basic Statistics Paired t.
Con el archivo de datos Pulse.mtw, comprobemos si se puede aceptar, con un nivel de signicacin
de = 0

05, que el pulso medio poblacional antes de correr es igual al pulso medio poblacional
despus de correr. Lo que se quiere es comparar la media poblacional de la variable Pulse1 con la
media poblacional de la variable Pulse2. El contraste que tenemos que hacer es H
0
:
1
=
2
frente
a H
1
:
1
=
2
, siendo X
1
=Pulso antes de correr y X
2
=Pulso despus de correr. Como las
dos variables estn observadas en los mismos individuos, podemos armar que las muestras estn
relacionadas; es decir, son apareadas o asociadas. Por tanto, nos encontramos ante un contraste de
comparacin de dos medias poblacionales con muestras apareadas. Aunque la variable aleatoria di-
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 65
ferencia, D = X
1
X
2
, no fuese Normal, se puede aplicar este contraste debido a que los tamaos
muestrales son sucientemente grandes: n
1
= n
2
= n = 92.
Para hacer este contraste seleccionamos Stat Basic Statistics Paired t. Activamos la opcin Sam-
ples in columns; en First sample seleccionamos, de la lista de variables de la izquierda, la columna
Pulse1; en Second sample seleccionamos, de la lista de variables de la izquierda, la columna Pulse2.
Si pulsamos el botn Options nos aparece un cuadro de dilogo similar al de la opcin anterior (2-
Sample tOptions). En este cuadro de dilogo dejamos lo que aparece por defecto (Condence level: 95,
Test difference: 0, Alternative: not equal).
Podemos comprobar, en la ventana de sesin, que el p-valor es igual a 0, el mnimo posible y,
por supuesto, menor que el nivel de signicacin, = 0

05, por lo que debemos rechazar la hiptesis


nula y, por tanto, aceptar la hiptesis alternativa. Aceptamos, por tanto, que el pulso medio poblacional
antes de correr es distinto del pulso medio poblacional despus de correr. Como la media muestral
del pulso despus de correr (80

00) es mayor que la media muestral del pulso antes de correr (72

87)
podramos, incluso, aceptar que la media poblacional del pulso despus de correr es mayor que la
media poblacional del pulso antes de correr. El intervalo de conanza al 95 % para la diferencia de
medias poblacionales, en este caso, es (9

92, 4

34).
6.4. Comparacin de dos proporciones
Consideramos una variable aleatoria dicotmica o dicotomizada (con resultados denominados xi-
to y fracaso) evaluada en dos poblaciones distintas. Extraemos sendas muestras aleatorias indepen-
dientes de tamaos n
1
y n
2
. Queremos realizar contraste H
0
: p
1
= p
2
frente a H
1
: p
1
= p
2
, donde
p
i
es la proporcin de xitos en la poblacin i, para i = 1, 2.
Si los resultados de la variable aleatoria dicotmica o dicotomizada son numricos, Minitab toma
como suceso xito al nmero ms alto; y si los resultados son de tipo texto, Minitab toma como suceso
xito a la cadena de texto que est ms cerca del nal del alfabeto. Por ejemplo, si los resultados son SI
y NO, entonces el resultado SI sera el suceso xito. Si los resultados son 1 y 2, entonces el resultado
2 sera el suceso xito.
Para realizar la comparacin de dos proporciones poblacionales hay que seleccionar Stat Basic
Statistics 2 Proportions.
Recordemos que en la hoja de datos Pulse.mtw la variable Smokes tiene solamente dos resultados:
1=Fumador, 2=No Fumador. Por otra parte, la variable Sex tambin tiene solamente dos resultados:
1=Hombre, 2=Mujer. Comprobemos si se puede aceptar, con un nivel de signicacin de = 0

05,
que la proporcin poblacional de hombres no fumadores es igual a la proporcin poblacional de
mujeres no fumadoras. Minitab toma como suceso xito de la variable Smokes el resultado 2 (es decir,
No Fumador) pues es el resultado ms alto de los dos. Lo que se quiere es comparar la proporcin
poblacional de xitos de la variable Smokes para los grupos en los que la variable Sex vale 1 (Hombre)
y 2 (Mujer). El contraste que tenemos que hacer es H
0
: p
1
= p
2
frente a H
1
: p
1
= p
2
.
Para hacer este contraste seleccionamos Stat Basic Statistics 2 Proportions. Activamos la opcin
Samples in one column, con lo cual se desactivan automticamente las opciones Samples in different co-
lumns y Summarized data. En Samples seleccionamos, de la lista de variables de la izquierda, la columna
Smokes; y en Subscripts seleccionamos, de la lista de la izquierda, la columna Sex. Si pulsamos el
botn Options nos aparece un nuevo cuadro de dilogo con las siguientes opciones:
66 Dra. Josefa Marn Fernndez
Condence level: Por defecto se muestra un intervalo de conanza al 95 % para la diferencia de
proporciones poblacionales, p
1
p
2
. Se puede introducir un valor entre 1 y 99 para solicitar
otro nivel de conanza. En nuestro ejemplo, podemos dejar lo que aparece por defecto, es decir,
95.
Test difference: Aqu se pone el valor con el que se compara la diferencia de proporciones poblacio-
nales, p
0
. La hiptesis nula H
0
: p
1
= p
2
es equivalente a H
0
: p
1
p
2
= 0, por lo que el valor
con el que se compara la diferencia de proporciones poblacionales, en este ejemplo, es cero; es
decir, p
0
= 0. En consecuencia, nosotros dejamos lo que aparece por defecto (cero).
Alternative: Aqu se especica cul es la hiptesis alternativa: less than signica que la hiptesis
alternativa es H
1
: p
1
p
2
< p
0
, not equal signica que la hiptesis alternativa es H
1
: p
1
p
2
=
p
0
y greater than signica que la hiptesis alternativa es H
1
: p
1
p
2
> p
0
. Tengamos en cuenta
que con la opcin less than el intervalo de conanza para p
1
p
2
ser del tipo (, b), con
la opcin not equal el intervalo de conanza ser del tipo (a, b) y con la opcin greater than el
intervalo de conanza ser del tipo (a, +). En nuestro ejemplo, tenemos que dejar lo que
aparece por defecto, que es not equal, ya que la hiptesis alternativa es H
1
: p
1
= p
2
, que es
equivalente a H
1
: p
1
p
2
= 0.
Podemos comprobar, en la ventana de sesin, que el p-valor es 0

198, mayor que el nivel de sig-


nicacin, = 0

05, por lo que debemos aceptar la hiptesis nula. Aceptamos, en consecuencia, que
la proporcin poblacional de hombres no fumadores es igual a la proporcin poblacional de mujeres
no fumadoras. El intervalo de conanza al 95 % para la diferencia de proporciones poblacionales,
p
1
p
2
, es (0

308592, 0

0639809).
Tambin se puede realizar este contraste de hiptesis si sabemos los dos tamaos muestrales y el
nmero de xitos en cada una de las dos muestras. Vemoslo con un ejemplo:
Con objeto de comparar dos pequeas empresas A y B de encuadernacin de libros, se extra-
jo una muestra aleatoria de 250 libros encuadernados en A y otra muestra aleatoria de 200 libros
encuadernados en B, y se encontr que 50 de los libros encuadernados en A, y 32 de los encuader-
nados en B tenan algn defecto en su encuadernacin. Son igualmente buenas las dos empresas de
encuadernacin?
Lo que queremos comprobar es si la proporcin poblacional de libros defectuosos encuadernados
en la empresa A es igual a la proporcin poblacional de libros defectuosos encuadernados en la
empresa B.
Para hacer este contraste seleccionamos Stat Basic Statistics 2 Proportions. Activamos la opcin
Summarized data. Dentro de First, en Events tenemos que teclear el nmero de xitos en la primera
muestra, que es 50, y en Trials tenemos que teclear el tamao de la primera muestra, que es 250. Dentro
de Second, en Events tenemos que teclear el nmero de xitos en la segunda muestra, que es 32, y en
Trials tenemos que teclear el tamao de la segunda muestra, que es 200. En el cuadro de dilogo de
Options dejamos lo que aparece por defecto (Condence level: 95, Test difference: 0, Alternative: not equal).
Podemos comprobar, en la ventana de sesin, que el p-valor es 0

269, mayor que el nivel de sig-


nicacin usual ( = 0

05) por lo que debemos aceptar la hiptesis nula. Por tanto, aceptamos que
la proporcin poblacional de libros defectuosos encuadernados en la empresa A es igual a la propor-
cin poblacional de libros defectuosos encuadernados en la empresa B; es decir, las dos empresas
de encuadernacin son igualmente buenas. El intervalo de conanza al 95 % para la diferencia de
proporciones poblacionales, p
1
p
2
, es (0

0309929, 0

110993).
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 67
6.5. Ejercicios propuestos
Ejercicio 6.1
a) Crea un nuevo proyecto de Minitab.
b) Abre la hoja de datos Transacciones.mtw (datos del Ejercicio 1.2).
c) Utilizando el test de Levene, se puede aceptar, con un nivel de signicacin de 0

05, que
la varianza poblacional del nmero anual de transacciones de referencia de las bibliotecas
pblicas es igual a la varianza poblacional del nmero anual de transacciones de referencia
de las bibliotecas universitarias? Por qu?
d) Se puede aceptar, con un nivel de signicacin de 0

05, que la media poblacional del n-


mero anual de transacciones de referencia de las bibliotecas pblicas es igual a la media
poblacional del nmero anual de transacciones de referencia de las bibliotecas universita-
rias? Por qu?
e) Utilizando el test F de Snedecor, se puede aceptar, con un nivel de signicacin de 0

05,
que la varianza poblacional del porcentaje de transacciones de referencia nalizadas de
las bibliotecas pblicas es igual a la varianza poblacional del porcentaje de transacciones
de referencia nalizadas de las bibliotecas universitarias? Por qu?
f) Se puede aceptar, con un nivel de signicacin de 0

05, que la media poblacional del


porcentaje de transacciones de referencia nalizadas de las bibliotecas pblicas es igual
a la media poblacional del porcentaje de transacciones de referencia nalizadas de las
bibliotecas universitarias? Por qu?
g) Graba el proyecto con el siguiente nombre: Ejercicio6-1.mpj
Ejercicio 6.2 En la Tabla 9 aparece el precio, en euros, de una muestra aleatoria de 15 libros que
se prestan pocas veces (X
1
) y el precio, en euros, de una muestra aleatoria de 15 libros que se
prestan muchas veces (X
2
).
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo PrecioLibros.mtw
c) Se puede aceptar, con un nivel de signicacin de 0

05, que la varianza poblacional del


precio de los libros que se prestan poco es igual a la varianza poblacional del precio de los
libros que se prestan mucho? Por qu?
d) Se puede aceptar, con un nivel de signicacin de 0

05, que la media poblacional del


precio de los libros que se prestan poco es igual a la media poblacional del precio de los
libros que se prestan mucho? Por qu?
e) Graba el proyecto con el siguiente nombre: Ejercicio6-2.mpj
Ejercicio 6.3 En la Tabla 10 aparece el nmero de palabras por resumen de una muestra aleatoria de
30 artculos cientcos escritos en francs (X
1
) y el nmero de palabras por resumen de una
muestra aleatoria de 30 artculos cientcos escritos en ingls (X
2
).
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo LongitudResumenes.mtw
68 Dra. Josefa Marn Fernndez
x
1i
x
2i
75 110
32 30
30 45
34 69
42 46
57 53
51 97
36 43
82 42
45 37
58 48
66 45
40 105
35 61
51 57
Tabla 9
70 65 68 74 79 67 75 80 62 69
x
1i
61 57 71 74 82 91 70 64 72 67
74 70 81 85 70 74 75 71 69 54
80 47 59 67 89 57 72 78 74 72
x
2i
104 118 89 87 79 78 101 120 107 95
85 87 90 98 89 75 90 101 85 94
Tabla 10
c) Se puede aceptar, con un nivel de signicacin de 0

05, que la varianza poblacional de la


longitud de los resmenes de artculos escritos en francs es igual a la varianza poblacional
de la longitud de los resmenes de artculos escritos en ingls? Por qu?
d) Se puede aceptar, con un nivel de signicacin de 0

05, que la media poblacional de la


longitud de los resmenes de artculos escritos en francs es igual a la media poblacional
de la longitud de los resmenes de artculos escritos en ingls? Por qu?
e) Graba el proyecto con el siguiente nombre: Ejercicio6-3.mpj
Ejercicio 6.4 Dos expertos calican una muestra aleatoria de 30 libros segn su calidad (1=muy
mala, 2=mala, 3=regular, 4=buena, 5=muy buena). En la Tabla 11 aparece la opinin del primer
experto (X
1
) y la opinin del segundo experto (X
2
).
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo Opinion.mtw
c) Calcula, en una nueva columna, los resultados de la variable diferencia D = X
1
X
2
.
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 69
x
1i
x
2i
x
1i
x
2i
2 1 4 4
5 4 4 3
4 5 5 4
2 3 5 3
3 3 1 2
1 5 2 5
3 3 2 3
1 3 3 2
4 2 4 1
2 5 4 2
3 2 1 3
4 3 2 4
3 3 1 2
1 3 5 5
2 5 5 2
Tabla 11
d) Se puede aceptar, con un nivel de signicacin de 0

05, que la muestra de las diferencias,


d
i
= x
1i
x
2i
, es aleatoria? Por qu?
e) Se puede aceptar, con un nivel de signicacin de 0

05, que la variable diferencia, D =


X
1
X
2
, es Normal? Por qu?
f) Se puede aceptar, con un nivel de signicacin de 0

05, que la media poblacional de


los resultados de la opinin del primer experto es igual a la media poblacional de los
resultados de la opinin del segundo experto? Por qu?
g) Graba el proyecto con el siguiente nombre: Ejercicio6-4.mpj
Ejercicio 6.5 Elegimos al azar 30 matrimonios y observamos el nmero de veces que los hombres
han visitado alguna biblioteca en los tres ltimos meses (X
1
) y el nmero de veces que las mu-
jeres han visitado alguna biblioteca en los tres ltimos meses (X
2
). Los resultados se muestran
en la siguiente Tabla 12.
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo VisitasBiblioteca.mtw
c) Calcula, en una nueva columna, los resultados de la variable diferencia D = X
1
X
2
.
d) Se puede aceptar, con un nivel de signicacin de 0

05, que la muestra de las diferencias,


d
i
= x
1i
x
2i
, es aleatoria? Por qu?
e) Se puede aceptar, con un nivel de signicacin de 0

05, que la variable diferencia, D =


X
1
X
2
, es Normal? Por qu?
f) Podemos armar que hay diferencia signicativa entre los hombres y las mujeres de los
matrimonios en cuanto al nmero de veces que van a la biblioteca? Por qu?
70 Dra. Josefa Marn Fernndez
x
1i
x
2i
x
1i
x
2i
x
1i
x
2i
12 8 8 10 25 14
30 11 14 15 12 16
10 12 20 12 8 10
20 16 13 19 23 20
15 10 11 6 14 17
14 9 7 7 8 10
11 12 6 7 12 23
9 10 8 6 27 10
7 7 15 20 32 27
5 4 42 35 14 18
Tabla 12
g) Graba el proyecto con el siguiente nombre: Ejercicio6-5.mpj
Ejercicio 6.6 En la Tabla 13 aparece el nmero de usuarios diarios de la biblioteca A (variable X
1
)
y el nmero de usuarios diarios de la biblioteca B (variable X
2
) en 10 das elegidos al azar.
x
1i
x
2i
51 45
72 58
35 32
70 56
75 68
98 76
100 88
80 69
72 57
90 75
Tabla 13
a) Crea un nuevo proyecto de Minitab.
b) Guarda los datos en el archivo UsuariosDiarios.mtw
c) Calcula, en una nueva columna, los resultados de la variable diferencia D = X
1
X
2
.
d) Se puede aceptar, con un nivel de signicacin de 0

05, que la muestra de las diferencias,


d
i
= x
1i
x
2i
, es aleatoria? Por qu?
e) Se puede aceptar, con un nivel de signicacin de 0

05, que la variable diferencia, D =


X
1
X
2
, es Normal? Por qu?
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 71
f) Se puede aceptar, con un nivel de signicacin de 0

05, que la media poblacional del


nmero de usuarios diarios de la biblioteca A es igual a la media poblacional del nmero
de usuarios diarios de la biblioteca B? Por qu?
g) Graba el proyecto con el siguiente nombre: Ejercicio6-6.mpj
Ejercicio 6.7 Se quiere saber si la proporcin de libros escritos en espaol es la misma en dos biblio-
tecas universitarias (la de la facultad de matemticas y la de la facultad de losofa). Se toma
una muestra aleatoria simple de 100 libros de la biblioteca de la facultad de matemticas y se
encuentra que 35 de ellos estn escritos en espaol y el resto en otros idiomas. Se extrae otra
muestra aleatoria simple de 150 libros de la biblioteca de la facultad de losofa y se observa
que 60 estn escritos en espaol. Qu conclusin se puede extraer?
7
Contrastes no paramtricos en dos o
ms poblaciones
Contrastes no paramtricos en dos o
ms poblaciones
7.1. Contraste de homogeneidad con dos o ms
muestras independientes (Kruskal-Wallis)
El procedimiento que vamos a explicar se aplica cuando la variable es cualitativa ordinal o cuanti-
tativa, pero no Normal, y los tamaos muestrales son pequeos (en la prctica, alguno de ellos menor
que 30).
Observamos una variable aleatoria cuantitativa o cualitativa ordinal en r poblaciones, y extraemos
r muestras aleatorias independientes (una de cada poblacin). El objetivo es contrastar la hipte-
sis nula H
0
: Las r poblaciones son homogneas (la variable aleatoria observada tiene la misma
distribucin en las r poblaciones) frente a la hiptesis alternativa H
1
: Las r poblaciones no son ho-
mogneas. La hiptesis nula implica que las r medias poblacionales son iguales por lo que, a veces,
se sustituye aquella hiptesis nula por sta.
En Minitab hay varios procedimientos para realizar un contraste de homogeneidad con dos o ms
muestras independientes, pero vamos a explicar el contraste de Kruskal-Wallis, que es una generaliza-
cin del test de Mann-Whitney (que tambin se puede usar en Minitab) para dos muestras aleatorias
independientes.
Para realizar el contraste de Kruskal-Wallis hay que seleccionar Stat Nonparametrics Kruskal-
Wallis.
Con el archivo de datos Pulse.mtw, veamos si se puede aceptar, con un nivel de signicacin de
= 0

05, que el nivel de actividad fsica de los hombres es igual al de las mujeres. Como la variable
Activity no es Normal y no tiene sentido comparar las medias poblacionales, tenemos que realizar un
contraste no paramtrico de homogeneidad con dos muestras independientes (la muestra de hombres
y la muestra de mujeres). La hiptesis nula se puede enunciar como H
0
:El nivel de actividad fsica
es el mismo para los hombres y para las mujeres o como H
0
:La distribucin de la variable Activity
es la misma en la poblacin de los hombres y en la de las mujeres.
73
74 Dra. Josefa Marn Fernndez
Para hacer este contraste seleccionamos Stat Nonparametrics Kruskal-Wallis. En Response selec-
cionamos, de la lista de variables de la izquierda, la columna Activity; y en Factor seleccionamos, de
la lista de la izquierda, la columna Sex. Podemos comprobar, en la ventana de sesin, que el p-valor
es 0

305; claramente mayor que el nivel de signicacin, = 0

05, por lo que podemos aceptar la


hiptesis nula; es decir, podemos aceptar que el nivel de actividad fsica es el mismo para los hombres
y para las mujeres.
Un ejemplo con ms de dos muestras independientes podra ser el siguiente: Con el archivo de
datos Pulse.mtw, comprobemos si se puede aceptar, con un nivel de signicacin de = 0

05, que
el peso medio es el mismo para los 4 niveles de actividad fsica (Activity=0, 1, 2 y 3). Se puede
comprobar que la variable Weight no es Normal. Adems los tamaos muestrales no son grandes:
n
1
= 1 para Activity=0, n
2
= 9 para Activity=1, n
3
= 61 para Activity=2, y n
4
= 21 para Activity=3. Por
tanto, no podemos realizar un contraste paramtrico en el que se comparen las medias poblacionales.
Tenemos que realizar un contraste no paramtrico de homogeneidad con 4 muestras independientes.
La hiptesis nula es H
0
:La distribucin de la variable Weight es la misma para los cuatro niveles de
actividad fsica.
Para hacer este contraste seleccionamos Stat Nonparametrics Kruskal-Wallis. En Response selec-
cionamos, de la lista de variables de la izquierda, la columna Weight; y en Factor seleccionamos, de la
lista de la izquierda, la columna Activity. Podemos comprobar, en la ventana de sesin, que el p-valor
es 0

741; claramente mayor que el nivel de signicacin, = 0

05, por lo que podemos aceptar la


hiptesis nula; es decir, podemos aceptar que la distribucin de la variable Weight es la misma para los
cuatro niveles de actividad fsica.
Como hemos podido observar, para realizar este contraste con Minitab debemos tener una columna
con todos los resultados de la variable (para todos y cada uno de los individuos de todas y cada una
de las muestras) y otra columna que nos indique la muestra de la que procede cada resultado.
7.2. Contraste de homogeneidad con dos o ms
muestras apareadas (Friedman)
El contraste de Friedman es similar al de Kruskal-Wallis pero en este caso las r muestras son apa-
readas (estn relacionadas o asociadas). El test de Friedman se aplica cuando la variable es cualitativa
ordinal o cuantitativa, pero no Normal, y los tamaos muestrales son pequeos (en la prctica, alguno
de ellos menor que 30)
Para realizar este contraste hay que seleccionar Stat Nonparametrics Friedman.
En general, el problema suele ser el siguiente. Supongamos que estamos interesados en comparar
los efectos de r tratamientos. Se cree que hay una variable que puede interferir en nuestra capacidad
para detectar diferencias reales entre los r tratamientos. Queremos controlar esta variable extraa
mediante la construccin de bloques. Esto es, dividimos los individuos en n bloques, cada uno de
tamao r, siendo los individuos de un mismo bloque tan iguales como sea posible respecto de la
variable extraa. Asignaremos aleatoriamente los r tratamientos a los individuos de los bloques.
Para explicar este mtodo vamos a utilizar un ejemplo: En la Figura 14 aparece la opinin de
tres expertos respecto de la calidad de 10 libros elegidos al azar (1=muy mala, 2=mala, 3=regular,
4=buena, 5=muy buena).
Vamos a comprobar si se puede aceptar, con un nivel de signicacin de 0

05, que no hay diferencia


signicativa entre los tres expertos respecto de su opinin sobre la calidad de los libros. Notemos que,
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 75
Figura 14
efectivamente, las tres muestras estn relacionadas, pues realmente son la misma muestra (a la cual
se le ha observado tres variables distintas). La hiptesis nula es, por tanto, H
0
: No hay diferencia
signicativa entre los tres expertos respecto de su opinin sobre la calidad de los libros.
En este ejemplo tenemos 3 tratamientos (la opinin de cada uno de los 3 expertos) y 10 bloques
(cada uno de los 10 libros elegidos al azar). La variable respuesta es la opinin (de 1 a 5) de cada
experto respecto de la calidad de cada libro.
De manera anloga a lo que ocurra con el test de Kruskal-Wallis, para realizar el contraste de
Friedman con Minitab debemos tener una columna con todos los resultados de la variable respuesta
(para cada individuo de cada muestra); otra columna que nos indique la muestra de la que procede
cada resultado (tratamiento) y otra columna que nos indique el individuo (bloque). Por tanto, para
poder aplicar el contraste de Friedman no se pueden tener los datos tal y como se muestran en la
Figura 14, sino que hay que tener una columna que indique el nmero del tratamiento (en este caso,
el nmero del experto: de 1 a 3); otra columna que indique el nmero del bloque (en este caso,
el nmero del libro: de 1 a 10) y otra columna que indique la variable respuesta (de 1 a 5) para
cada combinacin de resultados de las dos columnas anteriores. Los datos, por tanto, tienen que
introducirse tal y como se muestra en la Figura 15. Podemos grabar estos datos en un archivo que
denominaremos Ejemplo_Friedman.mtw.
Para realizar el contraste seleccionamos Stat Nonparametrics Friedman. En Response seleccio-
namos, de la lista de la izquierda, la columna opinin (de 1 a 5); en Treatment seleccionamos, de la lista
de la izquierda, la columna n
o
experto; en Blocks seleccionamos, de la lista de la izquierda, la columna
n
o
libro y pulsamos en OK. Podemos observar, en la ventana de sesin, que el p-valor es 0

592, mayor
que el nivel de signicacin ( = 0

05); por tanto, aceptamos la hiptesis nula; es decir, aceptamos


que no hay diferencia signicativa entre los tres expertos respecto de su opinin sobre la calidad de
los libro.
7.3. Contraste chi-cuadrado sobre homogeneidad de dos
o ms poblaciones
En dos o ms poblaciones distintas observamos una misma variable aleatoria, y extraemos una
muestra aleatoria simple de cada poblacin para comprobar si un determinado parmetro poblacional
76 Dra. Josefa Marn Fernndez
Figura 15
(,
2
, . . .) toma idntico valor en las distintas poblaciones. Pero como no se cumplen las condicio-
nes necesarias para aplicar un contraste de hiptesis paramtrico, entonces tenemos que realizar un
contraste de hiptesis no paramtrico. Sin embargo, ocurre que la hiptesis nula no se puede enunciar
como la igualdad de los parmetros poblacionales, sino que ahora debemos comprobar si la variable
aleatoria tiene la misma distribucin en las dos poblaciones. Esta hiptesis se resume diciendo que
las poblaciones son homogneas.
El contraste chi-cuadrado de homogeneidad es el mismo que el test chi-cuadrado de independencia
de variables explicado en la seccin 3 del captulo 4, aunque la hiptesis nula no sea la misma.
Para realizar este tipo de contraste en Minitab se utilizan las mismas dos opciones explicadas en la
seccin 3 del captulo 4; es decir, si los datos estn recogidos en una tabla de doble entrada, se utiliza
StatTablesChi-Square Test (Two-Way Table in Worksheet), y si los datos se encuentran recogidos en dos
(o tres) columnas, se utiliza StatTablesCross Tabulation and Chi-Square.
Vamos a hacer el siguiente ejemplo: Se selecciona una muestra aleatoria simple de estudiantes de
informtica de universidades privadas y otra de universidades pblicas, y se les somete a una prueba
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 77
de rendimiento, calicada de 0 a 500. Los resultados son los expuestos en la tabla siguiente. Deseamos
saber si la distribucin en la prueba de rendimiento es la misma para universidades privadas que para
universidades pblicas.
[0,275] [276,350] [351,425] [426,500]
privadas 6 14 17 9
pblicas 30 32 17 3
El objetivo es contrastar la hiptesis H
0
: La distribucin de los resultados de la prueba es la misma
en las universidades pblicas que en las privadas, frente a la hiptesis H
1
: La distribucin no es
la misma.
Para realizar este contraste de homogeneidad con Minitab, en primer lugar tenemos que introdu-
cir la tabla de doble entrada anterior. Los datos tienen que ser introducidos tal como se muestra a
continuacin:
Podemos guardar estos datos en un archivo denominado Ejemplo_Homogeneidad.mtw.
Ahora seleccionamos StatTablesChi-Square Test (Two-Way Table in Worksheet); en Columns contai-
ning the table elegimos, de la lista de variables de la izquierda, las columnas privadas y pblicas y
pulsamos en OK. En la ventana de sesin podemos ver lo siguiente:
Recordemos que este contraste solamente puede aplicarse si todas las frecuencias esperadas bajo la
hiptesis nula son mayores o iguales que 1 y, adems, todas las frecuencias esperadas bajo la hiptesis
nula son mayores o iguales que 5, salvo para un 20 % como mximo. El 20 % de las casillas sera el
20 % de 8, que es 1

6. Como solamente una de las frecuencias esperadas es menor que 5, podemos


78 Dra. Josefa Marn Fernndez
aplicar esta tcnica. El resultado del p-valor es 0

001, claramente menor que los habituales niveles de


signicacin (0

05 0

01) por lo que rechazamos la hiptesis nula y, en consecuencia, aceptamos que


la distribucin de los resultados de la prueba no es la misma en las universidades pblicas que en las
privadas.
7.4. Ejercicios propuestos
Ejercicio 7.1 El nmero de libros juveniles prestados en 15 das elegidos al azar en los meses de
verano (V) e invierno (I) ha sido:
V 54 61 44 50 50 54 59 54 22 58 45 30 25 29 24
I 61 46 50 17 45 31 20 54 37 38 30 42 58 44 58
Hay la misma demanda de libros en verano que en invierno?
Ejercicio 7.2 Una coleccin de libros ha sido incluida en un ndice de dos formas distintas: a) chero
de entrada simple e ndice en cadena, y b) chero de entrada mltiple e ndice simple por
orden alfabtico. El nmero de entradas en los dos cheros para una muestra aleatoria de 12
documentos ha sido:
a) 4 3 4 4 5 4 3 3 3 5 5 2
b) 4 3 6 4 6 6 4 3 4 6 6 2
El nmero de entradas por documento depende del tipo de chero?
Ejercicio 7.3 Se selecciona una muestra aleatoria simple de 10 bibliotecas y se observa el nmero
de items (libros, artculos, revistas, . . .) obtenidos y el nmero de items pedidos por el servicio
de prstamo interbibliotecario de cada una de ellas en el ltimo ao. Los resultados son los
siguientes:
obtenidos 920 1.274 768 608 776 874 744 484 826 2.174
pedidos 874 489 1.175 1.034 1.752 588 670 622 747 1.793
En toda la poblacin de bibliotecas, el nmero medio de items obtenidos es igual al nmero
medio de items pedidos?
Ejercicio 7.4 Se eligen aleatoria e independientemente 15 alumnos del primer curso de bachillerato
y 12 alumnos del segundo curso de bachillerato, y se observa el nmero de libros distintos que
han pedido prestados en la biblioteca de su instituto durante un curso acadmico determinado.
Los resultados son los siguientes:
1
o
2 7 5 9 7 10 8 6 4 3 1 6 9 10 11
2
o
10 12 3 7 9 11 7 12 14 9 8 10
Son iguales las medias del nmero de libros que los alumnos de 1
o
y 2
o
han pedido prestados
a la biblioteca del instituto durante el curso?
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 79
Ejercicio 7.5 En un volumen de libros para jvenes se observa que, para edades comprendidas entre 9
y 11 aos, 68 libros fueron escritos por hombres y 94 por mujeres; y para edades comprendidas
entre 12 y 14 aos, 116 libros fueron escritos por hombres y 28 por mujeres. Hay diferencia
signicativa entre los dos grupos de edades respecto de la variable sexo de la persona que
escribe los libros?
Ejercicio 7.6 En un experimento se encuentra que en el ao 1980 el nmero de citas en sociologa
fue 330 y el nmero de citas en economa fue 299. En 1990, el nmero de citas en sociologa
fue 414 y en economa fue 393. Hay diferencia entre los dos aos investigados respecto del
nmero de citas en sociologa y economa?
Ejercicio 7.7 Los siguientes datos corresponden al nmero de libros cientcos y de ccin prestados
a adultos residentes en dos reas de una determinada ciudad:
cientcos de ccin
rea A 870 745
rea B 304 251
Hay diferencia signicativa entre las dos reas respecto del tipo de libro demandado?
Ejercicio 7.8 Los resmenes de Economics Abstracts se escriben en ingls, francs y alemn. Se
extraen muestras aleatorias independientes de 8 resmenes escritos en cada uno de los tres
idiomas mencionados, observando el nmero de palabras por resumen, siendo los resultados
los siguientes:
ingls francs alemn
71 111 67
118 113 75
52 84 61
47 84 99
59 84 58
65 94 107
84 90 113
111 90 95
La extensin de los resmenes es la misma para los tres idiomas?
Ejercicio 7.9 En una investigacin sobre la transferencia de la informacin se recogieron los siguien-
tes datos:
grupo de trabajo en persona por telfono otras
A 1.008 269 708
B 409 194 497
C 2.252 544 1.524
80 Dra. Josefa Marn Fernndez
Hay diferencia entre los grupos de trabajo A, B y C en cuanto a los mtodos empleados para
transmitir la informacin?
Ejercicio 7.10 Se pregunta a una muestra aleatoria de alumnos de 3
o
de una facultad de documen-
tacin, de cuatro cursos acadmicos distintos, si conocen los registros MARC de la British
Library, y los resultados son los siguientes:
No S No responde
199495 37 56 24
199596 24 44 30
199697 14 34 41
199798 28 54 15
Hay diferencia signicativa entre los cuatro cursos acadmicos con respecto a la respuesta
dada?
Ejercicio 7.11 Se eligen aleatoria e independientemente 10 estantes con libros de geografa, 10 con
libros de derecho, 10 con libros de matemticas y 10 con libros de losofa, y se cuenta el
nmero de libros por estante. Los resultados son los siguientes:
Geografa Derecho Matemticas Filosofa
25 21 36 25
30 21 32 27
30 33 30 26
29 23 30 26
25 16 32 21
23 26 33 28
28 26 33 30
33 28 28 31
25 26 39 28
25 21 43 32
El nmero medio de libros por estante es igual para las cuatro materias?
Ejercicio 7.12 En una muestra aleatoria simple de 12 das se observa el nmero de libros prestados
en diferentes materias (cientcos, novelas, ensayos, arte, msica) siendo los resultados los
siguientes:
Manual de MINITAB 15 (con aplicaciones a las Ciencias de la Documentacin) 81
cientcos novelas ensayos arte msica
24 40 19 23 21
29 39 17 15 17
33 45 15 13 20
30 38 10 19 16
36 33 12 17 14
27 30 15 20 12
24 25 20 21 11
19 38 23 9 8
16 27 25 23 21
35 39 14 17 14
37 41 21 19 12
32 47 11 14 17
El nmero medio de libros prestados diariamente es igual en las cinco materias?
Ejercicio 7.13 En una investigacin sobre el uso que los profesores de distintos departamentos hacen
de las revistas cientcas, se encontr que 34 de los 50 profesores del departamento A, 22 de
los 40 profesores del departamento B y 15 de los 35 profesores del departamento C, utilizan las
revistas como ayuda en su trabajo acadmico (y el resto no). Hay diferencia signicativa entre
los tres departamentos respecto del uso que hacen de las revistas cientcas?

También podría gustarte