Está en la página 1de 123

APUNTES DE BIOESTADISTICA

Y
i
=+A
i
+c
ij
Mario Briones L.
Departamento de Ciencias Pecuarias
Facultad de Ciencias Veterinarias
Universidad de Concepcin
2013
REVISIN DEL 3 de mayo de 2013
I: VARIABLES Y SU DESCRIPCIN .................................................................. 4
Descripcin de variables .............................................................................................................................. 5
Descripcin de variables cualitativas con distribucin binomial. .......................................................... 13
Caractersticas e importancia ................................................................................................................... 15
Propiedades de la distribucin normal. ................................................................................................... 16
Diagnstico de normalidad de los datos ................................................................................................... 19
Histograma y grficos de caja. ................................................................................................................ 20
Grfico de probabilidad normal (grfico cuantil vs cuantil) ................................................................... 21
Coeficientes de asimetra y curtosis. ....................................................................................................... 21
III. ERROR ESTNDAR DE LA MEDIA. ........................................................... 25
Variables cuantitativas: ............................................................................................................................. 25
Variables cualitativas ................................................................................................................................. 26
Intervalos de confianza para la media ..................................................................................................... 26
Intervalos de confianza de una cola ........................................................................................................ 27
IV. DETERMINACION DE TAMAO DE MUESTRA PARA DESCRIBIR UNA
VARIABLE. ......................................................................................................... 29
Para una variable cuantitativa. ................................................................................................................ 29
Para una variable binomial. ...................................................................................................................... 31
V. COMPROBACION ESTADISTICA DE HIPTESIS. .................................... 33
Introduccin y comprobacin de hiptesis sobre un promedio ............................................................. 33
Pruebas estadsticas de hiptesis. ............................................................................................................ 35
Los pasos de una comprobacin estadstica de hiptesis ....................................................................... 35
Prueba de hiptesis sobre un promedio poblacional. ............................................................................. 38
Comparacin de dos promedios o proporciones ..................................................................................... 41
Comparacin de dos promedios .............................................................................................................. 42
Comparacin de dos porcentajes o proporciones. ................................................................................... 47
Intervalos de confianza para la diferencia entre dos promedios o dos proporciones. ............................. 49
VI. DETERMINACION DEL TAMAO DE MUESTRA PARA COMPARAR
DOS GRUPOS .................................................................................................... 55
Para comparar dos promedios .................................................................................................................. 55
Para comprar dos proporciones ............................................................................................................... 57
VII. ANALISIS DE VARIANZA .......................................................................... 58
Anlisis de varianza aleatorio, de un factor y comparaciones multiples .............................................. 58
Prueba de Student Newman-Keuls (SNK) .............................................................................................. 65
Prueba de Tukey ...................................................................................................................................... 67
Mario Briones 2013
2
Anlisis de varianza en bloque al azar. .................................................................................................... 69
Cundo y cul variable bloquear? ......................................................................................................... 72
Cunto es el aumento de en la precisin del anlisis por el bloqueo? ................................................... 72
Anlisis de varianza de dos factores ......................................................................................................... 74
Anlisis de varianza de muestras repetidas ............................................................................................. 79
VIII. CORRELACION LINEAL ............................................................................ 83
Covarianza .................................................................................................................................................. 83
Coeficiente de correlacin ......................................................................................................................... 84
Transformacin de Fisher del coeficiente de correlacin ....................................................................... 88
Intervalo de confianza para r ................................................................................................................... 89
Comparacin de dos coeficientes de correlacin: ................................................................................... 89
Clculo del promedio de varios coeficientes de correlacin ................................................................... 90
IX. REGRESION LINEAL ................................................................................... 91
Modelo de la regresin ............................................................................................................................... 92
Supuestos del modelo .............................................................................................................................. 92
Estimacin de mnimos cuadrados .......................................................................................................... 93
Comprobacin de hiptesis respecto de la pendiente ............................................................................. 95
Intervalo de prediccin de Y ................................................................................................................... 97
Coeficiente de determinacin .................................................................................................................. 98
X. TABLAS DE CONTINGENCIA, PRUEBA DE CHI CUADRADO ............... 102
Tabla de contingencia .............................................................................................................................. 102
Prueba de X2 (Chi cuadrado) ................................................................................................................ 103
Correccin de Yates .............................................................................................................................. 106
Prueba exacta de Fisher ......................................................................................................................... 106
Test de Mcnemar ................................................................................................................................... 108
Prueba de bondad de ajuste de chi cuadrado ......................................................................................... 110
Introduccin y uso de mtodos no paramtricos .................................................................................. 114
Pruebas no paramtricas para comparar dos poblaciones con base en muestras aleatorias
independientes. ......................................................................................................................................... 116
Prueba de Mann-Whitney ..................................................................................................................... 116
Pruebas no paramtricas para observaciones en pares. ....................................................................... 118
Prueba del signo. ................................................................................................................................... 118
Prueba de Kruskal Wallis para k muestras aleatorias independientes. ............................................. 120
Coeficiente de correlacin de rangos de Spearman. ............................................................................. 123
Mario Briones 2013
3
I: VARIABLES Y SU DESCRIPCIN
Las variables son la materia prima de la estadstica. Las variables son atributos
de los fenmenos o de los individuos y que pueden ser diferentes entre uno y
otro sujeto. Es decir, una variable es un atributo que toma distinto valor o
expresin, en individuos o fenmenos diferentes. Por ejemplo, el peso de un
pez y su estado de saludo (enfermo, sano), son variables. Pero el nmero de
colas del pez (aunque la cola es un atributo de los peces) no es una variable ya
que todos los sujetos tienen una cola en forma natural (el atributo no toma
distintos valores en distintos individuos). Un fenmeno tambin puede ser un
sujeto; por ejemplo, un investigador que estudie las crisis econmicas puede
observar en ellas diferentes atributos: fecha de inicio, duracin, causas, efectos,
lugar de origen, etc.
Las variables se pueden clasificar segn la forma de expresin del atributo en
variables cualitativas y variables cuantitativas.
Variables cualitativas: son aquellas que en su expresin son una cualidad,
generalmente no numrica. Por ejemplo, en animales, el sexo, la raza, el color de
la capa, presencia de un alelo en su genoma, etc.
Variables cuantitativas: son aquellas en que su expresin es una cantidad. Por
ejemplo en animales: el peso de un individuo, la concentracin de hemoglobina
en su sangre, concentracin de una enzima, etc. Se puede hacer una
clasificacin adicional que a veces puede tener importancia; hay variables
cuantitativas discretas, es decir, que slo pueden tomar valores enteros (por
ejemplo, el tamao de camada de una perra) y hay variables cuantitativas
continuas, que pueden tomar infinitos valores decimales (por ejemplo, el peso de
un animal). Entre dos puntos de una variable cuantitativa continua siempre se
puede encontrar un tercer punto.
Adems de la clasificacin segn la expresin, las variables se pueden clasificar
segn la escala con que se mida el atributo. Desde este punto de vista, las
variables pueden estar medidas en las siguientes escalas:
Escala nominal: cuando una variable est medida en una escala nominal, el
atributo es slo un nombre y no constituye una medida. Por ejemplo, en una
serie de ciudades, el nombre de stas es un atributo y una variable (todas tienen
distinto nombre) y la descripcin del atributo es puramente nominal. El sexo de
un individuo, su color, raza, etc. Aunque las etiquetas o nombres de cada uno
de los posibles resultados de esta variable pueden ser reemplazados con
nmeros (por ejemplo ciudad 1, ciudad 2, ciudad 3, etc), estos valores siguen
siendo etiquetas no susceptibles de anlisis estadstico o matemtico.
Escala ordinal: cuando al observar una variable se puede distinguir una
magnitud en el atributo, pero no hay intervalos regulares entre una y otra
categora. Por ejemplo, una escala ordinal se ocupa cuando los individuos son
Mario Briones 2013
4
medidos como pequeo, mediano, grande; o bien, una lesin es medida en
grados: leve, moderada, fuerte. En ocasiones, las categoras en esta escala
pueden representarse con nmeros. Por ejemplo: pequeo= 1, mediano= 2 y
grande= 3, u otra equivalencia numrica. A primera vista, parece que se pudiera
utilizar resmenes como el promedio. Sin embargo, se debe tener en cuenta que
el tratamiento matemtico de una escala como sta es limitado.
Escala de intervalo: cuando la escala de medicin tiene intervalos fijos entre
cada categora o nivel. Es una escala numrica clsica, pero no tiene cero
absoluto. Ejemplo, la temperatura medida en grados Celsius, o la altura sobre el
nivel del mar.
Escala de razn: es una escala de intervalo, pero que adems tiene un cero
absoluto. Es la escala con que normalmente se miden atributos como el peso, la
edad, la concentracin de oxgeno, etc. Su nombre proviene del hecho que es
posible efectuar razones o proporciones con los valores medidos en esta escala,
lo cual no es posible con las escalas de intervalo. Por ejemplo, en la escala de
pesos, 10 kilos es la mitad de peso que 20 kilos, pero en la escala de temperatura
en grados Celsius (que es una escala slo de intervalo y no de razn), 10 grados
no es la mitad de la temperatura que 20 grados.
A veces, no se hace distincin entre las mediciones de intervalo y las de razn y
se las agrupa como del mismo tipo, llamndolas de intervalo.
Es importante en la toma de informacin para anlisis estadstico, considerar
que una escala de razn proporciona ms informacin, por ejemplo, que una
escala ordinal. Por este motivo, en la planificacin de la toma de muestras o de
un experimento, debe tenerse esto en cuenta al elegir las variables ms
representativas o informativas del fenmeno de inters.
Descripcin de variables
La estadstica puede dividirse en dos grandes ramas, segn el uso o tratamiento
de la informacin recogida. Cuando la informacin es resumida, a partir de
grandes conjuntos de datos, para obtener cifras o figuras representativas de los
datos, se trata de la rama descriptiva de la estadstica. Cuando la estadstica se
utiliza para elaborar conclusiones sobre la poblacin, a partir de los datos de la
muestra, se trata de la estadstica inferencial.
La descripcin puede hacerse mediante cifras o mediante grficos o figuras y su
propsito principal es resumir los datos.
Hay que tomar en cuenta que la descripcin puede hacerse sobre individuos de
una muestra o de una poblacin (una muestra es, en general, un subconjunto de
la poblacin). En ambos casos, las cifras que resumen las variables se
denominan DESCRIPTORES. En la poblacin, estos descriptores se denominan
Mario Briones 2013
5
PARAMETROS y en la muestra, los descriptores respectivos se denominan
ESTIMADORES.
Los descriptores se dividen en dos grandes grupos, que van dirigidos a
describir dos tipos de propiedades de las variables: un grupo est destinado a
mostrar o describir el centro (o posicin de la variable) y el otro grupo muestra
su dispersin.
Descriptores de tendencia central: Una propiedad de las variables que es
importante de observar es la tendencia central o la posicin de la variable. En la
prctica, son cifras que en un solo nmero muestran un valor representativo
de la variable. Por ejemplo, al describir el peso de cosecha de los salmones, un
descriptor de tendencia central debera mostrar el peso ms comn, o el ms
representativo. Cuando se calcula el promedio de notas de un estudiante en
un curso, se espera que ese nmero muestre el valor ms representativo del
aprendizaje del estudiante.
Las principales medidas de tendencia central son:
El promedio aritmtico o media aritmtica.
En la poblacin En la muestra
N
X
N
i
i
=
=
1

FORM: 1.1
n
X
X
n
i
i
=
=
1
FORM. 1.2
En las frmulas anteriores se puede observar que el smbolo que representa a la
media es diferente segn se trate de la media poblacional o de la muestra. El
signo sigma en mayscula (E) significa sumatoria y las expresiones i=1 y N, bajo
y sobre este smbolo se leen como: desde i igual a 1 hasta i igual a N. Es decir,
indican que se suma una cantidad N de nmeros (la n minscula en el caso de
la muestra indica que es un subconjunto de una cantidad mayor). El promedio
o media aritmtica emplea la totalidad de los datos para calcular el descriptor.
Es por lo tanto un descriptor con sensibilidad ante la presencia de valores
extremos (es afectado por valores extremos).
En Excel y en OpenOffice la funcin para obtener el promedio de un rango de
datos es =PROMEDIO(rango de datos).
En Google Docs la funcin es AVERAGE.
Mario Briones 2013
6
La mediana.
En un conjunto ordenado de datos, la media es aquel valor que ocupa la
posicin central (deja igual nmero de valores hacia abajo y hacia arriba)
Si el nmero de observaciones es impar, existe un valor central nico:
2
1
~
+
=
n
X X
FORM. 1.3
Ejemplo: en el arreglo ordenado {3 5 6 7 8 9 11}, la mediana es el 7 (el
cuarto valor, segn la frmula).
Si el conjunto de observaciones es par, la mediana se calcula como la media
aritmtica de los dos valores centrales.
2
~
2 2
n n
x x
X
+
=
FORM. 1.4
Ejemplo: en el arreglo ordenado {3 5 6 7 8 9} la mediana es 6,5.
La mediana de un conjunto de datos es nica. Adems, en un conjunto de
datos, la mitad de ellos son iguales o menores que la mediana y la otra mitad
son iguales o mayores que ella. Una propiedad interesante de la mediana es
que, a diferencia del promedio, no es afectada por valores extremos en el
conjunto de datos.
En Excel y en OpenOffice la funcin para obtener la mediana es
=MEDIANA(rango de datos).
En Google Docs la funcin es MEDIAN
La moda:
La moda es una medida de tendencia central que se define como el valor de las
observaciones que aparece con mayor frecuencia. Si no hay ningn valor que se
repita en el conjunto de datos, entonces ste no tiene moda. Si hay ms de un
valor que se repita varias veces, entonces habr ms de una moda.
En Excel y en OpenOffice la funcin para obtener la moda es =MODA(rango de
datos).
En Google Docs la funcin es MODE.
Mario Briones 2013
7
Otras medidas de tendencia central:
Media geomtrica: la media geomtrica de una cantidad finita de valores (n) es
la raz ensima del producto de todos los nmeros.
n
n
x x x X ... ...
2 1
=
FORM. 1.5
La media geomtrica slo es relevante si todos los valores son positivos. Si uno
de los valores es cero, el valor de la media es cero. La media geomtrica es
importante cuando la distribucin de los datos es no normal, especialmente
cuando, como ocurre con algunas variables biolgicas, la distribucin de los
datos tiene una marcada asimetra hacia la derecha (por ejemplo, se suele
utilizar para resumir recuentos de parsitos por gramo de heces).
En Excel y en OpenOffice la funcin para obtener la media geomtrica es
=MEDIA.GEOM(rango de datos).
Media armnica: la media armnica de una cantidad finita de nmeros es igual
al recproco o inverso de la media aritmtica, de los recprocos de dichos
nmeros.
|
|
.
|

\
|
+ +
= =

=
n
n
i a a
n
a
n
H
1 1
1
1
1 1
FORM. 1.6
La media armnica est poco influida por la existencia de valores grandes pero
es sensible a valores muy pequeos en el conjunto de datos. La media armnica
no est definida en el caso de existencia de valores nulos.
En Excel y en OpenOffice la funcin para obtener la media armnica es
MEDIA.ARMO.
Ejercicio: utilice Excel u OpenOffice para calcular las medidas de tendencia
central en el siguiente conjunto de datos, que corresponde al peso en gramos de
pollos araucanos de 1 da de nacidos:
Mario Briones 2013
8
Tabla 1.1: Valores de peso en gramos de pollos de tipo araucano (nacidos de
huevos de color azul en una lnea seleccionada de gallinas criollas)
35 44 42 40 40 34 39
41 43 44 45 40 43 34
42 39 41 40 43 43 38
39 40 45 32 40 46 35
43 43 41 40 39 42 33
41 45 47 41 44 40 38
45 36 38 42 36 46
45 35 41 42 43 40
35 47 40 47 40 40
43 40 43 42 37 43
40 41 50 43 42 38
40 36 38 37 47 34
34 51 36 40 42 48
44 38 46 41 39 44
38 38 37 42 38 44
40 45 42 40 41 37
47 42 43 42 35 41
40 42 38 42 42 43
39 46 42 39 38 38
43 44 43 37 35 39
Los resultados de los descriptores de tendencia central de los datos de la Tabla
1.1 son:
promedio 40,8
mediana 41,0
moda 40,0
media geomtrica 40,6
media armnica 40,5
Descriptores de dispersin de las variables: Otra propiedad interesante
para resumir una variable en una muestra o en una poblacin, es la
fluctuacin de los valores o dispersin de stos. Existen varias medidas para
describir la dispersin de los datos.
Rango: el rango es simplemente la resta del valor ms grande menos el ms
pequeo en el conjunto de datos.
Varianza:
En la poblacin En la muestra
N
X
N
i
i
=

=
1
2
2
) (
o
FORM. 1.7
1
) (
1
2
2

=

=
n
X X
s
n
i
i
FORM. 1.8
Mario Briones 2013
9
La varianza es una medida de dispersin que considera todos los datos, de la
poblacin o de la muestra. Es un promedio de la desviacin al cuadrado de
todos los valores desde la media. La desviacin al cuadrado permite que las
desviaciones positivas o negativas reflejen en la mayor o menor desviacin o
variabilidad o de los datos, en la varianza. La varianza est expresada en
unidades de medicin al cuadrado (por ejemplo, kilos al cuadrado). Cuando la
varianza se calcula en una muestra, la correccin del tamao de muestra
mediante la resta de 1 unidad (grados de libertad) permite una mejor
estimacin de la varianza poblacional.
En Excel, en OpenOffice y en Google Docs la funcin para obtener la varianza
es =VAR(rango de datos).
Desviacin estndar:
En la poblacin En la muestra
N
X
N
i
i
=

=
1
2
) (
o
FORM. 1.9
1
) (
2
1

=

=
n
X X
s
i
n
i
FORM. 1.10
La desviacin estndar es simplemente la raz cuadrada de la varianza. Por esta
razn, est expresada en las mismas unidades de medicin de la variable.
Tambin se le denomina desviacin tpica y una caracterstica importante que
tiene es que est expresada en las mismas unidades de medicin de la variable,
al remover el cuadrado.
La varianza y la desviacin estndar son medidas de dispersin muy
importantes en estadstica. La primera es la unidad bsica de la variabilidad y la
segunda proporciona la unidad bsica de dispersin en la distribucin normal.
En Excel y en OpenOffice la funcin para obtener la desviacin estndar es
=DESVEST(rango de datos)
En Google Docs la funcin es STDEV.
En ocasiones, se puede utilizar una medida de dispersin que se denomina
coeficiente de variacin (CV). Esta medida es un ndice, y es igual a la
desviacin estndar de la muestra, dividida por el promedio y multiplicada por
100 (para expresarla como porcentaje).
Mario Briones 2013
10
En la prctica, se usa para poder comparar la dispersin entre diferentes
variables, que pueden tener diferente promedio o estar expresadas en diferentes
unidades de medicin (por ejemplo, una variable medida en kilos y una
variable medida en centmetros). La determinacin del CV permite eliminar las
unidades y comparar directamente las variables en cuanto a su dispersin. En
general, CV menores a 5% son considerados bajos, entre 6 y 10%, moderados y
sobre 10% son considerados altos.
Para los datos de la Tabla 1.1, los descriptores de dispersin recin definidos
son:
rango 19,0
varianza 13,1
desviacin estndar 3,6
coeficiente de variacin
(%) 8,9
Descargue los datos desde la direccin:
http://fichero.veterinariaudec.c/webmbriones/base1.xls y calcule los
descriptores de tendencia central y dispersin utilizando Infostat para las
variables cuantitativas. Los datos corresponden a variables registradas en
estudiantes de segundo ao de medicina veterinaria en la Universidad de
Concepcin. Utilice la funcin ESTADISTICAS >> MEDIDAS RESUMEN y
compare para describir las variables por separado para hombres y mujeres.
Otras medidas de dispersin que pueden ser importantes son:
La distancia intercuartiles: La distancia intercuartiles corresponde al rango
entre el primero y tercer cuartil, es decir, corresponde al rango que acumula el
50% central de un conjunto de datos.
La distancia intercuartiles y los propios cuartiles tienen importancia en la
determinacin de valores extremos o outliers. Una regla para identificar valores
extremos consiste en restar y sumar 1,5 veces la distancia intercuartiles al
primer y tercer cuartil, respectivamente, para encontrar el punto que marca el
inicio de los valores extremos. Este punto se denomina en ocasiones borde
interno. Otro lmite para este tipo de valores es el borde externo, que se ubica a
3 veces la distancia intercuartiles.
Por ejemplo, suponga que los siguientes valores corresponden a pesos (en kilos)
de jvenes atletas en un club deportivo: { 58,60,61,63,64,64,65,70,71,73,74,86}.
Los descriptores bsicos de estos datos son:
Promedio= 67,4 kilos
Mediana= 64 kilos
Desviacin estndar= 7,8 kilos
Mario Briones 2013
11
Mnimo= 58
Cuartil 1= 62
Cuartil 3= 72
Mximo= 86
DIC= 10
Lmite inferior para valores extremos= C1- 1,5 X DIC= 62-15= 47
Lmite superior para valores extremos= C3+1,5 XDIC= 72+15= 87
Segn lo anterior, todos los valores del conjunto de datos estn dentro del
intervalo y no son valores extremos.
Asumiendo ahora que el conjunto de datos es:
{ 58,60,61,63,64,64,65,70,71,73,74,99}, donde el valor 86 del conjunto anterior fue
reemplazo por 99. En este caso, como C1 y C3 no cambian, la distancia
intercuartiles tampoco sufre cambios y los lmites son los mismos. El valor 99
kilos est ahora fuera de los lmites y puede considerarse un valor extremo.
La figura anterior muestra un grfico de caja obtenido con Infostat para los
datos originales (izquierda) del ejemplo y los datos modificados con el valor 99
como extremo.
En Excel y OpenOffice la funcin que permite determinar el primer y tercer
cuartil es =CUARTIL(matriz;cuartil), donde matriz permite ingresar el conjunto
de datos y cuartil el percentil deseado (1, 3). En Google Docs la funcin
equivalente es QUARTILE.
Mario Briones 2013
12
En Infostat, puede utilizar la funcin GRAFICO >> GRAFICO DE CAJAS, para
determinar valores extremos en la variable peso de la base1.xls. El resultado se
observa en la siguiente figura:
Descripcin de variables cualitativas con distribucin binomial.
Al describir las frecuencias de cada una de las categoras de una variables con
distribucin binomial (vivo, muerto; positivo, negativo; enfermo, sano; etc), la
proporcin de inters, p, es la medida de tendencia central.
Descriptores del nmero de xitos
Media Varianza Desviacin estndar
np =
FORM. 1.11
npq =
2
o
FORM 1.12
npq = o
FORM. 1.13
Descriptores de la proporcin de xitos
Media Varianza Desviacin estndar
p =
FORM. 1.14
n pq /
2
= o
FORM. 1.15
n pq / = o
FORM. 1.16
En Excel (y en cualquier otra planilla electrnica), los xitos deben estar
codificados con el valor 1 y las fallas con el valor 0 (cero). En este caso, las
funciones PROMEDIO, DESVEST Y VAR, entregan directamente los
descriptores de la proporcin de xitos. Tambin, en softwares estadsticos
especializados, tales como Infostat, SPSS y otros, la codificacin 0 y 1 permite
utilizar los comandos que calculan los descriptores de frecuencia.
Mario Briones 2013
13
Ejemplo: suponga que los siguientes datos son el resultado de un programa de
inseminacin artificial en vacas.
(descargar desde http://fichero.veterinariaudec.cl/webmbriones/binom1.xls) Los
datos a continuacin son slo una fraccin de los datos en la planilla).
Identificacin
de la vaca
Peso (kg) Edad
(aos)
Estatus de preez
(uno)
Estatus de preez
(dos)
1 501 3 Preada 1
2 540 3 Preada 1
3 530 4 No preada 0
4 490 3 Preada 1
5 496 3 No preada 0
6 479 3 Preada 1
7 497 4 Preada 1
8 505 4 Preada 1
9 493 3 Preada 1
10 510 4 No preada 0
11 502 3 Preada 1
12 500 3 Preada 1
13 490 4 Preada 1
14 489 3 Preada 1
En el ejemplo, la funcin =PROMEDIO(sobre los datos de estatus de preez
dos) entrega el resultado 0,733 el cual es la proporcin de vacas preadas (el
estimador de la media poblacional).
Mario Briones 2013
14
II. LA DISTRIBUCION NORMAL
Caractersticas e importancia
La distribucin normal o Gausiana es la ms importante de las distribuciones
continuas, debido a su papel en la teora del muestreo. Esta es una distribucin
terica y lo que se puede observar frecuentemente es que las observaciones
hechas sobre una variable a un conjunto de individuos tienen una distribucin
emprica similar o parecida a una distribucin normal. El supuesto que se toma
en estos casos es que la variable tiene una distribucin normal en la poblacin.
Si este es un supuesto razonable, entonces se puede utilizar las propiedades de
la distribucin normal para calcular probabilidades. Por ejemplo, si la variable
peso vivo al sacrificio en novillos tienen distribucin normal, se podra
determinar la probabilidad de encontrar valores entre dos pesos determinados.
Figura 2.1. Distribucin del peso al sacrificio de 8867 novillos
PESO
580,0
560,0
540,0
520,0
500,0
480,0
460,0
440,0
420,0
400,0
380,0
1400
1200
1000
800
600
400
200
0
En Internet se recomienda visitar http://javaboutique.internet.com/BallDrop/
un sencillo applet que muestra como se puede generar una distribucin
normal. En la simulacin, se debe observar que las bolitas caen siempre desde
una misma posicin. Esto sera equivalente a la media poblacional, o en
trminos ms matemticos a la EXPECTATIVA de la variable. Las capas que
deben atravesar las bolitas introducen VARIABILIDAD en el fenmeno y
esta variabilidad se aprecia claramente que se produce AL AZAR o
ALEATORIAMENTE. Sin embargo, cuando se observa como se acumulan las
bolitas en la parte inferior, stas muestran una TENDENCIA o mayor
PROBABILIDAD a terminar en una posicin igual a la original. Es muy fcil
hacer una analoga entre este applet y una variable biolgica, como por
ejemplo, el peso de los individuos adultos de una especie. O el ejemplo de los
Mario Briones 2013
15
pesos de canales de bovinos de la figura 2.1; variaciones en la composicin
gentica, en la alimentacin, en las condiciones sanitarias, etc., repartidas al
azar en la poblacin, son factores equivalentes a las capas de obstculos en el
applet y que introducen variabilidad en la caracterstica.
La gran utilidad de la curva normal en la estadstica biolgica es que muchas
variables en la biologa se comportan de este modo, sobre todo cuando el
resultado final o expresin de la variable es la suma de muchos factores donde
cada uno de ellos es de muy pequeo tamao comparado con el total. Adems,
muchas variables que no se comportan con esta distribucin pueden
transformarse con sencillas transformaciones de escala y adoptar una forma
aproximadamente normal.
Propiedades de la distribucin normal.
1. La distribucin normal se describe completamente slo por dos
parmetros, que son la media y la desviacin estndar ( y o).
2. Es unimodal.
3. Es simtrica en torno a su media .
4. Su media, mediana y moda tienen el mismo valor.
5. La amplitud de la curva est determinada por la magnitud de o.
Para trazar la curva normal, la funcin que determina la altura de la ordenada
es (funcin densidad de probabilidad normal):
|
|
.
|

\
|

=
2
2
2
)
2
1
) (
o

to
x
e x f
FORM. 2.1
La frmula 2.1 muestra claramente que la forma de la distribucin normal
depende enteramente, como lo dicen sus propiedades, de la media y la
desviacin estndar.
Cuando una distribucin normal tiene una media igual a cero y desviacin
estndar igual a uno, se trata de una distribucin normal estndar.
Generalmente, este valor se denomina z.
Cualquier valor x
i
de una variable con distribucin normal puede ser
transformado en un valor estandarizado, como lo muestra la frmula 2.2. El
proceso de transformacin se de denomina normalizacin y para poder
efectuarlo se necesitan el promedio y la desviacin estndar de la distribucin.
El valor resultante (z) se denomina desviacin normal estndar.
Mario Briones 2013
16
o

=
i
x
z
FORM 2.2
Por ejemplo, si el promedio de peso de nacimiento en bovinos de carne de razas
britnicas en una poblacin determinada es = 38,9 kilos y la desviacin
estndar es o= 2,1 kilos, un peso de nacimiento x
1
= 35 kilos, tendr un valor
normalizado z= -1.857 (segn la frmula 2.2), donde el signo negativo indica
que es un valor que se ubica a la izquierda del promedio (menor que cero en la
curva normal estndar), a 1.857 veces la magnitud de la desviacin estndar. En
las planillas electrnicas Excel y OpenOffice, la funcin NORMALIZACION
(con tilde en el caso de la segunda planilla) efecta automticamente este
clculo y requiere que se ingresen el valor de X, la media y la desviacin
estndar de la distribucin.
Uno de los objetivos de la estandarizacin es facilitar el uso de tablas de la
distribucin normal y determinar reas bajo la curva normal. Por ejemplo,
utilizando la tabla en http://fichero.veterinariaudec.cl/webmbriones/tabla_z, se
podra determinar la probabilidad de que en la poblacin de inters, nazcan
terneros con un peso inferior a 35 kilos. Para esto, se debe determinar el rea
bajo la curva, para valores menores a 35 kilos.
Mario Briones 2013
17
El primer paso sera la normalizacin. Como ya se determin, el valor de z para
el ejemplo es -1.857. La tabla disponible muestra las reas hacia el lado positivo
de la curva normal, pero como sta es simtrica en torno a la media, se utilizar
el valor positivo 1.857, aproximado a 1.86 debido a la limitacin en el nmero
de decimales. En la tabla puede leerse que la cantidad de rea entre cero y este
valor de z es igual a 0.4686. Como el rea buscada es la que se encuentra a la
izquierda de -1.86, la resta 0,5-0.4686= 0.0314 entrega la cantidad de rea, de
donde se puede concluir que la probabilidad de que en la poblacin nazcan
terneros con peso menor a 35 kilos es de 3.14%.
Tambin puede realizarse el proceso inverso, es decir, determinar el valor
normalizado que corresponde a un rea determinada. Por ejemplo, suponga
que el 10% de los terneros ms pesados en la misma poblacin tiene un riesgo
elevado de sufrir un parto distcico (o parto con dificultad)
Ahora el primer paso es encontrar el valor normalizado que deje en el extremo
superior de la curva una cantidad de rea igual a 0.1. Utilizando la tabla, se
busca un valor de rea (es decir, en el cuerpo de la tabla) igual a 0.4 (o el ms
parecido a ste, en caso que no se encuentre exactamente igual). En este caso es
z= 1.29. A continuacin debe transformarse el valor normalizado en un valor de
X, con una media y una desviacin de 38.9 y 2.1 kilos, respectivamente. La
expresin es la siguiente:
o z x
i
+ =
FORM 2.3
En el ejemplo, el valor de X es igual a 41,6 kilos. Es decir, la conclusin es de
que en esta poblacin los terneros que estn en riesgo de sufrir un parto
distcico son aquellos que pesen ms de 41,6 kilos.
Tablas de distribucin normal estndar pueden encontrarse en la mayora de
los libros de estadstica y actualmente en Internet existen muchas. Por ejemplo,
una tabla interesante se puede encontrar en
http://www.mat.uda.cl/hsalinas/cursos/2008/probablilidad/TablaNormalEstand
ar.pdf
Utilizando planillas electrnicas, es un proceso mucho ms directo. La funcin
DISTR.NORM (es la misma en Excel y en OpenOffice) entrega directamente el
rea acumulada bajo la curva para valores menores que un x
i
, ingresando el
valor de X, la media, la desviacin estndar y un valor lgico VERDADERO 1,
para la acumulacin de probabilidad (el valor lgico FALSO o el valor cero
entregan la densidad de probabilidad de la distribucin, es decir, la altura de la
curva para el valor de X). Acumulacin de probabilidad significa que el valor
Mario Briones 2013
18
resultante es la totalidad de la curva por debajo del valor de X (para valores
menores que X).
En el ejemplo anterior, para conocer que porcentaje de terneros nace con peso
por debajo de 35 kilos en la poblacin de referencia, la funcin en la planilla se
completa de la siguiente manera:
=DISTR.NORM(X;media;desv_estndar;acum.)
=DISTR.NORM(35;38,9;2,1;1)
=0,0316
=3,16%
Observe que para conocer probabilidades superiores o entre valores
determinados, slo hay que hacer un sencillo ejercicio de sustraccin o adicin
de reas bajo la curva. Acum = 1 indica que es probabilidad acumulada.
En el segundo ejemplo anterior, para conocer el valor de X correspondiente a
una probabilidad determinada, es decir para saber a partir de que peso se ubica
el 10% superior de los terneros de la poblacin, la funcin es:
=DISTR.NORM.INV(probabilidad;media;desv_estndar)
=DISTR.NORM.INV(0,1;38,9;2,1)
=41,59
Nuevamente se debe observar que la obtencin de valores de X para reas o
valores de X en diferentes puntos de la curva, requiere un simple ejercicio de
sustraccin o adicin.
Diagnstico de normalidad de los datos
Dada la importancia que tiene el supuesto de normalidad de una variable, es
conveniente apoyar el supuesto de normalidad de los datos en diagnsticos que
pueden ser subjetivos u objetivos, grficos o numricos.
Similitud de la media, mediana y moda.
Ya que en la poblacin, la distribucin normal implica que estos tres parmetros
son exactamente iguales, si en la muestra tienen valores parecidos, es un indicio
de la normalidad de la variable. En la siguiente figura tomada de Infostat se
observan la media y la mediana de las variables peso, estatura y permetro del
antebrazo, separados por sexo, para los datos de base1.xls. En todos los casos se
Mario Briones 2013
19
aprecia bastante similitud entre los dos descriptores y podra asumirse que
estas variables tienen distribucin normal.
Histograma y grficos de caja.
Si el histograma de una variable muestra una forma unimodal y relativamente
simtrica en torno al valor promedio, tambin se puede utilizar como soporte
del supuesto de normalidad. Los grficos de caja son tiles para la
identificacin de valores extremos y para una apreciacin de la normalidad. Por
ejemplo, la simetra en las dos partes centrales de la caja (50% central de la
distribucin) y la coincidencia de la mediana y el promedio indican que la
distribucin de los datos podra ser normal o aproximadamente normal.
Para los datos cuantitativos del archivo base1.xls, se pueden observar
histogramas muy asimtricos, como el siguiente:
Aunque la media y la moda de esta variable son muy parecidas, el grfico
muestra una fuerte asimetra con cola derecha, que parece incompatible con la
normalidad. En cambio, en el caso de la estatura, el histograma muestra una
figura ms simtrica y con aspecto de distribucin normal:
Mario Briones 2013
20
Grfico de probabilidad normal (grfico cuantil vs cuantil)
La mayora de los paquetes estadsticos especializados permiten construir este
tipo de grfico. En l, los datos son graficados contra una distribucin normal
terica, de manera que los puntos X,Y deberan formar una lnea
aproximadamente recta. En el se grafican los cuantiles observados contra los
cuantiles esperados. Por ejemplo, en el software Infostat, el grfico de
probabilidad normal se denomina grfico de la distribucin emprica y el
grfico de cuantil vs cuantil se denomina Q-Q Plot.
Coeficientes de asimetra y curtosis.
Los coeficientes de asimetra y curtosis son mediciones objetivas de la forma de
la distribucin.
- Asimetra: tambin se le denomina tercer momento de la variable y su
determinacin tiene la siguiente expresin (funcin
COEFICIENTE.ASIMETRIA, en Excel y Open Office):
3
1
3
1
) 1 (
) (
) (
s n
x x
asimetra g
n
i
i

=

=
FORM. 2.4
Mario Briones 2013
21
Para evaluar la asimetra se debe calcular adems el error estndar del
coeficiente (EECA). Este es igual a:
n
EECA
6
= FORM 2.5
Donde n es el nmero de observaciones de la muestra. La distribucin ser
simtrica si la tasa asimetra/EECA tiene un valor absoluto igual o menor que 2.
Desviaciones positivas indican una asimetra derecha y desviaciones negativas
una asimetra izquierda.
- Curtosis: se le denomina tambin cuarto momento de la variable y su
determinacin tiene la siguiente expresin (funcin CURTOSIS en Excel y Open
Office):
4
1
4
2
) 1 (
) (
) (
s n
x x
curtosis g
n
i
i

=

=
FORM 2.6
Del mismo modo que con la asimetra, para evaluar la curtosis se necesita
determinar el error estndar del coeficiente de curtosis (EECC) para dividir por
ste el valor del ndice.
n
EECC
24
= FORM 2.7
Donde n es el nmero de observaciones de la muestra. La distribucin ser
mesocrtica (normal) si el valor resultante tiene un valor absoluto igual o
menor que 2. Desviaciones positivas indican una distribucin leptocrtica
(excesivamente alta o empinada). Desviaciones negativas indican una
distribucin platicrtica (excesivamente baja o plana).
Otra opcin ms objetiva que la anterior es la utilizacin de pruebas estadsticas
para comprobar la normalidad. Entre las principales estn las pruebas de
Kolmogorov-Smirnov (y la correccin de Lilliefors) y de Shapiro Wilks. Ambas
pruebas son realizadas por la mayora de los paquetes estadsticos
especializados y se asume normalidad cuando el valor de probabilidad
obtenido sea mayor al valor de alfa utilizado en la prueba (por ejemplo, 0.05).
La prueba de Kolmogorov-Smirnov requiere ingresar el promedio y la
desviacin estndar de los datos.
Mario Briones 2013
22
Ejercicio: descargue el archivo en la direccin
http://fichero.veterinariaudec.cl/webmbriones/parasitos.xls (recuento de
parsitos gastrointestinales en necropsia parasitaria) y determine si puede
asumir que estos datos pertenecen a una distribucin normal. Efecte este
diagnstico utilizando los datos originales y transformados a logaritmo base 10.
Utilice el software INFOSTAT que puede descargar desde:
http://fichero.veterinariaudec.cl/webmbriones/infostat.exe
En Infostat, los test de Kolmogorov-Smirnov y Shapiro Wilks se encuentran en
la opcin ESTADISTICAS >> INFERENCIA BASADA EN UNA MUESTRA.
Qu se puede hacer, desde un punto de vista estadstico, cuando los datos
cuantitativos no muestran normalidad en la distribucin?
En la prctica hay dos opciones. Una es utilizar mtodos estadsticos no
paramtricos (ver captulo XI en este apunte), los cuales no requieren la
especificacin de distribucin. Otra solucin es la transformacin de escala de
los datos. Las principales transformaciones que se utilizan en la estadstica
biolgica son la transformacin logartmica, la raz cuadrada y la
transformacin de arco seno.
La transformacin logartmica tiene utilizacin especialmente en recuentos,
como por ejemplo, recuentos celulares, donde los valores son muy grandes,
muchas veces de millones y hay gran discontinuidad entre ellos. La distribucin
en este tipo de datos es generalmente muy asimtrica, con cola derecha. El
logaritmo base 10 del valor original, usualmente logra llevar estos datos a una
distribucin de forma aproximadamente normal.
La transformacin de raz cuadrada, en la prctica
1 + = X X
(FORM. 2.8),
tiene un resultado similar.
La transformacin de arcoseno, tambin llamada de Bliss, se usa cuando los
valores medidos para una variable son porcentajes. Por ejemplo, una muestra
de valores de motilidad espermtica en toros (porcentaje de espermatozoos
mtiles). En este caso, la distribucin de los datos tender a no ser normal, lo
cual puede corregirse con la transformacin de arcoseno.
Se define como:
p p arcsin = FORM. 2.9
En la prctica, consiste en extraer el seno inverso a la raz cuadrada de la
proporcin original.
En una planilla como Excel u OpenOffice, la implementacin de la frmula es
=ASENO(RAIZ(X))*180/PI(), donde X es la proporcin de inters (no el
porcentaje).
Mario Briones 2013
23
En Internet, lea en http://pareonline.net/getvn.asp?v=8&n=6, para mayor
informacin sobre transformaciones de datos.
Mario Briones 2013
24
III. Error estndar de la media.
Variables cuantitativas:
Muchos muestreos tienen como objetivo estimar uno de los ms importantes
parmetros de la poblacin: la media aritmtica o promedio.
El promedio de una variable cuantitativa es su principal medida de tendencia
central o de posicin, que indica el valor tpico de la variable. Por ejemplo en
el lenguaje coloquial no estadstico, cuando se quiere citar el valor
representativo de una variable, generalmente se cita el promedio. En el mbito
de la estadstica, tambin el promedio es un importante descriptor y seala un
valor representativo de la variable.
El promedio es un estimador insesgado de la media poblacional, ya que tiene
una distribucin alrededor de este parmetro.
El razonamiento es el siguiente: si una variable tiene distribucin normal, al
tomar una muestra en una poblacin de gran tamao (infinito), la mitad de los
individuos o valores de la muestra tender a estar sobre y bajo la media
poblacional, respectivamente (esto es especialmente verdadero cuando el
muestreo es con reposicin, es decir, cuando una vez tomado un individuo y
registrado el valor para las variables de inters, el individuo es devuelto a la
poblacin y existe la posibilidad de que vuelva a ser seleccionado; en la
prctica, si la poblacin es cercana a un tamao infinito, la probabilidad no se
altera de modo notorio en un muestreo sin reposicin). Lo anterior quiere decir
que cada vez que se toma un elemento de esa poblacin, la probabilidad de
tomar un valor mayor o menor que es aproximadamente 0,5 en ambos casos.
Por lo tanto, es fcil comprender que el promedio resultante en una muestra
tiene, a su vez, un 50% de probabilidades de ubicarse por encima o por debajo
de la media poblacional. En la siguiente direccin de Internet se encuentra un
applet Java que muestra cmo se distribuyen tanto la media de la muestra como
otros estimadores:
http://onlinestatbook.com/stat_sim/sampling_dist/index.html
En este applet se puede comprobar una interesante afirmacin respecto de la
distribucin muestreal de la media: esta distribucin siempre ser
aproximadamente normal incluso cuando la distribucin de origen no sea
normal (explorar en el applet las opciones de distribucin uniforme y asimtrica
(skewed).
Como resultado de lo anterior, se desprende que la media de la muestra es una
variable, ya que puede tomar diferentes valores; diferentes muestras de un
mismo tamao n tendrn promedios con valores que fluctan alrededor de una
misma media poblacional. Esta distribucin, sobre todo en las muestras
grandes, tiene una forma aproximadamente normal, con una media igual a y
Mario Briones 2013
25
una desviacin estndar o unidad de dispersin igual al error estndar de la
media. La frmula del error estndar de la media es:
n
EEM
o
=
FORM. 3.1
La expresin 3.1 corresponde cuando la muestra es de gran tamao y la
desviacin estndar calculada en los datos pueda considerarse como igual a la
desviacin estndar de la poblacin (es decir, la desviacin estndar de la
poblacin puede considerarse conocida).
n
s
EEM =
FORM. 3.2
La frmula 3.2 corresponde cuando la muestra es de pequeo tamao y la
desviacin estndar de la poblacin es desconocida (el valor de s calculado en
la muestra es slo un estimador de sigma)
Claramente, si el tamao de la muestra es mayor, esta dispersin es menor. Es
decir, el promedio obtenido tiene menos error.
Variables cualitativas
Cuando la variable de inters est expresada en porcentaje (distribucin
binomial), el razonamiento es similar. El valor de inters de la muestra es
normalmente la proporcin de una de las categoras, por ejemplo t (valor
poblacional). Por lo tanto, la muestra, mediante el descriptor p, proporciona un
estimador puntual. La distribucin de este estimador alrededor del valor
poblacional sigue una distribucin aproximadamente normal, con una
desviacin estndar igual a:
n
pq
EEM = FORM. 3.3
donde p es la proporcin de xitos (categora de inters y q es 1-p)
Intervalos de confianza para la media
Este error estndar proporciona una estimacin de la inexactitud del promedio
como estimador de la media poblacional. A la vez, proporciona la base para
Mario Briones 2013
26
definir un estimador de intervalo para la media poblacional, con una
probabilidad determinada
Variables cuantitativas:
Si el error estndar es la unidad de dispersin en la distribucin de la media,
entonces, si la desviacin estndar es conocida (sigma es conocida), un intervalo
de confianza para la media poblacional estar construido por el error estndar
multiplicado por el valor de z que delimite un rea complementaria con el valor
de alfa (alfa: rea de la curva fuera del intervalo). Por ejemplo, para un intervalo
de confianza de 95% de dos colas, el valor de z es 1,96.
IC:
n
z X
o
o 2 /

FORM. 3.4
Cuando la desviacin estndar no es conocida por haberse determinado en una
muestra de pequeo tamao, el intervalo de confianza sustituye el valor de z
por el valor respectivo de t:
IC:
n
s
t X
gl

2 / o
FORM. 3.5
Claramente, en el segundo caso, el valor de t deber determinarse con el valor
de alfa y los grados de libertad correspondientes.
Variables cualitativas binomiales:
Para una variable con distribucin binomial, el intervalo de confianza se
construye:
IC:
n
pq
z p
2 / o
FORM. 3.6
Los intervalos de confianza para la media son, en realidad, inferencias, en las
cuales a partir de los datos observados en la muestra, se hace una aseveracin
sobre un parmetro de la poblacin (es decir, a partir de algo observado se hace
una conclusin sobre algo no observado). Como esta inferencia no puede ser
hecha con una exactitud absoluta (100%), se admite un valor de alfa, como
mximo error admisible, por ejemplo, 5%.
Intervalos de confianza de una cola
Existen muchas oportunidades en las que el lmite de confianza de la media
poblacional es importante slo hacia uno de los lados de la distribucin. Esto
Mario Briones 2013
27
puede observarse, por ejemplo, cuando en una bolsa de alimento concentrado
donde se declara un nivel de un nutriente como menor o igual a X o bien
mayor o igual a X.
En estos casos, la seguridad acerca de la inferencia sobre la media poblacional
no importa por igual en los dos sentidos y la probabilidad de cometer un error
grave (alfa) se concentra en una sola cola de la distribucin.
De acuerdo con lo anterior, esta concentracin de alfa en una sola cola, cambia
el valor crtico, tanto de z como de t. En las planillas Excel y Open Office este
valor puede calcularse con la funciones DISTR.NORM.ESTAND.INV, para z
(ver hoja distribucin normal estndar) y con la funcin DISTR.T.INV en el caso
de los valores de t. En este ltimo caso, la funcin devuelve el valor de t de dos
colas para el alfa indicado y de una cola para el valor de alfa dividido por 2 (por
lo tanto, para obtener el valor de t de una cola para alfa 0,05 se debe ingresar un
valor de alfa de 0,10.
Ejemplo: suponga que con una muestra de 35 salmones de 1 ao de edad se ha
obtenido un peso promedio de 1520 grs., con una desviacin estndar de 185
grs. El error estndar de la media es 31,27 grs.
Con un tamao de muestra como el anterior, que puede ser calificado de
grande, se pueden utilizar tanto el valor de z (1,96) o un valor de la
distribucin de t para determinar la magnitud del intervalo. Lo ms aconsejable
es utilizar el valor de t, ya que aunque en la prctica habr una diferencia muy
pequea, esta ltima distribucin asegura el nivel correcto de alfa.
La funcin DISTR.T.INV(0,05;34) entrega un valor crtico de 2,03 y por lo tanto
el intervalo de confianza es: 2,03 x 31,27= 63,5. El intervalo podra representarse
de la siguiente manera: 1456,5 < < 1583,5, lo que significa que con un 95% de
confianza, el promedio de la poblacin de referencia est entre 1456,5 y 1583,5
grs.
Para la misma muestra, un lmite de confianza superior significara que se
estara asegurando, con la confianza elegida, que el valor promedio tiene como
mximo un determinado valor en la poblacin, sin importar el valor mnimo
que pudiera tener.
En este caso, para alfa 0,05, la funcin es DISTR.T.INV(0,1;34)= 1,69. Por lo
tanto, el intervalo es 52,9 y se puede expresar: < 1573 grs. Es decir, con un
95% de confianza, el promedio de la poblacin de referencia es menor que 1573
gramos.
Mario Briones 2013
28
IV. DETERMINACION DE TAMAO DE MUESTRA PARA
DESCRIBIR UNA VARIABLE.
Antes de tomar una muestra, a partir de la cual se harn inferencias sobre una
poblacin, es indispensable calcular el tamao mnimo que esa muestra para
que las inferencias sean de buena calidad. El tamao de la muestra determina el
error estndar de la media, de modo que la manera lgica de determinar un
tamao mnimo es fijando de antemano el error admisible de en la estimacin
del promedio. De esta manera, la ecuacin del intervalo de confianza es la
partida del proceso (ver FORM. 3.4 y 3.6)
Para una variable cuantitativa.
El intervalo de confianza para la media de una poblacin, a partir de la media
muestreal ya fue definido:
IC=
n
z X
P
o
FORM. 4.1
El error o imprecisin del promedio es igual a la magnitud del intervalo de
confianza y puede hacerse igual a una magnitud L.
n
z L
P
o
= FORM. 4.2
Si nos damos una cantidad para L, definida como error admisible, entonces se
podra despejar n de la siguiente manera:
2
2 2
L
z
n
P
o
= FORM. 4.5
Si el intervalo de confianza es de 95%, entonces se puede aproximar z
P
1.96 a 2.0
y el tamao mnimo de muestra ser:
2
2
4
L
n
o
= y para un intervalo de confianza d 99%,
2
2
6 . 6
L
n
o
=
Donde o
2
es la varianza conocida de la variable y L
2
el error admisible,
expresado en unidades de medicin y elevado al cuadrado.
Mario Briones 2013
29
Esta expresin implica dos hechos que se deben analizar al calcular el tamao
mnimo de una muestra:
1. La varianza de la variable a muestrear se asume conocida. Esto significa
que debe haber una estimacin de buena calidad de la dispersin de la
variable que est siendo muestreada. Parece paradojal, pero es la nica
manera de obtener el tamao mnimo. Esta estimacin de la varianza
puede venir de la literatura, de trabajos previos, de una muestra piloto o
de una base de datos reunida previamente.
2. El error admisible es una cantidad que depende enteramente del balance
entre la precisin que se quiere obtener y el costo que esta precisin
tendr (en nmero de unidades a muestrear).
Ejemplo: suponga que debe tomar una muestra para determinar el peso
promedio de los salmones en una jaula, al momento de la cosecha. La
desviacin estndar del peso de estos peces al momento de la cosecha, por
antecedentes previos, se estima en 0.6 kilos y se quiere determinar el tamao
con una precisin de 0.05 kilos (50 gramos). El tamao mnimo es:
576
0025 . 0
44 . 1
05 . 0
6 . 0 4
2
2
= =

= n
Si 50 gramos es un error admisible demasiado bajo (demasiada precisin) y 576
peces es una muestra demasiado cara de tomar, se pueden explorar precisiones
de 70 y 100 gramos. En estos dos casos, los tamaos mnimos son 294 y 144,
respectivamente. Muchas veces es conveniente explorar varias magnitudes para
el error y producir un grfico que ayude a tomar la decisin, que ser siempre
un compromiso entre precisin y costo del muestreo.
Figura: relacin entre error admisible, nivel de alfa (0,05 y 0,01) y tamao de la
muestra, para el ejemplo del texto (los tamaos explorados fueron 0,05; 0,075;
0,01; 0,0125 y 0,015.)
0
200
400
600
800
1000
0 0,05 0,1 0,15 0,2
error admisible (en kilos)
t
a
m
a

o

d
e

m
u
e
s
t
r
a
0,01
0,05
Mario Briones 2013
30
En la figura anterior se puede ver que el nivel de alfa tiene un grado de
influencia sobre el tamao estimado de muestra pero que la variable ms
importante es el error admisible, para el cual siempre habr un punto de
inflexin que aumentar mucho el tamao, para una pequea reduccin en
error admisible.
Los clculos anteriores muestran claramente que el tamao mnimo es un
balance entre exactitud y costo del muestreo y que al aumento en la exactitud
conlleva un aumento radical en el costo.
Determinar el tamao de muestra es muy sencillo de implementar en una
planilla Excel. Sin embargo, existen numerosas pginas de Internet y
aplicaciones descargables que permiten efectuar el clculo de modo an ms
sencillo.
Para una variable binomial.
En el caso de una variable binomial, la situacin es exactamente la misma; se
debe partir desde la frmula del intervalo de confianza y despejar el n de
acuerdo a la magnitud admisible de error.
IC=
n
pq
z p
P

FORM. 4.6
Por lo tanto, el tamao mnimo de muestra, despejando n es:
2
2
L
pq z
n
P

= FORM. 4.7
Las expresiones, con un 95 y 99% de confianza son las siguientes,
completamente homlogas a las expresiones para una variable cuantitativa:
2
% 95
4
L
pq
n

=
FORM. 4.8 y
2
% 99
6 . 6
L
pq
n

=
FORM. 4.9
Donde p y q son las proporciones estimadas a priori para la variable (por
ejemplo, proporciones estimadas de positividad y negatividad) y L es el error
admisible (tambin expresado como proporcin).
En muchas ocasiones, el tamao de la muestra puede ser una cantidad muy
grande para una poblacin de pequeo tamao (proporcionalmente). Incluso,
puede darse el caso de que el tamao de la muestra estimado a priori sea ms
Mario Briones 2013
31
grande que la poblacin disponible. En todos estos casos, es posible ajustar el
tamao obtenido, sobre la base del tamao poblacional disponible (n
1
ser el
tamao obtenido con la primera expresin, n
2
el tamao ajustado y N el tamao
de la poblacin disponible.
N
n
n
n
1
1
2
1+
=
FORM.4.10

Ejemplo. Suponga que debe muestrear un criadero de caballos para determinar
la presencia de una enfermedad infecciosa, que por antecedentes de otros
planteles, a nivel nacional o en la literatura, tiene una positividad estimada a
priori de un 35%. El plantel de inters tiene 900 caballos. Se acepta un error de
3% en la estimacin y sta se har con un 95% de confianza.
1012
0009 . 0
91 . 0
03 . 0
65 . 0 35 . 0 4
2
1
= =

= n
El tamao de muestra ajustado es:
477
124 . 2
1012
900
1012
1
1012
2
= =
+
= n
Un pgina sencilla (en ingls) para efectuar el clculo online para una variable
binomial es la siguiente:
http://www.raosoft.com/samplesize.html
En esta pgina se introducen los porcentajes NO LAS PROPORCIONES y tiene
ajuste para el tamao de poblacin. La diferencia que muestra con el clculo
manual del ejemplo anterior se debe enteramente al redondeo de cifras.
Mario Briones 2013
32
V. COMPROBACION ESTADISTICA DE HIPTESIS.
Introduccin y comprobacin de hiptesis sobre un promedio
Las pruebas de hiptesis son una herramienta fundamental de la investigacin
cientfica en general y las Ciencias Veterinarias no son una excepcin.
El conocimiento cientfico avanza sobre la base de la experimentacin, que es
un medio de proporcionar evidencia para confirmar o rechazar ideas
(hiptesis). El mtodo cientfico es una manera organizada de razonamiento
que permite, bsicamente, generar nuevo conocimiento a partir del
conocimiento antiguo. Este es un proceso lgico, ya que normalmente uno de
los principales
Cuadro 5.1: resultados posibles en la toma de decisiones en una prueba
estadstica de hiptesis.
Posibilidades de la hiptesis en la
poblacin
Hiptesis Falsa Hiptesis
Verdadera
Decisiones
posibles sobre
la hiptesis
Aceptar
Error tipo I Correcto
Rechazar
Correcto Error tipo II
El cuadro anterior determina todos los posibles resultados en una
comprobacin estadstica de hiptesis, por ejemplo, de una hiptesis nula. Por
supuesto que a cualquier investigador le interesa tener la menor probabilidad
de cometer algunos de los dos tipos de error posibles. Estos dos tipos de error
no tienen la misma importancia o gravedad. Un error de tipo II es menos grave
que un error de tipo I. Esto es debido a las consecuencias que se derivan de la
decisin tomada sobre la hiptesis. Aceptar una idea falsa como verdadera es
definitivamente una decisin que acarrea consecuencias graves, mucho ms
graves que la decisin de rechazar una hiptesis verdadera. En el primer caso,
es posible que se produzcan fallas en sistemas, errores en procesos y
definitivamente, la investigacin puede tomar un rumbo equivocado a partir de
un error de tipo I. En el segundo caso, tambin es un error pero que no
compromete necesariamente el desarrollo futuro de un sistema o modelo.
Un ejemplo podra ser el siguiente: suponga que una industria farmacutica
veterinaria trabaja desarrollando una nueva vacuna con el objetivo de aumentar
Mario Briones 2013
33
la proteccin contra una enfermedad (normalmente en una situacin como esta
hay una vacuna antigua en uso). Esto significa que existe una idea (hiptesis)
que dice que la nueva vacuna es mejor que la antigua (lo contrario sera que es
igual o peor). Si esta vacuna es realmente superior pero el experimento o
prueba de comparacin con la antigua no logra demostrarlo, se habr cometido
un error de tipo II; seguir aplicndose la vacuna antigua, algunos animales que
pudieron haberse protegido no lo estarn y sern afectados por la enfermedad y
habrn prdidas econmicas. Eventualmente, si el equipo de investigadores
persiste en la idea y realiza nuevos experimentos, es posible que finalmente se
reconozca la superioridad de la nueva vacuna, pero se habr perdido tiempo,
dinero y algunos animales en la poblacin.
Por otra parte, si en realidad la vacuna es igual o peor que la antigua (lo
contrario de la idea del laboratorio), pero en el experimento y a la luz de los
resultados los investigadores toman la decisin de aceptar la idea novedosa
(que la nueva vacuna es mejor), estarn cometiendo un error de tipo I. Las
consecuencias de esto pueden ser muy graves. De partida, el laboratorio
invertir dinero en cambiar el antiguo proceso de fabricacin para iniciar la
produccin de la vacuna nueva. Generalmente stos son cambios muy costosos
de infraestructura, equipamiento, personal, etc. (recuerde. la vacuna nueva
no es mejor, incluso, podra ser peor). Tambin habr resultados negativos en
el terreno, cuando los veterinarios y productores, estimulados por la
propaganda del laboratorio, por el cctel y los regalos promocionales asociados
al lanzamiento del nuevo producto, se cambien de vacuna, si esta es peor
entonces habr una mayor mortalidad de animales que la que haba antes.
Un caso real muy interesante de analizar en el cual se pueden observar los
efectos de los errores en la comprobacin de hiptesis es el experimento de
Pons y Feischman sobre la fusin en fro (Buscar en Google).
Dada la diferente gravedad de ambos tipos de error, la estadstica de la
comprobacin de hiptesis utiliza distintas probabilidades mximas para evitar
cometerlos. La probabilidad de cometer un error de tipo I se denomina ALFA y
generalmente su valor mximo en la investigacin biolgica se establece en 0,05
0,01 (5% y 1%, respectivamente). La probabilidad de cometer un error de tipo
II se denomina BETA y generalmente se establece en un valor mximo de 0,2
0,1 (20% y 10%, respectivamente).
En el caso del error de tipo II, en la realizacin de un experimento, es ms
comn referirse a esta probabilidad como el valor opuesto, es decir, la
probabilidad de poder demostrar un efecto (respaldado por los datos de la
muestra), si es que este efecto realmente existe en la poblacin. Esto se
denomina PODER DE PRUEBA y es igual a 1-BETA. Por lo anteriormente
expuesto, es comn que en la experimentacin biolgica el poder de prueba se
defina en 80 90%.
El valor de ALFA es fcil de entender, por ejemplo, en el concepto del intervalo
de confianza. Por ejemplo, cuando se construye un intervalo de confianza de
Mario Briones 2013
34
95% para la media poblacional, se espera que la aseveracin falle en un 5% de
las veces. Es decir, que se espera que se cometa un error de tipo I en un 5% de
las veces (el error se producir cuando la media poblacional no se encuentre
dentro del intervalo construido, es decir, cuando se acepte como verdadera una
idea falsa).
Pruebas estadsticas de hiptesis.
Las pruebas estadsticas de hiptesis se efectan siempre formulando dos
hiptesis, una que ser llamada hiptesis alterna (normalmente la idea nueva
del investigador) y la otra se denominar hiptesis nula (la hiptesis a probar)-
En general, en el contexto del desarrollo de la ciencia (construccin de
conocimiento nuevo a partir del conocimiento ya establecido), puede decirse
que las hiptesis nula y alterna representan:
Hiptesis nula: igualdad, conocimiento establecido, tranquilidad, inmovilidad,
lo conocido, lo seguro.
Hiptesis alterna: desigualdad, conocimiento nuevo, intranquilidad,
movilidad, lo desconocido, lo inseguro.
Interpretando lo anterior en relacin con los errores de tipo I y tipo II, se puede
decir que la hiptesis nula se abandona cuando la probabilidad de cometer un
error de tipo I es menor al valor de alfa elegido para la prueba (0,05 0,01).
Los pasos de una comprobacin estadstica de hiptesis
I. DATOS
En la comprobacin de hiptesis es elemental la recoleccin de datos, a la forma
de muestras tomadas en la poblacin de inters. Generalmente, el parmetro
poblacional de inters es la media poblacional (por ejemplo, comparar la
efectividad promedio de la vacuna antigua con el promedio de efectividad de la
vacuna nueva). Obviamente, es muy importante la distribucin de la variable
de inters, ya que esto permite determinar el error con que se estima este
parmetro en los dos grupos del experimento. La mayora de las pruebas
comunes de hiptesis, como la prueba de t de Student y el Anlisis de Varianza
se basan en las propiedades de la distribucin normal y deben asumir que sta
es la distribucin de los datos. Cuando los datos no tienen distribucin normal,
las soluciones estadsticas son a) evaluar la transformacin de escala (ej.
Transformacin logartmica) o b) utilizar estadstica no paramtrica. En este
punto de la prueba de hiptesis es importante que los datos sean tomados
adecuadamente, de manera aleatoria y sean representativos de la poblacin de
inters. Debe describirse el procedimiento de toma de datos y entregarse, junto
Mario Briones 2013
35
con los principales descriptores de tendencia central y de dispersin,
diagnsticos de normalidad de los datos.
II. SUPUESTOS.
Normalmente, los supuestos son tres:
1) Supuesto sobre la distribucin normal de los datos: Significa que, sobre la
base de los diagnsticos efectuados, se acepta que la distribucin de la variable
en la poblacin tiene forma normal o aproximadamente normal.
2) Supuesto sobre el conocimiento de la varianza de la poblacin: Este supuesto
determina que hay dos alternativas. Se puede asumir que la varianza (y por lo
tanto la desviacin estndar) es conocida, cuando el tamao de la muestra es
suficientemente grande como para el valor muestreal de este descriptor pueda
ser considerado un buen estimador de la varianza poblacional (o
2
). Tambin
puede suceder que la muestra sea pequea pero que se utilice en la prueba un
valor de varianza obtenido previamente en una muestra grande y que pueda
considerarse como un buen estimador de la varianza poblacional. Este supuesto
determina la distribucin del estadstico de prueba.
3) Supuesto sobre las colas de la hiptesis: Las hiptesis pueden formularse de
una cola o de dos colas, de modo equivalente a los intervalos de confianza. En
la prctica, cuando en la formulacin de la hiptesis no est claro a priori el
sentido o signo de la diferencia propuesto en la hiptesis alterna, la hiptesis es
de dos colas (es decir, la hiptesis nula ser falsa con valores positivos y
negativos). En caso de que en el establecimiento de la hiptesis interese una
diferencia en un solo sentido, lo ms lgico es formular una hiptesis alterna de
una cola. Un ejemplo prctico puede ser el siguiente.
III. HIPOTESIS
El tercer paso de la prueba es la formulacin de las hiptesis nula y alterna. Por
rigor matemtico deberan formularse utilizando signos matemticas pero
tambin es posible formularlas en palabras.
Por ejemplo, suponga que quiere afirmar que la frecuencia cardaca en potrillos
recin nacidos es menor que cierta valor X.
Mario Briones 2013
36
En smbolos, para una hiptesis de dos colas:
H
0
: = X
H
A
: X FORM. 5.1
En palabras, hiptesis de dos colas:
Hiptesis nula: El promedio de frecuencia cardaca en potrillos recin nacidos
es igual a X
Hiptesis alterna: El promedio de frecuencia cardaca en potrillos recin
nacidos es distinto de X.
En smbolos, hiptesis de una cola:
H
0
: X
H
A
: < X FORM. 5.2
En palabras, hiptesis de una cola:
Hiptesis nula: el promedio de frecuencia cardaca en potrillos recin nacidos es
mayor o igual que X.
Hiptesis alterna: el promedio de frecuencia cardaca en potrillos recin nacidos
es menor que X.
IV. ESTADSTICO DE PRUEBA
El estadstico o estadgrafo de prueba es un nmero calculado con los datos
disponibles y que ser utilizado para determinar si la hiptesis nula es
verdadera o falsa. Son estadsticos de prueba los valores z, valores t, valores de
F y otros. Este valor es esencial, ya que son el criterio para juzgar si la hiptesis
es verdadera o falsa. En trminos simples, generalmente consiste en una
diferencia estandarizada sobre la base de su desviacin estndar.
V. DISTRIBUCION DEL ESTADISTICO DE PRUEBA
Este paso implica decidir que forma de distribucin tiene el estadgrafo
calculado a partir de los datos. Esta distribucin, por ejemplo, puede ser
normal, unitaria y con desviacin estndar igual a uno.
VI. REGLA DE DECISION
Consiste en definir, para la distribucin del estadstico de prueba, aquella
regin o rea, de un rea igual a alfa, llamada regin crtica, que consiste en el
conjunto de valores que al ocurrir producen que la hiptesis nula sea
rechazada. Por esta razn tambin se le denomina zona de rechazo de la
hiptesis nula. Esta regin puede ubicarse en ambos extremos de la
distribucin (hiptesis de dos colas) o en uno solo de stos (hiptesis de una
Mario Briones 2013
37
cola). Bsicamente significa que el estadgrafo de prueba tomar diferentes
valores y que hasta cierto nivel esos valores estarn producidos simplemente
por azar. A partir de cierto punto o valor crtico definido en trminos de
probabilidad o rea bajo la curva, los valores que tomar el estadstico de
prueba se considerar que ya no son producto del azar. Normalmente en
bioestadstica el tamao de esta rea ser de 0,05 0,01 del total del rea,
repartida como se dijo anteriormente en una o en ambas colas.
La zona crtica est delimitada por el o los valores crticos.
VII. ESTADISTICO DE PRUEBA CALCULADO
Consiste simplemente en las operaciones que implica el clculo del estadstico
de prueba.
VIII. DECISION ESTADISTICA
Sobre la base del valor del estadstico de prueba y su ubicacin en la
distribucin, consiste en decidir si la hiptesis nula es aceptada o rechazada.
IX. CONCLUSION
Es una frase en la cual se establece si se pudo o no comprobar la hiptesis
propuesta por el investigador (hiptesis alterna). No se mencionan las hiptesis
estadsticas sino la idea central de la investigacin, normalmente asociada al
valor de alfa. Si la hiptesis nula no pudo ser rechazada, normalmente se indica
P0,05. En caso de haber rechazado la hiptesis nula, normalmente se indica
P<0,05. Esto da a entender, que slo se rechaza la hiptesis nula si el valor del
estadstico de prueba tiene una probabilidad menor a alfa.
Prueba de hiptesis sobre un promedio poblacional.
Suponga que en una especie de mamfero poco conocida, en la cual ya se ha
determinado que la temperatura corporal de los adultos es de 38,7 grados en
promedio, los investigadores comienzan a recoger informacin que les hace
suponer que la temperatura corporal de los individuos juveniles es diferente de
en los adultos. Esto les permite formular la hiptesis correspondiente que
podra escribirse como: En los juveniles de la especie X, la temperatura
corporal es distinta de la temperatura de los adultos. El procedimiento de la
prueba de hiptesis implica que asegurar esto ltimo implica rechazar una
hiptesis nula que dice que la temperatura promedio es igual a 38,7 grados (la
temperatura conocida y aceptada para los adultos). As planteada la hiptesis,
tiene dos colas, ya que la hiptesis nula ser falsa si la temperatura de los
juveniles es mayor o menor que la de los adultos (distinta en ambos casos).
Tambin la hiptesis se podra plantear de una cola, sobre todo si se ha reunido
Mario Briones 2013
38
evidencia con repetidos controles en la poblacin juvenil que muestran
consistentemente una temperatura superior a la de los adultos. En este ltimo
caso, la hiptesis nula ser falsa slo si la diferencia implica una mayor
temperatura en los jvenes.
DATOS.
Se toma una muestra de la temperatura de individuos juveniles, en condiciones
de reposo y clnicamente sanos. El tamao de la muestra es de 45 individuos,
arroja un promedio de temperatura de 38,9 y una desviacin estndar de 0,73
grados.
SUPUESTOS.
Suponga que del examen de la estadstica descriptiva de los datos se puede
asumir que su distribucin es aproximadamente normal. Tambin, dado el
tamao de la muestra, puede asumirse que la desviacin estndar calculada en
los datos es un estimador confiable de la desviacin estndar poblacional (es
decir o= 0,73). Respecto de las colas de la hiptesis, asumiremos que buscamos
demostrar que la temperatura de los juveniles es mayor que 38,7 grados.
HIPOTESIS.
En palabras:
Hiptesis nula: la temperatura de los juveniles es menor o igual a 38,7 grados
Hiptesis alterna: la temperatura de los juveniles es mayor a 38,7 grados
En smbolos:
H
0
: 38,7
H
A
: > 38,7
ESTADISTICO DE PRUEBA:
El estadstico de prueba debe ser una unidad estandarizada de medicin que
represente la distancia entre la media hiptetica (
0
) y la presentada en la
evidencia, de una manera que refleje la esperanza o expectativa de esta
diferencia. Hay que tener en cuenta que si la hiptesis nula es verdadera,
muestras tomadas aleatoriamente en la poblacin de inters, tienen un
diferencia esperada igual a cero y una desviacin estndar igual a 1.
El estadstico de prueba es:
n
X
z
o

0

=
FORM. 5.3
Mario Briones 2013
39
El denominador del estadgrafo indica claramente que la unidad de dispersin
de la distribucin de las diferencias entre el promedio muestreal y la media
poblacional es el error estndar de la media.
DISTRIBUCION DEL ESTADISTICO DE PRUEBA:
Si la hiptesis nula es verdadera, este estadgrafo tiene distribucin normal
estndar, con media igual a cero y desviacin estndar igual a 1. Esto, debido a
que se conoce la desviacin estndar de la poblacin (o se asume conocida).
REGLA DE DECISION:
Si definimos alfa igual a 0,05 (un 5% mximo de probabilidad de cometer un
error de tipo I, entonces se debe buscar el valor de z (valor crtico) que demarca
la zona crtica en la distribucin de z, donde la hiptesis nula ser falsa. En
otras palabras, el valor crtico que sealar que valor mximo puede tener la
diferencia entre el promedio hipottico
0
y el de la muestra, para que sea
producto slo del error. El valor de z que pone lmite a esta rea es, en el caso
de una hiptesis de dos colas, 1,96. En el caso de hiptesis de una cola, el valor
es 1,64 (una cola izquierda) +1,64 (una cola derecha).
Al examinar las hiptesis nula y alterna, se puede observar que en este caso se
trata de una cola superior (la hiptesis nula ser falsa a partir de valores altos
de z, es decir, diferencias positivas de gran tamao entre la media hipottica y
la media de la muestra).
En palabras, la regla de decisin podra decir: se rechazar la hiptesis nula si
el valor del estadgrafo calculado es mayor que +1,64.
ESTADISTICO DE PRUEBA CALCULADO:
83 , 1
109 , 0
2 , 0
45 73 , 0
7 , 38 9 , 38
= =

= z
DECISION ESTADISTICA
Obviamente, en este caso, la decisin es rechazar la hiptesis nula ya que el
valor del estadstico de prueba calculado es mayor que el valor crtico de +
1,64).
CONCLUSION
Mario Briones 2013
40
La conclusin sera que los datos disponibles proporcionan evidencia suficiente
para asegurar que la temperatura de los individuos juveniles es mayor (P<0,05)
que la de los adultos.
ANEXOS
Es importante observar lo siguiente: el punto central para rechazar la hiptesis
nula es que el valor del estadgrafo de prueba supere un valor llamado crtico,
que es un valor tope que podra obtenerse por error de muestreo. En este caso
que el valor del estadstico de prueba es de 1,82 y en cualquier otro caso en que
se haya obtenido un valor mayor o menor de que el valor crtico, es posible de
una manera prctica, calcular la probabilidad exacta de que este estadgrafo
haya sido obtenido por error.
Esta determinacin consiste en encontrar el valor del rea hacia los extremos de
la distribucin, a partir del valor crtico.
En el ejemplo anterior, utilizando la funcin DISTR.NORM en Excel u Open
Office, la cantidad de rea (probabilidad) bajo la curva normal estndar, para
valores mayores que 1,83, es de 0,0336. Esto indica que el valor observado o
superiores, tienen una probabilidad igual a 0,0336 de obtenerse por error, lo
cual, con un nivel de alfa de 0,05, invalida la hiptesis nula.
Es interesante observar que si la hiptesis hubiese sido planteada de dos colas,
no habra sido posible rechazar la hiptesis nula, debido a que el valor de 1,83
estara en la zona de aceptacin (entre -1,96 y + 1,96).
Al cambiar el supuesto acerca del conocimiento de la varianza de la poblacin,
y asumir que el valor utilizado es slo un estimador de sta, entonces el
estadstico de prueba habra tenido distribucin de t de student, con n-1 grados
de libertad. Para un alfa 0,05, 45 observaciones y una cola de hiptesis, el valor
de t es 1,68. El valor de dos colas es 2,01.
Para encontrar el valor de t de dos colas en Excel, la funcin es DISTR.T.INV.
Para valores de una cola, utilice una probabilidad igual al doble de la deseada
en el valor de alfa.
Comparacin de dos promedios o proporciones
Mario Briones 2013
41
Uno de los procedimientos ms bsicos de la inferencia estadstica es la
comparacin de los promedios de dos grupos, normalmente experimentales.
Si la distribucin de la variable es normal hay dos pruebas estadsticas para
efectuar la comparacin: la prueba z y la prueba de t.
La diferencia entre ambas es que en la primera se asume que la varianza es
conocida en la poblacin, ya sea por antecedentes previos o porque el tamao
de la muestra es grande (ms de 30 observaciones en cada grupo). En la
prctica, sin embargo, es muy comn que todas las comparaciones entre
promedios sean hechas mediante la prueba de t de student, que corrige el valor
crtico segn los grados de libertad de la muestra. Las comparaciones pueden,
adems, ser hechas entre muestras independientes o muestras en pares.
Comparacin de dos promedios
La base conceptual de la comparacin de dos promedios, en cualquiera de los
casos anteriores, es la siguiente: si la hiptesis nula es verdadera (ausencia de
diferencia entre los promedios) entonces la diferencia observada en el
experimento tiene una expectativa centrada en cero y una desviacin estndar
igual al error estndar de esta diferencia. Si la hiptesis nula no se sostiene,
entonces la diferencia estandarizada entre ambos grupos ser mayor a un valor
de z de t segn la probabilidad determinada por alfa (por ejemplo 0,05)
Estadgrafo de prueba para la comparacin de los promedios de dos muestras
independientes.
Varianza conocida Varianza desconocida e
igual en ambos grupos
Varianza desconocida y
distinta en ambos
grupos
FORM. 5.4 FORM. 5.5 FORM. 5.6
Donde
FORM. 5.7
En el caso de varianza desconocida y distinta en ambos grupos, la principal
diferencia de la prueba est en el clculo de los grados de libertad (v):
Mario Briones 2013
42
2
2
2
1
2
1
2 1
2 1 ) ( ) (
n n
X X
z
o o

+

=
2
2
1
2
2 1
2 1 ) ( ) (
n
S
n
S
X X
t
P P
+

=

2 ) (
) 1 ( ) 1 (
2 1
2
2 2
2
1 1 2
+
+
=
n n
S n S n
S
P
2
2
2
1
2
1
2 1
2 1 ) ( ) (
n
S
n
S
X X
t
+

=

) 1 ( ) 1 (
1
1
2
2
2
2
1
2
1
2
2 1

|
|
.
|

\
|
+
=
n n
u
n n
n
u
n
v
FORM. 5.8
Donde
2
1
2
2
S
S
u =
FORM. 5.9
S
2
1
y S
2
2
son las varianzas de los grupos 1 y 2, respectivamente.
La comprobacin de la hiptesis nula puede hacerse con dos colas o con una
cola, lo cual significa que los valores crticos sern distintos.
Ejemplo para muestras independientes:
Los siguientes son los datos de la concentracin de nicotina en el humo de
cigarrillos con y sin filtro, con los cuales se pretende afirmar que los cigarrillos
sin filtro tienen una mayor concentracin de nicotina que los cigarrillos con
filtro:
nicotina, con
filtro 6,9 4,9 8 10,1 9,9 11 3,1 7 9,7 5,3 6,1 4,1 3,8 5,5
nicotina, sin
filtro 7,6 9,8 7,4 8,8 10,5 10,6 10,8 8,1 7,5 10,7 12 9,4
Datos:
con filtro sin filtro
promedio 6,8 9,4
varianza 6,6 2,4
n 14 12
Supuestos:
a) la variable concentracin de nicotina se distribuye normalmente en la
poblacin.
b) la varianza poblacional es desconocida (debido al tamao de la muestra),
pero se debe decidir si pueden considerarse iguales o distintas entre los
grupos. Para esto se puede utilizar la funcin estadstica PRUEBA F en
Excel u Open Office. Esta funcin requiere ingresar las dos matrices de
datos y devuelve la probabilidad de dos colas para la diferencia entre las
varianzas. En este caso la probabilidad resultante es 0,09, por lo cual se
puede asumir que son iguales, dado un valor de alfa de 0,05.
Mario Briones 2013
43
c) La hiptesis tiene una cola de rechazo, ya que se plantea que un tipo de
cigarrillo tiene un mayor contenido de nicotina que otro.
Hiptesis:
H0:
con filtro

sin filtro
> 0
HA:
con filtro

sin filtro
< 0
Estadstico de prueba: FORM. 5.5
Distribucin del estadstico de prueba:
Si la hiptesis nula es verdadera, el estadstico de prueba se distribuye como la t
de student, con n1+n2 -2 grados de libertad.
Regla de decisin:
Si alfa es 0,05, la funcin DISTR.T.INV, debe tener los siguientes componentes:
DISTR.T.INV(0,1;24), ya que como el valor que se busca es de una cola, debe
ingresarse el doble de la probabilidad (0,1) y los grados de libertad son 12+ 14
-2. El resultado es 1,71. Como la cola es izquierda, debe tener signo negativo.
Entonces, la regla de decisin puede escribirse como: se rechazar la hiptesis
nula si el valor de t calculado es menor a -1,71.
Estadstico de prueba calculado:
Paso 1, clculo de la varianza conjunta.
Paso 2, clculo del estadgrafo de prueba.
Decisin estadstica:
Dado que el estadgrafo de prueba calculado es menor que el valor crtico, se
rechaza la hiptesis nula.
Mario Briones 2013
44
67 , 4
2 ) 12 14 (
) 4 , 2 ) 1 12 ( 6 , 6 ) 1 14 ((
2 ) (
) 1 ( ) 1 (
2 1
2
2 2
2
1 1 2
=
+
+
=
+
+
=
n n
S n S n
S
P
08 , 3
12
67 , 4
14
67 , 4
) 0 ( ) 4 , 9 8 , 6 ( ) ( ) (
2
2
1
2
2 1
2 1
=
+

=
+

=
n
S
n
S
X X
t
P P

Conclusin:
Los datos disponibles permiten afirmar que los cigarrillos sin filtro tienen una
mayor cantidad de nicotina que los cigarrillos con filtro.
Para determinar la probabilidad de que el estadgrafo de prueba haya aparecido
por error de muestreo, la funcin es DISTR.T(3,08;24;1)= 0,0026 (observe que
debe entrar el valor de x, en este caso t, con signo positivo) Lo anterior indica
que la probabilidad de que el estadgrafo se haya producido por error es ms
baja que el valor de alfa y por lo tanto confirma el rechazo de la hiptesis nula.
Ejemplo de muestras en pares.
Uno de los casos ms comunes de muestras en pares es la utilizacin de un
mismo individuo sometido a dos condiciones experimentales. En la
investigacin clnica, es muy frecuente la evaluacin de sujetos antes y despus
de ser sometidos a la accin de un medicamento o tratamiento. En este caso se
trata de un auto par. Sin embargo, es la misma situacin que se produce cuando
son dos individuos que han sido emparejados por alguna variable que puede
distorsionar el resultado del experimento, como por ejemplo, la edad, la
condicin corporal, el grado de escolaridad, etc.
En el siguiente experimento se someti a 12 individuos a un tratamiento de
dieta y ejercicio para reducir su colesterol. Claramente, el mejor diseo
experimental es observar el efecto del tratamiento en el mismo individuo, ya
que las personas difieren mucho en condicin gentica, dieta, estilo de vida,
nivel de ejercicio, etc, circunstancias que pueden afectar la respuesta a un
tratamiento que pretenda reducir el nivel de colesterol. Es muy probable que
muestras independientes fallen en mostrar una diferencia atribuible al
experimento. La medicin del colesterol en un mismo individuo antes y luego
despus del tratamiento produce en cada par de observaciones un cambio que
slo ser resultado de la modificacin en la dieta.
Los valores de colesterol sanguneo (mg/dl) se encuentran en la siguiente tabla,
as como el cambio dentro de cada par (individuo)
Antes despus d
201 200 -1
231 236 5
221 216 -5
260 233 -27
228 224 -4
237 216 -21
326 296 -30
235 195 -40
240 207 -33
267 247 -20
284 210 -74
Mario Briones 2013
45
201 209 8
Observe que para reflejar la reduccin en el nivel de colesterol, se ha restado el
valor inicial al valor final. As el signo negativo refleja una baja y el signo
positivo refleja un alza en el colesterol. Tambin es posible observar que en la
mayora de los individuos el colesterol baj. Sin embargo para poder afirmar
que el tratamiento es efectivo en REDUCIR el colesterol, se necesita rechazar
una hiptesis nula que indica que el colesterol no se redujo (o que incluso
podra aumentar).
Datos:
antes despus d
promedio 244,25 224,08 -20,17
Varianza 1264,20 744,81 535,06
desv est 35,56 27,29 23,13
error est 10,26 7,88 6,68
En la tabla anterior se observan los descriptores para los valores antes y
despus del tratamiento. Sin embargo, los ms importantes son los valores de
diferencia dentro del par, ya que a este cambio apunta la hiptesis alterna.
Supuestos:
a. los valores de diferencia entre pares son una muestra aleatoria con
distribucin normal en una poblacin de pares disponibles.
b. La varianza poblacional de la diferencia entre pares es desconocida.
c. La hiptesis tiene una cola.
Hiptesis:
H0:
d
>0
HA:
d
<0
En las hiptesis se refleja claramente que el descriptor de inters es el cambio
promedio dentro los pares de observaciones.
Estadstico de prueba:
Donde
d es el promedio de las diferencias entre pares en la muestra disponible.
d

es el promedio poblacional segn la hiptesis nula (0)


Mario Briones 2013
46
d
d
s
d
t

=
d
S
es el error estndar de las diferencias en la muestra disponible.
Distribucin del estadstico de prueba:
Si la hiptesis nula es verdadera, el estadstico de prueba se distribuye como la t
de student, con n-1 grados de libertad, siendo n el nmero de pares.
Regla de decisin:
Con alfa 0,05, el valor crtico es DISTRI.T.INV(0,1;11)= 1,79, con signo negativo
dada la cola de la hiptesis. Es decir, se rechazar la hiptesis nula si el valor de
t calculado es menor a -1,79.
Estadgrafo de prueba calculado:
t=-20,17/6,68= -3,01 (ver seccin datos para el error estndar)
Decisin estadstica:
Ser rechaza la hiptesis nula
Conclusin:
Los datos disponibles permiten afirmar que el programa de dieta y ejercicio es
efectivo en reducir el colesterol
La probabilidad de que el estadgrafo se haya producido slo por error es
DISTR.T(3,01;11;1)= 0,006. Como es ms baja que el valor admitido (alfa),
confirma el rechazo de la hiptesis nula.
Comparacin de dos porcentajes o proporciones.
Cuando se dispone de porcentajes o proporciones obtenidos con dos muestras
de gran tamao, las hiptesis nula y alterna podran ser:
H0: p
1
-p
2
=0
HA:p
1
-p
2
0
El estadstico lgico para comparar las proporciones poblacionales es
2 1
p p
.
Donde
i
p
es el nmero de xitos en el grupo i, dividido por el tamao de la
muestra en el grupo i.
El error estndar de la diferencia es
2
2 2
1
1 1
) 1 ( ) 1 (
n
p p
n
p p
+

Mario Briones 2013


47
El estadgrafo de prueba es:
FORM. 5.10
Donde p
1
y p
2
son las proporciones de inters en los grupos 1 y 2,
respectivamente. Las proporciones p y q son las proporciones en el conjunto
total de observaciones (grupos 1 y 2 en conjunto). Los valores de n
1
y n
2
son los
tamaos de ambos grupos. Para las comparaciones de dos colas, los valores
crticos para alfa 0,05 y 0,01 son 1,96 y 2,57, respectivamente. Para las
comparaciones de una cola, los valores crticos para alfa 0,05 y 0,01 son 1,64 y
2,33, respectivamente.
Ejemplo:
Se realiz una comparacin de la proporcin de la proporcin de caries en
nios de dos aos, entre aquellos sometidos a intervencin (manejo preventivo)
y un grupo control no intervenido.
Datos:
Caries a la edad de 2 aos
Total N proporcin
Grupo control 36 10 0,278
Grupo intervenido 68 6 0,088
Total 104 16 0,154
Hiptesis:
H0: p1-p2>0
HA: p1-p2>0
Regla de decisin:
Sea alfa= 0,05. Como la hiptesis es de una cola, el valor crtico de z es 1,64.
Estadgrafo de prueba calculado
De acuerdo con el resultado, si la distribucin del estadgrafo calculado es
mayor que el valor crtico por lo tanto se rechaza la hiptesis nula. Por lo
Mario Briones 2013
48
|
|
.
|

\
|
+

=
2 1
2 1
1 1
n n
pq
p p
z
55 , 2
00553 , 0
19 , 0
68
1
36
1
846 , 0 154 , 0
088 , 0 278 , 0
1 1
2 1
2 1
= =
|
.
|

\
|
+

=
|
|
.
|

\
|
+

=
n n
pq
p p
z
anterior se puede concluir que el grupo intervenido, la proporcin de caries es
menor que en el grupo control.
Intervalos de confianza para la diferencia entre dos promedios o dos
proporciones.
Algo muy importante en la comparacin de dos promedios o proporciones, es
distingue entre la significancia estadstica y la significancia prctica. La
significancia estadstica consiste simplemente en una probabilidad de
ocurrencia del valor del estadgrafo, dada una hiptesis nula. Sin embargo, la
existencia de una diferencia estadstica no garantiza que esa diferencia tenga
alguna relevancia en la construccin de un modelo. Es decir, puede existir una
diferencia estadstica pero ser demasiado pequea para tener importancia. Esto
puede ser especialmente relevante en la realizacin de pruebas de campo o de
experimentos para comprobar diferencias en un proceso productivo.
Normalmente, la diferencia debera ser, en este caso, de una magnitud tal que
justifique la modificacin propuesta por el experimento.
Intervalo de confianza para la diferencia entre dos promedios:
FORM. 5.11
La magnitud E depende del conocimiento de la varianza de la poblacin (es
distinta para la prueba z y para la prueba de t de Student.
Para prueba z Para prueba de t de Student
FORM. 5.12 FORM. 5.13
En el caso de la prueba z, el valor z puede ser 1,96 2,57, segn se calcule el
intervalo de 95 99% de confianza, respectivamente. En el caso de la prueba de
t de Student, adems del valor de alfa, valor de t depender de los grados de
libertad de la prueba.
Por lo tanto, los lmites del intervalo de confianza son:
Lm. Superior:
E X X + 2 1
Mario Briones 2013
49
E x x E x x + ) ( ) ) ( 2 1
2
2 1 < ( <
1

2
2
2
1
2
1
2 /
n n
z E
o o
o
+ =
2
2
1
2
/
n
s
n
s
t E
P P
Gl P
+ =
Lm. Inferior:
E X X + 2 1
FORM. 5.14
Utilizando el ejemplo de la pgina 39, para la comparacin de dos muestras
independientes, donde la diferencia entre los dos promedios fue 6,8-9,4= -2,6; la
varianza agrupada fue de 4,67 y n
1
y n
2
fueron 14 y 12, respectivamente, un
intervalo de confianza de 95% de dos colas para la diferencia se construira de la
siguiente manera:
Paso 1: determinacin del valor de E
Observe que el valor de t corresponde a dos colas.
Paso 2: calcular los lmites del intervalo de confianza
El intervalo de confianza anterior significa que con un 95% de confianza el
verdadero valor de la diferencia entre los dos promedios est entre -4,4 y -0,9.
Intervalo de confianza para la diferencia entre dos proporciones:
La expresin es equivalente al caso de la diferencia entre dos promedios:
FORM. 5.15
Donde:
:
2 1
p p y
son las proporciones de inters en la poblacin, para el grupo 1 y para el
grupo 2.
:
2 1
p p y
son los estimadores muestreales de las proporciones de inters, para el
grupo 1 y para el grupo 2.
La magnitud E es equivalente a la expresin para las variables cuantitativas:
Mario Briones 2013
50
2
2 2
1
1 1
2 /
n
q p
n
q p
z +
o
E p p p p E p p + ) ( ) ) (
2 1 2 2 1
< ( <
1
E E + ) 6 , 2 ( < ) ( < ) 6 , 2 (
2 1

9 , 0 < ) ( < 4 , 4
2 1

75 , 1 ) 6 , 2 ( < ) ( < 75 , 1 ) 6 , 2 (
2 1
+
75 , 1
12
67 , 4
14
67 , 4
06 , 2
2
2
1
2
/
= + = + =
n
s
n
s
t E
P P
Gl P
FORM. 5.16
Por lo tanto, los lmites del intervalo de confianza son:
Lm. Superior:
E p p +
2 1

Lm. Inferior:
E p p
2 1

FORM. 5.17
Actividades prueba z:
1. En la hoja http://fichero.veterinariaudec.cl/webmbriones/
dos_promedios_z.xls observe los promedios de los dos grupos de datos,
Grupo A y Grupo B.
2. Observe la diferencia entre ellos (A-B) = -0,194. Como el promedio del
grupo A es menor que el del grupo B, la diferencia es negativa (-0,194).
Esta diferencia est expresada en las unidades de medicin de la
variable. Pueden ser gramos, litros, kilos, centmetros, etc.
3. Observe el valor de z (-1,23) este valor tiene el signo de la resta de A-B y
est expresado en unidades z, no en unidades de la variable.
4. Si se compara el valor de z calculado con la distribucin de z, se aprecia
que est ubicado dentro del intervalo entre -1,96 y + 1,96. Estos puntos
marcan el rea de aceptacin y rechazo de la hiptesis nula, como se
observa en la leyenda al pie de la figura.
5. En concordancia con lo anterior, si se determina cuanta es el rea menor
a z y mayor a +z se observa que esta es igual a 0,2198. Esto concuerda
con la hiptesis nula: el valor de z calculado est dentro del 95% (alfa
0,05) de los valores que pueden producirse slo por azar (regin crtica
de la hiptesis).
6. Respecto de la real magnitud de la diferencia en la poblacin, con una
confianza de 95%, esta indica que el rango de valores que puede tomar
comienza en una diferencia negativa (-0,503) y termina en una diferencia
(+0,116). Esto deja muy claro que en la poblacin, la diferencia entre los
promedios del grupo A y B puede ser igual a cero (hiptesis nula)
Prueba de t de Student con las herramientas de Excel:
- Herramientas
- Anlisis de datos
- Prueba z para la media de dos muestras
o Entrar rangos con rtulos
o Entrar manualmente las varianzas de los grupos
o Marcar rtulos
Mario Briones 2013
51
o Marcar salida en hoja nueva
RESULTADO:
Prueba z para medias de dos
muestras
grupo A grupo B
Media 3,38535714 3,57892857
Varianza (conocida) 0,3154 0,3815
Observaciones 28 28
Diferencia hipottica de las
medias 0
z -1,22697309
P(Z<=z) una cola 0,10991635
Probabilidad de
una cola
Valor crtico de z (una cola) 1,64485363
Valor crtico de z (dos colas) 0,2198327
Probabilidad de
dos colas
Valor crtico de z (dos colas) 1,95996398
ACTIVIDAD:
1. En la hoja http://fichero.veterinariaudec.cl/webmbriones
dos_promedios_t.xls observe los promedios de los dos grupos de datos,
Grupo A y Grupo B.
2. Observe la diferencia entre ellos (A-B) = -0,194. Como el promedio del
grupo A es menor que el del grupo B, la diferencia es negativa (-0,194).
Esta diferencia est expresada en las unidades de medicin de la
variable. Pueden ser gramos, litros, kilos, centmetros, etc.
3. Observe el valor de t (-1,23). Este valor tiene el signo de la resta de A-B y
est expresado en unidades t, no en unidades de la variable.
4. Si se compara el valor de t calculado con la distribucin de t, se aprecia
que est ubicado dentro del intervalo entre t y +t . Estos puntos marcan
el rea de aceptacin y rechazo de la hiptesis nula. Observe que la
forma de la distribucin de t es ligeramente distinta de la forma de la
distribucin normal; la curva es ms empinada en el centro y, adems,
cambia ligeramente en la medida que cambian los grados de libertad.
5. La funcin estadstica PRUEBA.T calcula automticamente la cantidad
de rea fuera del valor de t calculado, con dos colas o una cola. En este
caso, con los datos originales, el valor es 0,23. Obviamente, este valor es
Mario Briones 2013
52
superior a la probabilidad de 5% (alfa), por lo tanto, la hiptesis nula no
puede ser declarada como falsa.
6. Respecto de la real magnitud de la diferencia en la poblacin, con una
confianza de 95%, esta indica que el rango de valores que puede tomar
comienza en diferencias negativas (-0,510) y termina en diferencias
positivas (+0,123). Esto deja muy claro que en la poblacin, la diferencia
entre A y B puede ser igual a cero (hiptesis nula). Observe que este
intervalo de confianza es mayor que el de la prueba z, reflejando la
mayor inexactitud de una varianza desconocida.
Prueba t con las herramientas de Excel:
- Herramientas
- Anlisis de datos
- Prueba t para dos muestras suponiendo varianzas iguales
o Entrar rangos con rtulos
o Marcar rtulos
o Marcar salida en hoja nueva
Prueba t para dos
muestras
suponiendo
varianzas iguales
grupo A grupo B
Media 3,38535714 3,57892857
Varianza 0,31535172 0,38145437
Observaciones 28 28
Varianza agrupada 0,34840304 Varianza promedio
Diferencia hipottica
de las medias 0
Grados de libertad 54
Estadstico t -1,22705577
P(T<=t) una cola 0,11256229 Probabilidad con 1 cola
Valor crtico de t (una
cola) 1,67356491
P(T<=t) dos colas 0,22512457 Probabilidad con 2 colas
Valor crtico de t (dos
colas) 2,00487927
Cuando las varianzas de los grupos no son iguales, Excel ofrece otra alternativa
para la prueba de t de Student. Las diferencias estn en las frmulas 1.3 y 1.5
Mario Briones 2013
53
El paso principal consiste en decidir cual de los supuestos es el correcto:
varianzas iguales o varianzas distintas en la poblacin. La solucin a este
problema es la Prueba F, que en Excel se efecta con la funcin PRUEBA.F. La
prueba requiere que se entren los rangos de datos de los dos grupos y devuelve
la probabilidad de un valor de F mayor (si es menor que 0,05 u otro valor de
alfa predeterminado, significa que las varianzas de los grupos son distintas en
la poblacin)
Mario Briones 2013
54
VI. DETERMINACION DEL TAMAO DE MUESTRA
PARA COMPARAR DOS GRUPOS
Un aspecto fundamental de la comparacin de dos promedios (o de dos
proporciones), mediante una prueba estadstica de hiptesis, es la
determinacin previa del tamao de ambos grupos. Esta determinacin est
asociada directamente con el poder de la prueba, es decir, con la probabilidad
de cometer un error de tipo II. Este error significara que, existiendo una
diferencia, la conclusin sea que esta diferencia no existe.
Los elementos bsicos para determinar este tamao mnimo, son a) la
estimacin a priori de la diferencia que ser considerada como significativa y 2)
la desviacin estndar de la variable.
Respecto del primer punto, la estimacin de una diferencia hipottica que ser
considerada como significativa, depende directamente de la experiencia del
investigador y de la importancia que tenga dicha diferencia en el modelo que se
est tratando de establecer. Por ejemplo, si se compara la tasa de concepcin en
vacas sometidas a dos tratamientos diferentes de sincronizacin de estros, esta
diferencia a priori implica el reconocimiento de elementos fisiolgicos y
econmicos que determinan su magnitud. Desde el punto de vista fisiolgico,
puede ser ms compleja la determinacin, pero desde el punto de vista
econmico se puede ver como una diferencia razonable en la relacin costo
beneficio de ambos tratamientos, en caso de ser diferentes.
Los otros factores que determinan el tamao de muestra son el poder de prueba
y el valor de alfa con que se realizar la prueba estadstica (en el caso de dos
promedios, la prueba de t independiente o pareada).
Para comparar dos promedios
Las expresiones para la determinacin del tamao mnimo son las siguientes:
1. Para muestras independientes
| |
2
0
2 2
2
) (
2 ) (

o |
o o

+
=
A
z z
n
FORM. 6.1
Mario Briones 2013
55
Donde la cantidad entre parntesis cuadrados est disponible en la tabla 7.1, o
2
es la varianza de la variable y
A
-
0
es la diferencia estimada a priori.
2. Para muestras en pares
| |
2
2 2
2
) (
o
o |
o o d
z z
n
+
= FORM. 6.2
Donde o
2
d
es la varianza de la diferencia entre miembros del par y o
2
la
diferencia estimada a priori, al cuadrado.
Tabla 7.1: multiplicadores para 2o
2
(muestras independientes o o
2
d
(muestras
pareadas), segn alfa, poder de prueba y colas de la hiptesis.
Poder 0.01 0.05 0.10 0.01 0.05 0.10
0.80 11.7 7.9 6.2 10.0 6.2 4.5
0.90 14.9 10.5 8.6 13.0 8.6 6.6
0.95 17.8 13.0 10.8 15.8 10.8 8.6
Dos colas Una Cola
Ejemplo: Se cree que la diferencia de estatura entre hombres y mujeres,
estudiantes de segundo ao de Medicina Veterinaria, es de 5 centmetros. Se
desea un poder o probabilidad de 0.90 de encontrar una diferencia significativa
al comparar dos muestras de ambos sexos, con un valor de alfa de 0.05. Se sabe
por muestras previas, que la desviacin estndar de la estatura en personas es
6.44 cm.
El resultado indica que es necesario utilizar dos grupos de 35 personas de cada
sexo, como mnimo.
Mario Briones 2013
56
| |
35
25
95 . 870
) 5 (
44 . 6 2 5 . 10 (
2
2
= =

= n
Para comprar dos proporciones
Para comparar dos proporciones en muestras independientes, la expresin es:
2
1 2
2 2 1 1
2
) (
) ( ) (
p p
q p q p Z Z
n

+ +
=
| o
FORM. 6.3
Donde (Z
o
+Z
|
)
2
se obtiene de la tabla 1, segn alfa, poder de prueba y colas de
la hiptesis, p
1
y q
1
son las proporciones de la variable binomial en el grupo 1;
p
2
y q
2
las proporciones de la variable binomial en el grupo 2 y p
1
-p
2
es la
diferencia estimada a priori entre los grupos de la proporcin de inters.
Ejemplo: Suponga que existe un antibitico estndar que protege a alrededor
del 50% de los animales experimentales contra una infeccin. Se obtiene un
nuevo antibitico que parece ser superior. Al comparar el nuevo antibitico con
el estndar los investigadores desearan una probabilidad P de 0.9 de encontrar
una diferencia, en una prueba de una cola al nivel de significancia de 0.05, si el
nuevo antibitico protege al 80% de los animales en la poblacin.
De la redaccin del prrafo anterior se desprende que:
p
1
= 0,5 (q
1
=0,5)
p
2
= 0,8 (q
2
=0,2)
Poder de prueba= 90%
Diferencia entre p1 y p2= 0,3
El clculo indica que sera necesario utilizar dos grupos de un tamao mnimo
de 40 individuos cada uno.
Tarea: investigue sobre la prueba clnica para la evaluacin de la vacuna contra
la poliomielitis y los supuestos que se utilizaron para la determinacin del
tamao de los grupos control y tratado. Los supuestos dados permiten utilizar
la expresin anterior y obtener el mismo n que se utiliz en la prueba de
evaluacin de la vacuna.
Existen en Internet muchas calculadoras online para determinar el tamao de
muestra necesario en diferentes tipos de test. Una buena compilacin de este
tipo de recursos se encuentra en la pgina de la Divisin de Bioestadstica, del
Departamento de Epidemiologa y Bioestadstica de la Universidad de
California, en:
http://www.epibiostat.ucsf.edu/biostat/sampsize.html#ttest
Mario Briones 2013
57
2 . 39
) 3 . 0 (
) 2 . 0 8 . 0 5 . 0 5 . 0 ( ) 6 . 8 (
2
2
=
+
= n
VII. ANALISIS DE VARIANZA
Anlisis de varianza aleatorio, de un factor y comparaciones
multiples
El anlisis de varianza es una herramienta estadstica muy potente que permite
comparar ms de dos promedios entre s, como es muy comn que se haga en
experimentos en biologa. El diseo experimental ms sencillo es el
denominado completamente al azar. En ste, una muestra aleatoria de sujetos
representativos de la poblacin sobre la cual quieren efectuarse las inferencias,
son asignados, al azar, a ms de dos grupos experimentales. Estos grupos no
necesariamente tienen que ser del mismo tamao.
Para determinar las diferencias entre los promedios de los grupos, el anlisis de
varianza se basa en la particin de la varianza total de los datos y su separacin
en componentes, de acuerdo a la clasificacin de stos. La tcnica del anlisis de
varianza se basa en la clasificacin de los datos.
Por lo anterior, la metodologa prctica del anlisis de varianza depende de la
definicin de los sujetos de acuerdo a esta clasificacin.
En el caso del anlisis de varianza de un factor, la estructura de los datos es la
siguiente:
Tabla 7.1: estructura de los datos en un anlisis de varianza de un factor (grupo)
y efectos fijos
Grupo 1 Y
11
Y
12
Y
1n
+A1
Grupo 2 Y
21
Y
22
Y
2n
+A2
. . . . .
. . . . .
. . . . .
Grupo k Y
k1
Y
k2
Y
kn
+Ak
Lo anterior muestra claramente que hay una media general, , y que el
promedio de cada grupo, en caso de ser falsa la hiptesis nula, tiene una
diferencia desde esta media general, segn el siguiente modelo estadstico:
Y
ij
= + A
i
+ c
ij
FORM. 7.1

Donde
Y
ij
= cada una de las observaciones individuales.
= media general.
Mario Briones 2013
58
A
i
= efecto del i-simo grupo (desviacin del i-simo grupo desde la media
general.
c
ij
= error residual inexplicado.
Adems, se asume que la varianza general es o
2
y la distribucin de los errores
residuales es normal, con media cero y varianza o
2
.
En otras palabras, cada vez que observamos cualquiera de los valores
individuales de la variable dependiente Y, se puede asumir que es igual a la
media general, ms el efecto del grupo al cual pertenece y ms el efecto del
error al interior del grupo.
Las hiptesis son:
H
0
: no hay diferencias entre los promedios de los grupos (o bin, Ai=0)
H
A
: hay diferencias entre al menos dos de los grupos.
Para facilitar los clculos y completar la tabla de anlisis de varianza, la
notacin puede ser la siguiente:

=
=
n
j
ij i
Y Y
1
.
, es la suma de las observaciones individuales (j) al interior de
cada grupo, desde j=1 hasta j=n (el total de cada grupo)

= =
=
n
j
ij
k
i
Y Y
1 1
..
, es el gran total, la suma de las observaciones, primero dentro
de grupos y luego a travs de grupos, desde i=1 hasta i=n (el total de grupos).
Mario Briones 2013
59
Por lo tanto, el clculo simplificado de la tabla de anlisis de varianza es:
Fuente de
variacin
(FV)
Grados
de
libertad
(Gl)
Suma de cuadrados
(SC)
Cuadrado
medio
(CM)
Tasa de F
Entre grupos
k-1

=

k
i
N
Y
n
Yi
1
2 2
..) ( .) (
1 k
SCG
CMR
CMG
Dentro de
grupos
(residual o
error)
N-k Por diferencia
k N
SCR

Total
N-1
N
Y
Y
2
2
..
..) (

N= nk
SCG= suma de cuadrados de grupos
SCR= suma de cuadrados residual
CMG/CMR= cuadrado medio de grupos/cuadrado medio residual.
Ejemplo: en un experimento, pollitos de un da fueron asignados al azar a tres
grupos. En cada uno de ellos se utiliz alimento con un antibitico promotor de
crecimiento diferente (A, B y C). Al trmino de la recra los pesos de los pollos
fueron los siguientes (gramos):
Tabla 7.2. peso de pollos (grs) sometidos a tres antibiticos promotores de
crecimiento.
Los descriptores de los datos son los siguientes:
k= 3
n= 10
Mario Briones 2013
60
A B C
72 78 85
70 76 83
74 73 80
73 75 79
73 74 80
71 74 82
73 75 89
71 76 76
75 70 79
70 75 83
N= kn= 30

=
= =
n
j
ij i
Y Y
1
.
816 ; 746 ; 722
Para los grupos A, B y C, respectivamente
2284
1 1
..
= =

= =
n
j
ij
k
i
Y Y
Para el gran total.
Y
2
..= 174552
La tabla de anlisis de varianza es:
Fuente de
variacin
(FV)
Grados
de
libertad
(Gl)
Suma de
cuadrados (SC)
Cuadrado medio
(CM)
Tasa de F
Entre
grupos
2
174365.6-
173888.53=
477.07
5 . 238
2
07 . 477
= 5 . 34
91 . 6
5 . 238
=
Dentro de
grupos
(residual o
error)
27
Por diferencia
186.4
91 . 6
27
4 . 186
=
Total
29
174552-
173888.53=
663.47
La tasa de F, en este caso 34.5, representa la proporcin de la suma de
cuadrados entre grupos sobre la suma de cuadrados dentro de grupos. Es decir,
representa la variacin explicada por la clasificacin sobre la variacin no
explicada. Cuando la hiptesis nula sea verdadera, este valor debera ser
Mario Briones 2013
61
cercano a uno o menor que uno. En la medida que tome valores mayores
implica que la hiptesis nula tiene menos posibilidades de ser verdadera.
Los valores crticos para decidir este paso, con alfa 0.05 se encuentran en la
siguiente pgina. Para buscar el valor respectivo, se utilizan los grados de
libertad de entre grupos (columnas) y los grados de libertad del error o
residuales) filas. Esto es debido a que el valor de F se calcula precisamente
como una tasa donde el numerador es el cuadrado medio entre grupos y el
denominador es el cuadrado medio residual. El valor crtico est en la
interseccin de las filas y columnas. En este caso es 3.35. Como en el ejemplo, la
tasa de F es mucho mayor que este valor, la hiptesis nula puede rechazarse.
Mario Briones 2013
62
Tabla de F para algunos grados de libertad y alfa 0.05.
Mario Briones 2013
63
alfa= 0.05
Grados de
libertado del
denominador 2 3 4 5 6 7 8 9 10
2 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40
3 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79
4 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96
5 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74
6 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06
7 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64
8 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35
9 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14
10 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98
11 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85
12 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75
13 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67
14 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60
15 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54
16 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49
17 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45
18 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41
19 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38
20 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35
21 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32
22 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30
23 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27
24 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25
25 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24
26 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22
27 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20
28 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19
29 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18
30 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16
31 3,30 2,91 2,68 2,52 2,41 2,32 2,25 2,20 2,15
32 3,29 2,90 2,67 2,51 2,40 2,31 2,24 2,19 2,14
33 3,28 2,89 2,66 2,50 2,39 2,30 2,23 2,18 2,13
34 3,28 2,88 2,65 2,49 2,38 2,29 2,23 2,17 2,12
35 3,27 2,87 2,64 2,49 2,37 2,29 2,22 2,16 2,11
36 3,26 2,87 2,63 2,48 2,36 2,28 2,21 2,15 2,11
37 3,25 2,86 2,63 2,47 2,36 2,27 2,20 2,14 2,10
38 3,24 2,85 2,62 2,46 2,35 2,26 2,19 2,14 2,09
39 3,24 2,85 2,61 2,46 2,34 2,26 2,19 2,13 2,08
40 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08
41 3,23 2,83 2,60 2,44 2,33 2,24 2,17 2,12 2,07
42 3,22 2,83 2,59 2,44 2,32 2,24 2,17 2,11 2,06
43 3,21 2,82 2,59 2,43 2,32 2,23 2,16 2,11 2,06
44 3,21 2,82 2,58 2,43 2,31 2,23 2,16 2,10 2,05
45 3,20 2,81 2,58 2,42 2,31 2,22 2,15 2,10 2,05
50 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03
55 3,16 2,77 2,54 2,38 2,27 2,18 2,11 2,06 2,01
60 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99
65 3,14 2,75 2,51 2,36 2,24 2,15 2,08 2,03 1,98
70 3,13 2,74 2,50 2,35 2,23 2,14 2,07 2,02 1,97
75 3,12 2,73 2,49 2,34 2,22 2,13 2,06 2,01 1,96
80 3,11 2,72 2,49 2,33 2,21 2,13 2,06 2,00 1,95
85 3,10 2,71 2,48 2,32 2,21 2,12 2,05 1,99 1,94
90 3,10 2,71 2,47 2,32 2,20 2,11 2,04 1,99 1,94
95 3,09 2,70 2,47 2,31 2,20 2,11 2,04 1,98 1,93
100 3,09 2,70 2,46 2,31 2,19 2,10 2,03 1,97 1,93
Grados de libertad del numerador
Si puede rechazarse la hiptesis nula, falta encontrar cuales son los promedios
diferentes. Se pueden utilizan pruebas denominadas post hoc o pruebas de
rango mltiple para comparar los promedios de todos los grupos entre s.
Una de las ms elementales es la diferencia mnima significativa de Fisher.
Consiste bsicamente en calcular, utilizando una varianza comn para todos los
grupos (de ah la importancia de que las varianzas sean homogeneas), una
magnitud a partir de la cual se puede determinar que la resta entre los
promedios es una diferencia estadsticamente significativa.
La hiptesis nula es:
H
0
:
A
-
B
0
La comprobacin puede hacerse de dos maneras. La primera es calcular el valor
mnimo que debe haber en la resta de dos promedios, para considerar el valor
diferente de cero y segundo, transformar cada resta entre dos promedios en un
valor de t que se compara contra un valor de tabla.
Primer mtodo: clculo de la diferencia mnima significativa (Fisher)
|
|
.
|

\
|
+ =
2 1
1 1
n n
CM t DMS
ERROR
FORM. 7.2
Donde:
DMS= diferencia mnima significativa.
t= valor de t para alfa determinado y grados de libertad iguales a los grados de
libertad de cuadrado medio del error.
CM
ERROR
= cuadrado medio del error en la tabla de anlisis de varianza.
n
1
y n
2
= tamao de los grupos comparados
En el ejemplo,
Valor de t para alfa 0.05 y 27 grados de libertad= 2.05
CM
ERROR
= 6.91
n
1
= 10
n
2
= 10
Lo anterior significa que toda diferencia entre los promedios de los grupos que
sea mayor a 2.41 puede ser considerada significativamente diferente de cero.
Mario Briones 2013
64
41 . 2
10
1
10
1
91 . 6 05 . 2 =
|
.
|

\
|
+ = DMS
Grupos comparados Diferencia entre los grupos Significancia
A (72.2) B (74.6) -2.4 n.s.
A (72.2) C (81.6) -9.4 significativo
B (74.6) C (81.6) -7.0 significativo
Segundo mtodo: clculo del valor de t para cada diferencia
|
|
.
|

\
|
+

=
B A
B A
n n
s
x x
t
1 1
2
FORM 7.3
El estadstico de prueba tiene distribucin de t de student, con grados de
libertad iguales a los grados de libertad del error en la tabla del anlisis de
varianza.
La varianza s
2
es la varianza comn, el cuadrado medio del error en la tabla de
anlisis de varianza.
De acuerdo con este segundo mtodo, los promedios diferentes son:
Grupos
comparados
Diferencia entre
los grupos
Valor de t
calculado
Significancia
A (72.2) B (74.6) -2.4 -2.042 no significativo
A (72.2) C (81.6) -9.4 -7.99 significativo
B (74.6) C (81.6) <<<-7.0 -5.95 significativo
Prueba de Student Newman-Keuls (SNK)
Para esta prueba, se ordenan los promedios de los grupos de mayor a menor y
se calcula el estadstico q segn la frmula siguiente:
|
|
.
|

\
|
+

=
B A
error
B A
n n
s
X X
q
1 1
2
2
FORM. 7.4
Donde A y B son los grupos que se comparan s
2
error
es la varianza dentro de los
grupos de tratamiento, estimada en el anlisis de varianza y n
A
y n
B
son los
Mario Briones 2013
65
tamaos de los grupos que se comparan. El valor de q se compara con el valor
de la tabla de valores crticos de SNK. Este valor crtico depende de alfa, los
grados de libertad del denominador en el anlisis de varianza y un parmetro
p, que es el nmero de promedios comparados. Por ejemplo, al comparar el
promedio mayor con el menor en un grupo de 4, p ser igual a 4; al comparar la
segunda ms pequea con la menor, p ser igual a 2.
Las conclusiones que se alcancen con las comparaciones mltiples dependen
del orden en que se hagan. El procedimiento correcto es comparar primero el
promedio mayor con el menor, luego comparar el mayor con el segundo menor
hasta comparar el mayor con el segundo menor. Luego se compara el segundo
mayor con el menor y as sucesivamente. Por ejemplo, despus de ordenar
cuatro promedios en orden ascendente, la secuencia de comparaciones debera
ser 4 vs 1, 4 vs 2, 4 vs 3, 3 vs 1, 3 vs 2, 2 vs 1.
Otra regla importante del procedimiento es que si no existe una diferencia
significativa entre dos promedios, entonces se concluye que no hay diferencia
entre ninguna de las diferencias ubicadas entre las primeras. De este modo, en
el ejemplo reciente de los cuatro promedios, si no se encuentra una diferencia
entre los promedios 3 y 1, entonces no se efecta el test entre los promedios 3 y
2 ni entre 2 y 1.
Para ilustrar el ejemplo utilizando el anlisis de varianza anterior, el primer
paso es ordenar los promedios:
1) grupo C: 81.6
2) grupo B: 76.6
3) grupo A: 72.2
Comparacin entre C y A:
31 . 11
831 . 0
4 . 9
10
1
10
1
2
91 . 6
2 . 72 6 . 81
= =
|
.
|

\
|
+

= q
El valor crtico de q es 3.506, (alfa= 0.05, v= 27 y p= 3), por lo tanto, existe una
diferencia significativa entre los promedios.
Comparacin entre C y B:
01 . 6
831 . 0
0 . 5
10
1
10
1
2
91 . 6
6 . 76 6 . 81
= =
|
.
|

\
|
+

= q
El valor crtico de q es 2.902 (alfa= 0.05, v= 27 y p= 2), por lo tanto, existe una
diferencia significativa entre los promedios.
Mario Briones 2013
66
Comparacin entre B y A:
88 . 2
831 . 0
4 . 2
10
1
10
1
2
91 . 6
2 . 72 6 . 74
= =
|
.
|

\
|
+

= q
El valor crtico de q es 2.902 (alfa= 0.05, v= 27 y p= 2), por lo tanto, no existe una
diferencia significativa entre los promedios.
Prueba de Tukey
La prueba de Tukey es otra prueba utilizada para determinar la existencia de
diferencias entre promedios de grupos, una vez que el anlisis de varianza ha
detectado su existencia. La prueba consiste en la comparacin de las diferencias
entre cada par de medias y un valor comparador W.
X
S q W =
FORM. 7.5
donde q es un valor de tabla que se obtiene de acuerdo al nmero de promedios
a comparar, al valor de alfa preestablecido y a los grados de libertad del error.
r
CME
S
X
= FORM. 7.6
CME= cuadrado medio del error
r= nmero de observaciones por grupo
En realidad el test de Tukey es idntico al test SNK, la nica diferentcia es el
valor crtico utilizado para comprobar si una diferencia es significativa. En la
prueba SNK el valor del parmetro p utilizado para determinar el valor crtico
de q es el nmero de promedios que separan aquellas que estn siendo
comparadas. Como resultado, el completar un grupo o familia de
comparaciones con la prueba SNK involucra el cambio de los valores crticos de
q, dependiendo de la comparacin hecha. En la prueba de Tukey, el parmetro
p se define como m ( k), el nmero de grupos en comparacin.
Si en el ltimo ejemplo se hubiese utilizado la prueba de Tukey para las
comparaciones mltiples, el valor m habra sido 3.53 (aproximadamente) para
todas las comparaciones. Las conclusiones habran sido las mismas que con la
prueba de SNK. Sin embargo, no siempre las conclusiones son similares entre
ambas pruebas.
Mario Briones 2013
67
Tabla 8.1: valores para la prueba de Student Newman Keuls
p
= 2 3 4 5 6 7 8 9 10 11 12 13 14 15
2 6,085 8,331 9,798 10,881 11,734 12,435 13,027 13,538 13,988 14,387 14,747 15,076 15,375 15,650
3 4,501 5,910 6,825 7,502 8,037 8,478 8,852 9,177 9,462 9,717 9,946 10,155 10,346 10,522
4 3,927 5,040 5,757 6,287 6,707 7,053 7,347 7,602 7,826 8,027 8,208 8,373 8,524 8,664
5 3,635 4,602 5,219 5,673 6,033 6,330 6,582 6,801 6,995 7,167 7,324 7,465 7,596 7,716
6 3,461 4,339 4,896 5,305 5,629 5,895 6,122 6,319 6,493 6,649 6,789 6,917 7,034 7,143
7 3,344 4,165 4,681 5,060 5,359 5,606 5,815 5,998 6,158 6,302 6,431 6,550 6,658 6,759
8 3,261 4,041 4,529 4,886 5,167 5,399 5,596 5,767 5,918 6,053 6,175 6,287 6,389 6,483
9 3,199 3,949 4,415 4,755 5,024 5,244 5,432 5,595 5,738 5,867 5,983 6,089 6,186 6,276
10 3,151 3,877 4,327 4,654 4,912 5,124 5,304 5,461 5,598 5,722 5,833 5,935 6,028 6,114
11 3,113 3,820 4,256 4,574 4,823 5,028 5,202 5,353 5,486 5,605 5,713 5,811 5,901 5,984
12 3,081 3,773 4,199 4,508 4,748 4,947 5,116 5,263 5,395 5,510 5,615 5,710 5,797 5,878
13 3,055 3,734 4,151 4,453 4,690 4,884 5,049 5,192 5,318 5,431 5,533 5,625 5,711 5,789
14 3,033 3,701 4,111 4,407 4,639 4,829 4,990 5,130 5,253 5,364 5,463 5,554 5,637 5,714
15 3,014 3,673 4,076 4,367 4,595 4,782 4,940 5,077 5,198 5,306 5,403 5,492 5,574 5,649
16 2,998 3,649 4,046 4,333 4,557 4,741 4,896 5,031 5,150 5,256 5,352 5,439 5,519 5,593
17 2,984 3,628 4,020 4,303 4,524 4,705 4,858 4,991 5,108 5,212 5,306 5,392 5,471 5,544
18 2,971 3,609 3,997 4,276 4,494 4,673 4,824 4,955 5,071 5,174 5,266 5,351 5,429 5,501
19 2,960 3,593 3,977 4,253 4,469 4,645 4,794 4,924 5,038 5,139 5,231 5,314 5,391 5,462
20 2,950 3,578 3,958 4,232 4,445 4,620 4,768 4,895 5,008 5,108 5,199 5,282 5,357 5,427
21 2,941 3,565 3,942 4,213 4,424 4,597 4,744 4,870 4,981 5,081 5,170 5,252 5,327 5,396
22 2,933 3,553 3,927 4,196 4,406 4,577 4,722 4,847 4,957 5,056 5,144 5,225 5,299 5,368
23 2,926 3,542 3,914 4,181 4,388 4,558 4,702 4,826 4,935 5,033 5,121 5,201 5,274 5,342
24 2,919 3,532 3,901 4,166 4,373 4,541 4,684 4,807 4,915 5,012 5,099 5,179 5,251 5,319
25 2,913 3,523 3,890 4,153 4,358 4,526 4,667 4,789 4,897 4,993 5,079 5,158 5,230 5,297
26 2,907 3,514 3,880 4,142 4,345 4,512 4,652 4,773 4,880 4,975 5,061 5,139 5,211 5,277
27 2,902 3,506 3,870 4,131 4,333 4,498 4,638 4,758 4,865 4,959 5,044 5,122 5,193 5,259
28 2,897 3,499 3,861 4,120 4,322 4,486 4,625 4,745 4,850 4,944 5,029 5,106 5,177 5,242
29 2,892 3,493 3,853 4,111 4,311 4,475 4,613 4,732 4,837 4,930 5,014 5,091 5,161 5,226
30 2,888 3,487 3,845 4,102 4,302 4,464 4,601 4,720 4,824 4,917 5,001 5,077 5,147 5,211
31 2,884 3,481 3,838 4,094 4,292 4,454 4,591 4,709 4,813 4,905 4,988 5,064 5,134 5,198
32 2,881 3,475 3,832 4,086 4,284 4,445 4,581 4,698 4,802 4,894 4,977 5,052 5,121 5,185
33 2,877 3,470 3,825 4,079 4,276 4,437 4,572 4,689 4,791 4,883 4,965 5,041 5,109 5,173
34 2,874 3,465 3,820 4,072 4,268 4,428 4,563 4,680 4,782 4,873 4,955 5,030 5,098 5,161
35 2,871 3,461 3,814 4,066 4,261 4,421 4,555 4,671 4,773 4,864 4,945 5,020 5,088 5,151
36 2,868 3,457 3,809 4,060 4,255 4,414 4,547 4,663 4,764 4,855 4,936 5,010 5,078 5,141
37 2,866 3,453 3,804 4,054 4,249 4,407 4,540 4,655 4,756 4,846 4,927 5,001 5,069 5,131
38 2,863 3,449 3,799 4,049 4,243 4,400 4,533 4,648 4,749 4,838 4,919 4,993 5,060 5,122
39 2,861 3,446 3,795 4,044 4,237 4,394 4,527 4,641 4,741 4,831 4,911 4,985 5,052 5,114
40 2,858 3,442 3,791 4,039 4,232 4,389 4,521 4,635 4,735 4,824 4,904 4,977 5,044 5,106
41 2,856 3,439 3,787 4,035 4,227 4,383 4,515 4,628 4,728 4,817 4,897 4,970 5,036 5,098
42 2,854 3,436 3,783 4,030 4,222 4,378 4,509 4,622 4,722 4,810 4,890 4,963 5,029 5,091
43 2,852 3,433 3,779 4,026 4,217 4,373 4,504 4,617 4,716 4,804 4,884 4,956 5,023 5,084
44 2,850 3,430 3,776 4,022 4,213 4,368 4,499 4,611 4,710 4,798 4,878 4,950 5,016 5,077
45 2,848 3,428 3,773 4,018 4,209 4,364 4,494 4,606 4,705 4,793 4,872 4,944 5,010 5,071
46 2,847 3,425 3,770 4,015 4,205 4,359 4,489 4,601 4,700 4,788 4,866 4,938 5,004 5,065
47 2,845 3,423 3,767 4,011 4,201 4,355 4,485 4,597 4,695 4,782 4,861 4,933 4,998 5,059
48 2,844 3,420 3,764 4,008 4,197 4,351 4,481 4,592 4,690 4,778 4,856 4,928 4,993 5,053
49 2,842 3,418 3,761 4,005 4,194 4,347 4,477 4,588 4,686 4,773 4,851 4,922 4,988 5,048
50 2,841 3,416 3,758 4,002 4,190 4,344 4,473 4,584 4,681 4,768 4,847 4,918 4,983 5,043
51 2,839 3,414 3,756 3,999 4,187 4,340 4,469 4,580 4,677 4,764 4,842 4,913 4,978 5,038
52 2,838 3,412 3,754 3,996 4,184 4,337 4,465 4,576 4,673 4,760 4,838 4,909 4,973 5,033
53 2,837 3,410 3,751 3,994 4,181 4,334 4,462 4,573 4,670 4,756 4,834 4,904 4,969 5,029
54 2,835 3,408 3,749 3,991 4,178 4,331 4,459 4,569 4,666 4,752 4,830 4,900 4,965 5,024
55 2,834 3,407 3,747 3,989 4,176 4,328 4,455 4,566 4,662 4,748 4,826 4,896 4,961 5,020
Mario Briones 2013
68
Tabla 8.2: valores de q para la prueba de Tukey:
gl del Error
o Residual
k= nmero de grupos o tratamientos
2 3 4 5 6 7 3 9 10
5 3.64
5.70
4.60
6.98
5.22
7.80
5.67
8.42
6.03
8.91
6.33
9.32
6.58
9.67
6.80
9.97
6.99
10.24
6 3.46
5.24
4.34
6.33
4.90
7.03
5.30
7.56
5.63
7.97
5.90
8.32
6.12
8.61
6.32
8.87
6.49
9.10
7 3.34
4.95
4.16
5.92
4.68
6.54
5.06
7.01
5.36
7.37
5.61
7.68
5.82
7.94
6.00
8.17
6.16
8.37
8 3.26
4.75
4.04
5.64
4.53
6.20
4.89
6.62
5.17
6.96
5.40
7.24
5.60
7.47
5.77
7.68
5.92
7.86
9 3.20
4.60
3.95
5.43
4.41
5.96
4.76
6.35
5.02
6.66
5.24
6.91
5.43
7.13
5.59
7.33
5.74
7.49
10 3.15
4.48
3.88
5.27
4.33
5.77
4.65
6.14
4.91
6.43
5.12
6.67
5.30
6.87
5.46
7.05
5.60
7.21
11 3.11
4.39
3.82
5.15
4.26
5.62
4.57
5.97
4.82
6.25
5.03
6.48
5.20
6.67
5.35
6.84
5.49
6.99
12 3.08
4.32
3.77
5.05
4.20
5.50
4.51
5.84
4.75
6.10
4.95
6.32
5.12
6.51
5.27
6.67
5.39
6.81
13 3.06
4.26
3.73
4.96
4.15
5.40
4.45
5.73
4.69
5.98
4.88
6.19
5.05
6.37
5.19
6.53
5.32
6.67
14 3.03
4.21
3.70
4.89
4.11
5.32
4.41
5.63
4.64
5.88
4.83
6.08
4.99
6.26
5.13
6.41
5.25
6.54
15 3.01
4.17
3.67
4.84
4.08
5.25
4.37
5.56
4.59
5.80
4.78
5.99
4.94
6.16
5.08
6.31
5.20
6.44
16 3.00
4.13
3.65
4.79
4.05
5.19
4.33
5.49
4.56
5.72
4.74
5.92
4.90
6.08
5.03
6.22
5.15
6.35
17 2.98
4.10
3.63
4.74
4.02
5.14
4.30
5.43
4.52
5.66
4.70
5.85
4.86
6.01
4.99
6.15
5.11
6.27
18 2.97
4.07
3.61
4.70
4.00
5.09
4.28
5.38
4.49
5.60
4.67
5.79
4.82
5.94
4.96
6.08
5.07
6.20
19 2.96
4.05
3.59
4.67
3.98
5.05
4.25
5.33
4.47
5.55
4.65
5.73
4.79
5.89
4.92
6.02
5.04
6.14
20 2.95
4.02
3.58
4.64
3.96
5.02
4.23
5.29
4.45
5.51
4.62
5.69
4.77
5.84
4.90
5.97
5.01
6.09
24 2.92
3.96
3.53
4.55
3.90
4.91
4.17
5.17
4.37
5.37
4.54
5.54
4.68
5.69
4.81
5.81
4.92
5.92
30 2.89
3.89
3.49
4.45
3.85
4.80
4.10
5.05
4.30
5.24
4.46
5.40
4.60
5.54
4.72
5.65
4.82
5.76
40 2.86
3.82
3.44
4.37
3.79
4.70
4.04
4.93
4.23
5.11
4.39
5.26
4.52
5.39
4.63
5.50
4.73
5.60
60 2.83
3.76
3.40
4.28
3.74
4.59
3.98
4.82
4.16
4.99
4.31
5.13
4.44
5.25
4.55
5.36
4.65
5.45
120 2.80
3.70
3.36
4.20
3.68
4.50
3.92
4.71
4.10
4.87
4.24
5.01
4.36
5.12
4.47
5.21
4.56
5.30
infinito 2.77
3.64
3.31
4.12
3.63
4.40
3.86
4.60
4.03
4.76
4.17
4.88
4.29
4.99
4.39
5.08
4.47
5.16
Anlisis de varianza en bloque al azar.
El trmino bloque proviene de la experimentacin con cultivos en terreno, en
experimentos agronmicos. Sin embargo, tiene gran utilidad en experimentos
Mario Briones 2013
69
con animales, donde el problema que se pretende solucionar es el mismo,
derivado de la naturaleza propia de las variables biolgicas.
El problema original a resolver es el siguiente:
Suponga que en un potrero disponible para un ensayo, existe una gradiente de
humedad en un sentido (tambin puede ser una gradiente de fertilidad,
sombra, textura, etc). De esta forma, si la asignacin de las parcelas dentro del
potrero es al azar, puede suceder que algunos tratamientos queden
representados en las zonas hmedas y otros en la zonas secas (puede ser
fertilidad del suelo, sombra u otro factor similar).
Bloques
I II III IV V VI
b b A d c d
a c B c d a
c a D a a b
d d C b b c
gradiente de la variable
En el cuadro anterior se aprecia el problema y la solucin propuesta: se trata de
la distribucin de 4 tratamientos (a, b, c y d) en una parcela que tiene una
gradiente en un sentido. Como ya est dicho, la asignacin aleatoria de los
tratamientos no garantiza una distribucin homognea de los tratamientos y en
algunos casos, las parcelas pertenecientes a uno de stos pueden quedar
concentradas en uno de los extremos y esto puede afectar el resultado (el efecto
del tratamiento no podra separarse del efecto de la variable distorsionadora o
generadora de la gradiente). Por lo tanto, se han formado bloques
(identificados en el cuadro con nmeros romanos), donde en su interior hay
gran homogeneidad respecto de esta variable distorsionadora (en este caso
particular, 8 bloques). Cada bloque se divide en tantas parcelas como
tratamientos se deben asignar y se les distribuye aleatoriamente en ellas.
El objetivo estadstico del bloqueo es aumentar la precisin del experimento. La
precisin aumenta al reducir el error residual (varianza no explicada), mediante
la incorporacin al modelo de un nuevo factor de clasificacin de varianza que
es el bloque.
En otras palabras, la variabilidad que la variable distorsionadora puede agregar
a los resultados, ha sido clasificada; cada parcela, al medirse su rendimiento,
tendr 2 efectos que pueden originar varianza: uno es el tratamiento o efecto
principal y el otro es el bloque donde se ubica la parcela.
Mario Briones 2013
70
En el caso del trabajo con animales, el potrero con la gradiente es equivalente a
un rebao o grupo de animales con un alto grado de heterogeneidad en alguna
variable con algn grado de influencia sobre la variable respuesta.
Por ejemplo, en un experimento para medir el efecto de varias dietas diferentes
sobre la ganancia de peso, el peso inicial de los animales es claramente una
variable distorsionadora. Si antes del experimento los animales se ordenan del
ms liviano al ms pesado, se pueden formar bloques con una cantidad de
animales igual al nmero de tratamientos del ensayo. Luego se asignan los
tratamientos AL AZAR a cada uno de los animales de los bloques. En este caso
tambin estamos en presencia de un diseo estadstico de bloques al azar, que
requiere incorporar en la tabla de anlisis de varianza una nueva fila que
clasifique esta variacin.
Como se puede observar en la siguiente figura, el bloqueo tiene un costo que
pagar en trminos de prdida de grados de libertad en el error.
La consecuencia de la prdida de grados de libertad en el error es la
disminucin en el valor de F para el efecto de los tratamientos. En otras
palabras, el introducir el bloqueo en el anlisis de varianza tiene el potencial de
reducir la probabilidad de rechazar la hiptesis nula respecto del factor
principal.
Estructura de un anlisis de varianza con 4 tratamientos y 6 rplicas, con y sin
bloqueo.
Diseo en bloque al azar Diseo de un factor al azar
Fuente de variacin Grados
de libertad
Fuente de variacin Grados de
libertad
Bloque 5
Tratamientos 3 Tratamientos 3
Error 15 Error 20
Total 23 Total 23
Como se observa en la tabla, se redujeron 5 grados de libertad en el error, en
este ejemplo en particular, al efectuar el anlisis considerando la existencia del
bloque.
En caso de no existir suficiente diferencia en la variable distorsionadora, al
menos entre los bloques ms extremos, se reducir la precisin para evaluar los
efectos de los tratamientos, ya que el denominador de la tasa de F
correspondiente al efecto de inters (el tratamiento) tendr menos grados de
libertad y por lo tanto el valor crtico de F ser mayor (ver tabla de valores
crticos de F).
Mario Briones 2013
71
Cundo y cul variable bloquear?
Esta es una pregunta que responde la experiencia del experimentador, dado su
conocimiento de las variables involucradas en su trabajo o en el sistema que se
encuentra explorando.
En general, corresponde bloquear una variable cuando existe una correlacin de
moderada a estrecha entre la variable respuesta y alguna variable presente y
muy desigual en las unidades experimentales.
Por ejemplo, en un experimento con animales, si se sabe que existe una
correlacin fuerte entre el peso inicial y algunas variables medidas en el
experimento, como ganancia, peso final, etc., lo usual es construir bloques con
animales de peso similar.
Usualmente la magnitud de esta correlacin es obtenida de la literatura.
Cunto es el aumento de en la precisin del anlisis por el bloqueo?
Para saber esto, se debe evaluar la reduccin en el cuadrado medio del error
entre un diseo que no considere el bloqueo y otro que s lo considere.
La reduccin porcentual del error es:
100
sin
=
bloqueo error
bloqueo con error
reduccion
F de crtico valor bloqueo con error CM
F de crtico valor bloqueo error CM
relativa eficiencia

=
sin
Ejemplo:
Se disea un experimento de degustacin de caf en la cual se evalan 4 marcas
por 9 expertos. Para evitar cualquier efecto distorsionador, la secuencia de
probado en cada una de las marcas es determinada al azar para cada uno de los
nueve evaluadores. Se registran las evaluaciones en una escala de 7 puntos
(desde 1= extremadamente desagradable, hasta 7= extremadamente agradable)
para 4 caractersticas: sabor, aroma, riqueza y acidez. En la siguiente tabla se
observan los valores acumulados sobre todas las caractersticas, para cada
marca. Con un nivel de significancia de 0.01, determine si existe suficiente
evidencia que demuestre una diferencia en el puntaje acumulado de las cuatro
marcas de caf. Evale la eficiencia relativa del bloqueo.
Mario Briones 2013
72
marca
evaluador A B C D
1 24 26 25 22
2 27 27 26 24
3 19 22 20 16
4 24 27 25 23
5 22 25 22 21
6 26 27 24 24
7 27 26 22 23
8 25 27 24 21
9 22 23 20 19
En Excel:
1. Men HERRAMIENTAS >> ANALISIS DE DATOS
2. Anlisis de Varianza de dos factores con una sola muestra por grupo.
3. Seleccionar el rango, incluyendo los ttulos de las columnas y de las filas.
4. En el resultado, la columna ORIGEN DE LAS VARIACIONES, indica
que hay variacin proveniente de FILAS y COLUMNAS, es decir, de
evaluadores y marcas, respectivamente.
Resultados de Excel para el anlisis de varianza con un factor (marca de caf):
ANLISIS DE VARIANZA
Origen de
las variaciones
Suma de
cuadrados
Grados
de libertad
Promedio
de los
cuadrados F
Probabilida
d
Valor
crtico
para F
Entre grupos 79,64 3 26,55 4,79 0,00722271 2,901
Dentro de los grupos 177,33 32 5,54
Total 256,97 35
Resultados de Excel para el anlisis de varianza con dos factores (la marca de
caf y el bloque, en este caso el bloque es el evaluador)
ANLISIS DE VARIANZA
Mario Briones 2013
73
Origen de
las variaciones
Suma de
cuadrados
Grados
de libertad
Promedio
de los
cuadrados F
Probabilida
d
Valor
crtico
para F
Filas (bloques) 153,22 8 19,15 19,06 1,215E-08 2,355
Columnas (marcas) 79,64 3 26,55 26,42 8,8623E-08 3,009
Error 24,11 24 1,00
Total 256,97 35
Observando las dos tablas anteriores se puede ver claramente que la inclusin
del bloque como una fuente de variacin, reduce los grados de libertad del
error, de 32 en el caso del anlisis de un factor, a 24 en el caso del anlisis con
dos factores. Esto hace que el valor crtico de F para el efecto principal (la marca
de caf) suba de 2,901 a 3,009. En este caso particular no es una gran diferencia
pero en otros casos puede ser mucho mayor. El resultado es una reduccin en la
probabilidad de declarar falsa a la hiptesis nula, es decir, una chance menor de
encontrar diferencias entre los niveles del efecto principal (en este caso no hay
diferencia ya que en ambos casos se puede rechazar la hiptesis nula, pero la
probabilidad se observa claramente diferente.
Para poder cuantificar esta diferencia en la capacidad del anlisis para detectar
diferencias, se calculan los valores definidos anteriormente:
F de crtico valor bloqueo con error CM
F de crtico valor bloqueo error CM
relativa eficiencia

=
sin
34 , 5
009 , 3
07 , 16
009 , 3 0 , 1
901 , 2 54 , 5
= =

= relativa eficiencia
Este ltimo resultado indica que el experimento, diseado en bloques al azar y
analizado con un andeva de bloques al azar, es 5,34 veces ms potente para
detectar diferencias entre las marcas de caf. Tambin esto puede interpretarse
como que el experimento es capaz de detectar diferencias hasta 5 veces ms
pequeas que la observada.
Anlisis de varianza de dos factores
El anlisis de varianza en bloque al azar es un tipo de anlisis de dos factores.
Sin embargo, slo uno de esos factores tiene inters en la investigacin: el
tratamiento. El factor bloque slo clasifica los datos para reducir la variacin en
el error.
Sin embargo hay experimentos que se disean para analizar simultneamente el
efecto de dos factores de similar importancia. Adems, en estos casos,
generalmente tambin tiene importancia comprobar si hay algn tipo de
Mario Briones 2013
74
interaccin entre ambos factores. Es decir, si la respuesta a travs de los niveles
de un factor es independiente o no del nivel del otro factor.
Suponga que se quiere evaluar el efecto del tipo de fertilizante (Factor 1),
simultneamente con el efecto del tipo de semilla de maz (Factor 2). Un
experimento como este genera un nmero de tratamientos igual a la
multiplicacin del nmero de niveles de cada uno de los factores. En este caso,
como son 5 fertilizantes diferentes y 3 tipos de semilla, la cantidad de grupos es
igual a 5 x 3= 15. Respecto de los grados de libertad, sern de 5-1=4 para el tipo
de fertilizantes, 3-1=2 para el tipo de semilla y 4 x 2= 8 para la interaccin entre
ambos factores. Los datos se encuentran en la siguiente tabla.
Tabla:
fertilizante 1 fertilizante 2 fertilizante 3 fertilizante 4 fertilizante 5
semilla A-402 106 95 94 103 100
semilla A-402 110 100 107 104 102
semilla B-894 110 98 100 108 105
semilla B-894 112 99 101 112 107
semilla C-952 94 86 98 99 94
semilla C-952 97 87 99 101 98
El modelo de anlisis en este caso es:
Y
ijk
=+o
i
+|
j
+o|
ij
+c
ijk
Donde
Y
ijk=
observacin individual
o
i
= efecto del i simo nivel del factor A.
|
j
= efecto del j simo nivel del factor B
o|
ij
= efecto de la interaccin entre el i simo nivel de A con el j simo nivel de B.
c
ijk
= error residual.
En este tipo de anlisis, pueden formularse 3 hiptesis nulas: una sobre
igualdad en el rendimiento de los diferentes fertilizantes, otra sobre la igualdad
en el rendimiento de las variedades o tipos de semillas y otra sobre la ausencia
de interaccin entre ambos factores.
ANLISIS DE VARIANZA
Origen de las variaciones
Suma de
cuadrados
Grados de
libertad
Promedio de
los
cuadrados F Probabilidad
Valor crtico
para F
Muestra (f ilas, SEMILLA) 512,9 2 256,4 28,3 8,13534E-06 3,68
Columnas (FERTILIZANTE) 449,5 4 112,4 12,4 0,000118872 3,06
Interaccin 143,1 8 17,9 2,0 0,12208995 2,64
Dentro del grupo 136 15 9,1
Total 1241,5 29
Mario Briones 2013
75
La tabla de anlisis de varianza obtenida con Excel muestra que existe
diferencia significativa entre los diferentes fertilizantes y entre los tipos de
semilla. No existe interaccin entre ambos factores.
Figura 7.1: Promedio de rendimiento de tres tipos de semilla de maz
combinadas con 5 tipo de fertilizante.
80
85
90
95
100
105
110
115
fertilizante 1 fertilizante 2 fertilizante 3 fertilizante 4 fertilizante 5
Tipo de fertilizante
R
e
n
d
i
m
i
e
n
t
o
semilla A-402
semilla B-894
semilla C-952
La ausencia de interaccin se puede observar claramente en la figura 7.1. Los
tres tipos de semillas mantienen su orden relativo de rendimiento a travs de
todos los niveles del factor fertilizante.
En este tipo de anlisis, es fundamental que el diseo sea balanceado, es decir,
que cada combinacin de ambos factores tenga la misma cantidad de
observaciones. Esto sucede porque las subdivisin de la variacin total en
partes es nica slo si el experimento es balanceado. Si el experimento es
desbalanceado, ya sea por diseo o por accidente, las sumas de cuadrados
Mario Briones 2013
76
dependern del orden en el cual los factores se introduzcan en el modelo. Por lo
tanto la suma de cuadrados para el factor B depender de si el factor A est
presente o no en el modelo. Este factor puede distorsionar la interpretacin de
los datos en un experimento desbalanceado.
El siguiente experimento, reportado por Afifi y Azen (1972, p 166), evala el
efecto de 4 medicamentos sobre tres enfermedades inducidas
experimentalmente en perros. Cada combinacin de medicamento-enfermedad
se aplic a 6 perros elegidos aleatoriamente y la medicin analizada fue el
aumento de la presin sistlica (mm Hg), for efecto del tratamiento. En la tabla
siguiente se observa que faltan algunos valores, debido seguramente a
problemas con los perros especficos. Esto produce que las celdas que
representan a cada combinacin de factores no tengan el mismo nmero de
repeticiones.
Tabla: Cambio en la presin sistlica por efecto de 4 medicamentos aplicados a
perros con 3 enfermedades
1
Enfermedad 1 2 3 4
1 42 28 - 24
1 44 - - -
1 36 23 1 9
1 13 34 29 22
1 19 42 -2
1 22 13 19 15
2 33 - 27
2 - 34 11 12
2 26 33 9 12
2 - 31 7 -5
2 33 - 1 16
2 21 36 -6 15
3 31 3 21 22
3 -3 26 1 7
3 - 28 - 25
3 25 32 9 5
3 25 4 3 12
3 24 16 - -
Medicamento
En este caso, ya hay problemas prcticos al intentar el anlisis con las
herramientas estadsticas de Excel, ya que los espacios en blanco en la tabla no
permiten continuar con el anlisis.
Pero esto no es lo fundamental. El desbalance afectar las sumas de cuadrados
de modo que al disponer de un software especializado como Infostat, debemos
asegurarnos que se obtienen las sumas de cuadrados correctas:
1
Afifi y Azen (1972)
Mario Briones 2013
77
Suma de cuadrados Tipo I: significa que la suma de cuadrados (SC) para cada
factor es calculada como el cambio en SCe cuando el factor es agregado al
modelo. Si el modelo es Y= A B A*B, SC
A
se calcula primero como si el
experimento hubiese sido de un factor. Luego SCB se calcula como la reduccin
en SCe cuando se analiza el modelo Y= A B y finalmente la SC de interaccin se
obtiene como la reduccin en SCe al introducir la interaccin en el modelo.
Suma de cuadrados Tipo II: significa que la SC para cada factor se calcula como
si ste hubiese sido aadido al final al modelo, excepto que para la interaccin
debera incluirse todos los efectos principales que participen en ella.
Suma de cuadrados Tipo III: es en cierta medida un intento de calculo como
habra sido las SC si el experimento hubiese estado balanceado. A veces se le
denomina sumas parciales de cuadrados y es el tipo de SC que se utiliza cuando
los experimentos son desbalanceados.
Suma de cuadrados Tipo IV: se diferencia de la SC Tipo III en el mtodo como
maneja las celdas vacas, es decir, los experimentos incompletos.

El resultado correcto del anlisis anterior se observa en la siguiente figura
(pantalla de Infostat):
Como puede verse en el resultado, no existen diferencias entre enfermedades ni
hay interaccin entre los factores, sin embargo, hay grandes diferencias entre
los medicamentos las cuales estn dadas entre los pares 1,2 y 3,4.
Mario Briones 2013
78
Anlisis de varianza de muestras repetidas
En ocasiones, especialmente en experimentos con animales, stos sujetos son
medidos ms de una vez durante el experimento, pudiendo a la vez estar
divididos en diferentes grupos experimentales. El esquema general sera como
en la siguiente figura:
tiempo 1 tiempo 2 tiempo 3 tiempo n
sujeto 1
sujeto 2
sujeto 3

sujeto n
sujeto 1
sujeto 2
sujeto 3

sujeto n
sujeto 1
sujeto 2
sujeto 3

sujeto n
grupo 1
grupo 2
grupo n
Este diseo es tambin un diseo factorial, donde un factor es el grupo de
tratamiento, el otro es el tiempo y tambin puede existir interaccin entre
ambos factores.
Una manera sencilla de analizar un experimento como ste consiste en resumir
los datos de cada individuo para obtener un pequeo nmero de medidas y a
continuacin analizar los datos resumidos mediante un mtodo como la prueba
de t de student o el anlisis de varianza.
Los tipos de medidas resumen que se pueden utilizar son por ejemplo:
- El cambio en la variable dependiente durante la duracin del
experimento.
- La pendiente de la regresin lineal simple de la respuesta sobre el
tiempo, para cada individuo.
- Cuando la relacin entre la respuesta y el tiempo parezca no lineal puede
ser necesario reconocer trminos de segundo grado o superiores.
- El comportamiento en el tiempo puede ser descrito por una curva para
cada individuo. El rea bajo esta curva puede ser utilizada como medida
resumen.
Los siguientes datos corresponden a un experimento en que se midi el
crecimiento de ratas bajo dos tratamientos distintos (Contro y Tiouracilo). Las
ratas fueron asignadas aletoriamente a cada uno de los grupos y el peso se
midi al momento de inicio (tiempo 0) y luego cada una semana, por tres veces.
Mario Briones 2013
79
En este tipo de diseo se debe considerar que las observaciones pertenecientes
al mismo sujeto, en diferentes periodos de tiempo, estn correlacionadas entre
s (debido a que son hechas precisamente sobre un mismo individuo, con una
misma fisiologa). Esto significa que un anlisis factorial no puede ser aplicado
a este diseo ya que ese tipo de anlisis asume que las observaciones en
diferentes momentos son independientes, lo cual no es verdadero en este tipo
de experimentos.
El modelo correspondiente al anlisis sera el siguiente:
Y
ijk
= + o
ij
+ |
j
+ t
k
+ (|t)
jk
+ c
ijk
Y
ijk
= observacin individual
= media general
o
ij
= efecto aleatorio del individuo i, dentro del tratamiento j.
|
j
= efecto del tratamiento j
t
k
= efecto del tiempo k
(|t)
jk
= interaccin entre tiempo y tratamiento
c
ijk
= error residual
Los datos (peso en gramos de las ratas) se encuentran en la siguiente tabla:
Tratamiento individuo T0 T1 T2 T3
1 1 57 86 114 139
1 2 60 93 123 146
1 3 52 77 111 144
1 4 49 67 110 129
1 5 56 81 104 121
1 6 46 7 102 131
1 7 51 71 94 110
1 8 63 91 112 130
1 9 49 67 90 112
1 10 57 82 110 139
2 1 61 86 109 120
2 2 59 80 101 111
2 3 53 79 100 106
2 4 59 88 100 111
2 5 51 75 101 123
2 6 51 75 92 100
2 7 56 79 95 103
2 8 58 69 93 114
2 9 46 61 78 90
2 10 53 72 89 104
Tiempos
El anlisis de varianza de mediciones repetidas no se encuentra implementado
en la versin demo de Infostat. Est disponible en SPSS y SAS, softwares
comerciales de alto precio.
Una alternativa es la pgina de Internet:
http://faculty.vassar.edu/lowry/VassarStats.html, donde en la opcin ANOVA
es posible realizar un anlisis de varianza de mediciones repetidas hasta con 4
mediciones en el mismo sujeto. El nmero de columnas (mediciones repetidas)
y filas (tratamiento) se define inicialmente.
Figura: imagen de pantalla de la pgina VassarStats, que muestra el ingreso de
los datos del ejemplo.
Mario Briones 2013
80
Dos observaciones importantes en la pgina es que el signo decimal es el punto
y al pegar datos debe borrarse un espacio al final de la columna para que el
cursor quede inmediatamente a la derecha del ltimo nmero de la columna.
Reemplazar las comas por puntos es sencillo de hacer en Excel utilizando la
funcin Reemplazar en el men de Edicin.
Los resultados del anlisis se observan en la siguiente figura:
El resultado del anlisis de varianza de mediciones repetidas est separado en
dos partes: una entrega los resultados de la variacin ENTRE SUJETOS
(Between Subjects) y otra entrega la variacin DENTRO DE SUJETOS (Within
Subjects).
La variacin ENTRE SUJETOS permite evaluar las diferencias entre los grupos
de tratamiento. En este caso la probabilidad es 0,09 lo cual en rigor puede
Mario Briones 2013
81
interpretarse como ausencia de efecto de los tratamientos sobre el crecimiento
de los individuos.
La variacin DENTRO DE SUJETOS entrega los resultados para el efecto del
tiempo y para la interaccin entre tratamiento y tiempo. En este caso, ambos
efectos son significativos.
(El resultado de este anlisis fue chequeado con el Software SPSS).
En la siguiente figura se puede observar el resultado en un grfico de lneas, el
cual permite apreciar fcilmente que el comportamiento del peso a lo largo del
tiempo vara considerablemente, lo cual es consistente con el resultado del
anlisis. Al mismo tiempo, la interaccin significativa entre tiempo y
tratamiento se puede ver en el comportamiento distinto de a ambos grupos a
travs del tiempo, evidenciado en el menor peso de la tercera semana para el
grupo con tiouracilo.
Figura: comportamiento del peso de ratas sometidas a dos tratamientos durante
3 semanas.
0
20
40
60
80
100
120
140
0 1 2 3 4
Semana
P
e
s
o

(
g
r
s
)
control
tiouracilo
Al efectuar un anlisis de varianza de mediciones repetidas hay un supuesto
importante que deben cumplir los datos y es el supuesto de esfericidad. Este
supuesto se relaciona con la igualdad de las varianzas entre los diferentes
niveles del factor repetido (el tiempo, en el caso del ejemplo). Se evala con el
test de Mauchly). . Los resultados de un anlisis de varianza que viola este
supuesto no son confiables. El resultado que entrega la pgina Vassar Stats
asume esfericidad pero no la comprueba. Softwares como SPSS y SAS efectuan
el anlisis no slo asumiendo esfericidad sino que tambin calculan el resultado
aplicando correcciones tales como las correcciones de Greenhouse- Geisser, de
Huynh-Feldt y Lower bound. Estas correciones alteran los grados de libertad
del anlisis y por lo tanto afectan la significancia de la tasa de F. Se sugiere
utilizar los resultados con la correccin de Greenhouse-Geisser en caso que no
exista coincidencia con los otros dos resultados.
Mario Briones 2013
82
VIII. CORRELACION LINEAL
Covarianza
Cuando se analizan dos o ms variables cuantitativas en conjunto, una
herramienta estadstica que se utiliza frecuentemente es el coeficiente de
correlacin lineal. Este coeficiente es un nmero entre -1 y +1, que cuantifica la
estrechez de la fluctuacin en conjunto entre dos variables cuantitativas.
Tambin se dice que mide la asociacin entre dos variables.
La base para la determinacin de esta fluctuacin (variacin) en conjunto es la
COVARIANZA. En la poblacin, la covarianza se define como:
FORM. 8.1
Donde n es el nmero de pares X e Y. Cuando se trata de una muestra, el
divisor es n-1 (grados de libertad). NOTA IMPORTANTE: En la planilla Excel,
la frmula de la covarianza ocupa N y no N-1. Sin embargo, la funcin
COEF.DE CORREL utiliza los grados de libertad correctos.
La covarianza de dos variables es cero cuando no existe fluctuacin en conjunto
entre ellas. Es mayor que cero (positiva), cuando los valores de X que estn por
sobre la media de X estn generalmente asociados con valores por sobre la
media de Y (o de modo similar, cuando valores bajo la media de X tienden a
estar asociados con valores bajo la media de Y). La covarianza es menor que
cero (negativa) cuando los valores de X que estn por sobre la media de esta
variable tienden a estar asociados con valores bajo la media de Y (o de modo
similar, cuando valores bajo el promedio de X tienden a estar asociados con
valores sobre el promedio de Y).
Si los valores de X e Y se ubican en un grfico de dispersin, las situaciones son
las siguientes:
A B C
Figura: A) covarianza positiva; B) covarianza negativa; C) covarianza cercana a
cero.
Mario Briones 2013
83
( )( )
y i
n
j
x j XY
y x
n
=

=1
) (
1
cov
La covarianza puede tomar cualquier valor, dependiendo de la unidad de
medicin de las variables. Entonces no es fcil juzgar la magnitud de la
fluctuacin en conjunto con este valor.
Ejemplo: los siguientes son valores de altura sobre el nivel del mar y
pluviometra para 11 localidades.
localidad
altura sobre el mar
(mts)
pluviometra
(mm/ao)
1 884 552
2 826 444
3 1160 663
4 1162 634
5 844 430
6 1008 573
7 956 438
8 825 474
9 899 409
10 801 504
11 1186 708
Calcular los promedios, desviaciones estndares y la covarianza, mediante
Excel
Respuesta: CovXY= 13079.42
Como se aprecia en este caso, existe covarianza. En trminos absolutos es
distinta de cero y positiva, por lo tanto hay un grado de fluctuacin en conjunto
que implica que valores ms altos de pluviometra estn generalmente
asociados con mayores altitudes sobre el nivel del mar.
Coeficiente de correlacin
Karl Pearson, matemtico ingls, desarroll un ndice que divide la covarianza
por el producto de las desviaciones estndares de X y de Y. Este ndice es el
coeficiente de correlacin que slo puede tomar valores entre 1 y + 1, de
modo que es fcil interpretar la estrechez de la fluctuacin en conjunto. Esta
estrechez es mayor cuando el valor del coeficiente se acerca a -1 a +1. No
habr fluctuacin en conjunto cuando el valor del coeficiente sea cero o cercano
a cero.
FORM. 8.2 FORM. 8.3
Coeficiente de correlacin en la poblacin Coeficiente de correlacin en la muestra
Mario Briones 2013
84
Y X
XY
Cov
rho
o o

) (
) ( =
Y X
XY
s s
Cov
r
) (
=
Para el ejemplo anterior, que relaciona la pluviomera con la altitud sobre el
nivel del mar, el coeficiente de correlacin lineal es:
Como todos los estadsticos calculados en una muestra, el coeficiente de
correlacin tiene error y puede ser distinto del verdadero valor del coeficiente
en la poblacin (rho). En trminos estadsticos, significa que se podra plantear
la duda acerca de la existencia de una correlacin real en la poblacin. Esto
significa, un valor de rho diferente de cero. Por lo tanto, se pueden plantear las
siguientes hiptesis:
H
0
: = 0 (no hay asociacin significativa entre las variables)
H
A
: 0 (hay asociacin significativa, positiva o negativa)
En el caso en anlisis, los datos disponibles son una muestra de altitudes y
pluviometras asociadas. Lo que queda por responder es si en la poblacin de
donde proceden todos estos valores (la poblacin de altitudes y pluviometras a
las cuales esta muestra representa), existe una correlacin diferente de cero.
Para comprobar la hiptesis nula, existen varias alternativas.
Alternativa 1: evaluacin con mediante la distribucin de t de z, dependiendo
del tamao de la muestra (n es el nmero de pares de valores XY).
FORM. 8.4 FORM. 8.5
Cuando n es menor que 30 Cuando n es mayor que 30
Mario Briones 2013
85
2
1
2

=
N
r
r
t
XY
XY
2
1
2

=
N
r
r
z
XY
XY
856 . 0
4 . 103 9 . 147
42 . 13079
=

= r
Para el ejemplo de la altura sobre el nivel del mar y la pluviometra, el valor de t
es:
El valor de t para alfa 0.05 y 9 grados de libertad (nmero de pares menos 2) es
2.26. Por lo tanto, la hiptesis nula puede declararse como falsa y se puede
concluir que hay una asociacin significativa entre las variables altura sobre el
nivel del mar y pluviometra (el valor de rho es diferente de cero).
En Internet, en el siguiente vnculo se puede evaluar directamente
Alternativa 2: comparacin con un valor crtico de r.
En la tabla 9.1 se buscan los valores crticos segn la significancia deseada y los
grados de libertad (nmero de pares menos 2). En el ejemplo, el valor crtico
con alfa 0.05 y 9 grados de libertad es 0.602, por lo tanto, la conclusin es la
misma que con al alternativa 1.
Mario Briones 2013
86
25 . 5
163 . 0
856 . 0
9
733 . 0 1
856 . 0
=
=

=
t
t
t
Tabla 8.1 Valores crticos de r (2 colas)
nivel de significancia
grados de
libertad (n-2) 0,1 0,05 0,02 0,01
1 0,988 0,997 1,000 1,000
2 0,900 0,950 0,980 0,990
3 0,805 0,878 0,934 0,959
4 0,729 0,811 0,882 0,917
5 0,669 0,754 0,833 0,874
6 0,622 0,707 0,789 0,834
7 0,582 0,666 0,750 0,798
8 0,549 0,632 0,716 0,765
9 0,521 0,602 0,685 0,735
10 0,497 0,576 0,658 0,708
11 0,476 0,553 0,634 0,684
12 0,458 0,532 0,612 0,661
13 0,441 0,514 0,592 0,641
14 0,426 0,497 0,574 0,623
15 0,412 0,482 0,558 0,606
16 0,400 0,468 0,542 0,590
17 0,389 0,456 0,528 0,575
18 0,378 0,444 0,516 0,561
19 0,369 0,433 0,503 0,549
20 0,360 0,423 0,492 0,537
21 0,352 0,413 0,482 0,526
22 0,344 0,404 0,472 0,515
23 0,337 0,396 0,462 0,505
24 0,330 0,388 0,453 0,496
25 0,323 0,381 0,445 0,487
26 0,317 0,374 0,437 0,479
27 0,311 0,367 0,430 0,471
28 0,306 0,361 0,423 0,463
29 0,301 0,355 0,416 0,456
30 0,296 0,349 0,409 0,449
35 0,275 0,325 0,381 0,418
40 0,257 0,304 0,358 0,393
45 0,243 0,288 0,338 0,372
50 0,231 0,273 0,322 0,354
60 0,211 0,250 0,295 0,325
70 0,195 0,232 0,274 0,303
80 0,183 0,217 0,256 0,283
90 0,173 0,205 0,242 0,267
100 0,164 0,195 0,230 0,254
Mario Briones 2013
87
Transformacin de Fisher del coeficiente de correlacin
Otro tipo de pruebas estadsticas que pueden ser necesarias cuando se utilizan
coeficientes de correlacin es la construccin de intervalos de confianza, la
comparacin estadstica de coeficientes y el clculo del promedio de dos o ms
coeficientes.
Todos estos procedimientos requieren la transformacin del coeficiente de
correlacin a un valor z. Esta transformacin se denomina Transformacin de
Fisher.
FORM. 8.6
Este valor z tiene distribucin aproximadamente normal, con media r y error
estndar (ee) igual a:
FORM. 8.7
En el ejemplo, el valor del coeficiente transformado es:
Para transformar un nmero z nuevamente en un coeficiente de correlacin, la
transformacin inversa de Fisher es:
FORM. 8.8
Para el ejemplo:
Mario Briones 2013
88
|
.
|

\
|

+
=
r
r
z
rxy
1
1
ln 5 . 0
5 . 0
) 3 (
1

=
N
ee
278 . 1
55 . 2 5 . 0
144 . 0
856 . 1
ln 5 . 0
856 . 0 1
856 . 0 1
ln 5 . 0
=
=
|
.
|

\
|
=
|
.
|

\
|

+
=
rxy
z
1
1
) 2 (
) 2 (
+

=
z
z
e
e
r
856 . 0
1
1
) 278 . 1 2 (
) 278 . 1 2 (
=
+

e
e
r
Intervalo de confianza para r
FORM. 8.9
Para el ejemplo:
Paso 1: clculo de los lmites del intervalo en valores de z:
Paso 2: tranformacin de los lmites en valores de coeficiente de correlacin:
En Internet, la siguiente pgina permite calcular directamente el intervalo de
confianza: http://faculty.vassar.edu/lowry/rho.html?
Comparacin de dos coeficientes de correlacin:
La comparacin de dos coeficientes de correlacin independientes, tambin
necesita la transformacin de Fisher de los coeficientes:
FORM. 8.10
Mario Briones 2013
89
3 - N
1
)
colas dos P
z z
rxy
(
622 . 0
928 . 1
653 . 0 275 . 1
1111 . 0 96 . 1 275 . 1
96 . 1 275 . 1
=
=

(LI) inferior Lmite


(LS) superior Lmite
3 - 11
1
526 . 0
2234 . 4
2234 . 2
1
1
999 . 0
864 . 842223
864 . 842221
1
1
) 2 (
) 2 (
) 2 (
) 2 (
= =
+

= =
+

LI
LI
LS
LS
e
e
e
e
|
|
.
|

\
|

+
|
|
.
|

\
|

=
3
1
3
1
2 1
2 1
n n
z z
z
rxy rxy
El valor de z obtenido se compara con el valor de z para alfa 0.05 (1.96) o para
alfa 0.01 (2.58).
En Internet, en los dos vnculos siguientes es posible calcular directamente el
valor de z y la probabilidad de error tipo I.
http://faculty.vassar.edu/lowry/rdiff.html
http://www.people.ku.edu/~preacher/corrtest/corrtest.htm
El siguiente vnculo permite comparar un valor observado de r con un valor
hipottico de rho:
http://faculty.vassar.edu/lowry/rpop.html
Clculo del promedio de varios coeficientes de correlacin
Los coeficientes de correlacin no son aditivos, debido a que cada coeficiente no
es una funcin lineal de la magnitud de la relacin entre las variables. Por lo
tanto, los coeficientes de correlacin no pueden ser promediados. Para poder
efectuar este procedimiento se deben convertir primero a magnitudes aditivas.
Una manera sencilla de lograrlo es convertir primero todos los coeficientes
mediante la transformacin de Fisher. Luego, se promedian los valores
transformados y para recuperar el valor como correlacin se utiliza la
transformacin inversa de Fisher.
Mario Briones 2013
90
IX. REGRESION LINEAL
La regresin lineal tiene como propsito describir la relacin entre una (o
varias) variable cuantitativa independiente (o predictora) y una variable
dependiente. Si existe una conexin biolgica (o de otro tipo) entre las variables
X e Y, entonces puede formularse un modelo lineal que represente esta
asociacin.
En muchas ocasiones, a partir de un anlisis de correlacin en el cual el
coeficiente ha resultado ser significativamente distinto de cero, el siguiente paso
es definir una de las variables como independiente (X) y la otra como
dependiente (Y) y buscar una ecuacin (modelo) que describa el
comportamiento de la variable Y ante cambios en la variable X.
La ecuacin de la lnea recta es un modelo muy sencillo para definir esta
relacin, y asume que la tasa de cambio en la variable Y es constante para
diferentes valores de X (Y= a + bX) FORM. 9.1
La parte ms importante de este modelo es la pendiente de la recta: b
Los datos en la tabla siguiente muestran el rendimiento de soya (gramos por
planta) en un experimento en que se han sometido plantas de soya a
concentraciones crecientes de ozono.
X
Concentracin de ozono (ppm)
Y
Rendimiento (grs./planta)
0.02 242
0.07 237
0.11 231
0.15 201
Actividad: En Excel, genere un grfico de dispersin con los valores de la tabla.
Debera quedar como el siguiente:
200
210
220
230
240
250
0 0,05 0,1 0,15 0,2
concentracin de ozono (ppm)
r
e
n
d
i
m
i
e
n
t
o

(
g
r
/
p
l
a
n
t
a
)
Mario Briones 2013
91
Utilice las funciones incorporadas de Excel para calcular los siguientes valores,
que sern necesarios para calcular la lnea recta:

= 35 . 0 Xi

= 911 Yi

= 99 . 76 XiYi
0875 . 0 = X 75 . 227 = Y

= 0399 . 0
2
i
X

= 208495
2
i
Y
La construccin de este modelo (la lnea recta) asume una relacin lineal entre
el rendimiento de la soya y la concentracin de ozono y establece que la media
verdadera (poblacional) de la variable Y cambia a una tasa constante en la
medida que la variable X aumenta o disminuye:
Modelo de la regresin
FORM. 9.2
Donde
E(Y
i
)= valor esperado de Y.
o= intercepto (valor de E(Y
i
) cuando X es igual a cero).
|= pendiente de la lnea (tasa de cambio de E(Y
i
) ante un cambio unitario en X).
Supuestos del modelo
- Las observaciones de la variable dependiente Y
i
se asumen como
observaciones aleatorias tomadas de poblaciones de variables aleatorias
donde la media de cada poblacin est dada por E(Y
i
).
- La desviacin de una observacin Yi desde la media de su poblacin,
E(Y
i
) se considera aadiendo un trmino de error aleatorio ci para dar el
siguiente modelo:
FORM. 9.3
El subndice indica cada unidad de observacin en particular, i= 1, 2, n. Los X
i
son las n simas observaciones de la variable dependiente, que se supone son
tomadas sin error. Es decir, son constantes conocidas; los Y
i
y los X
i
son
observaciones pareadas, tomadas en cada unidad observacional.
Mario Briones 2013
92
) ( ) (
i i
X Y E | o + =
i i i
X Y c | o + + =
Estimacin de mnimos cuadrados
Los parmetros en el modelo son | y o, a ser estimados desde los datos
(muestra). Si no existiese error aleatorio en Y
i
, cualquier par de puntos podra
ser utilizado para resolver los valores de los parmetros.
La variacin aleatoria de Y, sin embargo, hace que cada par de valores de
resultados diferentes (Todos los estimadores seran idnticos slo si los datos
observados cayeran exactamente sobre una lnea recta.)
Por lo tanto, el mtodo de resolucin debe combinar toda la informacin para
dar una sola solucin que sea la mejor en base a algn criterio.
El procedimiento de estimacin de mnimos cuadrados utiliza el criterio de que
la solucin debe dar la suma ms pequea posible para las desviaciones al
cuadrado desde los valores observados de Y
i
hasta sus medias verdaderas
dadas por la solucin.
Sean b y a los estimadores numricos de los parmetros | y o, respectivamente,
y sea el promedio estimado de Y para cada X
i
, i= 1, 2,, n.
Se debe observar que Y
i
es obtenida sustituyendo los parmetros en la forma
funcional del modelo que relaciona E(Y
i
) con X
i
, dado por la ecuacin de la
recta.
El principio de los mnimos cuadrados escoge valores de a y b que minimizan la
suma de cuadrados de los residuales, SC(Residual):
FORM. 9.4
Donde es el valor residual observado para la isima observacin. La
suma indicada por E es sobre todos los valores del conjunto como lo indican los
ndices i= 1 hasta n. Los estimadores de b y a se obtienen usando clculo para
encontrar los valores que minimizan SC(Res). Las derivadas de SC(Res) con
respecto a b y a son definidas iguales a cero.
Las ecuaciones normales son:
Resolviendo las ecuaciones simultneamente para a y b, da los estimadores
para o y |:
FORM. 9.5
Mario Briones 2013
93
i i
bX a Y + =

=
=
=
2
) (
1
2
) (
)

(
i RESIDUAL
n
i
i i RESIDUAL
e SC
Y Y SC
)

(
i i i
Y Y e =
( )

= +
i i
Y b X a n ) (
( ) ( )

= +
i i i i
Y X b X a X
2
( )( )


=
2 2
) (
i
i i
i
i i
x
y x
X X
Y Y X X
b
que es igual a la covarianza de XY dividida por la varianza de X. La constante o
intercepto es igual a:
FORM. 9.6
En el ejemplo del rendimiento de soya:
Por lo tanto, la ecuacin es:
X Y 53 . 293 43 . 253

=
y = -293,53x + 253,43
200
205
210
215
220
225
230
235
240
245
250
0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16
concentracin de ozono (ppm)
r
e
n
d
i
m
i
e
n
t
o

(
g
r
/
p
l
a
n
t
a
)
En Excel y OpenOffice es muy fcil (talvez demasiado fcil) obtener los
coeficientes del modelo. Basta con construir un grfico de dispersin e insertar
una lnea de tendencia.
Esta sencilla ecuacin, que aparece en la figura anterior, constituye un modelo
construido con los datos disponibles que representa (con un determinado grado
de confiabilidad) la relacin que es aparentemente existe entre la concentracin
de ozono y la produccin vegetal en el experimento.
El modelo lineal indica que por cada parte por milln de aumento en la
concentracin de ozono (la unidad de medicin de ste), se produce una
disminucin de 293.5 gramos en al produccin de soya por planta, tasa que es
constante a lo largo del recorrido observado de X.
Tambin el modelo puede ser utilizado para predecir valores de de Y ante
valores conocidos de X. Por ejemplo, en el rango de valores observados de
concentracin de ozono (0.02 a 0.15 ppm), cual ser la produccin de soya con
0.09 ppm de ozono? La respuesta es:
Mario Briones 2013
94
X b Y a =
53 . 293
4
) 35 . 0 (
0399 . 0
4
) 911 )( 35 . 0 (
99 . 76
2
=

= b
434 . 253 ) 08875 . 0 )( 531 . 293 ( 75 . 227 = = a
Comprobacin de hiptesis respecto de la pendiente
Es necesario recordar en este momento que la ecuacin de la lnea recta
obtenida en el ejemplo, est obtenida con una muestra de datos tomada desde
una poblacin. Si en la poblacin el valor de b es cero, entonces no habr
relacin entre las variables, ya que para cualquier valor de X, el valor de Y se
mantendr constante. Tambin hay que recordar que de acuerdo a los
principios de muestreo, es perfectamente posible obtener una lnea con una
pendiente marcada pero podramos estar en presencia de un conjunto de datos
que no refleje lo que en realidad sucede en la poblacin para distribucin
conjunta de los valores de concentracin de ozono y produccin vegetal.
Por lo tanto, las hiptesis nula y alterna son:
H
0
: | = 0
H
A
: | 0
El primero paso que se necesita para construir un test que permita comprobar la
hiptesis nula es determinar el error estndar de la regresin:
FORM. 9.7
donde se observa que el error estndar de la regresin es una medida de la
desviacin de los puntos de datos a partir de la lnea de regresin. Una frmula
de clculo equivalente es la siguiente:
FORM. 9.8
En el ejemplo del ozono y el rendimiento de soya, el error estndar es:
El error estndar de la pendiente es
Mario Briones 2013
95
98 . 226

42 . 26 4 . 253

09 . 0 5 . 293 4 . 253

5 . 293 4 . 253

=
=
=
=
Y
Y
Y
X Y
i
2
)

(
2

=

n
Y Y
EE
regresin
2
) (
2


=

n
XY b Y a Y
S EE
e regresin
14 . 10
2
) 07 . 22558 ( 4 . 230847 208495
2
99 . 76 ) 5 . 293 ( 911 4 . 253 208495
=

=

=
regresin
EE
FORM. 9.9
El estadgrafo de prueba es
b
S b t / =
FORM. 9.10
En el ejemplo, 78 . 2 6 . 105 / 5 . 293 = = t
En la tabla de t, el valor crtico dos colas, con alfa 0.05 y n-2 grados de libertad
es 4.3. Por lo anterior, en este caso, no puede rechazarse la hiptesis nula, ya
que la pendiente de la lnea puede ser cero en la poblacin.
Es claro que en este caso en particular, un factor importante que afecta el poder
de la prueba para determinar la existencia de una asociacin significativa, es el
bajo tamao de la muestra, el cual, se debe principalmente a que se utilizaron
promedios de varias plantas para establecer los pares de valores X,Y. Esto
ltimo se debe evitar ya que reduce la varianza.
La ausencia de una pendiente diferente de cero puede ser corroborado
mediante la determinacin del intervalo de confianza para la pendiente.
FORM. 9.11
El valor de t es el mismo utilizado en la prueba de hiptesis, si el intervalo es de
95%: 4.3
Lmite inferior del intervalo= -747.61
Lmite superior del intervalo= 160.55
Como puede observarse, el verdadero valor de la pendiente en la poblacin
puede estar, con un 95% de confianza, entre -747.61 hasta 160.55. El intervalo
contiene al cero y, por lo tanto, la lnea puede ser horizontal en la poblacin (si
la pendiente es cero, no hay ningn cambio en Y frente a cambios en X).
Mario Briones 2013
96

n
X
X
S
t b
b
2
2
2 /
) (
o
08 . 454 53 . 293
6 . 105 3 . 4 53 . 293


( )
n
X
X
S
S
e
b
2
2


=
6 . 105
096 . 0
14 . 10
4
) 35 . 0 (
0399 . 0
14 . 10
2
= =

=
b
S
Intervalo de prediccin de Y
Como una de las principales aplicaciones de la lnea de regresin es la
prediccin de valores de Y para valores dados de X, es esencial determinar la
confianza de esta estimacin mediante un intervalo para la prediccin de Y. La
expresin para la determinacin depende de la confianza (1-alfa) y el error de la
prediccin:
FORM. 9.12
Para el ejemplo del ozono y la soya, y para un valor dado de X (por ej. X=0.09)
Lmite inferior del intervalo: 178.2 gramos
Lmite superior del intervalo: 275.7 gramos
Como se puede ver claramente, en esta regresin construida con un bajo
nmero de observaciones, la exactitud de la prediccin es bastante baja.
En la siguiente figura se observa el intervalo de confianza para la prediccin del
rendimiento (lneas punteadas), en un grfico que incluye la lnea de regresin.
Relacin entre la concentracin de ozono y la produccin de
plantas de soya, incluyendo la regresin lineal y los lmites de
confianza de 95% de la prediccin
100
150
200
250
300
350
0 0,02 0,04 0,06 0,08 0,1 0,12 0,14 0,16
concentracin de ozono (ppm)
s
o
y
a

(
g
r
s
/
p
l
a
n
t
a
)
Mario Briones 2013
97

+ +
2 2
2
2 /
) ( ) (
) ( 1
1

X X n
X X n
n
Se t Y
o
75 . 48
) 528 . 0 ( ) 0399 . 0 ( 4
) 088 . 0 09 . 0 ( 4
4
1
1 14 . 10 3 . 4

2
2
=

+ + Y
Coeficiente de determinacin
Mide el porcentaje de variacin en la variable respuesta (dependiente),
explicada por la variable independiente y es igual a r
2
.
Tambin es igual a Suma de Cuadrados de la regresin dividida por la Suma de
Cuadrados Totales: SCRegresin/SCTotal. Por lo tanto, es igual a la fraccin de
varianza explicada sobre el total de la varianza.
En el ejemplo de la soya y el ozono, el coeficiente de determinacin es igual a
-0.887
2
, es decir, 0.787. Como interpretacin, se puede decir que, segn los datos
disponibles y el supuesto de relacin lineal entre las dos variables, un 78.7% de
la varianza del rendimiento de soya es explicado por la varianza en la
concentracin de ozono. En otras palabras, las fluctuaciones del ozono explican
un 78.7% de las fluctuaciones en la produccin de soya.
Actividad: utilizacin de Excel para efectuar una regresin lineal y su
diagnstico.
1. Lleve los datos de ozono a una planilla Excel.
2. En men Herramientas, seleccione Anlisis de Datos
3. Seleccione Regresin e ingrese las variables X e Y (concentracin de
ozono y produccin de soya, respectivamente
4. Marque rtulos, residuos estndares, grfico de residuales y curva de
regresin ajustada.
Los resultados en Excel son los siguientes:
1. Coeficientes de correlacin y determinacin, adems del error estndar de la
regresin (informado como error tpico)
Tabla: resultados del anlisis de regresin entre los datos de concentracin de
ozono y produccin de soya.
Estadsticas de la regresin
Coeficiente de correlacin mltiple 0,88742447
Coeficiente de determinacin R^2 0,78752219
R^2 ajustado 0,68128328
Error tpico 10,3829634
Observaciones 4
2. Tabla de Anlisis de Varianza de la regresin. En este anlisis, se
descompone la varianza de Y en una fraccin atribuida a la asociacin con la
variable X (componente regresin) y una fraccin residual, debida a la falta de
ajuste de los puntos observados con la lnea de regresin. La hiptesis nula
Mario Briones 2013
98
acerca de la significancia de la pendiente puede ser evaluada mediante la tasa
de F. La ltima columna de la tabla tiene un error en su encabezado, ya que no
es el valor crtico de F sino que la probabilidad de error tipo I.
Tabla: resultado del anlisis de varianza de la regresin entre los datos de
concentracin de ozono y produccin de soya
ANLISIS DE VARIANZA

Grados
de libertad
Suma de
cuadrados
Promedio
de los
cuadrados F
Valor crtico
de F
Regresin 1 799,13814 799,13814 7,41274752 0,11257553
Residuos 2 215,61186 107,80593
Total 3 1014,75
3: Coeficientes de la lnea de regresin Y=a+bX (a= intercepcin, b= Ozono).
Adems, se entregan los errores estndares de cada uno de ambos estimadores,
el valor estandarizado t y la significancia de cada estimador (es decir, la
probabilidad error tipo I al rechazar una hiptesis nula para cada uno de ellos),
junto con un lmite de confianza de 95% para stos. Observe que en este
ejemplo hay una pequea discrepancia del intervalo de confianza para la
pendiente, comparado con el intervalo calculado anteriormente segn frmula.
Esto se debe exclusivamente a redondeo de cifras decimales en el primer caso.
Tabla: coeficientes y valores de confianza de la regresin entre la concentracin
de ozono y la produccin de soya.

Coeficiente
s Error tpico
Estadstico
t
Probabilida
d Inferior 95%
Superior
95%
Intercepcin 253,433962 10,7676472 23,5366146 0,00180027 207,104516 299,763409
Ozono -293,530997 107,811321 -2,72263614 0,11257553 -757,40567 170,343676
La significancia de la pendiente de la lnea de regresin se comprueba mediante
un anlisis de varianza, en el cual la fuente de variacin conocida es la
regresin, con 1 grado de libertad.
El error residual tiene un grado de libertad igual al nmero de pares de datos
menos uno.
Mario Briones 2013
99
4. Residuales de la regresin. La primera columna muestra los valores de soya
estimados segn la ecuacin de regresin, la segunda muestra la diferencia en
gramos entre el valor predicho y el valor observado y la tercera columna
estandariza estos valores (media cero y desviacin estndar 1). Esta propiedad
de los valores estandarizados permite una importante herramienta de
diagnstico como es la potencial calidad de valor anmalo para aquellos
residuales estndares con valores mayores a 2. Los valores mayores a 2 tienen
menos de un 5% de probabilidades y por lo tanto, segn algunos estadsticos, se
puede considerar su eliminacin y la formulacin de una nueva lnea sin esos
valores. En este caso no hay valores mayores que 2.
Anlisis de los residuales
Observacin
Pronstico
Soya (obs) Residuos
Residuos
estndares
1 247,563342 -5,56334232 -0,65623606
2 232,886792 4,11320755 0,48518228
3 221,145553 9,85444744 1,16240262
4 209,404313 -8,40431267 -0,99134885
5. Grfico de probabilidad normal de la variable Y. En este caso estn
graficados los valores de soya observados, versus su ubicacin en
percentiles. El diagnstico es el siguiente: si los puntos caen sobre una
lnea diagonal relativamente recta en el grfico, los valores tienen
distribucin normal. Para poder evaluar esto es necesario dejar el rea
del grfico lo ms cuadrada posible y ajustar la escala del eje Y para
adecuarla a la extensin de los datos.
Figura: grfico de dispersin entre el percentil y el valor observado de la
produccin de soya.
Mario Briones 2013
100
Grfico de probabilidad normal
200
205
210
215
220
225
230
235
240
245
0 20 40 60 80 100
Muestra percentil
S
o
y
a

(
o
b
s
)
6. Grfico de residuales. Los residuales pueden ser graficados en conjunto con
la variable X, con la variable Y observada o con los valores estimados de Y. En
este caso, Excel los grafica en conjunto con los valores de la variable
independiente. El diagnstico es la observacin de la presencia o ausencia de
patrones reconocibles en los residuales o en su irregularidad. Los residuales
correctos para una regresin lineal deberan estar distribuidos uniformemente a
ambos lados de la lnea central, lo que es un reflejo de su distribucin normal
alrededor de su media (cero). Patrones anmalos pueden ser la forma de
megfono (residuales ms cerca de la lnea en un extremo y alejados de la lnea
en el otro). Tambin como en este caso, los residuales van de un lado al otro de
la lnea, mostrando que probablemente la asociacin entre las variables estara
probablemente mejor representada por una lnea curva y no por una lnea recta.
ozono Grfico de los residuales
-10
-5
0
5
10
15
0 0,05 0,1 0,15 0,2
ozono
R
e
s
i
d
u
o
s
Mario Briones 2013
101
X. TABLAS DE CONTINGENCIA, PRUEBA DE CHI
CUADRADO
Tabla de contingencia
En el mbito de la biologa es frecuente el trabajo con variables cualitativas, las
cuales se utilizan para clasificar a los individuos o sujetos en dos o ms
categoras mutuamente excluyentes. En muchos casos, cuando la variables tiene
dos categoras, el inters estadstico est en la proporcin de individuos que
clasifica en cada una de stas (ej. porcentaje de enfermos, porcentaje de
positivos, porcentaje de mortalidad, etc.). Lo anterior, derivado de las
frecuencias en que el atributo de inters est presente o ausente en cada sujeto.
En estas situaciones, es comn que se tenga como objetivo conocer la existencia
de asociaciones entre dos variables de este tipo, para lo cual el primer paso es la
creacin de una tabla de doble entrada o de contingencia.
Variable A
Variable B Presente Ausente Total
Presente a b a+b
Ausente c d c+d
Total a+c b+d a+b+c+d (n)
Supongamos que se quiere estudiar la posible asociacin entre la
administracin de una vacuna y la presentacin de una enfermedad en peces.
Lo anterior significa que se debe evaluar la probabilidad de enfermar de los
individuos vacunados y no vacunados. Para comprobarlo, se mantienen en un
mismo centro, dos grupos de peces, un grupo con vacuna y otro sin vacunar. A
una edad o momento determinado, se cuentan los individuos sanos y enfermos
en cada uno de los grupos.
En la siguiente tabla se observa el nmero de individuos enfermos y sanos en la
tabla de contingencia
Variable A (vacuna)
Variable B
(enfermedad)
Presente Ausente Total
Presente 207 43 250
Ausente 1645 105 1750
Total 1852 148 2000
Mario Briones 2013
102
Prueba de X
2
(Chi cuadrado)
De modo general, en una tabla r x k (r filas y k columnas), el valor de chi
cuadrado se calcula:

= =

=
k
j ij
ij ij
r
i
E
E O
X
1
2
1
2
) (
Donde
O
ij
representa las frecuencias observadas. Es el nmero de casos observados
clasificados en la fila i de la columna j.
E
ij
representa las frecuencias esperadas o tericas. Es el nmero de casos
esperados correspondiente a cada fila y columna. Tambin se puede definir
como aquella frecuencia que se observara si ambas variables fuesen
independientes.
Para obtener los valores de E
ij
(esperados), se multiplican los totales marginales
y se dividen por el nmero total de casos. En la tabla de 2 x 2 sera de la
siguiente manera:
n
c a b a
E
) ( ) (
11
+ +
=

n
c a d c
E
) ( ) (
21
+ +
=
n
d b b a
E
) ( ) (
12
+ +
=
n
d b d c
E
) ( ) (
22
+ +
=
Para el ejemplo, los valores seran:
5 , 231
2000
) 1852 ( ) 250 (
11
=

= E

5 , 1620
2000
) 1852 ( ) 1750 (
21
=

= E
5 , 18
2000
) 148 ( ) 250 (
12
=

= E

5 , 129
2000
) 148 ( ) 1750 (
22
=

= E
La tabla, con los valores observados y esperados (entre parntesis), queda de la
siguiente forma:
Variable A (vacuna)
Variable B
(enfermedad)
Presente Ausente Total
Presente 207 (231,5) 43 (18,5) 250
Ausente 1645 (1620,5) 105 (129,5) 1750
Total 1852 148 2000
Mario Briones 2013
103
El valor de chi cuadrado es:
04 , 40
5 , 129
) 5 , 129 105 (
5 , 1620
) 5 , 1620 1645 (
5 , 18
) 5 , 18 43 (
5 , 231
) 5 , 231 207 (
2 2 2 2
2
=

= X
Las hiptesis nula y alterna son:
H
0
= No hay asociacin entre las variables, vacuna y presentacin de la
enfermedad.
H
A
= Si hay asociacin entre las variables, es decir, la vacunacin (presencia o
ausencia) y la presentacin de la enfermedad estn asociadas.
De ser verdadera la hiptesis nula, el valor de chi cuadrado calculado debera
estar dentro del mayor rango de probabilidad, de acuerdo a la distribucin de
chi cuadrado correspondiente. Como es normal en una prueba de hiptesis, el
valor de p que normalmente proporcionan los paquetes de software estadstico
es la probabilidad de obtener, segn esta distribucin un dato ms extremo que
el obtenido en la prueba. De modo equivalente, se puede definir como la
probabilidad de obtener los datos observados si la hiptesis de independencia
es verdadera. Obviamente, cuando el valor de probabilidad es ms bajo que el
valor de alfa elegido, la hiptesis nula puede rechazarse.
En la siguiente tabla, se busca el valor crtico para la prueba segn los grados de
libertad y el valor de alfa. En general, en las tablas de contingencia los grados
de libertad se calculan como el nmero de columnas menos una, multiplicado
por el nmero de filas menos uno. En el caso de una tabla de 2 x 2 como la del
ejemplo, el grado de libertad (gl) es 1.
Mario Briones 2013
104
Tabla de Chi cuadrado
Probabilidad de un valor mayor
Grados de
libertad
0,1 0,05 0,025 0,01 0,005
1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,60
3 6,25 7,81 9,35 11,34 12,84
4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
11 17,28 19,68 21,92 24,73 26,76
12 18,55 21,03 23,34 26,22 28,30
13 19,81 22,36 24,74 27,69 29,82
14 21,06 23,68 26,12 29,14 31,32
15 22,31 25,00 27,49 30,58 32,80
16 23,54 26,30 28,85 32,00 34,27
17 24,77 27,59 30,19 33,41 35,72
18 25,99 28,87 31,53 34,81 37,16
19 27,20 30,14 32,85 36,19 38,58
20 28,41 31,41 34,17 37,57 40,00
21 29,62 32,67 35,48 38,93 41,40
22 30,81 33,92 36,78 40,29 42,80
23 32,01 35,17 38,08 41,64 44,18
24 33,20 36,42 39,36 42,98 45,56
25 34,38 37,65 40,65 44,31 46,93
26 35,56 38,89 41,92 45,64 48,29
27 36,74 40,11 43,19 46,96 49,65
28 37,92 41,34 44,46 48,28 50,99
29 39,09 42,56 45,72 49,59 52,34
30 40,26 43,77 46,98 50,89 53,67
40 51,81 55,76 59,34 63,69 66,77
50 63,17 67,50 71,42 76,15 79,49
60 74,40 79,08 83,30 88,38 91,95
70 85,53 90,53 95,02 100,43 104,21
80 96,58 101,88 106,63 112,33 116,32
90 107,57 113,15 118,14 124,12 128,30
100 118,50 124,34 129,56 135,81 140,17
Mario Briones 2013
105
En la tabla se observa que para los datos del ejemplo, el valor de chi cuadrado,
con alfa 0,05 y un grado de libertad, es 3,84. Por lo tanto, con ese valor de alfa, la
hiptesis nula puede rechazarse.
La conclusin es que ambas variables, la vacunacin y la presentacin de la
enfermedad, no son variables independientes sino que estn asociadas. En la
prctica, significara que la enfermedad no se presenta por igual en los grupos
de animales vacunados y no vacunados.
En el caso de una tabla de 2 x 2, la expresin de clculo del valor de chi
cuadrado puede simplificarse de la siguiente manera:
) )( )( )( (
) (
2
2
d b c a d c b a
bc ad n
X
+ + + +

=
Correccin de Yates
Cuando el tamao muestreal es pequeo (en la prctica, cuando hay celdas con
valores menores a 10) debe aplicarse a la prueba la correccin por continuidad
de Yates:
) )( )( )( (
2
2
2
d b c a d c b a
n
bc ad n
X
Y
+ + + +
|
.
|

\
|

=
En el ejemplo previo, al aplicar la correccin de Yates, el valor de X
2
Y
es 38,43 en
lugar de X
2
= 40,04. Aunque en general en la literatura hay poco consenso
respecto de las situaciones apropiadas para utilizar la correccin, su efecto es
ms notorio con valores pequeos, lo cual puede llegar a cambiar la conclusin
de la prueba.
Prueba exacta de Fisher
Otra situacin particular se produce cuando en un 20% de las celdas de una
tabla de contingencia hay valores esperados menores que 5 o bien iguales a cero
(en una tabla de 2 x 2 significa una celda), se debe utilizar la prueba exacta de
Fisher. El procedimiento en esta prueba consiste en la evaluacin de la
probabilidad asociada a todas las tablas de 2 x 2 que se pueden formar con los
mismos totales marginales de los datos observados, bajo el supuesto de
independencia.
Mario Briones 2013
106
La siguiente frmula permite calcular directamente la probabilidad (PRUEBA
EXACTA DE FISHER).
)! ( )! (
!
! !
)! (
! !
)! (
d c b a
n
d b
d b
c a
c a
p
+ +
+

+
=
Para motivos de clculo puede reducirse a:
! ! ! ! !
)! ( )! ( )! ( )! (
d c b a n
d b c a d c b a
p
+ + + +
=
En la web:
Vnculo 1: VassarStats: Web Site for Statistical Computation
http://faculty.vassar.edu/lowry/VassarStats.html
- Frequency Data
o A) For a 2x2 Table of Cross-Categorized Frequency Data
Version 1
Version 2
o B) Fisher Exact Probability Test for Tables Larger than 2x2
En este sitio web, la opcin A, Versin 1, proporciona una tabla de 2x2 que
automticamente determina la utilizacin de la prueba exacta de Fisher, en caso
que sea necesario y no se entrega el resultado de la prueba de Chi cuadrado de
Pearson. En todos los casos ofrece el valor de chi cuadrado y probabilidad con y
sin correccin de Yates. La opcin A versin 2 proporciona resultados de Odds
Ratio y Risk Ratio.
La opcin B permite efectuar la prueba exacta de Fisher para tablas de
magnitud mayor a 2x2.
Vnculo 2: SISA, Simple Interactive Statistical Anlisis
http://home.clara.net/sisa/
- Statistics
o Two by Two Table
o Fisher Exact
Mario Briones 2013
107
En esta segunda pgina, la opcin Two by Two Table permite obtener mltiples
resultados para una tabla de 2x2.
Test de Mcnemar
El test de Mcnemar mide la significancia entre dos proporciones
correlacionadas, como la que puede observarse en el caso que dos proporciones
estn basadas en la misma muestra de sujetos o en muestras pareadas.
Sujetos individuales medidos con respecto a dos variables dicotmicas:
Supongamos que cada uno de 100 sujetos son evaluados con respecto a dos
variables categricas dicotmicas, A y B. Si la secuencia temporal de las dos
mediciones es relevante, la variable A puede ser definida como antes y la
variable B como despus. Los resultados pueden estar codificados como 1
para aquellos sujetos que muestran la propiedad definida para la variable en
cuestin y 0 para aquellos que no muestran la propiedad.
Medicin de los sujetos
para la variable B
1 0 Totales
Medicin de los sujetos para
la variable A
1 25 5 30
0 15 55 70
Totales 40 60 100
Las proporciones marginales en este ejemplo son:
p
A
= 30/100= 0.3, p
B
= 40/100= 0.4
Lo que significa: el 30% de los sujetos muestra la caracterstica definida por la
variable A y el 40% muestra la caracterstica definida por la variable B.
Pares de sujetos medidos con respecto a una variable dicotmica: supongamos
que 100 pares de sujetos son evaluados respecto de una variable categrica. Un
miembro de cada par es el miembro A y el otro es el miembro B.
Alternativamente, por ejemplo en lenguaje de investigacin clnica, un miembro
del par es el caso y el otro es el control. En el ejemplo, 25 de los pares tienen
tanto al individuo A como al individuo B mostrando la caracterstica en
Mario Briones 2013
108
cuestin; 5 tienen el miembro A pero no el B mostrando la caracterstica y
as sucesivamente:
Medicin en el miembro
B del par (control)
1 0 Totales
Medicin en el miembro A
del par (caso)
1 25 5 30
0 15 55 70
Totales 40 60 100
Las proporciones marginales en este ejemplo son:
p
A
= 30/100= 0.3, p
B
= 40/100= 0.4
Lo cual significa que la caracterstica en cuestin es exhibida por el 30% de los
miembros A (casos) y por el 40% de los B (controles).
Aunque el test de Mcnemar tiene un parecido con las pruebas de asociacin
entre variables categricas (chi cuadrado o prueba exacta de Fisher), es
diferente de stos. El test de asociacin examina la relacin que existe entre las
celdas de la tabla, que en la estructura general corresponden a a, b, c, d. El test
de Mcnemar examina la diferencia entre las proporciones que se derivan de las
sumas marginales de la tabla: pA= (a+b)/N y pB= (a+c/N). La pregunta en la
prueba de McNemar es: son estas proporciones, pA y pB, diferentes entre s?
La respuesta debe tomar en cuenta el hecho de que las proporciones no son
independientes. La correlacin de pA y pB es generada por el hecho de que
ambas incluyen la cantidad a en la celda superior izquierda de la tabla.
El ncleo de la prueba de McNemar es doble: primero, que la diferencia entre
pA y pB se reduce, tanto algebraica como conceptualmente, a la diferencia entre
las celdas b y c en la diagonal de la tabla; y segundo, que b y c pertenecen a una
distribucin binomial definida por
n= b+c; p= 0.5 y q= 0.5
Estructura
general
B
1 0 Totales
A
1 a b a+b
0 c d c+d
Totales a+c b+c N=a+b+c+d
pA= (a+b)/N
pB= (a+c)/N
Mario Briones 2013
109
Ejemplo: en 20 pacientes se administra un medicamento para tratar el dolor
despus de una intervencin quirrgica. En cada individuo se realiz una
medicin de dolor en dos momentos: inmediatamente despus de la operacin
y 1 hora despus de la administracin del analgsico.
La tabla de contingencia es:
Dolor una hora despus del tto
Dolor tras la intervencin Si No Total
Si 1 11 12
No 2 6 8
Total 3 17 20
Segn los datos de la tabla, el porcentaje de pacientes que muestra dolor
inicialmente es 12/20= 60%, frente a 3/20= 15% que dice sentir dolor una vez que
se ha administrado el tratamiento. El estadstico de contraste tiene la frmula:
c b
c b
z
+

=
El valor se compara con la distribucin normal estndar, en la cual los valores
para alfa 0,05 y 0,01 son 1,96 y 2,58, respectivamente. En ambos casos se puede
rechazar la hiptesis nula.
Aplicando la correccin de continuidad:
c b
c b
z
+

=
1
21 . 2
13
8
2 11
1 2 11
= =


= z , resultado que sigue siendo significativo, contrastado con
1,96 (alfa= 0,05).
Prueba de bondad de ajuste de chi cuadrado
La prueba de bondad de ajuste se utiliza para determinar si una muestra de
datos proviene de una poblacin con una distribucin especfica.
Mario Briones 2013
110
La prueba de chi cuadrado de bondad de ajuste puede ser aplicada a cualquier
distribucin univariada para la cual pueda calcularse la funcin de distribucin
acumulada. Normalmente la prueba se aplica a datos agrupados en clases, sin
embargo, esto no es una restriccin ya que para dados que no se agrupan en
categoras se puede efectuar la prueba simplemente calculando un histograma o
tabla de frecuencias. No obstante, el valor del estadstico de prueba de chi
cuadrado depende de cmo se agrupen los datos. Otra desventaja es que se
necesita un tamao de muestra apropiado de modo que la aproximacin a chi
cuadrado sea vlida.
La prueba de chi cuadrado es una alternativa a la prueba de bondad de ajuste
de Kolmogorov Smirnov. Puede aplicarse a distribuciones discretas como la
distribucin binomial y la distribucin de Poisson. La prueba de Kolmogorov
Smirnov se restringe a distribuciones continuas.
Las hiptesis son las siguientes:
H
0
: Los datos siguen la distribucin especificada
H
A
: Los datos no siguen la distribucin especificada
El estadstico de prueba es:

=
k
i i
i i
E
E O
X
1
2
2
) (
Donde O
i
es la frecuencia observada para la categora i y E
i
es la frecuencia
esperada para la categora i. La frecuencia esperada se calcula como:
)) ( ) ( (
L u i
Y F Y F N E =
Donde F es funcin de distribucin acumulada para la distribucin evaluada,
Y
u
es el lmite superior para la clase i; Y
L
es el lmite inferior para la clase i y N es
el tamao de muestra.
La prueba es sensible a la eleccin de la amplitud de las categoras (ya que la
amplitud ptima depende de la distribucin). Las elecciones ms razonables
deberan producir resultados similares pero no idnticos.
Para que la aproximacin a chi cuadrado sea vlida la frecuencia esperada
debera ser por lo menos 5. La prueba no es vlida para muestras de pequeo
tamao y si alguno de los grupos tiene un nmero inferior a 5 puede ser
necesario combinar algunos de ellos.
Ejemplo:
Mario Briones 2013
111
Se quiere verificar si un dado de 6 caras est fabricado correctamente. Para eso
se efectuan 100 lanzamientos anotando el resultado en cada uno de ellos. Los
resultados para cada nmero son los siguientes:
Cara Frecuencia observada
1 14
2 22
3 18
4 17
5 20
6 9
Si el dado est bien fabricado, en un gran nmero de tiradas debera obtenerse
aproximadamente la misma frecuencia para cada una de las caras:
Cara Frecuencia observada Frecuencia esperada (100 x 1/6)
1 14 16,6
2 22 16,6
3 18 16,6
4 17 16,6
5 20 16,6
6 9 16,6
Los clculos en una planilla Excel seran:
Cara O E (O-E) (O-E)
2
(O-E)
2
E
1 14 16,66 -2,66 7,0756 0,42471
2 22 16,66 5,34 28,5156 1,71162
3 18 16,66 1,34 1,7956 0,10778
4 17 16,66 0,34 0,1156 0,00694
5 20 16,66 3,34 11,1556 0,66960
6 9 16,66 -7,66 58,6756 3,52194
TOTAL 100 100,0 X
2
6,44259
El valor del estadgrafo tambin puede calcularse ms directamente en la
planilla utilizando la funcin estadstica PRUEBA.CHI, la cual requiere que se
ingresen el rango actual (rango de valores observados) y el rango esperado,
en este caso, las columnas O y E de la tabla anterior.
El clculo de la probabilidad asociada al estadstico requiere la determinacin
de los grados de libertad de la prueba. Estos son el nmero de categoras menos
1. En este caso, los grados de libertad son 6-1= 5
La probabilidad asociada al estadgrafo de chi cuadrado puede buscarse en una
tabla pero tambin puede obtenerse en una planilla como Excel u OpenOffice
mediante la funcin DISTR.CHI(9,44;5)= 0,26
Mario Briones 2013
112
Dada la probabilidad obtenida, no puede rechazarse la hiptesis nula y la
conclusin es que la evidencia disponible permite afirmar que todas las caras
del dado tiene la misma probabilidad y que las discrepancias que se observan
entre las frecuencias observadas y esperadas se deben al azar.
Mario Briones 2013
113
XI. METODOS ESTADISTICOS NO PARAMETRICOS
Introduccin y uso de mtodos no paramtricos
Las pruebas estadsticas tradicionales necesitan la especificacin de una
distribucin para la poblacin de inters. Por ejemplo, el anlisis de varianza se
hace posible al asumir que las observaciones provienen de distribuciones
normales. As, la mayor parte de los procesos inferenciales representan
estimaciones con respecto a los parmetros de la poblacin de inters y reciben
el nombre de mtodos paramtricos.
En la mayor parte de estas pruebas, se ha encontrado que estos mtodos son
razonablemente robustos con respecto a las distribuciones supuestas. No
obstante, en general, los mtodos paramtricos son ms sensibles a los
supuestos para muestras de tamao pequeo y, para muchos de ellos, su
aplicacin se encuentra limitada a aquellas observaciones que tienen un carcter
cuantitativo, es decir, se supone que lo que se observa es una cantidad numrica
continua como el peso de un animal, el rendimiento de un cultivo, la resistencia
de una muestra de metal, etc.
Las observaciones de tipo cuantitativo se definen, en forma general, sobre un
intervalo o sobre una escala de proporciones. Las mediciones que se definen en
una escala de intervalo se pueden distinguir y ordenar en forma numrica y sus
diferencias son significativas. Un ejemplo clsico de una escala de intervalo es
aquel que incluye la medicin de la temperatura. Puede escogerse entre el
registro en grados Celsius (para los cuales el punto de congelacin del agua es
cero grados) o en grados Fahrenheit (para los cuales el punto de congelacin del
agua es de 32 grados). De esta forma, el origen de las escalas es diferente, pero
el significado de la diferencia entre 10C y 15C es el mismo que tiene la
diferencia entre 20C y 25C.
Si una medicin rene los requisitos de una escala de intervalo y adems tiene
un verdadero punto de origen, entonces la medicin se define sobre una escala
de proporciones. Por ejemplo, las alturas, los pesos, las resistencias y otros se
encuentran definidos sobre una escala de proporciones ya que tienen
verdaderos puntos cero sin importar la unidad de medicin. Las escalas de
intervalo y de proporcin son verdaderamente cuantitativas. Para la mayor
parte de los mtodos paramtricos, como la construccin de intervalos de
confianza, la comprobacin de hiptesis estadsticas y el ajuste de ecuaciones
son aplicables a todas aquellas observaciones que se encuentran definidas, por
lo menos sobre una escala de intervalo.
Mario Briones 2013
114
Sin embargo, en muchas situaciones lo que se observa tiene un carcter
cualitativo (no cuantitativo) y, por lo tanto, no puede definirse sobre una escala
de intervalo o de proporciones. Estas situaciones se encuentran con frecuencia
en las ciencias sociales y en las encuestas de mercado. Por ejemplo, no es
probable que al evaluar las preferencias del consumidor con respecto a una
bebida, se adhieran a una escala numrica significativa, incluso si se le pidiese
al consumidor su opinin con respecto a la bebida en una escala de cinco
puntos, donde 1 y 5 pueden representar reacciones muy negativas o muy
positivas, respectivamente, la escala es arbitraria. En otras palabras, los
nmeros no tienen ningn significado fsico ms all de representar con un
nmero ms grande la respuesta ms favorable para la bebida.
Las observaciones de este tipo pueden definirse sobre una escala ordinal, dado
que la distancia entre dos puntos no es de importancia y slo tiene significado
el orden o rango de los puntos. En algunas ocasiones, las observaciones slo
pueden definirse sobre una escala nominal debido a que emplean ya sea un
nombre (smbolo) o un nmero para clasificar una caracterstica de inters, pero
el principio de orden no es de importancia. Por ejemplo, las personas pueden
clasificarse de acuerdo con su sexo. Pueden emplearse los signos M y H o
utilizar los nmeros 122 y 48 para denotar mujer u hombre. Las observaciones
que se definen sobre escalas nominales son mediciones con pocas propiedades.
Se han desarrollado procedimientos inferenciales que no se encuentran sujetos a
la forma de la distribucin de la poblacin de inters y no requieren, de modo
estricto, que las observaciones se definan por lo menos en una escala de
intervalo. Estos procedimientos inferenciales se denominan mtodos no
paramtricos. Dado que estos mtodos no necesitan que se especifique la forma
de la distribucin de la poblacin de inters, tambin se conocen como mtodos
independientes de la distribucin. En un sentido relativo, los mtodos no
paramtricos requieren pocos supuestos y la mayor parte de las veces son ms
fciles de aplicar que los mtodos paramtricos. Adems, los mtodos no
paramtricos pueden aplicarse en aquellas situaciones para las que las
observaciones se definen por lo menos en una escala de intervalo y, en
ocasiones, sobre escalas nominales. Pero si las observaciones se definen por lo
menos en una escala de intervalo y la distribucin de la poblacin de inters es
normal, los mtodos no paramtricos son menos eficientes que los mtodos
paramtricos que se basan en el supuesto de normalidad.
Mario Briones 2013
115
Pruebas no paramtricas para comparar dos poblaciones con base
en muestras aleatorias independientes.
Prueba de Mann-Whitney
Dadas dos muestras aleatorias independientes de dos poblaciones, considrese
la prueba de la hiptesis nula de que las poblaciones tienen la misma
distribucin. La hiptesis puede establecerse como:
) ( ) ( :
2 1 0
y f x f H FORM. 11.1
donde f
1
(x) y f
2
(y) son las correspondientes funciones de densidad de
probabilidad. La hiptesis alternativa puede ser uni o bilateral. La hiptesis
alternativa bilateral establece en forma sencilla que las distribuciones no son las
mismas. Pero la hiptesis alternativa slo implica un desplazamiento en la
tendencia central de una distribucin con respecto a la otra y no sugiere una
diferencia en la forma o la dispersin. En otras palabras, al igual que para el
procedimiento t de Student, se supone que las distribuciones tienen la misma
forma y dispersin.
Un procedimiento comn no paramtrico para probar la hiptesis nula en 1.1 es
la prueba U de Mann-Whitney. Esta prueba es el equivalente no paramtrico de
la prueba t de Student para dos muestras. La prueba de Mann-Whitney se basa
en una combinacin de las n
1
y n
2
observaciones para formar un solo conjunto
de n
1
+n
2
observaciones arregladas en orden decreciente de magnitud. Entonces
se asigna un rango a cada observacin en la secuencia ordenada que comienza
con el rango 1 y termina con el rango n
1
+n
2
. Si las muestras aleatorias provienen
de poblaciones que tienen la misma distribucin, se espera que los rangos se
encuentren lo suficientemente dispersos cuando se observa en que muestra se
encuentran las observaciones. De otra forma, debe esperarse que los rangos de
las observaciones en cada muestra se encuentren muy agrupados en los
extremos. En esencia, la estadstica de Mann-Whitney determina cuando un
agregado de rangos observado es suficiente para concluir que las dos muestras
aleatorias provienen de poblaciones cuyas distribuciones difieren en la
tendencia central.
Para implementar el procedimiento se obtiene la suma de los rangos asociados
con las observaciones de una de las dos muestras, por ejemplo, la muestra 1, la
cual se escoge en forma arbitraria. Dentese esta suma por R
1
. Entonces la
estadstica U de Mann-Whitney est dada por:
Mario Briones 2013
116
1
1 1
2 1
2
) 1 (
R
n n
n n U
+
+ =
11.2
Ejemplo: Se sospecha que una empresa lleva a cabo una poltica de
discriminacin, con respecto al sexo, en los sueldos de sus empleados. Se
seleccionaron 12 empleados masculinos y 12 femeninos de entre los que tienen
responsabilidades y experiencias similares en el trabajo; sus salarios anuales en
miles de dlares son los siguientes:
Mujeres 22.5 19.8 20.6 24.7 23.2 19.2 18.7 20.9 21.6 23.5 20.7 21.6
Hombres 21.9 21.6 22.4 24.0 24.1 23.4 21.2 23.9 20.5 24.5 22.3 23.6
Existe alguna razn para creer que estas muestras aleatorias provienen de
poblaciones con diferentes distribuciones? (alfa=0.05).
Se combinan los salarios de las dos muestras para formar un solo conjunto de 24
salarios anuales. Luego se ordenan y se les asigna un rango de la siguiente
manera:
Sexo M M M H M M M H H M M H
18.7 19.2 19.8 20.5 20.6 20.7 20.9 21.2 21.6 21.6 21.6 21.9
Rango 1 2 3 4 5 6 7 8 9 10 11 12
Sexo H H M M H M H H H H H M
22.3 22.4 22.5 23.2 23.4 23.5 23.6 23.9 24.0 24.1 24.5 24.7
Rango 13 14 15 16 17 18 19 20 21 22 23 24
Para obtener la suma de los rangos se seleccionar la muestra de mujeres. De
esta forma la suma de los rangos es:
1+2+3+5+6+7+10+15+16+18+24=117
y el valor de la estadstica U de Mann Whitney es:
5 10 117
2
) 13 ( 12
) 12 )( 12 ( = + = U
Dado que E(U)= (12)(12)/2= 72 y Var (U)= (12)(12)(25)/12=300, mediante el
empleo de la aproximacin normal,
91 . 1
300
72 - 5 10
= = z
Mario Briones 2013
117
es un valor de una variable aleatoria normal estndar. Para alfa= 0.05, los
valores crticos son 1.96. Por lo tanto, no puede rechazarse la hiptesis nula de
que las muestras aleatorias provienen de poblaciones con distribuciones
idnticas.
Pruebas no paramtricas para observaciones en pares.
Al igual que en el caso de la prueba de t de student pareada, en la cual las
observaciones se encuentran igualadas con el propsito de eliminar los efectos
causados por factores externos, existen pruebas no paramtricas para la
comparacin de pares de valores.
Prueba del signo.
La prueba del signo se basa en los signos de las diferencias entre las
observaciones por pares de dos variables aleatorias X e Y. Sean (X
1
,Y
1
), (X
2
,Y
2
),...
(X
n
,Y
n
) pares de observaciones muestreales de las distribuciones de X e Y donde
se supone que stas son continuas. En muchas ocasiones existe una relacin
natural entre X e Y, por lo cual X e Y no necesitan ser independientes. Por
ejemplo, X e Y pueden representar las respuestas de parejas de matrimonios.
Para cada par en el que X es mayor que Y se registra un signo (+), de otra forma
se registra un signo (-). Dado que se supone que las distribuciones de X e Y son
continuas, en forma terica, no pueden ocurrir empates. Sea p la probabilidad
de que X sea mayor que Y. Entonces si la hiptesis nula es que X e Y tienen la
misma distribucin, el valor de p debe ser igual a 0.5. Sin embargo, debe notarse
que p puede ser igual a 0.5, aun cuando las distribuciones de X e Y no sean
idnticas. Por lo tanto, y en esencia, la hiptesis nula para la prueba del signo
es:
H
0
: p= 0.5 1.3
La cual puede probarse contra hiptesis alternativas, ya sean uni o bilaterales,
lo cual depende de lo que el investigador desee. Ntese que si H
0
es cierta, debe
esperarse que, en forma aproximada la mitad de los pares tenga signo positivo.
La estadstica para la prueba del signo, denotada por S, es el nmero de signos
+ para los n pares. Dado que bajo H
0
cada par constituye un ensayo
independiente con una probabilidad para el signo positivo + de 0.5, la
estadstica S tiene una distribucin binomial con p= 0.5. De acuerdo con lo
anterior, para n dado y p= 0.5, se emplea la distribucin binomial para obtener
Mario Briones 2013
118
regiones crticas de tamao alfa para el erro de tipo I. Para valores grandes de n
puede utilizarse la aproximacin normal de la distribucin binomial.
Cuando ocurren empates al aplicar la prueba del signo, el procedimiento que se
recomienda seguir es el de ignorarlos y emplear la prueba slo para aquellos
pares en los que no ocurren empates. Este procedimiento puede representar un
problema si se tienen empates numerosos y el nmero original de pares es
relativamente pequeo.
Ejemplo: Se seleccionaron al azar 10 parejas de recin casados y se les pregunt
por separado, tanto al marido como a la esposa, cuntos hijos deseaban tener.
Se obtuvieron los siguientes datos.
Pareja 1 2 3 4 5 6 7 8 9 10
Esposa (X) 3 2 1 0 0 1 2 2 2 0
Esposo (Y) 2 3 2 2 0 2 1 3 1 2
Mediante el empleo de la prueba del signo, existe alguna razn para creer que
las esposas desean menos hijos que sus esposos? Supngase un tamao mximo
del error tipo I de 0.05.
Considrese la prueba de la hiptesis nula
H
0
: p= 0.5
Contra la alternativa
H
1
: p= < 0.5
Ntese que deber rechazarse H
0
si el nmero de signos + es muy pequeo. Al
restar las respuestas de cada esposo de la de su esposa, y notando que las
respuestas de cinco de las parejas son las mismas, se obtienen el siguiente
arreglo de signos + y -.
Pareja 1 2 3 4 5 6 7 8 9 10
Signo + - - - - - + - + -
Existen tres signos + de manera que el valor de la estadstica S es 3. Dado que
bajo H
0
, S es binomial con n= 10 y p= 0.5, el valor p, o la probabilidad de
observar 3 o menos signos + se obtiene de tabla y es
P(Ss3)= 0.2539
Mario Briones 2013
119
Dado que 0.2539 es mayor que un valor de alfa de 0.05, la hiptesis nula no
puede rechazarse. Ntese que en este ejemplo el valor crtico de S debe ser igual
a 1 si el tamao mximo del error tipo I es 0.05.
Prueba de Kruskal Wallis para k muestras aleatorias
independientes.
Debe recordarse el procedimiento paramtrico de anlisis de varianza en el cual
el inters radica en probar la hiptesis nula:
H
0
:
1
=
2
= ...=
k
,
Con base en k muestras aleatorias independientes provenientes de poblaciones
cuyas distribuciones se suponen como normales. Se han desarrollado mtodos
no paramtricos para, de manera esencial, el mismo propsito, siempre que por
lo menos se encuentren disponibles mediciones ordinales y las distribuciones
de las poblaciones de inters sean continuas. Uno de estos mtodos es el
procedimiento de Kruskal Wallis, el cual prueba las hiptesis nulas de que los
efectos de los tratamientos son los mismos, o que las k muestras aleatorias
provienen de poblaciones con distribuciones idnticas.
Sean las observaciones de las k muestras aleatorias de la siguiente tabla, donde
n
j
es el tamao de la j sima muestra y

=
=
k
j
j
n N
1
es el nmero total de observaciones para todas las muestras.
muestra
1 2 ... j ... k
Y
11
Y
12
... Y
1j
... Y
1k
Y
21
Y
22
... Y
2j
... Y
2k
. . . .
Y
n11
Y
n22
.. Y
njj
... Y
nkk
La hiptesis nula puede establecerse como:
Mario Briones 2013
120
) ( ) ( ) ( :
2 1 0
y f y f y f H
k

donde f
1
(y), f
2
(y), ..., f
k
(y) son las correspondientes funciones de densidad de
probabilidad. La hiptesis alternativa puede ser general y establecer slo que
las k distribuciones no son idnticas. Sin embargo, la prueba de Kruskal Wallis
es sensible a las diferencias en tendencia central y es muy til cuando se
sospecha que las distribuciones de inters difieren slo en ese aspecto. De
acuerdo con lo anterior, el procedimiento de Kruskal Wallis se considera, en
general, como una extensin de la prueba U de Mann_Whitney.
Al igual que en la prueba de Mann-Whitney, el procedimiento de Kruskal
Wallis se basa en la combinacin de todas las observaciones en las muestras
aleatorias para formar un solo conjunto de N observaciones; entonces, stas se
arreglan en orden creciente de magnitud y se asigna un rango a cada
observacin, comenzando con el rango 1 y terminando con el rango N. Cuando
el rango de todas las observaciones est completo, se determina la suma de los
rangos para cada muestra. En esencia, la prueba de Kruskal Wallis determina si
la disparidad entre las R
j
con respecto a los tamaos n
j
de las muestras es
suficiente para garantizar el rechazo de la hiptesis nula.
Bajo el supuesto de que las k muestras provienen de poblaciones con
distribuciones idnticas, la estadstica de prueba de Kruskal Wallis es:
) 1 ( 3
) 1 (
12
1
2
+
(
(

+
=

=
N
n
R
N N
H
k
j
j
j
la que para tamaos nj relativamente grandes de las muestras se encuentra
aproximada, en forma adecuada, por una distribucin de Chi cuadrada con k-1
grados de libertad. Para un tamao especfico del error de tipo I, la regin
crtica es la porcin superior de la distribucin Chi cuadrada. De acuerdo con lo
anterior, se rechaza la hiptesis nula para valores grandes de la estadstica de la
prueba de Kruskal Wallis. Debe notarse que la aproximacin chi cuadrada es,
por lo general, satisfactoria, excepto cuando k= 3 y ninguno de los tamaos de
las muestras n
j
sea mayor que 5.
El procedimiento que se recomienda para manejar los empates es igual al de la
prueba de Mann-Whitney. Si el nmero de empates es grande, se ha propuesto
un factor de correccin para la estadstica de pruebas dada por
E(R1)= n
1
(n
1
+n
1
+1)/2
Mario Briones 2013
121
A pesar de que esta correccin siempre incrementa el valor de la estadstica de
prueba, en muchos casos este efecto es despreciable, aun si existen numerosos
empates.
Ejemplo: Se tomaron muestras aleatorias independientes de casas recientemente
vendidas en cuatro zonas residenciales de una gran ciudad. El problema era
determinar si existan diferencias en las zonas con respecto al valor de la
propiedad y el precio de venta. Los datos de la tabla siguiente son los
cuocientes entre los precios de venta y el valor catastral de la propiedad. Para
alfa= 0.05, emplese la estadstica de Kruskal Wallis para probar si estas
muestras provienen de poblaciones con distribuciones idnticas.
Zona residencial
1 2 3 4
1.9 (15) 1.08 (4.5) 0.98 (2) 1.12 (7.5)
1.05 (3) 1.23 (17.5) 1.19 (15) 1.14 (10)
1.14 (10) 1.26 (20) 1.08 (4.5) 1.31 (22)
1.25 (19) 1.10 (6) 0.93 (1) 1.12 (7.5)
1.29 (21) 1.18 (12.5) 1.23 (17.5) 1.19 (15)
1.14 (10) 1.18 (12.5)
Los valores que se encuentran entre parntesis en la tabla son los rangos de las
observaciones despus de haberlas combinado y ordenado. Ntese que n
1
=n
4
=5,
n
2
=n
3
=6 y N= 22. Las sumas de los rangos de cada muestra son R
1
= 68, R
2
= 70.5,
R
3
= 52.5 y R
4
= 62. entonces el valor de la estadstica de Kruskal Wallis es:
70 . 1 ) 23 ( 3
5
) 62 (
6
52.5) (
6
5) . 70 (
5
) 68 (
) 23 )( 22 (
12
2 2 2 2
=
(

+ + + = H
De tabla, con alfa= 0.05 y k-1= 3 grados de libertad, el valor crtico es 7.82. Dado
que H=1.70<7.82, no puede rechazarse la hiptesis nula. Por lo tanto, no existe
razn para afirmar que existen diferencias entre las zonas cuando se compara el
precio de venta y el valor real de la propiedad.
Mario Briones 2013
122
Coeficiente de correlacin de rangos de Spearman.
El coeficiente de correlacin lineal de Pearson es una medida de la asociacin
lineal que existe entre dos variables X e Y. Este es un enfoque paramtrico ya
que supone una distribucin normal bivariada para X e Y. El equivalente no
paramtrico es el coeficiente de correlacin de rangos de Spearman, que
podramos simbolizar como r
s
.
Sean X e Y dos caractersticas de inters y supngase que existe una muestra
aleatoria de n pares que consiste slo en los rangos de X e Y. El coeficiente de
correlacin del rango de Spearman es el coeficiente ordinario de correlacin de
Pearson de la muestra, excepto que para su clculo se emplean los rangos en
lugar de las observaciones originales de las variables X e Y. Al igual que el
coeficiente de correlacin de Pearson, el coeficiente de correlacin de rango se
define en el intervalo 1 s rs s +1 y mide el grado de asociacin lineal entre los
rangos de X e Y. Para las caractersticas X e Y, la interpretacin de r
s
no es
completamente idntica a la de r. Si se tienen disponibles observaciones de X e
Y, entonces el coeficiente de correlacin de la muestra r es una medida del
grado de asociacin lineal que existe entre X e Y. Pero si se emplean rangos, r
s
mide la tendencia de X e Y a relacionarse en forma montona, es decir, r
s
se
encuentra cercano a 1 1, se sugiere una asociacin montona decreciente o
creciente para las variables. En cierto sentido, r
s
tiene un significado mayor que
el de r debido a que al medir el grado de asociacin montona entre X e Y, r
s
no
se encuentra restringido a describir slo una asociacin lineal entre stas.
Ejemplo: Se pide a dos catadores que clasifiquen 10 vinos tintos ligeros en una
escala de 1 (pobre) a 10 (excelente). Se obtienen los resultados que se muestran
en la siguiente tabla:
Vino 1 2 3 4 5 6 7 8 9 10
Catador
1 (X)
5 2 8 9 10 7 1 4 4 3
Catador
2 (Y)
3 4 7 6 9 9 3 6 7 1
El coeficiente de correlacin de rangos de Spearman, r
s
, es 0.73, lo que sugiere
una fuerte concordancia entre los dos catadores, al evaluar la misma muestra de
vino.
Mario Briones 2013
123