Está en la página 1de 175

Biometría

Ciencias Biológicas

Facultad de Ciencias Exactas y


Naturales
Universidad de Buenos Aires

Apuntes Teóricos

2009

1
Indice
Página
Introducción…………………………………….. 3

Muestra y Población…………………………... 3

Estadística descriptiva………………………… 9

Distribucion de Frecuencias………………….. 9

Probabilidades…………………………………. 16

Distribución en Probabilidades………………. 30

Distribuciones Discretas………………………. 39

Distribuciones Continuas……………………... 52

Distribuciones Muestrales. Estimación……… 62

Prueba de Hipótesis…………………………... 78

Análisis de Frecuencias………………………. 95

Análisis de la Varianza de un Factor………... 109

Análisis de la Varianza de dos Factores……. 137

Análisis de Regresión y Correlación………… 158

2
Por Javier Calcagno
BIOMETRÍA
INTRODUCCIÓN

Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación
de la Estadística para resolver problemas relacionados con las Ciencias Biológicas. El
significado de esta definición no es trivial, porque si bien los conocimientos teóricos
son de primordial importancia para la comprensión de los procedimientos y la
validación de los supuestos de las técnicas estadísticas aplicadas, es imprescindible el
conocimiento de los procesos biológicos que rigen el funcionamiento y la actividad de
los organismos y de su relación con el medio. De nada sirve el conocimiento teórico si
no se tiene el criterio profesional del biólogo en el momento de tomar decisiones,
plantear experiencias y evaluar el resultado de las mismas.

Los organismos son mas que números

No es casual que en las mas importantes Universidades del mundo, sean biólogos los
académicos a cargo del dictado de la estadística para biólogos. Es significativo el
hecho de que los textos de referencia por excelencia en biometría son obra de
biólogos. Claros ejemplos son dos textos propuestos en este curso (Biometry, de R.
SOKAL y R. ROHLF que trabajan en la State University of New Cork y Biostatistical
Análisis, de J. H ZAR, profesor Departamento de Ciencias Biológicas de la Northern
Illinois University)

MUESTRA Y POBLACIÓN

Se definen como datos estadísticos a un conjunto de dos o más mediciones,


puntajes o valores registrados sobre individuos u objetos, o conjuntos de individuos u
objetos que se caracterizan por su variabilidad. Por ejemplo si se tiene un conjunto de
datos constituido por el largo de la valva de mejillones, este es un conjunto estadístico
de datos pues esa medida puede tomar, teóricamente, infinitos valores en un rango
dado; pero la misma observación realizada sobre un conjunto de mejillones cuya valva
mide exactamente lo mismo, no resulta un conjunto estadístico, pues no presenta
variabilidad.

A continuación se definen términos que serán de uso constante en el desarrollo del


curso y que constituyen la base para la comprensión de los métodos estadísticos.

Unidad experimental (u.e.)

Es la mínima unidad sobre la que se realiza la medición.


Ejemplos
a) si se quiere estudiar el peso de ratas sometidas a un determinado tratamiento, la
u.e. es cada una de las ratas sometidas a ese tratamiento.
b) si se quiere estudiar la cantidad de huevos puestos por hembra de un insecto, la
u.e. es cada hembra de ese insecto.
c) si se estudia el largo del tallo de una variedad de trigo, la u.e. es cada una de las
plantas de trigo de esa variedad.
d) Si se estudia la cantidad de individuos de una especie de pájaro parasitados con
cierto platihelminto por cada cinco individuos de esa especie de pájaro escogidos al
azar, la u.e. es un conjunto de cinco individuos de esa especie de pájaro.

3
Observación individual (o.i.)

Es cada una de las observaciones o mediciones tomadas sobre cada unidad


experimental.
En los ejemplos anteriores:
a) peso de una rata sometida a un determinado tratamiento.
b) cantidad de huevos puestos por una hembra de un insecto.
c) largo del tallo de una planta de trigo de esa variedad.
d) cantidad de individuos de una especie de pájaro parasitados con cierto platielminto
de un grupo de cinco individuos de esa especie de pájaro.

Variable

Es una propiedad o característica que toma valores diferentes (varía) de unidad


experimental en unidad experimental: la variable es una propiedad con respecto a la
cual las unidades experimentales de una población difieren de algún modo verificable.
Sobre cada unidad experimental pueden observarse una o más variables.
Comúnmente las variables se denotan utilizando las últimas letras del alfabeto en
mayúscula, es decir X, Y ó Z y para las observaciones de esas variable, las mismas
letras pero en minúscula, con el agregado de un subíndice. Por ejemplo xi es una
observación particular de la variable X.
En los ejemplos anteriores:
a) X: peso, en gramos de ratas sometidas a un determinado tratamiento.
b) Y: cantidad de huevos puestos por hembra de un insecto.
c) Z: largo del tallo, en cm. de plantas de trigo de esa variedad.
d) W: cantidad de individuos de una especie de pájaro parasitados con cierto
platielminto por cada cinco individuos de esa especie de pájaro.

Distintos conceptos de población

Si se le pregunta a una persona que es una población, probablemente la mayoría


responda que se trata de un grupo de personas que viven en el mismo lugar o hábitat
y en el mismo momento. Esa persona no estaría equivocada si por ejemplo se
estuviera refiriendo a su ciudad o país, pero en biología se puede hacer una
generalización y extender esta idea para entender el concepto ecológico que dice que
una población está formada por individuos de la misma especie, que conviven en un
lugar y en un tiempo determinado. Esta definición es perfectamente válida, pero en el
contexto de un estudio estadístico se deben tener en cuenta otros conceptos
relacionados con la población:

Población

Es el conjunto de todas las unidades experimentales que en el ejemplo (c) serían, por
ejemplo todas las plantas de trigo de esa variedad. As veces la población puede
coincidir con la llamada población biológica, pero en otras oportunidades la población
en estudio no está representada por el mismo concepto.

Población estadística

Es el conjunto de las observaciones individuales realizadas sobre todas las unidades


experimentales. En el mismo ejemplo, serían los largos de todas las plantas de trigo
de esa variedad (que en este caso estará representada por números reales positivos.
Por esta razón la población estadística se suele llamar universo de las medidas).

4
Población hipotética o virtual

Es el caso en el que de hecho la población en cuestión no existe. En el ejemplo a)


donde se estudia el peso de ratas sometidas a un determinado tratamiento la
población acerca de la cual podrían extenderse las conclusiones a todas las ratas de
esa raza sometidas al mismo tratamiento. Esta es la población es 'virtual' o
'imaginaria' porque obviamente no existe un lugar donde convivan ratas sometidas a
ese tratamiento sino que son producto de un experimento realizado por el
investigador.

Por lo general, debido a limitaciones presupuestarias, de tiempo, de personal, etc no


es posible tomar a toda la población para realizar un estudio. En ese caso se toman
subconjuntos de esta población, son las muestras. La muestra será la única
información disponible, por lo que deberá representar lo más fielmente posible a la
población en estudio. La información suministrada por la muestra se utiliza
básicamente para inferir características o propiedades de la población (estimación) y
para responder preguntas concretas acerca de ella.

Muestra de tamaño n

Es un conjunto de n unidades experimentales seleccionadas por algún procedimiento


específico. En los ejemplos anteriores una muestra podría ser: (a) muestra de tamaño
n=20: 20 ratas sometidas al tratamiento en cuestión; (b) muestra de tamaño n=35: 35
hembras del insecto atrapadas en un bosque; (c) muestra de tamaño n=200: 200
plantas de trigo de esa variedad en un campo de Santa Fé; (d) muestra de tamaño
n=30: 30 grupos de cinco individuos de esa especie de pájaro.

Muestra estadística de tamaño n

Es un conjunto de n observaciones individuales realizadas sobre cada una de n


unidades experimentales seleccionadas antes. En los ejemplos anteriores una
muestra podría ser: (a) muestra de tamaño n=20: los pesos, en gramos, de las 20
ratas sometidas al tratamiento en cuestión; (b) muestra de tamaño n=35: la cantidad
de huevos de 35 hembras del insecto atrapadas en un bosque; (c) muestra de tamaño
n=200: el largo, en cm de 200 plantas de trigo de esa variedad en un campo de Santa
Fé; (d) muestra de tamaño n=30: la cantidad de individuos parasitados de 30 grupos
de cinco individuos de esa especie de pájaro.
Es importante tener en cuenta que las conclusiones a las que se llegue a partir de la
muestra obtenida serán válidas para la población de la que fue extraída. Sin embargo,
desde el punto de vista del experimentador los resultados pueden ser extrapolables a
unidades experimentales cuya inclusión en la muestra era imposible. Esa
extrapolación se realiza a un conjunto más amplio, esa experiencia tiene un
determinado alcance.

Alcance de la experiencia

Es el grado de generalidad que deberán tener las conclusiones, el conjunto al cual


resulta válido extender los resultados obtenidos para la población de la que se extrajo
la muestra, sobre la base de consideraciones teóricas del hecho particular de que se
trate, de las condiciones en que se ha realizado el experimento, etc.

Aunque las conclusiones obtenidas, estrictamente son solo válidas para las
condiciones en que se realizó la experiencia o el muestreo, si se toma el ejemplo (a)
las deducciones que se obtienen acerca de la fisiología de las ratas en cuestión
puede justificar su validez para todas las ratas e incluso, bajo ciertas condiciones

5
generales, pueden ser válidas para otras especies; de allí el valor de los estudios en
animales en la investigación aplicada a la salud. No son pocos los adelantos
producidos por la medicina humana, que tienen su base en experimentos realizados
con animales de laboratorio.

Muestreo

La obtención de una muestra de la población a estudiar es una de las etapas


fundamentales de todo plan de investigación. Existen distintas técnicas de muestreo,
pero todas se basan en el hecho de que cada unidad experimental debe tener la
misma probabilidad de ser elegida para integrar la muestra y esta probabilidad es, en
general, conocida por el investigador. Cuando se habla de una muestra de tamaño n
se requiere que cada conjunto de n unidades experimentales tenga la misma
probabilidad de ser seleccionado.
Algunos de los métodos o técnicas de muestreo son: muestreo simple al azar,
muestreo estratificado, muestreo sistemático. En cada caso, existe un
procedimiento al azar para determinar que unidades experimentales (o qué conjunto
de unidades experimentales) serán incluidas en la muestra.

Muestreo aleatorio simple

Una muestra estadística simple al azar de tamaño n consiste en un conjunto de n


observaciones realizadas sobre cada una de n unidades experimentales extraídas de
una población donde todos los conjuntos de tamaño n tienen la misma probabilidad de
ser seleccionados para integrar la muestra. Para extraer una muestra al azar un
proceso tradicional sencillo es la utilización de números aleatorios: se enumeran las
unidades experimentales de la población en estudio y se van extrayendo al azar
según los números de una tabla de números aleatorios o utilizando una computadora.

Muestreo aleatorio estratificado

El muestreo al azar algunas veces introduce variabilidad muestral. En algunas


situaciones la variabilidad puede reducirse usando alguna otra información acerca de
la población. Una muestra aleatoria estratificada es la obtenida mediante la
separación de la población en grupos excluyentes, llamados estratos, y la selección
posterior de una muestra aleatoria dentro de cada estrato.
Si por ejemplo se quiere estimar la densidad poblacional de una especie que tiene
una preferencia marcada por un determinado hábitat, si se hiciera un muestreo al azar
simple por ejemplo por medio de una cuadrícula de superficie fija donde eligiéramos al
azar algunos de estos cuadrados y contáramos los individuos en cada uno de ellos,
probablemente habría muchos cuadrados vacíos y otros con una gran cantidad de
organismos, pues los organismos que estamos estudiando no se disponen al azar en
el espacio. En estos casos es adecuado dividir el hábitat en subhábitats o estratos
que tienen diferente densidad de individuos. Si luego dentro de cada uno de estos
estratos el muestreo es al azar, el muestreo se llama muestreo aleatorio estratificado.

Muestreo sistemático

La idea de este tipo de muestreo es tomar la muestra en forma sistemática, repitiendo


un procedimiento fijado de antemano, siguiendo algún criterio, espacial o temporal.
a) tomar uno de cada diez nombres de una lista, b) tomar una muestra cada 20
metros en una transecta, etc.

6
Variabilidad explicada

En la naturaleza se observa una gran variabilidad y esta variabilidad se puede deber a


múltiples factores. El propósito del análisis estadístico es evaluar los factores que
causan variabilidad en un conjunto de observaciones. Si se registran pesos de
individuos de la misma edad y especie no todos resultarán iguales, el peso variará de
individuo en individuo. Esta variabilidad puede ser explicada por ejemplo por causas
genéticas, diferencias en la alimentación, diferentes historias clínicas, diferentes
ambientes donde desarrolla sus actividades, etc.
Si se toman por ejemplo grupos de individuos provenientes de diferentes regiones
geográficas, puede detectarse una variabilidad entre los organismos provenientes de
diferentes regiones (variabilidad entre grupos o poblaciones) y también entre los
individuos provenientes de la misma región (variabilidad dentro del grupo o entre
individuos).

Tipos de variables aleatorias

Variables categóricas o cualitativas


Cuando los miembros de la población en estudio son divididos en categorías, (color,
sexo, etc) se está en presencia de una variable categórica. Las categorías pueden ser
naturales, como el caso del sexo y el color o arbitrarias, como las ocupaciones
laborales (profesional, empleado, transportista, etc). Debido a que en este tipo de
variables no se realiza una medición que se exprese numéricamente, sino que se
registran características (cualidades), se dice que estas variables son categóricas o
cualitativas. Cuando se trata de una variable con solo dos categorías, la variable es
dicotómica.

Variables numéricas o cuantitativas


Son aquellas que pueden ser expresadas numéricamente mediante un número que se
obtiene simplemente de un conteo o de una medición.
Existen dos tipos de variables cuantitativas, las discretas y las continuas.

Variables discretas son aquellas que resultan de conteos y por lo tanto sus posibles
valores se pueden expresar mediante números enteros (0, 1, 2,......). Volviendo a los
ejemplos del principio, son variables discretas la (b) Y: cantidad de huevos puestos
por hembra de un insecto y la (d) W: cantidad de individuos de una especie de pájaro
parasitados con cierto platielminto por cada cinco individuos de esa especie de pájaro.

Variables continuas son aquellas que resultan de mediciones cuyos posibles valores
pueden ser expresados por medio de números reales. En los ejemplos del principio,
son variables continuas la (a) X: peso, en gramos de ratas sometidas a un
determinado tratamiento y la (c) Z: largo del tallo, en cm. de plantas de trigo de esa
variedad.

Escalas

Además de la clasificación de las variables en categóricas y numéricas éstas pueden


ser clasificadas según el tipo de escala:

Escala de las variables categóricas

Las categorías en las que está dividida la variable pueden o no tener una ordenación
natural. Una clasificación realizada en cuanto al sexo, por ejemplo no tiene una

7
ordenación natural, pues no existe razón lógica para pensar que un sexo se debe
poner en orden anterior o posterior al otro. En estos caso la escala es nominal. Si las
categorías siguen una ordenación natural o se pueden ordenar, por ejemplo si se
clasifican organismos según el orden en que nacen (primero, segundo, tercero, etc),
se dice que la escala es ordinal.

Escalas para variables numéricas

Las variables numéricas siempre se pueden ordenar ya que los números por
definición tienen un orden establecido. Las variables numéricas, sean discretas o
continuas, se clasifican según que el cero de la escala tenga o no un significado. Si en
el marco de un experimento para medir fertilidad de un insecto, un individuo pone cero
huevos, ese cero tiene sentido ya que expresa la ausencia de huevos puestos por el
individuo en cuestión. En cambio si se registra la temperatura en, por ejemplo grados
Fahrenheit o Centrígrados, el valor cero en esa escala es artificial, pues no indica la
falta de temperatura. Tampoco tiene sentido decir que un objeto cuya temperatura es
de 32 grados es el doble de caliente que uno cuya temperatura es de 16 grados; pero
sí tiene sentido decir que la diferencia entre 200C y 25°C es la misma que entre 50C y
10°C (ó 77°F- 68°F = 50°F - 41°F) . En el caso de las temperaturas, la escala se
denomina escala intervalo. En estos casos, tiene sentido comparar diferencias pero
no cocientes.
Cuando se pueden comparar cocientes se dice que la variables se miden en escala
cociente; por ejemplo la variable peso, ya que el cociente entre dos pesos es el
mismo sea éste registrado en gramos o en onzas.

Escala nominal
Categórica
Escala ordinal
Variable
Escala de intervalo
Numérica
Escala de cociente

8
ESTADÍSTICA DESCRIPTIVA

Regla para el registro de datos

Cuando se va planea una experiencia o un muestreo es necesario en primer lugar


establecer algunos puntos a tener en cuenta en cuanto a la manera en que se van a
expresar los datos obtenidos. En primer lugar es necesario conocer de antemano con
cuantas cifras significativas han de hacerse los registros. Por cifras significativas se
entiende todos los dígitos antes y después de la coma decimal, comenzando a contar
desde el primero distinto de cero. Por ejemplo 14,3 tiene tres cifras significativas
mientras que 0,028 tiene sólo dos. Una regla para el registro de datos puede ser que
todos los registros se hagan con el mismo número de decimales

DISTRIBUCIÓN DE FRECUENCIAS

Frecuencia absoluta

Sea {x1,...,xn} una muestra aleatoria de tamaño n de la variable aleatoria X. Se llama


frecuencia absoluta o simplemente frecuencia, de la observación xi a la cantidad de
veces que ésta aparece en la muestra y se indica F(xi) = Fi

Frecuencia relativa
Fi =
Es el cociente entre la frecuencia absoluta y el tamaño de la muestra, se indica: f i = f ( xi)
n
Frecuencia acumulada

Es el número de veces que la variable toma en la muestra valores menores o iguales


a un valor dado. Se indica : Fa(xi) = F(X ≤ xi)

Distribución de frecuencias sin agrupar

Si se tiene una muestra de tamaño n de una variable aleatoria X, la distribución de


frecuencias sin agrupar se puede resumir en una tabla, llamada de frecuencias, donde
a cada valor de la variable corresponde su frecuencia (absoluta o relativa) y se indica:

X Frec. Absoluta Frec relativa.


x1 Fi f1
x2 F3 f2
- - -
- - -
Xk Fk fk
Suma n 1

Distribución de frecuencias agrupadas

Cuando se refiere a frecuencias agrupadas para una variable continua, esto significa
que la variable se presenta dividida en intervalos. Estos intervalos se denominan
intervalos de clase que deben ser contiguos (pegados) y excluyentes (una
observación no puede pertenecer a dos intervalos) y los intervalos de clase así
definidos deben contener a todos los valores de la muestra.

9
Existen distintos criterios para la construcción de los intervalos de clase para que se
puedan satisfacer los requisitos citados mas arriba:

a) Cuando un valor de la muestra cae en algún extremo del intervalo se utiliza como
regla que dicho valor se asigna al intervalo inferior o al superior. Cualquiera de los
dos criterios son válidos, siempre que se aplique de la misma manera para todos
los intervalos.

Gráficos

La información resumida en las tablas de frecuencias puede ser presentada


gráficamente. La gama de gráficos que pueden hacerse es amplia y su construcción y
análisis se verá con detalle en las clases prácticas.

USO DESCRIPTIVO DE LOS ESTADÍSTICOS

Una de las utilidades básicas de la muestra es la de caracterizar a la población,


estimando algunas de sus características y hacer inferencia acerca de ellas.

Estadístico. Sea {x1,...,xn} una muestra aleatoria de tamaño n de la variable aleatoria


X. Un estadístico es una función real de la muestra:

ε = f(x1,....., xn}
Por extensión suele usarse el término estadístico para referirse al valor de la función .
Entonces se habla del estadístico y = ε = f(x1,....., xn} cuando en realidad se está
refiriendo a la función Y= f(X, ...., Xn)

De la definición se deduce que el valor del estadístico varía de una muestra a otra de
la misma variable.
Se los llama estadísticos o "características muestrales"; para diferenciarlos de los
parámetros que son las "características poblacionales".

Los estadísticos son útiles para describir la muestra y para estimar parámetros de la
población. El estudio del uso descriptivo de los estadísticos es lo que se denomina
Estadística Descriptiva.

Estadísticos de posición o medidas de tendencia central

Son los que indican el 'centro' de la muestra, representan los valores alrededor de los
cuales fluctúan las observaciones individuales de la muestra.
Entre los estadísticos de posición se encuentran la media aritmética, la media
geométrica, la mediana, la moda, los cuartiles, los percentiles.
De aquí en mas {x1,...., xn} se refiere a una muestra aleatoria de tamaño n de una
variable aleatoria X, extraída de una población determinada.

10
1) Media aritmética. También conocida simplemente como media. Se define
como el promedio aritmético de los valores de la muestra, y se indica x :

n
∑ xi Fi
x= 1 donde Fi es la frecuencia de la observación xi
n

n
∑ xi
x= 1 cuando cada xi tiene frecuencia uno
n

Media geométrica. Se índica MGx y se calcula como:

log y
MGx = n x1 ⋅ x 2 ⋅ ..... ⋅ xn = antilog ∑ n

Es útil para promediar porcentajes, tasas, índices, etc.

3) Moda. Es el valor de la variable de mayor frecuencia en la muestra y se indica con


Mo.
Cuando se tiene una distribución de frecuencias agrupadas con intervalos de igual
tamaño, la moda es sencillamente la marca de clase del intervalo de mayor frecuencia,
llamado 'intervalo modal'; cuando los intervalos son de distinta longitud puede no
coincidir con este valor y tanto más cuanto más diferentes son las longitudes de los
intervalos. Existen distribuciones con más de una moda.

4) Mediana: En una serie de datos ordenados de menor a mayor es un valor de la


variable que deja mitad de observaciones a la izquierda y mitad a la derecha. Se indica
con Me.
Es decir la mediana es un valor M de la variable tal que:

F(X ≤ Me) = F(X ≥ Me) = Fa(Me) = 0.50n,

donde n el tamaño de la muestra.

Para estimar la mediana se procede del siguiente modo:

Primero se ordenan los datos de menor a mayor.

Si n es impar, la mediana es el valor de la variable que ocupa el lugar


n +1
2

Si n es par, la mediana es el valor de la variable entre los valores que ocupan los
lugares
n y n+2
2 2

11
Relación entre la media, moda y mediana

La media, la mediana y la moda son estimadores de la media poblacional. La elección


del estimador de la media poblacional depende de la población en estudio. Si la
distribución es simétrica los tres estimadores coinciden, en caso contrario la media “se
desplaza” hacia la cola más pesada de la distribución, de manera que cuanto mas
asimétrica la distribución menos adecuada la elección de la media como medida de
tendencia central.

simétrica asimétrica hacia la derecha asimétrica hacia la izquierda

5) Cuartiles. Son tres valores de la variable, Q1, Q2 y Q3 tales que:

Fa(Q1) = 0.25 n Fa(Q2) = 0.50 n Fa(Q3) = 0.75 n

Observar que Q2 = M

Estadísticos de dispersión

Dan una medida de la dispersión de los valores de la muestra alrededor del valor
central.

1) Amplitud muestral. Es la diferencia entre los valores máximo y mínimo de la


muestra. Se indica: w = xmax − xmin

2) Desviación intercuartil. Q3 − Q 1
∑ (xi− x )
2
3) Promedio cuadrático de las desviaciones q=
n
∑ (x i − x )
2
2
5) Varianza muestral . s =
n−1

6) Desviación estándar. s = s2

12
Ventajas de s² sobre q

q subestima la varianza poblacional y debe ser corregido con el factor n/(n-1)


obteniéndose s², que es un estadístico insesgado, o sea que no depende de la
muestra específica sino que su valor esperado coincide con el verdadero valor de
varianza.
El estimador q es útil cuando se tiene un censo o cuando sólo interesa la variabilidad
de la muestra específica con la que se está trabajando, pero no se quiere realizar una
estimación poblacional.
Para un tamaño de muestra suficientemente grande ambos coinciden.

Suma de cuadrados.

Se denomina así a la suma de cuadrados de las desviaciones respecto a la media, se


la indica SC y se define como:

SC = ∑1n (xi − x )² = ∑xi ² − nx ² = SCxx

El subíndice de la suma de cuadrados, xx, indica que la suma de cuadrados está


calculada para la variable X.

Grados de libertad.

El denominador de s², n − 1, se refiere a los grados de libertad de la varianza. Los


grados de libertad representan el número de sumandos independientes de la suma de
cuadrados; es decir la cantidad de desviaciones independientes. También pueden ser
definidos como el número de desvíos totales menos el número de parámetros a
estimar para el cálculo de dichos desvíos

Cuadrado medio

Como se vio, la varianza muestral es el cociente entre una suma de cuadrados y sus
grados de libertad. Este cociente recibe el nombre de cuadrado medio. Entonces la
varianza muestral, basada en una muestra de tamaño n, es un cuadrado medio con
n−1 grados de libertad.

Estadístico de asimetría

Es el Coeficiente de asimetría, g1, que mide cuanto se aleja de la simetría la


distribución de una variable aleatoria y se calcula como:

∑ (xi− x ) Fi
3
g1 =
n s3

el signo del coeficiente indicará si la cola más pesada es a la derecha o a la izquierda,


o sea si la media se corre a la derecha o a la izquierda. Si la curva es perfectamente
simétrica g1=0. Si g1> 0 la distribución es asimétrica hacia la derecha y si g1<0 la
distribución es asimétrica hacia la izquierda.

13
Estadístico de aplanamiento

Es el Coeficiente de kurtosis, g2, que indica si las colas de la distribución son


demasiado pesadas o demasiado livianas y se calcula como:

⎡ ∑ (x − x )4 Fi ⎤
g2 = ⎢ i ⎥−3
⎢⎣ n s4 ⎥⎦
Si la curva es normal g2 = 0. Si g2 > 0 la curva es leptocúrtica y si g2 < 0 la curva es
platicúrtica.

g2 = 0 g2 > 0 g2 < 0

Coeficiente de variación muestral

Mide la variabilidad de una muestra independientemente de su media y se calcula


como:
s
CV = ⋅ 100
x
Para muestras pequeñas, este coeficiente es sesgado por lo que se calcula como:

⎛ 1⎞
CV * = CV ⎜1 + ⎟
⎝ 4n ⎠

Ejemplos de utilización del CV

1) Se quiere estudiar si una muestra es más o menos variable con respecto a una
característica que a otra. A una muestra de mujeres de 20 años se le registra el peso
(en kg) y la altura (en cm). El CV es útil en este caso para saber cual de las dos
características medidas es más variable en esta muestra

Peso Altura
Media 52 160
Desvío estándar 8 9,92
CV 15,39 % 6,20 %

14
Aunque el valor del desvío estándar es mayor para la altura, esto no significa que sea
esta la que presenta mayor variabilidad, pues como se dijo mas arriba, este valor está
influenciado por el valor de la media y las si la variable está medida en diferentes
unidades. Cuando se observa el valor del CV se verifica que, para las mujeres de 20
años el peso presenta una mayor variabilidad que la altura.

2) Se quiere comparar la variabilidad de dos poblaciones con respecto a una misma


variable: altura de hombres jóvenes blancos

Inglaterra Argentina
Media 75 pulgadas 160 cm
Desvío estándar 2 pulgadas 10 cm
Coef. Variación 2.6 % 6.25 %

Sobre la base del valor del CV se concluye que los argentinos serían de alturas más
variables que los ingleses. En este caso como la altura está medida en diferentes
escalas para ambas muestras, la utilización del s es, además de incorrecta, confusa.

15
PROBABILIDADES

Introducción

La idea de probabilidad se puede interpretar adecuadamente a nivel intuititivo. A


menudo se escuchan frases como: "la probabilidad de que llueva hoy es del 95%" o
"hay un 10% de probabilidad de que llueva hoy".
En general sucesos o eventos muy comunes tendrán una probabilidad alta y los
improbables o muy poco comunes una probabilidad pequeña. Se dice "la inundación
pudo haber sido causada por la lluvia" cuando no se está seguro de la causa o "la
inundación fue causada con seguridad por la lluvia" cuando se lo está. Los
estadísticos reemplazan las palabras informativas "pudo" y "con seguridad" por un
número que va de cero a uno, que indica que tan probable o improbable es la causa
de la inundación.

La interpretación del concepto de probabilidad puede sintetizarse de la siguiente


forma:

1.- Las probabilidades son números comprendidos entre cero y uno inclusive, que
reflejan las expectativas con respecto a que un suceso físico determinado se
produzca o no.

2.- Una probabilidad próxima a uno indica que es de esperar que un determinado
suceso ocurra. No indica que el suceso vaya a producirse, solo que es un tipo de
suceso que generalmente ocurre.

3.- Una probabilidad próxima a cero indica que no es de esperar que un


determinado suceso ocurra. No indica que el suceso realmente no ocurrirá.

4.- Una probabilidad próxima a ½ indica que es tan verosímil que el suceso ocurra
como que no ocurra.

A un suceso que se produce con absoluta certeza se le asigna probabilidad 1 y a un


suceso que cuya ocurrencia es imposible se le asigna probabilidad cero.

¿Qué puede ser considerada una probabilidad grande o pequeña? Sin duda una
probabilidad de 1 es grande y una de 0 es pequeña. ¿Cuán cerca a estos extremos
debe encontrarse una probabilidad para ser considerada grande o pequeña?. No
existe una respuesta definitiva para esta pregunta. La interpretación de las
probabilidades siempre incluye una cuota de subjetividad. Una probabilidad que se
considera grande en un contexto, puede parecer pequeña en otro. Por ejemplo si se
va a realizar un paseo al aire libre y la probabilidad de lluvia para ese día es del 10%.
Si se considera que esa probabilidad es baja no hay mayor problema en salir de todas
maneras y sin paraguas porque lo más probable es que no llueva y si de todos modos
lloviera no sería tan grave mojarse un poco. Pero si se supone que uno es convocado
para ser el primer hombre en descender al fondo del océano en un nuevo aparato
submarino y existe una probabilidad del 10% de que falle, la valoración de esa
probabilidad puede ser distinta a la que se hace en el primer ejemplo.

16
Experimento o ensayo aleatorio

En muchos campos diferentes de la actividad científica se pueden realizar


experimentos u observaciones que pueden repetirse varias veces en iguales
condiciones, dando cada repetición un resultado (u observación) cierto definido.
Algunos ejemplos de experimentos:

1.1. Arrojar una moneda al aire tres veces y contar el número de caras.
1.2. Arrojar dos monedas al aire y registrar sobre que cara caen.
1.3. Contar el número de ácaros en un lobo marino (huésped).
1.4. Contar el número de peces extraídos de un estanque hasta conseguir uno
marcado.
1.5. Registrar el peso de una rata de quince días.
1.6. Inyectar tres ratas con una droga letal y registrar la sobrevida (cantidad de
días hasta morir)

Cada uno de estos ejemplos corresponde a un experimento aleatorio y puede ser


caracterizado de la siguiente manera:

a) Es posible repetirlo un número indefinido de veces, sin cambiar las condiciones.


Por repetición se entiende cada una de las veces que se repite el experimento; por
ejemplo en el caso de las tres monedas o de una misma moneda arrojada tres veces,
que es lo mismo (ejemplo (1.1)), repetición es cada una de las veces que se arrojan al
aire las tres monedas, en el (1.5) cada vez que se pesa una rata de quince días y en
el (1.6) cada vez que se inyectan tres ratas.
b) Para cada uno de ellos se conocen todos los resultados posibles, aunque no
pueda predecirse un resultado en particular en una determinada repetición. Una
moneda caerá cara o ceca pero no se sabe exactamente cual de los resultados es
el que se dará en una determinada repetición del experimento.
c) A medida que el experimento se repite, los resultados individuales parecen ocurrir
en forma caprichosa. Sin embargo, cuando el experimento se repite un "gran"
número de veces, aparece un modelo definido de regularidad. Esta regularidad
hace posible la construcción de un modelo matemático preciso con el cual se
analizará el experimento. Por ejemplo sea el caso de n lanzamientos de una
moneda equilibrada. Aunque las caras y las cecas aparecen sucesivamente, de
una manera arbitraria, es bien conocido el hecho empírico de que después de un
gran número de lanzamientos, la proporción de caras y de cecas será
aproximadamente la misma si la moneda es equilibrada. Esto significa que hay un
modelo de regularidad al repetir la experiencia n veces. La pregunta es ¿Qué valor
toma n? y ¿qué tan grande debe ser n?

Espacio muestral

Realizado un determinado experimento aleatorio se llama espacio muestral (S) al


conjunto de todos los resultados posibles. En los experimentos aleatorios definidos
mas arriba los espacios muestrales serían:

S1 = { 0, 1, 2, 3 } S2 = { CC, CS, SC, SS }


S3 = { 0, 1, 2,......} S4 = { 1, 2, 3, ......}
S = { x / x ε R+ }
5
S6 = { (x1, x2, x3) con xi = 1, 2, ....., }

En el ejemplo (1.6) se define la variable X: cantidad de días hasta morir de tres ratas
tratadas.

17
Para este ejemplo la unidad experimental serían las tres ratas tratadas y la población
las ternas de ratas tratadas a las que se les registra la sobrevida
Si en el mismo ejemplo se define la variable Y: cantidad de ratas muertas al cabo de
diez días, entonces S = {0, 1, 2, 3}, la unidad experimental y la población son las
mismas que la de la variable X.

Suceso o evento

Es un subconjunto de resultados posibles, es decir, es un subconjunto del espacio


muestral. En particular el espacio muestral es un suceso y se dice que es el suceso
cierto. En cambio se llama suceso imposible al que no puede ocurrir. En los
experimentos aleatorios definidos en la sección 1 ejemplos de sucesos podrían ser:

En 1.1 el suceso A = {al menos una cara} ⇒ SA = {1, 2, 3}.


En 1.2 el suceso B = {una moneda de cada lado} ⇒ SB = {CS, SC}.
En 1.3 el suceso C = {a lo sumo 3 ácaros}⇒ SC = {0, 1, 2, 3}.
En 1.4 el suceso D = {número par de extracciones} ⇒ SD= {2, 4, 6,..}.
En 1.5 el suceso E = {ratas de más de 200 gr} ⇒ SE = {x / x ε R+ , x > 200}

Tanto en el caso del espacio muestral como en el de los sucesos algunas veces los
resultados posibles pueden ser contados y otras no; pero siempre se podrá calcular la
posibilidad de que un determinado resultado ocurra.

Se define también un suceso que no puede ocurrir al que llamaremos suceso


vacío o imposible, que se diferencia del suceso que nunca ocurre. Para el cual hay
una imposibilidad teórica, física, real para que no ocurra (tendrá probabilidad cero).
Ejemplos
Suceso imposible o vacío: con un dado numerado de 1 a 6, obtener un 7.
Suceso que nunca ocurre: el sol deje de salir

Sucesos mutuamente excluyentes

Se dice que los sucesos A y B en S son mutuamente excluyentes (m.e.) cuando no


pueden ocurrir al mismo tiempo. En términos de teoría de conjuntos esto significa que
su intersección (que representa la ocurrencia simultánea) es vacía, o sea A ∩ B = ∅.
En el ejemplo 1.1 de la sección 1 dos sucesos mutuamente excluyentes pueden ser A
= {al menos una cara} y B = {ninguna cara}.

Frecuencia relativa

Con lo dicho hasta aquí se puede describir todo el conjunto de los resultados posibles
de un experimento aleatorio pero no se puede asegurar la ocurrencia o no de un
determinado suceso A. Para ello se necesita asociar con cada suceso un número que
mida la posibilidad de ocurrencia de A .
Se vio que una de las características de un experimento aleatorio se basa en que
puede ser repetido indefinidas veces bajo las mismas condiciones experimentales.
Sea por lo tanto un experimento aleatorio E que se repite un número n finito de veces
y sean A y B dos sucesos asociados con él. Sean nA y nB el número de veces que
ocurren A y B respectivamente, en las n repeticiones .
Se define
fA = n A / n

18
como la frecuencia relativa del suceso A en las n repeticiones del experimento E y es
tal que cumple :
1) 0 ≤ fA ≤ 1
2) fA = 1 si y solo si A ocurre siempre (suceso cierto)
3) fA = 0 si y solo si A nunca ocurre
4) Si A y B son m.e. entonces fA ∪ B = fA + fB
5) Si la cantidad n de repeticiones es muy grande entonces la frecuencia relativa
converge (en probabilidad) a un número llamado probabilidad del suceso A; es
decir fA → P(A), cuando n → ∞. Esto significa que la frecuencia relativa basada en
un número creciente de repeticiones tiende a estabilizarse en las proximidades de
un valor definitivo. Esto es una realidad empírica, no una noción rigurosamente
matemática; cuando esto sucede se dice que el experimento muestra regularidad
estadística, es decir, una regularidad de los resultados medios de largas series de
repeticiones, en contraposición a la irregularidad aleatoria de las repeticiones
individuales.

El objetivo planteado es buscar un modelo matemático para la descripción e


interpretación de los fenómenos que muestran regularidad estadística (modelos
probabilísticos o no deterministas) .

Nociones de probabilidad

El problema planteado es el de definir para todo suceso A un número P(A) que mida
la probabilidad de ocurrencia de A.

Para la asignación de probabilidades se podría utilizar alguno de los tres siguientes


métodos enunciados y ejemplificados al principio:
estimación personal o subjetiva
estimación por medio de la frecuencia relativa
estimación clásica

Axiomas de probabilidad.

Sea un experimento aleatorio E; con cada suceso A asociado a él, se define el


número P(A), llamado probabilidad de A, tal que:

1.- 0 ≤ P(A) ≤ 1 , para todo A


2.- P(S) = 1
3.- Si A y B son sucesos mutuamente excluyentes, entonces P(A U B) = P(A) + P(B)

Además P(Ø) = 0 , de lo que se puede deducir para todo n finito que si los Ai, con
i=1,....n, son mutuamente excluyentes de a pares, entonces

P( U Ai) = ∑ P(Ai) con i = 1, 2, ...., n

En el caso de tratarse de espacios infinitos hay que considerar un quinto axioma


5.- Si A1, A2,..,An.. son sucesos m.e. de a pares, entonces
P ( U Ai) = ∑i P(Ai) , con i = 1, 2, ........., ∞

Cuando a cada elemento del espacio muestral S = {s1,.....,sn} correspondiente a un


experimento aleatorio E se le asigna un número pi = P(si) tal que ∑ipi = 1 se obtiene el
espacio de probabilidades asociado a E que se indica P = {p1,.......,pn}.

19
Es de notar que esta definición de probabilidad no permite calcular la probabilidad de
un suceso dado, sino que, como toda definición axiomática, da las propiedades
básicas llamadas axiomas. Las restantes propiedades que se necesiten para el
cálculo de probabilidades habrá que deducirlas de ellas. Veamos algunas propiedades
sencillas de P(A) :

Proposición 1 : P(AC) = 1 - P(A), donde AC es el complemento de A

En efecto. Para todo suceso A vale S = A U AC y además A y AC son mutuamente


excluyentes, entonces por los axiomas (2) y (4)

1 = P(S) = P(A) + P(AC) ⇒ P(AC) = 1 - P(A)

Proposición 2: Sean A y B dos sucesos cualesquiera, entonces

P(A ∪ B) = P(A) + P(B) − P(A∩B)

En efecto. Se puede escribir

A ∪ B = A ∪ (B∩AC), con A y (AC ∩B) mutuamente excluyentes


B = (A∩B) U (B ∩ AC), con (A ∩B) y (AC ∩B) mutuamente excluyentes

Entonces:
P(A ∪ B) = P(A) + P(B∩AC)
P(B) = P(A∩B) + P(B∩AC)

Restando:

P(A ∪ B) – P(B) = P(A) - P(A∩B) ⇒ P(A ∪ B) = P(A) + P(B) − P(A∩B)

Proposición 3 .Sean A, B y C tres sucesos cualesquiera, entonces

P(A ∪B ∪C ) = P(A) + P(B) + P(C) − P(A∩B) − P(A∩C) − P(B∩C) + P(A∩B∩C)


n
Generalización: P( U Ai) = ∑P(Ai) − ∑ P(Ai∩Aj) + ..... +(-1) P(∩Ai)

Proposición 4 : Si A ⊂ B , entonces P(A) ≤ P(B)

En efecto Se puede escribir:

B = A U (B∩AC), con A y (B∩AC) mutuamente excluyentes.

Entonces P(B) = P(A) + P(B∩AC) , puesto que P(B∩A) > 0

Resultados igualmente probables

La suposición que más comúnmente se hace en experimentos aleatorios con un


número finito de resultados posibles es la de equiprobabilidad, que significa que
cada uno de los resultados posibles tiene la misma probabilidad de ocurrencia.

20
Si los k resultados de un experimento aleatorio son igualmente probables se puede
utilizar la definición P(A)=fA para calcular probabilidades y puede por lo tanto
deducirse que cada uno de ellos tiene una probabilidad p = 1/k de ocurrencia. Esto
sale del hecho de que ∑pi = 1, de donde kpi = 1.
Luego si A es un suceso que consta de r resultados favorables resulta:

P(A) = r/k

Este método de evaluar a P(A) a menudo se indica :

P(A) = [# resultados favorables a A] / [# resultados posibles]


Es decir
P(A) = [casos favorables] / [casos posibles] = CF / CP (1)

Es importante destacar que la expresión (1) para evaluar P(A) es sólo consecuencia
de la equiprobabilidad y la finitud del espacio muestral S.

Para poder aplicar la expresión (1) se debe tener equiprobabilidad de los resultados.

Probabilidad condicional

Ejemplo.
Sea la población de alumnos de Biometría de la cursada de 2005, clasificados según
el turno de TP al que asistieron y la condición de haber aprobado o no los TP de la
materia, como muestra la siguiente tabla :

Turno Aprobado No aprobado Total % Aprobados


Mañana (M) 20 10 30 67,00 %
Tarde (T) 25 15 40 62,50 %
Noche (N) 15 15 30 50,00 %
Total 60 40 100 60,00 %

Sean los sucesos: M = {turno mañana} , T = {turno tarde} , N = {turno noche}, A =


{aprobado} , NA = {no aprobado}

Se plantea el cálculo de las siguientes probabilidades:

a) Cuál es la probabilidad de que un alumno cualquiera, elegido al azar:


a1) haya concurrido al turno tarde?
a2) haya aprobado los TP?

b) Cuál es la probabilidad de que un alumno del turno mañana, elegido al azar, haya
aprobado los TP? O, dicho de otra forma, ¿cuál sería la probabilidad de que el alumno
extraído al azar de entre los del turno mañana haya aprobado los TP?, o, ¿cuál es la
probabilidad de que el alumno haya aprobado los TP, dado que era del turno de la
mañana ?

c) Cuál es la probabilidad de que un alumno seleccionado al azar haya concurrido al


turno mañana y haya aprobado los TP?

21
Respuestas:

a) Estas probabilidades son del tipo de las que ya se calcularon:


a1) P(T) = 40 / 100 = 0,4
a2) P(A) = 60 / 100 = 0,60

b) Este caso se trata de otro tipo de probabilidad. Hay que calcular la P(Aprobado /
turno mañana) = P(A / M), que se lee probabilidad de A condicional a B, o
probabilidad de que el alumno haya aprobado los TP dado que concurrió al turno
mañana .
La probabilidad propuesta puede ser calculada de dos maneras:
i) restringiendo el espacio de resultados posibles sólo a los alumnos del turno
mañana, entonces utilizando (1) resulta:

P(A/M) = CF/CP = 20/30 = 2/3 = 0,67

Esto en realidad se puede considerar como un cociente entre dos probabilidades pues
dividiendo el numerador y el denominador por el n total (100 en este ejemplo), se
obtienen las probabilidades en ambos; el resultado no cambia, pero es otra forma de
cálculo. Se obtiene:

P(A/M) = [(20/100)] /[(30/100)] = P(Ap y TM) / P(TM) = P(A∩ M ) / P(M)

Se observa que el numerador (P(A∩M)) es la probabilidad de que ambos sucesos


ocurran al mismo tiempo y por ello se llama probabilidad de ocurrencia simultánea,
mientras que el denominador es la probabilidad de ocurrencia del suceso M y se llama
probabilidad total

Esto último lleva a la siguiente definición de probabilidad condicional :

Dados dos sucesos, A y B, se define la probabilidad de A condicionada a B como:

P(A / B) = P(A∩B) / P(B) si P(B) ≠ 0

ii) Cuando se calcula la P(A/M) utilizando la definición es simplemente:

P(A/ M) = P(A∩M) / P(M) = [20 /100] / [30 /100] = 20/30 = 2/3 = 0,67

Que es el mismo resultado al que ya se había llegado mas arriba.

d) Lo que se pide es sencillamente la probabilidad de ocurrencia simultánea, o sea el


numerador del cálculo de la probabilidad condicional.

P(A∩M) = P(M). P(A/M) = 20/100 = 0.20

Otros cálculos interesantes para el mismo ejemplo

a) Si se considera a los datos originales como una muestra de la cursada de


2005, se pueden estimar las proporciones de aprobados en cada uno de los
TP, que más adelante se compararan para estudiar su significación estadística
y ver si el TP influye en la aprobación de la materia; estas estimaciones son,
en realidad, probabilidades condicionales:

P(A/M)x 100 = 67% ; P(A/T)x 100 = 62,50% ; P(A/N) x 100 = 50%

22
estos números son las estimaciones de las proporciones de aprobados en el turno
mañana, en el tarde y en el de la noche. Esta comparación se estudiará más adelante
con una prueba de bondad de ajuste (Prueba de independencia)

b) Si se supone que 100 es el tamaño de la población de alumnos de la cursada


Biome 2005, la tabla del ejemplo puede escribirse en termino de probabilidades

Turno Aprobado No Aprob. Total Aprobado No Aprob. Total


Mañana (M) P(M∩A) P(M∩NA) P(M) M 0,20 0,10 0,30
Tarde (T) P(T∩A) P(T∩NA) P(T) T 0,25 0,15 0,40
Noche (N) P(N∩A) P(N∩NA) P(N) N 0,15 0,15 0,30
Total P(A) P(NA) 1 Total 0,60 0,40 1

La probabilidades que aparecen en la fila y columna de los totales son las


probabilidades marginales: La columna corresponde a la distribución en
probabilidades de la variable Turno de TP, mientras que la fila lo es de la variable
condición del alumno.

Ocurrencia simultánea

Se vio que para el cálculo de la probabilidad de extracción al azar de un alumno


aprobado del turno mañana, o sea la P(aprobado y turno mañana), se obtuvo:

P(A∩ M) = 20 / 100 = 0,20

Esta es la definición de probabilidad de ocurrencia simultánea de dos sucesos


cualesquiera A y B, y por definición de probabilidad condicional es:

P(A∩B) = P(A)P(B/A) = P(B) P(A/B) (2)

cualesquiera sean los sucesos A y B, y no se necesita la condición de probabilidad


distinta de cero.
La forma en que se calcula P(A∩B) es según que probabilidades se conozcan a priori
(o sea de los datos de que se disponga).

La generalización de (2) recibe el nombre de Teorema de la multiplicación y dice:


Sean los sucesos Ai con i = 1, .., n, entonces:

P(A1∩A2∩......∩An) = P(A1)P(A2/A1)P(A3/ A1A2) ..... P(An/A1...An-1)

Probabilidad total
Partición del espacio muestral :

Se dice que los sucesos B1, B2, ...,Bk constituyen una partición del espacio de
resultados posibles S si:

(a) Bi ∩ Bj = ∅ ∀para todo par i ≠ j. Esto significa que al realizar la experiencia ocurre
uno y solo uno de los Bi
(b) ∪ Bi = S
(c) P(Bi) > 0 para todo i=1,2,...,k

23
Dada una partición de S, para cualquier suceso A asociado a S es decir A ⊂ S se
puede escribir:
A = (B1 ∩ A) ∪ (B2 ∩ A) ... ∪... (Bk ∩ A)

donde los (Bi ∩ A) son disjuntos dos a dos puesto que los son los Bi y,
eventualmente alguno puede ser vacío.

Luego:
P(A) = P(B1 ∩ A) + P(B2 ∩ A) + ...... + P(Bk ∩ A)

y en razón de (9.1)
P(A) = P(B1)P(A/B1) + P(B2)P(A/B2) +.....+ P(Bk)P(A/Bk)

Es decir: P(A) = ∑ P(Bi)P(A/Bi) (3)

llamada probabilidad total. Las probabilidades conocidas P(Bi) y P(A/Bi) se llaman


probabilidades a priori.

Aplicando este concepto resulta que la probabilidad propuesta es:

P(turno mañana) = P(aprobado)P(turno mañana/aprobado) +


+ P(no aprobado)P(turno mañana/no aprobado)

utilizando la notación usada anteriormente se escribe :

P(M) = P(A)P(M/A) + P(NA)P(M/NA) = 20/100 + 10/100 = 0.30 (3)

P(A) = P(M)P(A/M) + P(T)P(A/T) + P(N)P(A/N) = 0,60

Teorema de Bayes o de las probabilidades a posteriori

Este es el caso de calcular una probabilidad a posteriori, es decir calcular una


probabilidad cuando se conocen los resultados de la experiencia.
Sea el siguiente ejemplo:

Se tienen tres urnas con bolillas blancas y rojas con la siguiente composición:

Cantidad de bolillas
Urna Blancas Rojas Total
1 (U1) 3 7 10
2 (U2) 5 3 8
3 (U3) 3 9 12
Total 11 19 30

La experiencia consiste en elegir una urna al azar y de ella extraer una bolilla también
al azar. Supongamos que la bolilla extraída es blanca y queremos saber cuál es la
probabilidad de que provenga de la urna tres
Sean los sucesos B = {extraer una bolita blanca} y Ui = {elegir la urna i} con i 1, 2, 3.
Luego:

24
Probabilidades a priori:

P(B/U1) = 3/10 , P(B/U2) = 5/8 , P(B/U3) = 3/12

Para la elección de las urnas sean las siguientes dos situaciones:

Situación 1: equiprobabilidad, o sea : P(Ui) = 1/3 para todo i.

Situación 2: P(U1) = P(U2) = ¼ , P(U3 ) = 1/2

En ambas situaciones se trata de calcular la P(U3 / B), que es una probabilidad


condicional y por lo tanto se calcula como:
P(U3 / B) = P(U3 ∩ B) / P(B)

Además P(B) = P(U1)P(B/U1) + P(U2)P(B/U2) +P(U3)P(B/U3)

Situación 1: P(B) = 0,3917 ⇒ P(U3 / B) = 0,2127

Situación 2 : P(B) = 0,3562 ⇒ P(U3 / B) = 0,3509

Nota: Los resultados obtenidos obviamente dependen de las probabilidades


asignadas a priori a los elementos de la partición.
El resultado en la situación 1 es menor que en la situación 2. Esto se debe a que en la
situación 2 la probabilidad a priori para la urna 3 es mayor que la de las otras dos,
Este resultado corresponde al teorema de Bayes. cuyo enunciado general es :" Sea
B1,B2..., Bk una partición del espacio muestral S y A un suceso asociado con S. Sean
conocidas las probabilidades a priori P(Bi) y P(A/Bi) para i=1,2,..., k. Entonces para las
probabilidades a posteriori vale la siguiente expresión

P(Bi/A) = [P(Bi ∩A)] / P(A) = [P(Bi)P(A/Bi)] / ∑ P(Bi)P(A/Bi) "

Este teorema no es de fácil aplicación porque generalmente las probabilidades a priori


no son conocidas y además son subjetivas en el sentido de que distintos sujetos
pueden elegirlas distintas. La elección inadecuada de las P(Bi) hace que el resultado
sea objetable. Como se ve en el ejemplo de las tres urnas, el resultado final cambia
según la asignación de probabilidades a las urnas..

Sucesos independientes

Se dice que dos sucesos A y B son independientes cuando ninguno de ellos da


información con respecto al otro.
En algunas situaciones es bien claro cuando dos sucesos son independientes, por
ejemplo, que un paciente tenga apendicitis es independiente de que padezca sinusitis;
en cambio la pesca de pejerreyes en la laguna Chascomús no es tan evidente que sea
independientes de la pesca en la laguna de Chis - Chis.
Generalizando :

Si A y B son independientes: P(A/B) = P(A) y P(B/A) = P(B)

Asimismo: P( A / B) = P( A / B) = P( A)

25
A es independiente de B y B es independiente de A. Es por esto que se verifica que
los sucesos A y B son independientes si y solo si:

P(A∩B) = P(A).P(B)

En el ejemplo de la sección 8, si el pertenecer al turno mañana es independiente de la


aprobación de los TP:

P(A/M) = 20/30 = 0,33 P(M/A) = 20/60 = 0,66

Luego el cursar en el turno mañana no sería independiente de la aprobación de los


TP.
Este mismo razonamiento es válido si se tienen mas de dos sucesos: Dados tres
sucesos, sean A, B y C se dice que son mutuamente independientes si y solo si se
cumplen :

P(A∩B) = P(A)P(B) P(A∩C) = P(A)P(C)


P(B∩C) = P(B)P(C) P(A∩B∩C) = P(A)P(B)P(C)

Aplicaciones de probabilidad condicional y del Teorema de Bayes

Prueba de diagnóstico

Un diagnóstico es una prueba para detectar la presencia de alguna condición (por


ejemplo una enfermedad) en una unidad experimental. Es deseable que estas
pruebas de diagnóstico sean siempre seguras en el sentido de que siempre detecten
la condición, si esta está realmente presente y detecten su ausencia cuando no lo
está.
Esto no siempre sucede en general. Solo puede esperarse que las pruebas de
diagnósticos conocidas no den resultados erróneos muy a menudo. Indiquemos con A
a la condición: A+ si está presente y A- si no lo está y con T al resultado del test: T+ si
detecta la condición y T- en caso contrario. Los datos generalmente se colocan en
una tabla de 2x2:
El individuo (unidad experimental) puede ser positivo (A+) o negativo (A-) para la
condición (enfermedad) y el test aplicado puede dar positivo (T+) o negativo (T-),
entonces se presentan cuatro categorías:

1.- La condición está presente y el test la detecta. Es decir el sujeto está realmente
enfermo (positivo) y el test da positivo (T+). Entonces no se ha cometido error:

Sensibilidad: P(T+ /A+) es la proporción de positivos entre los enfermos.

2.- La condición está presente y el test no la detecta. Es decir el sujeto está enfermo
(A+) y el test da negativo (T-). Entonces se ha cometido error:

Coeficiente falso-negativo = P(T- / A+)

3.- La condición no está presente pero el test detecta su presencia. Es decir el


individuo no está enfermo (A-) y el test da positivo (T+). Entonces se ha cometido
error.
Coeficiente falso-positivo = P(T+ / A-)

4.- La condición no está presente y el test detecta su ausencia. Es decir el individuo


está sano (A-) y el test da negativo (T-). Entonces no se ha cometido error.

26
Especificidad : P(T- / A-) es la proporción de negativos entre los sanos.

Lo expuesto puede resumirse en la siguiente tabla de probabilidades condicionales:

Test + (T+) Test - (T-)


Enfermo (A+) No error: Sensibilidad Error: Coef falso-negativo
Sano: (A-) Error: Coef falso-positivo No error: Especificidad

Una buena prueba de diagnóstico daría bajos coeficientes y alta sensibilidad y


especificidad.
De los dos errores el más peligroso es el falso-negativo, porque el sujeto está
realmente enfermo pero el test no lo detecta y en consecuencia el individuo no
considera someterse a tratamiento. El falso-positivo es menos grave porque a lo sumo
el paciente se someterá a un tratamiento innecesario.

Ejemplo. Se realiza una experiencia con 2000 sujetos elegidos al azar de entre
aquellos que son suceptibles a una cierta enfermedad (A), de los cuales 1420 son
personas sanas. Los resultados obtenidos se vuelcan en la siguiente tabla de 2x2:

Resultados
Positivo (T +) Negativo (T -) Total
Enfermos (A +) 540 400 580
Sano (A -) 120 1300 1420
Total 660 1340 2000

Coef Falso - Positivo = P(T+ / A-) = 120/1420 = 0,084 ⇒ 8,40%

Coef Falso - Negativo = P(T- / A+) = 40/580 = 0,067 ⇒ 6,70%

Sensibilidad = P(T+ / A+) = 540/580 = 0,93 ⇒ 93%

Especificidad = P(T- / A-) = 1300/1420= 0,9154 ⇒ 91,54%

En el 93% de los pacientes enfermos el test detecta la enfermedad y en el 91,54% de


los sanos detecta su ausencia (son estimaciones).

Mediante el Teorema de Bayes se puede también estimar los llamados Valor


Predictivo positivo y Valor Predictivo negativo que daría una prueba de diagnóstico
(test), definidos como:

Valor Predictivo Positivo : es la probabilidad de que un individuo sea realmente


positivo cuando el test dé positivo, es decir es la P(A+/T+)
Valor Predictivo Negativo: es la probabilidad de que un individuo sea realmente
negativo cuando el test dio negativo, es decir es la P(A-/T-).

Calculando resulta:
Valor predictivo positivo = P(A+/ T+) = 540 / 660 = 0,8181 81,81 %
Valor predictivo negativo = P(A- / T-) = 1300 / 1340 = 0,97 97 %

27
Sabiendo también que en el ejemplo anterior 660 de las pruebas dieron positivas, y
suponiendo conocidas la especificidad y la especificidad, se puede construir una tabla
de probabilidades para este ejemplo:

Resultados
Positivo (T +) Negativo (T -) Total
Enfermos (A +) 0,27 0,02 0,29
Sano (A -) 0,06 0,65 0,71
Total 0,33 0,67 1

Riesgo relativo

Sea el caso de una sp de ratones atacada por moquillo. Se prueba un tratamiento


nuevo (TN) y se compara con el utilizado tradicionalmente (TT). Supongamos que de
una muestra de 1160 ratones con moquillo, a 570 se les aplica el nuevo tratamiento y
al resto el tratamiento tradicional y se obtienen los siguientes resultados:

Muertos Vivos Total % Muertos


TT 300 290 590 51 %
Marginal fijo
TN 130 440 570 23 %
Total 430 730 1160

Se podría deducir que hay diferencia entre los porcentajes de mortalidad según con
que fueron tratados. Parece que el nuevo tratamiento es más efectivo. Pero, ¿cuánto?
¿Qué riesgo existe al no utilizarlo?

Esto lleva a la noción de riesgo relativo.


Se denomina factor de riesgo a un factor que se cree puede estar relacionado con
una condición específica (por ejemplo una enfermedad).
Para calcularlo (en realidad estimarlo) se seleccionan dos muestras aleatorias; una de
individuos expuestos al factor de riesgo (E) y otra de individuos no expuestos (E').
Los individuos se clasifican según posean (D) o no (D') la condición específica
(enfermedad). Entonces se define el riesgo relativo como:

RR = [P(D / E)] / [P(D / E')]

y es una medida del impacto del factor de riesgo. Los datos se ponen en una tabla de
2x2.
En general los totales marginales correspondientes al factor de riesgo deberían ser
fijos, por lo tanto lo que se calcula es una aproximación del riesgo relativo verdadero.

RR = 1 indica que no existe relación entre el factor de riesgo y la aparición de la


enfermedad.
RR > 1 indica que estar expuesto al riesgo aumenta la probabilidad de contraer la
enfermedad
RR < 1 indica que la exposición al riesgo disminuye la probabilidad de contraer la
enfermedad.

Volviendo al ejemplo de los ratones, calculemos el riesgo relativo de la no utilización


del nuevo tratamiento. Acá el factor de riesgo es el TT = E:

P(M / TT) = 300/590 = 0,46


P(M / TN) = 130/570 = 0,23 RR = 0,46/0,23 = 2

28
Esto nos dice que un ratón con moquillo tratado con el tratamiento tradicional tiene el
doble de probabilidad de morir que uno tratado con el nuevo tratamiento.

Usos en epidemiología

(Ver Sokal y Rohlf, pag 69)


Sea el suceso C = {individuo con mal de Chagas}. Entonces la P(C) es la probabilidad
de que un individuo perteneciente a una población particular sea chagásico, y P(C') =
1 - P(C) es la probabilidad de que no lo sea.
En epidemiología P(C) expresada en porcentaje es conocida como la prevalencia de
una enfermedad.

Sea el suceso T = {cierto test da resultado positivo}, o sea en nuestro ejemplo indica
que la persona resulta positiva para una prueba de mal de Chagas. Una vez conocido
el resultado de test, el médico querrá conocer la P(C/T), es decir la probabilidad de
que el paciente realmente tenga Chagas dado que la prueba resultó positiva. Entonces
calcula:
P(C/T) = P(paciente con prueba + tenga Chagas) =
= [P(C∩T)] / P(T) = [P(C) P(T/C) / P(T)] =
= [(Prevalencia/100)P(prueba + entre los enfermos)] / P(prueba positivo)

En la expresión del cálculo de P(C/T), la probabilidad del denominador es la


probabilidad total y se calcula como:

P(T) = P(C)P(T/C) + P(C')P(T/C')

Donde C´ indica a los pacientes sanos. La forma en que se recoge la información para
responder a la pregunta, no es la requerida para este cálculo puesto que los test se
practican en personas que ya se sabe si tienen o no mal de Chagas (P(T/C) y P(T/C')
son conocidos). Es decir que si los datos se ponen en una tabla de 2x2, uno de los
totales marginales (enfermedad) es fijo.
En Epidemiología se estiman:

P(T/C) = sensibilidad
P(T'/C') = especificidad

Donde T´ indica que la prueba dio resultado negativo, y que representan la proporción
de resultados positivos entre los enfermos y la de resultados negativos entre los
sanos, respectivamente. Es de esperar que estas probabilidades estén cercanas a
uno.

P(T/C') = 1 - P(T'/C') = probabilidad complementaria de la especificidad.

Con estos datos se calcula la P(T) o sea la probabilidad de que la prueba de


diagnóstico dé un resultado positivo, en paciente con o sin Chagas.

La expresión
P(C/T) = [P(C∩T)] / P(T) = [P(C) P(T/C) / P(T)]

es el Teorema de Bayes.

Lo que se objeta a este teorema es la utilización de las probabilidades a priori, que en


general son estimadas de forma subjetiva.(Ver comentarios a Teorema de Bayes)

29
DISTRIBUCIÓN EN PROBABILIDADES

Así como antes se hablaba de distribución de frecuencias de una variable aleatoria


ahora hablaremos de distribución en probabilidades, es decir hablaremos de la
distribución teórica de la variable aleatoria.

Supongamos que se está estudiando la población del número de materias aprobadas


por alumno del segundo año de la carrera de Biología en FCEYN. La población es el
número total de alumnos del segundo año de la carrera, sea N y la población
estadística es el número de materias aprobadas (0, 1, 2,….). Si se extrae una muestra
aleatoria de tamaño n (n alumnos de entre los N) se puede construir una distribución
de frecuencias y se podrá estimar el número medio de materias aprobadas o algún
otro parámetro de interés. Pero si se utiliza toda la población (censo), la distribución
de frecuencias relativas se transformará en la distribución en probabilidades, la que
también puede ser obtenida en base a consideraciones teóricas, y que de hecho se
hace cuando no se tiene un censo. Esquematizando sería:

En la muestra En la población
X f X P

xi fi Xi pi

Suma 1 Suma 1

Distribución de frecuencias relativas Distribución en probabilidades

En el ejemplo dado supongamos la distribución en probabilidad es:

X 0 1 2 3 4 ó más
P 1/8 1/8 2/8 2/8 2/8

Luego si se elige un alumno de segundo año al azar se tiene una probabilidad del
25% de que haya aprobado tres materias y una probabilidad del 50% que tenga más
de dos materias aprobadas.

Por lo dicho se deduce que si se conoce toda la población la distribución de


frecuencias relativas es la distribución en probabilidades.

Para describir la distribución en probabilidad se habla de variable; en el ejemplo


anterior la variable es el número de materias aprobadas por alumno de segundo año.
Estas variables se llaman aleatorias puesto que sus valores dependen del alumno
elegido al azar, es decir depende de la unidad experimental elegida al azar sobre la
que se registró. Mas precisamente:

Definición: Una variable aleatoria es aquella cuyos valores son los resultados de un
experimento aleatorio.

Notación: Se indica con mayúscula la variable y con minúscula sus valores, entonces:
pi = P(X = xi) = PX(xi)

que se lee: pi es la probabilidad de que la variable aleatoria X tome el valor xi.


En el ejemplo:

30
P(X = 2) = 2/8 = 0,25 P(X > 2) = 1 - [1/8 + 1/8 +2/8] = 0,50

En general para cada unidad experimental uno puede definir varias variables. En el
ejemplo dado podrían también haberse definido las variables aleatorias: Y: edad, en
meses, Z: coeficiente intelectual (IQ), etc.

De lo expuesto se deduce que conocer la distribución en probabilidad o la


distribución de una variable aleatoria X discreta significa conocer para cada uno
de sus k valores, xi , las correspondientes probabilidad (pi = P(xi)) y tales que:
0 ≤ pi ≤ 1 para todo i = 1, .., k
∑pi = 1

Es decir conocer el espacio de probabilidad P = {p1, ...., pk} .

Observación: Cuando las variables no son medibles, caso de los atributos, se les
puede hacer una conveniente asignación de valores.

Caso de Distribución en probabilidad de una variable aleatoria continua


Supongamos que se tiene una muestra aleatoria de treinta notas de alumnos de
segundo año de la carrera y se realiza una distribución de frecuencias agrupadas en
ocho intervalos (longitud = 12,50). Se tiene el siguiente histograma de áreas:

NOTAS
7

4
No of obs

Expected
0
20 30 40 50 60 70 80 90 100 Normal

Upper Boundaries (x <= boundary)

La nota de un alumno, elegido al azar, es una variable aleatoria. Sea X.


Si se toman en el histograma intervalos de longitud mas pequeña, por ejemplo de 7
puntos (15 intervalos), se ve que la idealización del mismo es una curva acampanada.
Si se quiere la frecuencia relativa de alumnos con notas entre 60 y 70 puntos, eso no
será otra cosa que el área correspondiente en el histograma, puesto que el área total
del histograma es igual a uno. Esto es lo que sucede en la muestra.

31
NOTAS

3
No of obs

Expected
0
20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 Normal

Upper Boundaries (x <= boundary)

En la población, el área del histograma es equivalente al área debajo de la curva


límite entre las alturas establecidas. Luego conociendo la expresión de dicha curva,
llamada función de densidad de probabilidad de la variable aleatoria X, y que se
denota fX, se puede calcular cualquier probabilidad mediante el cálculo de la integral
definida:
P(a ≤ X ≤ b) = ∫ab fX(x) dx

Entonces se tendría la distribución en probabilidad de la variable aleatoria X.


Todo esto conduce a la siguiente definición de variable aleatoria continua:

Definición: Se dice que X es una variable aleatoria continua si existe una función
continua fX(x), llamada densidad de probabilidad tal que:
1) fX(x) ≥ 0 ∀ - ∞ ≤ x ≤ ∞
2) ∫ fX(x) dx = 1 con - ∞ ≤ x ≤ ∞

Observar que si x es una variable aleatoria continua no tiene sentido calcular la


probabilidad en un punto, o sea P(X = a), ya que esta probabilidad es nula. Para
calcularla hay que definir un intervalo de incertidumbre alrededor del valor de X = a e
integrar entre esos límites.

Función de distribución acumulada

El concepto de probabilidad acumulada es análogo al de frecuencia relativa


acumulada. Se dará una definición de función de distribución acumulada (llamada
comúnmente de distribución) tanto para variables discretas como para continuas, en
base a esta analogía. Se indicará como FX(x) a la función de distribución de X.

Definición: Para una variable aleatoria X la función de distribución se define como


Fx(x) = P(X ≤ x). Luego:

Si X es una variable aleatoria discreta que toma valores x1,....xk con probabilidad
p1,..., pk entonces:
FX(xt) = ∑ pi = ∑ P(X ≤ xi) desde i = 1 hasta i = t ≤ k

Si X es una variable aleatoria continua con función de densidad fX(x) que toma
valores entre menos y mas infinito, entonces:

32
FX(x) = ∫ -∞x fX(t) dt

Propiedades de FX(x)
1) FX(x) es no decreciente, o sea si x1 ≤ x2, entonces FX(x1) ≤ FX(x2)
2) FX(- ∞) = 0 ; FX (+∞) = 1
3) Si X es una variable aleatoria continua, entonces ∂FX(x) / ∂dx = fX(x)

Observación: de la propiedad (3) se deduce que FX(x) es una primitiva de la fX(x),


luego según la regla de Barrow:
P(a ≤ X ≤ b) = ∫ ab fx(x) dx = FX(x) ]ab = FX(b) − FX(a)

de modo que conocida la función de distribución, FX(x), de una variable aleatoria


continua X, es sencillo calcular cualquier probabilidad. La búsqueda de estas
primitivas puede ser engorrosa debido a la dificultad de integrar funciones de
densidad que suelen ser complicadas. Pero para la mayoría de las distribuciones las
probabilidad están tabuladas en tablas o se pueden calcular utilizando algún paquete
estadístico, como por ejemplo EXCELL.
.

Función de ditribución
acumulada
frecuencia

variable

Esperanza y varianza poblacional

La idea es definir parámetros de la distribución en probabilidad, es decir definir media


y varianza poblacional. Estos parámetros son la esperanza y la varianza. Como la
variable aleatoria identifica a la población se habla de esperanza y varianza de una
variable aleatoria y no de la distribución en probabilidades propiamente dicha.

Esperanza Matemática o valor esperado

Es el valor medio de la distribución en probabilidades de la variable. Se indica E(X) =


µ, donde X es la variable aleatoria Se define:

Caso discreto E(X) = ∑1k xi pi


Caso continuo E(X) = ∫-∞∞ x fX(x) dx

Se observa que la media de la distribución en probabilidades es la media de la


población.

33
Nota: Sea una población finita de tamaño N y sea la variable aleatoria discreta X que
toma valores x1,...., xN con probabilidades p1 ,..., pN, donde cada pi = 1/N. Entonces:
E ( x ) = ∑ x i p i = ∑ x i [1 / N ] = [1 / N ]∑ x i = x = μ

Pero cuidado, x = µ es solamente porque se 'muestrea' toda la población. O sea se


tiene un censo. Recordar que la media aritmética es un estimador de la media y no
necesariamente coinciden.

Ejemplo 1: Sea la variable aleatoria X: número de materias aprobadas /alumno de


segundo año de la carrera de Biología con la siguiente distribución en probabilidad:

X 0 1 2 3 4 ó más
P 0,05 0,15 0,20 0,40 0,20

Calculando resulta: E(X) = µ = 2,55 .

Ejemplo 2: Sea una variable aleatoria continua con función de densidad:


fX(x) = 1 / (b –a) para a ≤ x ≤ b
fX(x) = 0 para X fuera del intervalo [a, b]
Entonces
E(X) = µ = ∫ab x f(x) dx = [b - a] / 2
Var (X) = σ² = [b - a]² / 12

Nota: Esta distribución en probabilidades corresponde a una variable con distribución


uniforme, como se verá más adelante

Propiedades de E(X)

Sean a y b constantes, X e Y variables aleatorias, entonces:


a) E(a) = a
b) E(a + bX) = a + bE(x). O sea que si variamos la escala con que se mide la variable,
basta realizar el mismo cambio en la esperanza
c) E(X + Y) = E(X) + E(Y). O sea la esperanza de la suma de variables aleatorias es
la suma de las esperanzas
d) E(X - µ) = 0. O sea la esperanza de las desviaciones con respecto a su media es
nula.

Combinado las propiedades (a), (b) y (c) se tiene:


E(aX + bY) = aE(X) + bE(Y)

Con lo que la esperanza resulta ser un operador lineal

e) Si X e Y son variables aleatorias independientes, entonces E(XY) = E(X)E(Y)

Varianza de una variable aleatoria

Es el valor esperado o promedio de los cuadrados de las desviaciones al valor medio, o


sea:
Var(X) = E[X − E(X)]²= σ²

y estima, en promedio, la mayor o menor dispersión de los valores de la variable


alrededor de la media. De la definición se deduce:

1) Var X ≥ 0 ; 2) Var X está en unidades al cuadrado

34
Para tener una idea de la dispersión en las mismas unidades que la variable se define
la desviación estándar como la raíz cuadrada positiva de la varianza y se indica σ.

Se puede demostrar que : Var X = E(X²) − E²(X) = σ²

En el ejemplo de el número de materias aprobadas por alumnos resulta: Var(X) = σ2 =


1,25 ( σ = 1,12)

Propiedades de VarX

Sean las a, b constantes y las variables aleatorias X e Y, entonces:


1) Var(a) = 0
2) Var(aX) = a2Var(X)
3) Var(aX ± b) = a²Var(X)
4) Si X e Y son variables aleatorias independientes, entonces Var(X ± Y) = Var(X) +
Var(Y)

Variables aleatorias bidimensionales y su distribución en probabilidades

Sea por ejemplo el experimento que consiste en elegir hojas al azar de un árbol y
medirles el largo(Y) y el ancho(X) en cm. Los datos se pueden arreglar en una tabla del
siguiente tipo:

Hoja X (cm) Y (cm)


1 20 62
2 19 60
....... ....... ....

Otros ejemplos:
a) Y: peso, en gramos, X: largo, en cm de langostas hembras
b) Y: largo st (cm), X: largo cabeza (cm) de truchas arco iris juveniles machos
c) Y: número de espinas, X: largo (cm) de rama de algarrobo.

En cualquiera de estos casos se tiene definida una variable aleatoria bidimensional


(X,Y) que toma valores (xi , yj).

Cuando se dispone de datos de una variable aleatoria bidimensional se puede graficar


un diagrama de dispersión, en el que cada punto representa una unidad
experimental. Por ejemplo:

Diagrama de Dispersión

66
64
62
Ancho

60
58
56
54
0 10 20 30 40
Largo

35
La dispersión de la nube de puntos da una idea aproximada de la distribución de los
individuos (unidades experimentales) en la población en estudio. En casos sencillos
hasta puede postularse la hipótesis de que los individuos están separados en grupos
más o menos distinguibles. Pero estos temas corresponden a la estadística
multivariada.

A veces se está interesado en buscar una relación funcional entre las variables y la
intensidad de tal relación. Este punto se resolverá más adelante con un análisis de
regresión lineal y uno de correlación lineal respectivamente.
Las probabilidades correspondientes a una variable aleatoria bidimensional pueden ser
tabulados en tablas de doble entrada. Sea por ejemplo el caso de pájaros de tres
especies (sp 1, 2 y 3) y de cuatro lugares de procedencia (L 1, 2, 3 y 4); las
probabilidad en la intersección de fila i con la columna j representa la probabilidad de
que un pájaro de la sp i pertenezca a la localidad j :

L1 L2 L3 L4 Total
sp 1 0,01 0,07 0,09 0,03 0,20 E(sp) = 2,14
sp 2 0,02 0,16 0,18 0,10 0,46 E(L) = 2,80
sp 3 0,01 0,10 0,15 0,08 0,34 Cov(sp, L) = 0,048
Total 0,04 0,33 0,42 0,21 1

Gráfico de perfiles:

Uso de los gráficos

Gráfico de lugares en sp

0,2
probabilidad

0,15 L1
L2
0,1
L3
0,05 L4
0
sp 1 sp 2 sp 3

Gráfico de sp en lugares

0,2
probabilidad

0,15
sp 1
0,1 sp 2

0,05 sp 3

0
L1 L2 L3 L4

36
Viendo estos gráficos podríamos plantear algunas hipótesis respecto a la distribución
de las especies en las cuatro localidades (o algunas hipótesis sobre la distribución de
la población de aves en las localidades), y para estudiar su significación, como
veremos más adelante, se trabajará con muestras aleatorias de aves extraídas de
cada una de las cuatro localidades y separadas por especies.

1.- Mirando el gráfico de los lugares en las especies vemos:


1.1.- Aparece como un patrón similar para la distribución de las especies en los
lugares 2, 3 y 4.
1.2.- En la localidad 1 la cantidad de cada especie es similar y hay bastante menos
aves que en las otras tres localidades.

2.- Mirando el gráfico de las especies en los lugares:


2.1.- Aparece como un patrón similar: la curvas de distribución de las especies en las
cuatro localidades parecen paralelas
2.2.- La sp 1 parece ser menos abundante que las otras dos en las localidades 2, 3 y
4.
2.3.- En la localidad 1 parece haber la misma abundancia de aves de las tres
especies
2.4.- La sp 2 es la más abundante en las localidades 2, 3 y 4.

Lo mismo que en el caso univariado, cuando se ha muestreado toda la población o si


se la determinó mediante consideraciones teóricas, se tiene la distribución en
probabilidades.
La distribución en probabilidad de la variable aleatoria (X, Y) se llama distribución
conjunta en probabilidades y se define como sigue

Caso discreto: Sean X e Y variables aleatorias discretas que toman valores xx con i =
1, 2, ..., k
e yj con j = 1, 2, ..., h, respectivamente. Luego los datos pueden tabularse de la
siguiente forma:

Yj
.....................
Xi ........ pij = PXY(xi , yj) ........ pi. = Px(xi)
....................

p.j = PY(yj)

Las probabilidades que aparecen en los bordes (totales) son las probabilidades
marginales, y representan las distribuciones en probabilidades de las variables X e Y:
el total marginal columna es la distribución en probabilidades de la variable X, mientras
que el total marginal fila lo es de la variable Y. Además:

pij = P(X = xi, Y = yj) = PXY(xi,yj) con i=1, ...,k ; j = 1, ..., h

Luego conocida la distribución conjunta en probabilidad de la variable bidimensional (X,


Y) se conocen las distribuciones en probabilidades de cada una de las variables
univariadas.

37
Caso continuo: Sean X e Y variables aleatorias continuas. En este caso se tiene una
función de densidad conjunta, que se indica fXY(x,y), de dos variables; las
correspondientes densidades marginales serán fX(x) y fY(y), calculadas como:

fX(x) = ∫ fXY (x, y) dy ; fY(y) = ∫ fXY (x, y) dx

Independencia de variables aleatorias

Recordar que dos sucesos A y B son independientes si P(A ∩ B) = P(A) P(B).


Cuando se trabaja con variables aleatorias los sucesos pueden ser identificados como
por ejemplo;
A = {X = x} B = {a ≤ X ≤ b}

o cualquier otro ejemplo. En base a este razonamiento se da la siguiente definición:


Las variables aleatorias discretas X e Y son independientes si y solo si:

P(X = x, Y = y) = P(X = x) P(Y =y), es decir PXY = PX PY

Si las variables son continuas , entonces : f XY = fX fY

Covarianza

Para las variable aleatoria bidimensionales se tiene un nuevo parámetro que indica la
variación conjunta de las variables intervinientes. Se llama covarianza y se define
como:
cov(X, Y) = σ XY = E{[X − E(X)][Y − E(Y)]} = E(XY) − E(X) E(Y)

Propiedades de la covarianza

Sean las variables aleatorias X e Y, y las constantes a, b, k, m, entonces:


1) cov(aX, bY) = ab cov(X, Y)
2) cov(X, X) = Var(X)
3) cov(X ± k, Y ± m) = cov (X, Y)
4) Si las variables X e Y son independientes, entonces cov(X, Y)= 0 (esto sale del
hecho de que si las variables son independientes, entonces E(XY) = E(X) E(Y) )

La recíproca de la propiedad (4) no es verdadera en general. Es decir puede ser


cov(X, Y) = 0 y no necesariamente ser independientes las variables X e Y.
Lo que vale es que si cov(X, Y) ≠ 0 entonces las variables son dependientes.

Cálculo de la varianza de la suma de variables aleatorias

Si las variables aleatorias X e Y son independientes ya vimos que:

V(X ± Y) = V(X) + V(Y)

Pero si las variables aleatorias X e Y no lo son, entonces:

V(X ± Y) = V(X) + V(Y) ± 2 Cov(X,Y)

Y en general V( ∑i=1...k Xi) = ∑i=1 ... k V(Xi ) + (- 1) k ∑i≠j Cov(Xi,Xj)

38
donde la primer suma es sobre el total de variables y la segunda para los sumandos en
que i es distinto de j.

Muestra aleatoria

Una muestra aleatoria de tamaño n de una variable aleatoria con una cierta distribución
en probabilidades es un conjunto de n variables aleatorias independientes cada una
con la misma distribución en probabilidad. Es decir se trata de n variables
independientes equidistribuídas. Esta nueva definición de muestra aleatoria utilizando
el concepto de independencia de variables es válida aún cuando la población sea
infinita.

Ejemplo : Sea una muestra aleatoria de 50 plantas de la sp A. Se define X: altura, en


cm, de plantas de la sp A, que es una variable aleatoria con una cierta distribución en
probabilidad, con media µ y varianza σ².
Para cada una de las 50 plantas se tiene la variable aleatoria Xi: altura de la planta i ; y
cada una de ellas con la misma distribución en probabilidad de la variables X, o sea con
media µ y varianza σ².
Además las 50 variables Xi son independientes porque las plantas están elegidas al
azar.
Luego la muestra estadística está constituida por los 50 valores: cada uno de los cuales
proviene de la medida de la altura (Xi) de la planta i), que son independientes y están
equidistribuídas.

MODELOS DE DISTRIBUCIÓN DE VARIABLES ALEATORIAS DISCRETAS

Introducción

Es un hecho conocido que ciertas distribuciones de frecuencia se observan


empíricamente más a menudo que otras y esto hace suponer que podrían ser
descriptas en forma teórica. La idea básica de estudiar la distribución teórica de
variables discretas es definir modelos aleatorios o probabilísticos que expliquen las
probabilidades de ocurrencia de los fenómenos biológicos. No necesariamente se
requieren modelos extremadamente complejos (y muchas veces inasibles para el
lego), ya que existen modelos muy simples que son capaces de describir un gran
número de fenómenos.

Elegir un modelo probabilístico equivale a definir una variable aleatoria y asignarle una
determinada distribución en probabilidades. Esta distribución dependerá de las
condiciones bajo las cuales se efectúa la experiencia.

Una vez elegido el modelo, es decir, establecida la distribución de la variable


aleatoria, se podrá hallar la probabilidad de ocurrencia de los distintos resultados
posibles en futuras repeticiones de la experiencia, que será la probabilidad de obtener
los distintos valores de la variable.

Ensayo de Bernoulli
Supongamos que una variable aleatoria X toma uno de dos valores. Se asigna el
valor 0 a uno de los resultados posibles y 1 al otro. Al resultado 1 suele llamárselo
"éxito" y al 0 "fracaso". Esta asignación de 0 y 1 al fracaso y al éxito es, por supuesto
arbitraria y, como se definió anteriormente, a este tipo de variables se las llama
dicotómicas.

39
Sea la variable X: número de éxitos y tal que :
S = {0,1}
P(x = 1) = p = probabilidad de éxito
P( x= 0) = q = (1-p) = probabilidad de fracaso

Entonces se dice que X es una variable Bernoulli de parámetros p (probabilidad de


éxito) y 1 (número de repeticiones) y se indica X ∼ Bi(p, 1). Como vemos sólo
depende del valor de p, o sea tiene un solo parámetro

Cálculo de la esperanza y la varianza

E(x) = p.1 + q.0 = p


Var(x) = E[X - E(X)]2 = p[1-E(x)]2+ q[0-E(x)]2 = p[1-p]2 + (1-p) p2 = p – p2 = pq

Ejemplo de ensayos de Bernoulli:

Para un determinado organismo se registra: a) el sexo (macho = 0, hembra =1), b) el


estado reproductivo (inmaduro =0, maduro = 1), c) el color (blanco = 0, otro = 1); etc.

La unidad experimental es un individuo para el que se determinan simultáneamente


el sexo, el estado reproductivo o el color.

Si se tienen n repeticiones independientes de un ensayo de Bernoulli se tendrá una


muestra aleatoria de tamaño n de la distribución de Bernoulli formada por una
secuencia de unos y ceros. En estas condiciones, la probabilidad empírica de éxito
resulta :

cantidad de éxitos
p̂ =
cantidad total de ensayos
x
Si se atribuyó el valor 0 al fracaso y 1 al éxito se tiene que p̂ = ; donde X es la
variable n

número de éxitos y n el número de ensayos de Bernoulli independientes.

A medida que aumenta n, la diferencia entre p̂ y p disminuye ya que lim p̂ = p


n→∞
La repetición independiente de ensayos de Bernoulli proporciona la base para
construir modelos teóricos adaptados a circunstancias que se presentan en la práctica
que resultan en variables aleatorias cuyas distribuciones pueden deducirse utilizando
las propiedades de la distribución de Bernoulli. Por ejemplo:

Se cuentan los éxitos obtenidos en una cantidad fija de repeticiones


independientes del ensayo en condiciones idénticas : Distribución Binomial
Se cuentan los éxitos cuando las condiciones de cada ensayo varían como
consecuencia de los resultados de otros ensayos. La probabilidad p en cada
ensayo depende de la cantidad de éxitos en los otros ensayos (muestreo sin
reposición): Distribución Hipergeométrica
Se cuentan los éxitos cuando se repite el ensayo de Bernoulli en condiciones
idénticas con valores de n muy grandes y valores de p muy chicos: Distribución
de Poisson.
Se cuentan los fracasos hasta obtener el primer éxito en repeticiones
independientes en condiciones idénticas: Distribución Geométrica

40
Se cuentan los fracasos hasta obtener el r-ésimo éxito en repeticiones
independientes en condiciones idénticas: Distribución Binomial Negativa ó de
Pascal.

Distribución Binomial

Sean los siguientes experimentos aleatorios:


1. Arrojar seis veces una moneda equilibrada y contar la cantidad de caras.
2. Contar la cantidad de semillas germinadas, cada una de ellas plantada en una
maceta
3. Contar la cantidad de insectos infectados por muestra de seis insectos.

Definimos la variables aleatorias


X: cantidad de caras.
Y: cantidad de semillas germinadas
H: cantidad de insectos infectados.

Se puede observar que estos ensayos tienen varias características en común:

a) Los resultados posibles en cada repetición del ensayo son dicotómicos, pueden ser
considerados como éxito o fracaso. Para la variable X los resultados posibles son
cara o ceca, para la Y la semilla germina o no germina y para la H el insecto está
infectado o no lo está.
b) Cada uno de los ensayos se repite un número finito de veces, en este caso es seis
para todos ellos. Seis veces se arroja la moneda, seis son las semillas que se
observan y seis son los insectos que se consideran.

c) Las repeticiones de cada una de esos ensayos se realizan en forma


independiente.

d) Para cada ensayo se puede definir una probabilidad de éxito, que se mantiene
constante para cada una de las repeticiones; esta probabilidad puede por ejemplo
ser del 50% para X, si se supone que la moneda no está cargada.

En estas condiciones se dice que X es una variable binomial con parámetros p y n (o


equivalentemente que sigue una distribución binomial) y se indica X ∼ Bi(p , n), donde
p es la probabilidad de éxito y n es el número de repeticiones independientes.

Su espacio muestral (o dominio) es S = {0, 1, ...., n} y la unidad experimental es el


conjunto de los n ensayos, o sea seis monedas, seis macetas o seis insectos
infestados en el ejemplo planteado.

La probabilidad de que la variable tome un valor k (entre 0 y n) es:

⎛n⎞
P( X = k ) = ⎜ ⎟ pk (1 − p)n − k con k= 0, 1,...., n
⎜ ⎟
⎝k ⎠
Esta forma de calcular la probabilidad de una binomial puede deducirse de la
siguiente forma:
Sea x ∼ Bi(p, n). Se quiere calcular la probabilidad de k éxitos de entre los n
resultados posibles. Denotemos con E al éxito y con F al fracaso. Luego k éxitos en n
ensayos es un suceso con k valores E y n - k valores F, por ejemplo los k primeros
ensayos son E y los restantes F, o sea:

41
E E E....E F F ...F

Como las repeticiones son independientes:

P(E E E....E F F ...F) = [P(E)]k [P(F)]n – k = pk (1 – p)n – k

Ahora nos preguntamos cuantos sucesos hay con esta probabilidad. Esto se contesta
calculando el número de sucesos con k valores E y n – k valores F. O sea de cuantas
formas se pueden ordena n objetos donde hay k de una clase (repetidos) y n – k de
otra. Estas son las combinaciones de n tomadas de a k. O las permutaciones de n
objetos donde hay k repetidos y n – k repetidos:

⎛n⎞ n!
⎜ ⎟=
⎜ ⎟
⎝ k ⎠ k! (n − k )!

La distribución Binomial así definida es en efecto una distribución en probabilidades


puesto que:

1) 0 ≤ P(X = k ) ≤ 1 para todo k = 1,2,..,n


⎛n⎞
2) ∑ P( X = k ) = ∑ ⎜ ⎟ pk (1 − p)n − k = (p + q)n = 1 este es el binomio de Newton y de
⎜ ⎟
⎝k ⎠
ahí el nombre de la distribución.

Cálculo de la esperanza y la varianza

Para el cálculo de la esperanza y varianza de una variable aleatoria con distribución


Binomial de parámetros p y n se necesita la siguiente proposición:

Sean las variables independientes X1 ∼ Bi(p,n1) y X2 ∼ Bi(p,n2) ; luego la variable


aleatoria suma sigue una distribución binomial de parámetros p y n1 + n2, es decir

X1 + X2 ~ Bi(p, n1 + n2)

En general la proposición dice: Si las variables aleatorias independientes Xi, con i = 1,


2,..., n, tienen cada una distribución Bi(p, ni), entonces la variable suma sigue también
una distribución Binomial, o sea:
X = ∑ Xi ∼ Bi(p, ∑ni)

Como se ha definido anteriormente, la variable Binomial resulta ser una suma de n


ensayos de Bernoulli (ni = 1, ∀i) independientes; luego estamos en las condiciones de
la proposición y vale:

X = ∑ Xi ∼ Bi(p,n)

Para el cálculo de la esperanza y varianza de una variable con distribución binomial


de parámetros p y n resulta:
Se tienen n variables aleatorias independientes Xi, cada una con distribución Bi(p,1) y
X = ∑ Xi ∼ Bi(p, n), entonces:

42
E(X) = E [∑ Xi] = ∑ E(Xi) = ∑i=1n p = np
Var(X) = Var [∑ Xi] = ∑ Var Xi = ∑1n pq = npq = np(1 – p)

Conocidas la media y al varianza de una distribución Binomial quedan determinados


sus parámetros p y n:

Sea X ∼ Bi(p, n):

E(X) = np = a, y Var(X) = np(1 – p) = a(1 – p) = b

Luego: p = 1 – b/a y n = a2 /(a – b)

Ejemplo:
Sea la variable X: cantidad de ratas muertas de entre cuatro tratadas con una sustancia
cancerígena, al cabo de 10 días.
Luego n = 4, los resultados posibles son 0, 1, 2, 3 ó 4 ratas muertas.
Si se supone para p= probabilidad de muerte las dos siguientes situaciones:

a) p = 0,50 X ∼ Bi(0,50 , 4)

b) p = 0,70 X ∼ Bi(0,70 , 4)

Se calcula la probabilidad con que la variable toma sus distintos valores, para cada uno
de los modelos y se tiene la distribución en probabilidades de la variable:
(a) (b)
X X ∼ Bi(0,50 , 4) X ∼ Bi(0,70 , 4)
0 0,0625 0,0081
1 0,25 0,07556
2 0,3750 0,2646
3 0,25 0,4116
4 0,0625 0,2401
E(X) = µ 2 2,80 ≈ 3
2
Var(X) = σ 1 0,84
Des st (X) = σ 1 0,9165 ≈ 1

0,5
0,4
Pb 0,3 Bi(0,50,4)
0,2 Bi(0,70,4)
0,1
0
0 1 2 3 4
# ratas muertas
Gráfico de barras (histograma)

43
Extracciones con y sin reposición

Cuando se realiza un muestreo, las unidades experimentales asignadas a la muestra


pueden o no devolverse a la población una vez registrada la variable de interés.
Cuando el muestreo es con reposición se supone que existe independencia entre los
resultados obtenidos y, si la variable definida es dicotómica, tal vez su distribución se
ajuste a una binomial.
Cuando se muestrea sin reposición (las unidades experimentales no se devuelven a la
población) no puede suponerse la independencia entre los resultados.
Cuando la población de la que se saca la muestra es infinita, puede suponerse
independencia entre los resultados obtenidos tanto si se realiza el muestreo con
reposición como si se lo hace sin reposición.
En el caso de poblaciones finitas y extracciones sin reposición, los resultados pueden
ser considerados independientes si el tamaño de la muestra es a lo sumo del 5% del
tamaño de la población.

Cuando en la repetición de ensayos de Bernoulli no se cumplen los supuestos de


independencia y/o la probabilidad de éxito p constante para cada ensayo se debe
especificar la forma en que p cambia o la forma en que un ensayo depende de otro, a
fin de poder calcular las probabilidades asociadas a los valores que toma la variable.

Distribución Hipergeométrica

Sean las siguientes situaciones experimentales:

1. - De una manzana con 7 hembras y 3 machos de un coleóptero, se sacan 4


coleópteros y se estudia la distribución de la cantidad de machos.
2. - De una jaula donde hay 7 conejos marcados y 3 sin marcar se eligen 4 al azar y se
estudia la distribución de la cantidad de marcados.
3. - De una caja con 7 semillas verdes y 3 amarillas se eligen 4 al azar y se estudia la
distribución de semillas verdes.

Para estas experiencias se pueden definir las variables:

1. - X : número de machos de coleóptero


2. - Y : número de conejos marcados
3. - Z : número de semillas verdes

Aquí es necesario aclarar como se realizaron las extracciones.

a) Si se realizaron con reposición, cada una de las tres variables definidas pueden
seguir una distribución aproximadamente binomial con n = 4 y p = 0,30 constante.

b) Si se realizaron sin reposición, la distribución es Hipergeométrica, ya que la


probabilidad cambia de una extracción a la siguiente.

Deducción del cálculo de probabilidades para una distribución Hipergeométrica:

En el caso de la variable X (# de machos), si se quiere calcular la probabilidad de que 2


sean machos, entonces los sucesos favorables serían las distintas ordenaciones de 2
hembras y 2 machos o sea:

HHMM , MMHH , HMHM , MHMH , HMMH , MHHM

La probabilidad de ocurrencia de cada uno de estos sucesos es:

44
[7/10][6/9][3/8][2/7] = 0,05, P(2 machos)= 6x0,05 = 0,30

Esta probabilidad podría haberse calculado como:

⎛ 7 ⎞⎛ 3 ⎞
⎜ ⎟⎜ ⎟
CF ⎜⎝ 2 ⎟⎠⎜⎝ 2 ⎟⎠
P( X = 2) = = 10 = 0,30
CP ⎛ ⎞
⎜⎜ ⎟⎟
⎝4⎠

Esquema general de la distribución hipergeométrica

Sea una población de moscas de la fruta que posea N individuos de los cuales D
pertenecen al fenotipo mutante (M) y las restantes N - D pertenecen al fenotipo
salvaje (S). Se extraen n (n ≤ N) moscas sin reposición y se quiere calcular la
probabilidad de que k sean mutantes y n-k salvajes.
El esquema sería:

Nro total de moscas Composición Extracción Se quieren


D mutantes k mutantes
N n moscas
sin reposición
N – D salvajes n – k salvajes

Sea la variable X: cantidad de moscas mutantes, entonces la probabilidad de extraer k


moscas mutantes se calcula como:
⎛ D ⎞⎛ N − D ⎞
⎜⎜ ⎟⎟⎜⎜ ⎟⎟
⎝ k ⎠⎝ n − k ⎠
P( X = k) =
⎛ N⎞
⎜⎜ ⎟⎟
⎝n⎠
El numerador de la expresión de la probabilidad es la cantidad de formas posibles de
seleccionar k moscas mutantes de entre D y (n – k) salvajes de entre (N – D) (casos
favorables), mientras que el denominador es la cantidad de formas de elegir n moscas
de entre N (casos posibles).

Se indica X ∼ Hi(N, D, n) y se lee X sigue una distribución Hipergeométrica de


parámetros N, D y n. En el ejemplo planteado es X ∼ Hi(10, 3, 4). Y si hubiera
interesado la variable Y: número de moscas normales, entonces sería Y∼ Hi(10, 7, 4).

Rango de variación de la variable

1) k ≤ D (total de normales), k ≤ n, entonces k ≤ min(D, n)

2) k ≥ 0, n – k ≤ N - D, entonces k ≥ n + D - N, luego k ≥ Máx(0, n+D-N)

De (1) y (2) se deduce


Máx(0, n+D-N) ≤ k ≤ min(D, n)

45
⎛D⎞ ⎡ ⎛ D ⎞⎛ D ⎞⎤ ⎡N − n ⎤
E( X) = ⎜ ⎟n V( X) = ⎢n⎜ ⎟⎜1 − ⎟⎥ ⎢
⎣ ⎝ N ⎠⎝ N ⎠⎦ ⎣ N − 1⎥⎦
Esperanza y varianza
⎝N⎠
Notar que el cociente D/N es como el p de la binomial, luego sería E(X) = np y V(X) =
npq[(N - n) / (N - 1)], que coinciden con la esperanza y varianza de la binomial, salvo
en el factor [(N - n) / (N - 1)], llamado de corrección. Para N (tamaño de la población)
suficientemente grande comparado con n (tamaño de la muestra). La distribución
hipergeométrica converge a la distribución binomial; el factor de corrección es
prácticamente nulo.

La distribución hipergeométrica queda completamente determinada con tres


parámetros: N, D, y n.

En biología la extracción de muestras de una población finita es bastante común; y,


obviamente las extracciones son sin reposición.
Una de las aplicaciones de la distribución hipergeométrica es en la estimación del
tamaño poblacional mediante la captura, marcado y recaptura de individuos de la
misma. Un caso particular de esta aplicación se verá en un ejercicio incluido en la
guía de TP.

Distribución de Poisson

Esta distribución se presenta cuando se cuentan sucesos o eventos que se


distribuyen al azar en el espacio o en el tiempo y específicamente se aplica al caso de
sucesos que no se observan como consecuencia de un ensayo intencional, sino que
ocurren aleatoriamente en un espacio físico o un período de tiempo.
El experimentador sólo registra la ocurrencia o no del suceso en la unidad de tiempo o
espacio fijado, o unidad de muestreo especificada, pero no interviene creando
condiciones para que el suceso pueda producirse. Es decir no realiza la experiencia
como en el caso de la binomial.
Se observa un conjunto discreto de sucesos en un ” intervalo” de tiempo , longitud o
espacio. Se utiliza la palabra “intervalo” en la descripción del proceso de Poisson,
entendiendo que no lo es en el sentido matemático de la expresión.
Por ejemplo:

a) Se observa la cantidad de glóbulos rojos en una muestra de sangre.


El suceso de interés es la observación de un glóbulo rojo y el intervalo es una gota de
sangre.

b) Se observa la cantidad de plantas de una especie a lo largo de una transecta.

El suceso de interés es la cantidad de plantas de esa especie y el intervalo puede ser,


por ejemplo, 50 metros.

Otros Ejemplos
1) Contar la cantidad de colonias de hongos por caja de Petri
2) Contar la cantidad de microorganismos por cc de agua
3) Contar la cantidad de partículas emitidas por una fuente radiactiva por segundo
4) Contar la cantidad de mutaciones ocurridas en un gen
5) Contar la cantidad de plantas de una especie por m² en la ladera de una montaña.

En todos los casos hay una variable que representa el número de sucesos por unidad
de tamaño “t”.

46
Proceso de Poisson

La distribución de Poisson se deduce de una serie de axiomas que llevan a la


formalización del cálculo de la probabilidad de que la variable tome un determinado
valor.

Sea un experimento aleatorio donde interesa la ocurrencia de un suceso A; se define


la variable X: número de ocurrencias de A por unidad de muestreo o X: número de
ocurrencias de A por unidad de muestra. Por unidad de muestra o de muestreo se
entiende un espacio, tiempo volumen, área, etc. , de tamaño t, donde se registra la
variable. Si se considera que A es éxito la variable sería X: cantidad de ocurrencias de
A / unidad de muestra, o sea X: cantidad de éxitos/unidad de muestra. La unidad de
muestra es por ejemplo, una caja de Petri, 1 cc de agua, una gota de sangre.

Las siguientes hipótesis constituyen los axiomas que definen la distribución de


Poisson.

1) Las variables cantidad de ocurrencias de A por unidad de muestra en unidades no


superpuestas son independientes.

2) La distribución de la cantidad de ocurrencias de A en cualquier unidad de muestreo


depende sólo el tamaño de la unidad pero no de la unidad específica.

3) Si la unidad de muestreo es suficientemente pequeña, la probabilidad de


ocurrencia de exactamente un suceso A es directamente proporcional al tamaño
de la misma. O sea P(X=1) = λt, donde t es la unidad de muestreo y λ una
constante de proporcionalidad.

4) La probabilidad de ocurrencia de dos o más sucesos A en una unidad de muestreo


pequeña es despreciable, es decir P(X ≥ 2) ≈ 0.

Sobre la base de estas hipótesis se deduce:

P( X = x ) = e
− λt
(λt )
x
con x = 0, 1,...........
x!

Se indica X ∼ P (λ t) y se dice que la variable sigue una distribución de Poisson de


parámetro (λ t). Por lo tanto la distribución tiene dos parámetros.

Para esta distribución la esperanza y la varianza coinciden, es decir:

E(X) = V(X) = λ t

Luego λ t = E(X) es la cantidad esperada de ocurrencias de A


λ = E(X)/t es la cantidad promedio de ocurrencias de A/unidad de muestra.

Cuando t = 1, es E(X) = λ. Por ejemplo si X: cantidad de microorganismos/volumen de


agua, entonces λ = E(X)/V representa la densidad media.

47
Análisis de poblaciones en el espacio: contagio y repulsión

Cuando los sucesos ocurren con independencia mutua, o sea están arreglados al
azar, y cumplen los axiomas de Poisson, la variable sigue una distribución de Poisson
y la población está dispuesta al azar.
Si la ocurrencia de un suceso aumenta la probabilidad de ocurrencia de un segundo
suceso similar al primero en la misma unidad de muestreo, se dice que la población
está en contagio o agrupada (también se dice apiñada o agregada). ejemplos podrían
ser: 1) animales que se reúnen para comer, 2) animales que se reúnen para invernar,
3) agrupaciones sociales, 4) bacterias en colonias, etc.
Si la ocurrencia de un suceso disminuye la probabilidad de ocurrencia de un segundo
suceso similar en la misma unidad de muestreo, se obtiene una población en
repulsión. Por ejemplo animales en competencia por algún recurso limitado.
Como se discutió cuando se vieron los distintos programa de muestreo, es importante
conocer como están arreglados o dispuestos los individuos en la población. Si es al
azar (Poisson) los individuos pueden ser extraídos mediante un muestreo simple al
azar, pero en caso contrario habrá que buscar la forma de extraer la muestra.

Prueba de razón Varianza/Media

Una característica de la distribución de Poisson es que el valor de la varianza y la


media coincide y este hecho se utiliza para reconocer, en la práctica, si una población
está o no distribuida al azar. El cociente entre estos dos valores se denomina
coeficiente de dispersión:

2
CD = s
x

En aquellas variables que siguen una distribución de Poisson este valor está próximo
a uno. Será mayor que uno en las agrupadas (contagio) y menor que uno en casos de
repulsión (distribución uniforme):

> 1 Contagio
CD = 1 Azar
< 1 Repulsión

48
Azar Contagio Repulsión
Tomado de Rabinovich, 1980

El estudio de la disposición de las poblaciones en el espacio puede también realizarse


estudiando cuánto se separan las frecuencias observadas de las esperadas, bajo la
hipótesis de azar, mediante el estudio del signo de las diferencias Fobservada – Fesperadas

Si la mayoría de las Fobservada > Fesperada, entonces existe contagio puesto que las
frecuencias observadas son mayores que las esperadas. En caso contrario existe
repulsión. En el caso de la distribución binomial verifica lo mismo que en el caso de
Poisson.
Gráficamente se puede observar que cuando existe contagio “se levantan” ambas
colas de la distribución y en repulsión “se aplastan”; es decir colas mas pesadas
indican repulsión.

Repulsión

Poisson

Contagio

49
Fobservadas - Fesperadas
Azar Contagio Repulsión
+ + -
- + -
+ + -
+ - +
- - +
+ - +
- - +
- + -
+ + -
- + -

Otra forma de ver lo mismo es comparar las desviaciones estándar observada y


esperada. Si σobs > σesp existe contagio y si σobs < σesp se trata de repulsión.

50
Distribución Geométrica

Sea un experimento en el cual sólo se está interesado en la ocurrencia o no de un


suceso A. Como en el caso de la binomial se repite un número independiente de veces
y para cada repetición es P(A) = p y (1 - p)= q. El experimento se repite hasta que A
ocurra por primera vez. Sea la variable X: cantidad de ensayos hasta que ocurra el
primer éxito. Por ejemplo cantidad machos nacidos hasta el nacimiento de la primera
hembra, cantidad de insectos hasta encontrar uno infectado, etc.

Como se puede observar, la distribución geométrica se diferencia de la distribución


binomial sólo en que en ésta la cantidad de repeticiones es finita mientras que en
aquella está librada al azar. Por lo demás, la geométrica también es una suma de
variables Bernoulli independientes, sólo que la cantidad de repeticiones no está
acotada.

La variable X sigue una distribución geométrica de parámetro p (por lo tanto


depende de un sólo parámetro) y se índice X ∼ G(p).

La probabilidad de que la variable tome un valor x se define como:

P(X = x) = (1 - p) x - 1 p con x = 1, 2, .. .....

Se demuestra:

E(X) = 1/ p

V(X) = q / p²

Como se puede observar, la esperanza es la cantidad esperada de ensayos hasta


obtener el primer éxito. Cuanto menor es p, mayor es la cantidad esperada de
ensayos hasta el primer éxito y al mismo tiempo la varianza también aumenta.

Ejemplo
Se estudia la cantidad de machos de una especie de pez que se tiene que pescar
hasta pescar la primera hembra. El n no está fijado
Se suponen los dos siguientes modelos:

a) p = ½ = 0,50

b) p = 0,45

Entonces para cada modelo resulta


Modelo (a) Modelo (b)
P(x = 3) (1/2)2 ½ = 1/8 = 0,125 (0,55)2 (0,45) = 0,1361
E(X) = µ 2 2,22
2
Var(X) = σ 2 2,72
Des st = σ 1,4142 1,65

51
Distribución Binomial Negativa

Generalizando el caso anterior (distribución Geométrica) puede interesar la cantidad


de fracasos hasta obtener el r- ésimo éxito. Entonces se define la variable:

X: cantidad de fracasos hasta obtener el r-ésimo éxito con S = {0,1, 2, 3...}.

Cualquiera de las secuencias en que aparecen los primeros r-1 éxitos (el r-ésimo
aparece siempre en el último ensayo de Bernoulli) tiene probabilidad:

⎛ ⎞
P⎜ exito, exito....exito, fracaso, fracaso ,...... fracaso, EXITO⎟ = p r −1 ⋅ q k ⋅ p = q k p r
⎜ 


⎝ r −1 veces k veces ⎠
La cantidad total de ensayos será siempre k + r, de los cuales k + r-1 son candidatos a
que sean fracasos (el último es siempre éxito). O sea que k fracasos se pueden
producir de Ckk+r-1 formas. De ahí que:

P( X = k ) = C kk +r −1q k p r =
(k + r −1)! q k p r
k!(r −1)!

Decimos entonces que X~ BN(p, r) donde p es la probabilidad de éxito y r indica el


número de éxitos. Además vale :

E(X) = rq / p
Var(X) = rq / p²

Aproximación de Poisson a la Binomial

Para el caso de una X ∼ Bi(p, n) con n suficientemente grande y la probabilidad de


éxito p, cercana a cero (en esta situación se suele decir que el suceso es raro), puede
utilizarse una distribución aproximada para el cálculo de las probabilidades
binomiales.

"Sea X ∼ Bi(p, n) con n → ∞ , p → 0, pero np = λ constante. En estas condiciones se


prueba que la distribución binomial converge, en probabilidad, a una de Poisson de
parámetro λ = np.

En la práctica se considera que esta aproximación es buena si np < 5, y n > 30. Nunca
se debe perder de vista que la distribución exacta de la variable es la binomial y la de
Poisson es sólo una aproximada y es tanto más buena cuanto mayor es n.

52
MODELOS DE DISTRIBUCIÓN DE VARIABLES CONTINUAS

Distribución uniforme

Distribución uniforme discreta

Uno de los modelos probabilísticos más sencillos es aquel que corresponde al caso de
elegir dígitos al azar. En este caso, por ejemplo, los enteros 0, 1, 2, ......, 9 son
igualmente probables. Luego:
P(elegir el dígito i) = 1/10, i = 0, 1, 2, ....., 9

Esta distribución en probabilidades se llama distribución uniforme en los dígitos 0, 1,


...., 9.

En forma semejante se puede considerar la elección al azar de valores de la forma


0.0, 0.2, ...., 0.9 al azar. Entonces:

P(elegir un valor i/10) = 1 / 10, i = 0.0, 0.1, ........ 0.9


P(elegir un valor i/100) = 1 / 100, i = 0.00, 0.01, ........ 0.99

En general es: P(elegir un valor i/10t) = 1 / 10t, i = 0.00....0, ....., 0.99......9

Distribución uniforme continua

Continuando el procedimiento de considerar distribuciones uniformes sobre números


entre 0 y 1 con más y más decimales, al final resulta la distribución uniforme
continua en [0, 1]. Este es el caso más general en el que la variable es continua, está
definida para todos los números reales, y asigna igual probabilidad a intervalos del
mismo tamaño, o sea si c y d son dos valores entre cero y uno, entonces:

P(x ∈ [c , d]) = P(x ∈ [c’, d’]) sií ⏐d - c⏐ = ⏐d’ - c’⏐

La función de distribución es nula hasta el límite inferior del intervalo y luego crece
linealmente hasta el valor 1, valor que alcanza en el límite superior.
Se indica X ~ U[a, b]

53
Expresión para la función de densidad, f(x), de la variable X ~ U[a, b]

La función de distribución F(x) es cero hasta el valor a tenemos que: f(x) = 0 si x<a
Como F(x) permanece constante (es igual a 1) para x > b tenemos: f(x) = 0 si x>b

Valor de f(x) para a ≤ x ≤ b :

Por definición sabemos que f(x) = F’(x) = ∂F(x) / ∂x. Además, si F(x) crece entre 0 y 1
en el intervalo (a, b) con velocidad constante, entre a y b, F(x) es una recta de la
forma:

F(x) = k + t x
Luego:

F(a) = 0 ; F(b) = 1
F’(x) = f(x) = t
F(b) = k + t b = 1 y F(a) = k + t a = 0 tb–ta=1 t = 1/(b-a)
Entonces:
⎧ 1 si a ≤ x ≤ b

f ( x) = ⎨ b − a
⎪⎩0 si x < a ó x > b

Conociendo la función de densidad f(x) es fácil calcular E(X) y Var(X), para X ∼ U(a, b):

b
tx 2 b
1 ⎛ b2 − a2 ⎞ 1
E ( X ) = ∫ t xdx = | = 2 ⎜⎜ b − a ⎟⎟ = (b + a )
a
2 a ⎝ ⎠ 2

O sea que la esperanza es el punto medio del intervalo [a, b].

Para obtener la varianza:

1 ⎛ b3 − a3 ⎞ 1 2
⎟⎟ = (b − ab + a 2 )
b b
tx 3
E ( X ) = ∫ t x 2 dx =
2
| = 3 ⎜⎜
a
3 a ⎝ b − a ⎠ 3
(b − a ) 2
Var ( X ) = E ( X 2 ) − E ( X ) 2 =
3
(
1 2
b − ab + a 2 ) − (b + a ) =
1
4
2

12

2.- Distribución exponencial

Se dice que una variable aleatoria continua X, que toma valores no negativos, tiene
una distribución exponencial con parámetro k si su función de densidad está dada

⎧ ke−kx si x > 0
por: f ( x) = ⎨
⎩ 0 si x ≤ 0

54
La distribución exponencial desempeña un rol importante en la descripción de
numerosos fenómenos. El parámetro k de la distribución exponencial es una tasa, que
para alguna experiencias se debe suponer constante y que, por la forma en que se ha
definido la densidad, sólo puede tomar valores positivos.

Es efectivamente una función de densidad puesto que:


∞ ∞

∫ ke dx = −e | = (−0) − (−1) = 1
− kx − kx

0
0
x x
F ( x) = P( X ≤ x) = ∫ ke − kx dx = − e − kx | = 1 − e − kx cuando x ≥ 0
0 0
F(x) = 0 si x < 0.
Luego P(X ≥ x) = e-kx

Se demuestra que : E(X) = 1/k y Var(X) = 1/ k2

Esto nos indica que el valor esperado de la variable es la inversa del cuadrado del
valor del parámetro k. Por lo tanto si k es la tasa, por ejemplo de mortalidad, de algún
organismo en horas, la E(X) nos indicaría el tiempo esperado de sobrevida del
organismo. Además la E(X) crece con la disminución de la mortalidad y viceversa.

Demostración (Se puede continuar la lectura sin esta demostración):



u = x ⇒ du = dx;
E ( X ) = ∫ xe − kx kdx . Integrando por partes, tomando:
0 ke − kx dx = dv ⇒ v = −e − kx

∞ 1 − kx ∞ ⎛ 1⎞ 1
E ( X ) = − xe − kx | − ∫ − e − kx = 0 − e | = 0 − ⎜− ⎟ =
0
0
k 0 ⎝ k⎠ k

Var ( X ) = E ( X 2 ) − [E ( X )] . Luego solo es necesario el cálculo de E(X2).


2


u = x 2 ⇒ du = 2 xdx;
E ( X ) = ∫ x 2 e − kx kdx . Integrando por partes, tomando:
2

0 ke − kx dx = dv ⇒ v = −e − kx

55
∞ ∞ − kx
− ∫0 − e 2 xdx = 0 + ∫ ∫
2k ∞ 2 ∞ − kx 2
E ( X 2 ) = − x 2 e− kx e− kx xdx = ke xdx = 2
0 k 0 k0
k
E(X )

2 1 1
Var ( X ) = E ( X 2 ) − E ( X ) 2 = 2 − 2 =
k k k2

Distribución Normal

La distribución normal aparece como caso límite de varias distribuciones (en general
cuando el tamaño de la muestra tiende a infinito), lo que permite utilizarla como
aproximación en el cálculo de probabilidades. Los errores de medición muy
frecuentemente se distribuyen según esta ley, razón por la cual se la conoce también
como "ley de frecuencias del error". Esto se debe a que la distribución de una suma de
variables aleatorias independientes se aproxima a la distribución normal a medida que
aumenta su número. En la práctica esto significa que es posible utilizarla como modelo
para la distribución de variables aleatorias que resultan de la suma de muchas causas
de pequeña magnitud.

Sea X una variable aleatoria continua (puede tomar cualquier valor en la recta real).
X tiene una distribución normal o de Gauss - Laplace, que se indica X ~ N(µ, σ²)
cuando su función de densidad es: 2
1 ⎛ ⎞
1 − ⎜
x−μ

f (x ) = e 2⎝ ⎠
σ 2π σ

Se demuestra que: E(X) = µ y Var(X) = σ² son los parámetros de X ~


N(µ, σ²), o sea que la distribución normal tiene dos parámetros.

Tomado de Sokal y Rohlf, 1995, pp103

56
El gráfico de la función de densidad de la distribución normal es simétrica y, debido a
su forma, es común que se la llame la 'Campana de Gauss'. Toma el valor máximo en
x = µ y los puntos de inflexión en µ ± σ.
Vale
P(µ - σ ≤ X ≤ µ + σ) 100 = 69 %

P(µ -2 σ ≤ X ≤ µ + 2σ) 100 = 95 %

P(µ - 3σ ≤ X ≤ µ + 3σ) 100 = 99 %

Proposiciones

1.- Sean dos variables aleatorias, cada una con distribución normal de igual media µ y
varianzas σ21 < σ22, respectivamente. Representadas en el mismo gráfico se observa
que la de menor varianza es más puntiaguda, mientras que la otra tiene las colas más
pesadas.

2.- Sean las variables aleatorias independientes X1 ∼ N(µ1, σ21) y X2 ∼ N(µ2, σ22).
Entonces la variable aleatoria suma de ambas también sigue una distribución normal;
con media µ1 + µ2 y varianza σ21 + σ22:

a) la suma de variables aleatorias independientes con distribución normal sigue una


distribución normal

b) E(X) = E(X1 + X2) = E(X1) + E(X2) = µ1 + µ2


Var (X) = Var(X1 + X2) = σ21 + σ22

3.- En general si X1 y X2 como en (2) antes, a y b constantes, entonces vale

aX1 + bX2 ∼ N(aµ1 + bµ2, a2 σ21 + b2 σ22 )

Si se considera el caso particular de µ = 0 y σ2 = 1, se indica X ∼ N(0, 1), esta


distribución es la comúnmente llamada normal cero uno.

En este caso la función de densidad se indica:


2
1 ⎛ x −μ ⎞
1
ϕ( x ) = − ⎜
e 2 ⎝ σ ⎟⎠
σ 2π
y la variable se denota con la letra Z , o sea Z ~ N (0 , 1 ).

Proposición:

Si X ∼ N(µ , σ2.), entonces Z = [X - µ] / σ ~ N(0, 1).

a) Sigue distribución normal por ser combinación lineal de una variable con
distribución normal.

b) E(Z) = E[(X - µ) / σ] = 1/σ [E(X) - µ] = [µ - µ]/ σ = 0


Var(Z) = Var[(X - µ) / σ] = [1 / σ2.] Var(X) = σ2 / σ2 = 1

57
Los valores de probabilidad correspondientes a variables aleatorias con distribución
N(0,1) se calculan a partir de la función de distribución y están tabulados. Mediante el
proceso de estandarización, pueden utilizarse para calcular probabilidades para
cualquier variable con distribución normal. Por supuesto también pueden resolverse
estos casos utilizando una planilla de cálculo o cualquier programa estadístico.

Función de distribución acumulada de X ∼ N(0, 1)

Se define como
x
φ( x ) = ∫ ϕ( x )dx → P(a ≤ x ≤ b) = φ(b) − φ(a)
−∞
Ejemplo de cálculo de probabilidades:

Sea X ∼ N(6.05, 4), se quiere calcular la probabilidad de que la variable tome valores
menores que 7,50:

P(X ≤ 7,50) = P( [(X – 6,05)/ 2] ≤ [(7,50 – 6,05) /2] ) = P(Z ≤ 0,725) = 0,7658

Proposición:

Si X ~ N(0, 1), entonces φ (− x) = 1 − φ (x)

Por simetría φ (−x) = P(X ≤ −x) = P( X ≥ x)

Además P( X ≥ x) = 1 − P(X ≤ x) = 1 − φ ( x) φ (−x) = 1− φ (x).

Aproximación normal

Aproximación normal a la distribución Binomial

Sea X ∼ Bi(p, n), entonces para n suficientemente grande vale:

x - np
Z= ~ N(0,1)
npq
Esta aproximación es tanto mejor cuando n > 30 y p cercado a ½. En general se
utiliza para np ≥ 5.

Corrección por continuidad

Se está utilizando una distribución de variable continua para aproximar la distribución


de una variable discreta y para una variable continua no tiene sentido el cálculo de
P(X = k), que sí lo tiene para una discreta. En esta situación corresponde aplicar una
corrección (llamada por continuidad) que consiste en definir un intervalo de
incertidumbre alrededor del valor k, entonces:

P(X = k) = P(k - ½ < x < k + ½)

58
Ejemplo:

Sea X ∼ Bi(0,4 , 40) e interesa calcular P( X = 20).

Como X ∼ Bi(0,4 , 40), entonces µ = np = 0,4x40 = 16 y σ =[npq]1/2 = [40x0,4x0,6]1/2 = 3,10.

Luego:

P(X = 20 ) = P(19,5 ≤ X ≤ 20,5) = P(1,13 ≤ z ≤ 1,45) = φ(1,45) - φ(1,13) = 0,9265 – 0,8708 =


0,0542

Aproximación normal a la distribución de Poisson

Sea X ~ P ( λ), luego E(X) = Var(X) = λ , entonces vale:

x−λ
Z= ∼ N(0,1)
λ
Valen las mismas acotaciones en cuanto a corrección.

como X ~ Bi(p, n) con n > 30, entonces,

np < 5, p → 0 es Bi(p, n) → P (np)

np > 5, p → ½ es Bi(p, n) → N(np, npq)

Distribución χ (Chi-Cuadrado)
2

Sean las variable aleatoria X1 , X 2 , ....., Xk, independientes cada una con
distribución N(0 , 1).

Entonces la variable aleatoria


X = ∑ Xi2

se dice que sigue una ley de distribución Chi-Cuadrado con k grados de libertad y se
2
indica como X ∼ χ k . Los grados de libertad corresponden al número de sumandos
independientes. Está definida entre 0 y +∞.

El gráfico de la función de densidad depende de los grados de libertad. A medida que


éstos crecen la curva va cambiando de forma

59
Propiedades

1.- Si X ∼ χ2k , entonces E(X) = k y la Var(X) = 2k


2.- Si Y∼ χ2k , entonces para k suficientemente grande vale [2Y]½ ≈ N([2k-1]½, 1)
3.- Si X ∼ χ2k , Y ∼ χ2k , independientes, entonces X + Y ∼ χ2k+q .

Distribución ‘t’ de Student

Sean las variable aleatoria independientes X ∼ N(0 , 1) e Y ∼ χ2k , entonces la


variable
X
T=
Y
k

sigue una distribución ‘t ‘de Student con k grados de libertad. Se observa que los
grados de libertad son los de la Chi-Cuadrado del denominador. Se indica T ∼ tk . Está
definida entre -∞ y + ∞.

La gráfica de la función de densidad es acampanada y simétrica alrededor del origen.


Cuando los grados de libertad son mayores que 30 el gráfico de la distribución ‘t’ se
aproxima al de una Normal con media cero y varianza uno.

60
Para utilizar una tabla y/o algún programa valen las mismas indicaciones que para la
distribución Chi-Cuadrado.

Distribución ℑ de Fisher

2 2
Sean las variables aleatorias independientes X ~ χ p e Y~ χ q , entonces la variable
aleatoria x/y sigue una distribución ℑ de Fisher con p grados de libertad en el numerador y
q en el denominador y se indica ℑp, q. Está definida entre 0 y + ∞.

La forma del gráfico de la curva depende de los grados de libertad, pero su forma
general es:

61
Propiedades

♦ ℑp, q, 1-α ≠ ℑq, p, 1-α . E n su lugar vale: ℑp, q, 1-α = 1 / ℑq, p, α

♦ E(ℑp, q, ) = q / [q - 2] → 1 cuando q → ∞

Relación entre ℑ y χ2

ℑp,∞ = [χ2p / p] / [χ2∞ / ∞] χ2p /p , porque χ2q / q → 1 cuando q → ∞, entonces χ2p


= p ℑp,∞
Relación entre ℑ y ‘t’

2 2
tp = Z / [χ p / p]½ t2p = Z2 / [χ p / p] = [χ21 / 1] / [χ2p / p] = ℑ1,p. Luego t2p, α/2 =
ℑ1 , p, α

Relación entre ℑ y N(0 , 1)

Sea Z~ N(0, 1); Z ~ t∞ Z2 ~ t2∞ . Luego Z2 = t2∞ = ℑ1, ∞

62
DISTRIBUCIONES MUESTRALES. ESTIMACIÓN

Distribuciones muestrales

Sea una población cualquiera P de tamaño N de la que se extraen todas las


muestras posibles, con o sin reposición, de tamaño n. Para cada una de esas
muestras se calculan los estadísticos de interés, cada uno de los cuales es
una variable aleatoria que toma valores en cada una de las muestras
extraídas. Luego interesa conocer su distribución en probabilidades: la
distribución muestral del estadístico en cuestión.
Por ejemplo si de una población se extraen todas las muestras posibles de
tamaño n y para cada una de ellas se calcula la media muestral, x , entonces
se tendrá una muestra aleatoria de la variable aleatoria x y se puede estimar su
media y su varianza, o estudiar su distribución en probabilidades. Entonces se
tendrá la distribución muestral de medias.

La distribución muestral o distribución de probabilidades de un estadístico


puede ser construida:

a) Empíricamente: en el caso de una variable discreta con N finito y


extracciones con reposición
b) Analíticamente: realizando la deducción matemática

Cuando la variable es discreta y el tamaño de la población P no es demasiado


grande se puede hallar empíricamente la distribución muestral (ver problema 1
del TP 5).
Si el tamaño N de la población es apreciable, la construcción empírica de la
distribución muestral es casi imposible de realizar. En estos casos se la
deduce analíticamente mediante el modelo matemático que mejor se ajuste a
la realidad estudiada.

Generalmente se tiene interés en conocer la media, la varianza y la expresión


de la distribución muestral. A continuación se verá el caso de la distribución
muestral de una media, de una proporción y de una varianza.

Distribución muestral de medias

Sea X la variable que identifica a la población en estudio, entonces


denotaremos:
Para la variable X : E(X) = µX Var(X) = σ ²X
Para la variable X : E( x ) = μ x Var ( x ) = σ2
x

Para deducir la distribución muestral de la media se distinguen varios casos:

Población infinita

Se extraen todas las muestras posibles de tamaño n, con o sin reposición. (En
el caso de población finita equivale a extraer las muestras con reposición).
Entonces vale: E(x ) = E(x) Var(x ) = Var(x)/n

63
Población finita de tamaño N

Se sacan todas las muestras posibles de tamaño n sin reposición, entonces


vale:
Var( x ) N − n
E( x ) = E(x) Var ( x ) = ⋅
n N −1
La expresión [(N − n) / (N − 1)] es un factor de corrección para la varianza. Si el
tamaño n de las muestras es pequeño con respecto al tamaño N de la
población, el efecto de esta corrección es despreciable, pues el factor es
aproximadamente uno.

En la práctica se considera esta situación cuando el tamaño de las muestras


es a lo sumo del orden del 5% del de la población (n ≤ 5% N).

Población normalmente distribuida (infinita):

En este caso se demuestra la siguiente proposición: "Si {x1,...xN} es una


muestra aleatoria de una población N(µ, σ), entonces x ∼ N(µ, σ / √n)

Demostración
1) La distribución de la variable x es normal por ser combinación lineal de
variables independientes con distribución normal (Recordar la definición de
muestra aleatoria).
μ ∑ xi 1 1
2) E( x ) = E ∑ xi = ⋅ n = μ Var( x ) = Var = 2 ⋅ n ⋅ Var( xi) = σ2
n n n n n

Población infinita con cualquier distribución

En estos casos se debe tener en cuenta el Teorema Central del Límite (TCL),
que dice: "Dada una población con cualquier distribución, con media µ y
varianza finita σ2 entonces x ∼ N(µ, σ / √n), cuando el tamaño, n, de la muestra
es suficientemente grande".

Esto significa que a medida que aumenta el tamaño de la muestra, la


distribución de las medias de las muestras extraídas de una población
cualquiera se aproximará a una distribución normal.
Para la aplicación de este teorema se presenta el problema de determinar que
tan grande debe ser el tamaño n de las muestras. No existe una respuesta
unívoca debido a que el tamaño necesario de la muestra dependerá de la
extensión de la no normalidad de la población estadística. Cuanto más se aleja
la población de la normalidad, mayor deberá ser el n. Una regla empírica muy
utilizada afirma que es suficiente con n ≥ 30.

64
Distribución muestral de proporciones

El conocimiento de la distribución muestral de proporciones es útil cuando se


trabaja con variables discretas y los estadísticos que se estudian son
proporciones de una muestra. Tal es el caso de la población de los
lanzamientos de una moneda con probabilidad p de caer cara, donde interesa
la proporción de caras.

Sea una muestra aleatoria de tamaño n de una población con distribución Bi(p,
1) (ensayo de Bernoulli). Luego p̂ = X es la proporción estimada de éxitos.
n
El problema consiste en estudiar la distribución en probabilidades de p̂ , o sea
su distribución muestral.

Caso de población infinita

Se extraen todas las muestras posibles, con o sin reposición, de tamaño n de


la población (si la población fuera finita se extraerían con reposición). Entonces
vale:

E(p̂) = p pq
Var(p̂) =
n

1 n X 1 npq pq
pues: E(p̂) = ⋅ E( x ) = ⋅ p = p y Var(p̂) = Var( ) = ⋅ Var( x ) = =
n n n n
2
n
2
n

Cuando el tamaño, n, de las muestras es suficientemente grande, en virtud del


TCL, la distribución de proporciones se aproxima a una distribución normal
siempre que se tomen los estimadores de p y q en lugar de ellos mismos, o
sea:
X ⎛ p̂q̂ ⎞ n
p̂ = ∼ N⎜⎜ p, ⎟ luego (p − p̂) = ∼ N(0,1)
n ⎝ n ⎟⎠ p̂q̂

Se está utilizando una proposición ya demostrada: "Sean Xi ∼ Bi (a, 1) n


(ensayos de Bernoulli) variables independientes, entonces ∑ xi − na
converge en distribución a N(0, 1)". na(1 − a)

En la práctica para aceptar a la aproximación como buena se debe cumplir:

n ≥ 30, np ≥ 5 y nq ≥ 5.

Ejemplo:
Sea p = 0,6 y q = 0,4
Para n = 10 resulta np = 6 > 5 y nq= 4 < 5
Para n = 15 resulta np = 9 > 5 y nq= 6 > 5
Para n = 20 resulta np = 12 > 5 y nq= 8 > 5
Luego alcanzaría con muestras de al menos 15 datos

65
Población Finita

Si se extraen todas las muestras posibles de tamaño n sin reposición, como en


el caso de la distribución muestral de medias, se debe aplicar un factor de
corrección a la varianza y se obtiene:
pq N − n
E(p̂) = p Var(p̂) = ⋅
n N−1

Error típico o error estándar

El error típico o estándar es la desviación estándar de la distribución muestral


de un estadístico y forma parte de la medida de la confianza de la estimación
Ejemplos:
σ
ES( x ) = , cuando σ es conocido,
n
s
ES( x ) = , cuando σ es desconocido
n
p̂q̂
ES(p̂) =
n

El error estándar depende del tamaño de la muestra, y decrece a medida que


el tamaño muestral aumenta. Es decir que cuanto más grande es el n para
estimar, por ejemplo x , menor es el error que se comete.
En cambio la desviación estándar poblacional permanece invariable frente a
cambios del tamaño de la muestra.

Aquí es oportuno un comentario acerca de la adecuada expresión de los


errores en un estudio estadístico. Muchas veces se resume la información
obtenida de una serie de datos como x ± desvío y frecuentemente no se
aclara de que desvío se trata, y esto es de fundamental importancia ya que
está basado en principios estadísticos y no depende solo de la preferencia del
autor:
Si lo que se quiere es expresar la dispersión de los datos, la expresión correcta
es:
x±s
Pero si en cambio lo que se quiere mostrar es cuan buena es la estimación de
la media realizada, lo correcto es:
x ± ES

Generalmente el objetivo está relacionado con el primer caso, pero se elige la


última expresión debido a que ES < s y se desea mostrar que los datos
considerados tienen un “error” menor al que realmente presentan.

66
Distribución muestral de s²

Partiendo de una población normalmente distribuida de la cual se extraen


todas las muestras posibles de tamaño n, se puede demostrar que:

∼ χn − 1 cuando µ es desconocida
2
(n − 1) s 2

σ
2

∼ χn
2
(n − 1) s 2
cuando µ es conocida
σ
2

ESTIMACIÓN ESTADÍSTICA

Como se vio, las diferentes funciones de distribución se caracterizan por sus


respectivos parámetros poblacionales y uno de los propósitos de la estadística
es la estimación de los mismos.
La estimación de los parámetros poblaciones puede realizarse de dos formas:
puntualmente o mediante intervalos de confianza.

Estimación puntual

Cuando se quiere obtener el valor estimado de un parámetro a partir de una


muestra de tamaño n, se debe buscar un estadístico muestral que se utiliza
como estimador, estableciendo un algoritmo o fórmula que permita calcular el
estimador a partir de los datos de la muestra.
Para obtener esa fórmula es necesario definir las propiedades que debe tener
el estimador.
Básicamente un estimador puntual de un parámetro es un número que se
aproxima al verdadero valor.

Sea el problema general de estimar una característica poblacional o parámetro


θ sobre la base de una muestra aleatoria de tamaño n extraída de la población.
Se puede elegir entre varios estimadores; anteriormente se vio que para la
media poblacional de una distribución simétrica, la media aritmética, la
mediana o la moda son algunos de sus estimadores puntuales.
Para estimar la varianza de una población de la que no se conoce la media
pueden
∑ (XI− X )
2
utilizarse los estimadores s² o
n
El problema consiste en decidir cual es el mejor estimador o el que mejor se
aproxima al verdadero valor del parámetro.

Para responder a esta cuestión sea la siguiente situación:


1) Se quiere estimar un parámetro desconocido θ.
2) La muestra sacada de la población que lo tiene como parámetro dará
información sobre él. Se usará una función de la muestra (estadístico) como
estimador, o sea que se calculará un número (estimador) de la muestra.

67
3) El estimador varía de muestra a muestra, es decir que es una variable
aleatoria y por lo tanto posee una distribución muestral.

Para decidir cual es el mejor estimador hay que comparar las características
salientes de sus distribuciones muestrales. El estimador óptimo será el
insesgado de mínima varianza.

Sesgo

Para ser un buen estimador es esencial que el centro de su distribución


muestral coincida (aproximadamente) con el verdadero valor del parámetro.
Cuando se utiliza la media para indicar el centro de la distribución muestral, se
está introduciendo el concepto de estimador insesgado.

Se dice que un estimador θ̂ es insesgado cuando la media de su distribución


muestral coincide con θ, es decir E(θ̂ ) = θ, es decir cuando la esperanza o
valor esperado del estimador coincide con el verdadero valor.
Por ejemplo x es un estimador insesgado de µ y s² lo es de σ2 , mientras que
∑(xi – x )² / n, no lo es ya que subestima a la varianza

En efecto:
⎛∑ ⎞ 1 n
E( x ) = E⎜ xi ⎟ = ⋅ E(∑ xi) = ⋅ E(xi) = μ
⎝ n ⎠ n n

⎡ ∑ (x − x )2 ⎤ n − 1 ⎡ ∑ (x − x )2 ⎤
E⎢ i ⎥= ⋅ σ ⇒ E⎢
2 i ⎥ = σ2
⎢⎣ n ⎥⎦ n ⎢⎣ n − 1 ⎥⎦

El hecho de que el valor esperado de la media muestral de un estimador


insesgado sea igual al parámetro (valor poblacional) implica que la distribución
muestral del estimador está centrada (en términos de la media) en el
verdadero valor.

El sesgo de un estimador θ̂ es la media o valor esperado de su distribución


muestral menos el valor paramétrico; o sea Sesgo(θ̂ ) = E( θ̂ ) - θ. De aquí se
deduce que el sesgo de un estimador insesgado es nulo.

Si el sesgo es cercano a cero, o pequeño, se pude considerar como aceptable


a dicho estimador.

Variabilidad

Una vez encontrados los estimadores insesgados de un dado parámetro se


debe seleccionar de entre ellos el mejor, por lo tanto es necesaria una medida
de variabilidad.
La distribución muestral de un estimador debe estar centrada alrededor del
valor paramétrico. La desviación estándar, o equivalentemente la varianza, de
la distribución muestral del estimador θ̂ es decir su error estándar, es una

68
medida de su concentración alrededor de su media E(θ̂ ). Cuando un estimador
es insesgado es E( θ̂ ) = θ, entonces la varianza es una medida de la
concentración de la distribución muestral alrededor del parámetro mismo.

Por lo tanto un buen estimador será aquel que tenga varianza de la distribución
muestral pequeña. Luego, de entre todos los estimadores insesgados se debe
elegir el de menor varianza.

Por ejemplo, la media muestral es mejor estimador de la media poblacional


que la mediana, porque la varianza de la media muestral es σ²/n y la de la
mediana es 1,57 σ²/n.

Para grandes muestras las distribuciones muestrales de los estadísticos más


utilizados son aproximadamente normales. De modo que están caracterizadas
por la media y la desviación estándar.

Resumiendo, el estimador óptimo de un parámetro debe cumplir las


propiedades:
1) Ser insesgado
2) Varianza mínima

Esto nos dice que el estimador le "apunta" al parámetro a estimar (propiedad


1) y la "puntería" es la mejor posible (propiedad 2)

Para obtener una estimador óptimo también se puede utilizar el concepto de:
Error Cuadrático Medio (o función de pérdida media)
Para caracterizar la distribución muestral en lugar de considerar una medida
de posición y una dispersión se puede utilizar una sola que resume a ambas y
por ende, a toda la información. Tal medida es el error cuadrático medio, que
se define como:
ECM(θˆ ) = E (θˆ −θ)
2

La diferencia θ̂ − θ, es una pérdida o medida de la pérdida al considerar a θ̂ en


lugar de θ, y el ECM es la pérdida media, porque es el valor esperado de esa
pérdida. El ECM indica cuanto se pierde el estimar θ con θ̂ , en promedio.

También se lo puede interpretar viendo que la cantidad ( θˆ − θ) es el cuadrado


2

de la distancia entre el parámetro y su estimador; o sea es el error cuadrático.


El error cuadrático medio es el promedio de los cuadrados de las distancias
entre el estimador y el parámetro.

Para que para un determinado parámetro, un estimador es mejor que otro


cuando su ECM es menor. O sea θ̂1 es mejor que θ̂2 si ECM(θˆ 1) < ECM(θˆ 2). Esta
propiedad puede combinarse con los dos criterios de menor sesgo y mínima
varianza, demostrando que:

ECM(θˆ ) = Var(θˆ ) + sesgo(θˆ )


2

Ambos sumandos son positivos.

69
Estimación del tamaño muestral en base al ECM

Caso de una población con distribución normal:


Un estimador de la media poblacional es μ ˆ = x y es insesgado.
Luego
ECM( x ) = Var ( x )

Si se quiere un tamaño de muestra tal que el ECM( x ) ≤ a, entonces:

Var( x ) = σ ≤ a, ⇒ n ≥ σ
2 2

n a
Observar que para la aplicación de este método se debe tener conocimiento
de la varianza de la población a muestrear.

Estimación por Intervalos de Confianza

Se definieron los estimadores puntuales de parámetros poblacionales como


una función de la muestra, de modo que se aproximan la verdadero valor,
pero ¿qué precisión tienen estas estimaciones?. Es interesante obtener un
intervalo de valores con una probabilidad conocida de cubrir el parámetro
buscado lo que llamaremos intervalo de confianza y que proporciona una
medida de la precisión de la estimación. El método se conoce como
estimación por intervalo.

Saber que x es un estimador insesgado de µ no es suficiente, porque sería útil


determinar la confianza que merece esa estimación de µ. Para obtener esa
confianza se define el intervalo de confianza:

Sea un parámetro θ y θ̂ un estimador puntual del mismo; se quiere determinar,


a partir de una muestra, un intervalo de la forma [a, b] tal que con probabilidad
1- α, contenga a θ. Es decir se busca un intervalo [a, b] tal que:

P(a ≤ θ ≤ b) = P(θ ∈ [a, b]) = 1 - α

P(θ ∉ [a, b]) = α

Donde a y b son los límites del intervalo, α es el margen de error y (1 - α) es el


nivel de confianza es decir la probabilidad de que el intervalo de confianza (IC)
contenga al verdadero valor.

Por ejemplo si 1 - α = 0,95, significa que al repetir la experiencia y tomar


muestras para estimar un parámetro poblacional, en 95 de cada 100 veces el
intervalo contendrá a θ, y en 5 no; y no significa que se tiene un 95% de
seguridad de que el verdadero valor esté entre a y b. Esto es incorrecto ya que
el verdadero valor θ es un valor fijo, los que son variables son los límites del
intervalo.

70
Pueden construirse intervalos de confianza de tal manera que el coeficiente de
confianza sea tan grande como se quiera. Entonces podría decirse: a) 95 de
cada 100 intervalos de confianza contienen al parámetro; b) 99 de cada 100
intervalos contienen al parámetro y así siguiendo. Sin embargo a medida que
la confianza aumenta, sus informes se hacen más vagos porque aumenta la
longitud del intervalo de confianza El intervalo más preciso es el más pequeño.
Por otro lado, a medida que se aumenta la confianza el intervalo aumenta de
longitud y ya no es tan preciso. Se quieren intervalos que estimen lo mejor
posible: con un buen nivel de confianza y de pequeña amplitud, cosa que se
obtendrá, como se verá mas adelante, aumentando el tamaño de la muestra.

Construcción de los intervalos de confianza

Sea un parámetro θ y θ̂ un estimador insesgado. Para la construcción de un


intervalo de confianza se necesita conocer la distribución en probabilidades del
estimador θ̂ (o sea su distribución muestral), a fin de determinar un estadístico
de prueba de la forma:
ε = (θ − θˆ )
ˆ
ES(θ)

donde ES ( θ̂ ) es el error estándar (o desvío estándar de la distribución


muestral) de θ̂

Cada estadístico de prueba tendrá una función de distribución indicada por F(θ̂)
Los límites del intervalo de confianza del (1 - α)%, para un intervalo simétrico
serán:

θ̂ ± VC ES( θ̂ )
donde VC significa valor crítico (llamado coeficiente de confianza) y depende
de la distribución muestral del estimador. La expresión VC ES( θ̂ ), da la
precisión de la estimación, que según se observa es de la forma: ± múltiplo del
error estándar del estimador

De la definición surge que: Longitud de IC = L = 2 VC ES( θ̂ )

Construcción de los intervalos de confianza

Se dará la construcción completa de un intervalo de confianza del (1 - α ) %


para la media de una población con distribución normal, a modo de ejemplo.

- Intervalo de confianza del (1 - α)% para la media poblacional µ

Suposiciones

Sea una población normalmente distribuida de la que se extrae una muestra


aleatoria de tamaño n. Es decir {x1, .....,xn} es una muestra aleatoria de X ∼ N(
µ, σ2).

71
Hay que distinguir si la varianza de la población es conocida o no

σ2 conocida

Un estimador puntual de µ es x , el cual sigue una distribución normal con


media µ y varianza σ2/n, porque la población de la que extrae la muestra está
normalmente distribuida.
La idea es buscar un estadístico en función de x que tenga una distribución
muestral conocida. De los supuestos se deduce que x ∼ N(µ, σ2/n), luego se
define como estadístico de prueba a:

2
Caso de σ conocida

Un estimador puntual de µ es x
σ
x ~ N(μ, ) porque x ~ N(μ, σ)
n

el estadístico de Gauss para una muestra como : ε = x σ− μ ~ N(0,1)


Entonces: P( − zα 2 ≤ ε ≤ zα 2) = 1 − α n
2
IC para µ con σ conocida
x−μ
− zα 2 ≤ ≤ zα 2) σ
σ x ± zα 2
n n
σ σ
− zα 2 ≤ x − μ ≤ zα 2
n n Valor crítico
σ σ Error estándar
x − zα 2 ≤ μ ≤ x + zα 2
n n

La figura muestra los Intervalos de confianza para la media poblacional del 95% de
100 muestras de largo de ala de moscas. La linea horizontal representa la media
poblacional μ y la ordenada representa los valores de la variable. Tomado de Sokal y
Rohlf, 1995, pp1403

72
2
Caso de σ desconocida
2
Cuando σ no se conoce se estima a partir de la muestra de tamaño n

∑ (xi− x )
2
2
s =
n −1

Cuando se utiliza un estimador de la varianza el estadístico deja de tener


una distribución N(0, 1) y se denomina 'estadístico de 't' para una
muestra:
ε = x −s μ ∼ tn−1
n
2
IC para µ con σ desconocida
s
x ± tα 2,n −1
n

Valor crítico

Error estándar
Observaciones:
a) Es importante destacar que el estadístico `t` bajo los supuestos de muestra
aleatoria con distribución normal y varianza desconocida, sigue exactamente
una distribución ´t´ de Student. No es necesario realizar ninguna aproximación,
como ocurre cuando la distribución de la población de la que se extrae la
muestra no es normal pero el Teorema Central del Límite asegura una buena
aproximación para muestras de tamaño considerable.

b) Para n pequeño el intervalo de confianza normal es de menor longitud que


el de 't'; a medida que el n aumenta los intervalos se asemejan en longitud.
Para n pequeños ICnormal < ICt ‘t’ es más conservativo.
Para n grandes son aproximadamente iguales.

n z tn - 1
16 1,96 2,131
25 1,96 2,062
31 1,96 2,042
61 1,96 1,980

c) Cuando la distribución de la variable X no es normal.


Hay varias alternativas:
c.1.) Cuando el tamaño muestral es pequeño pueden realizarse
transformaciones de la variable.

73
Una vez hallado el intervalo de confianza con los datos transformados, para
volver a los datos originales y tener un intervalo de confianza de la media
poblacional se deben “destransformar” los límites hallados (pero no la media).

c.2.) Si la muestra es grande (a modo de orientación cuando n ≥ 30) puede


aplicarse el teorema central del límite “confiando” en que la diferencia entre los
valores calculados bajo la aproximación y los verdaderos será pequeña y no
incidirá en los resultados.

Como se ve en este caso la solución aparece por vía del tamaño de muestra.
Por el teorema central del límite, la distribución en el muestreo es
aproximadamente normal con media µ y varianza σ²/n. Cuando el n es grande
la aproximación es aceptable y no se ve afectada por el hecho de que la
varianza sea desconocida ya que dividir por n o por n-1 es prácticamente lo
mismo a los fines de la aproximación. Se utiliza el estadístico de Gauss. Luego
para n suficientemente grande:
X n ~ N(µx, σx²/n)

c.3) Finalmente, cuando la muestra es chica y la distribución no es normal (y


no se consigue una transformación que normalice la distribución de la variable
en la población) puede construirse un intervalo de confianza utilizando
métodos no paramétricos.

En resumen, en el caso de la media poblacional el estadístico a utilizar


depende de la distribución de la variable X, del tamaño de la muestra y del
conocimiento que se tenga de la varianza poblacional

Distribución Normal Otra distribución


Muestra chica -Varianza conocida: estadístico -Transformación de la variable
de Gauss para llevarla al caso normal
-Varianza desconocida: -Pruebas no paramétricas
estadístico t de Student -Técnicas de remuestreo
Muestra -Varianza conocida: estadístico -Estadístico de Gauss por
grande de Gauss aplicación del Teorema Central
-Varianza desconocida: del Límite.
estadístico de Gauss porque t
se aproxima a Normal.

74
Intervalo de confianza del (1 - α )% para una proporción p

Sea una muestra aleatoria de tamaño n de una población con distribución


Bi(p, 1), donde p es la proporción de éxitos.
X
Un estimador puntual de p es p̂ =
para X ∼ Bi(p, n)
n
Cuando n es suficientemente grande (n ≥ 30) y n.p̂ ≥ 5 np̂(1 − p̂) ≥ 5

se puede probar que para el estadístico de prueba vale el estadístico de


Gauss para una proporción como :

ε = p̂ − p ∼ N(0,1)
p̂q̂
n
IC para una proporción

p̂q̂
p̂ ± zα 2
n
Valor crítico Error estándar

Intervalo de confianza del (1 - α)% para la varianza

Sea una muestra aleatoria de tamaño N de una población con distribución


normal de media µ y varianza σ2

∑ (xi− x )
2
2 2
El estimador puntual para la varianza es: σˆ = s =
n −1

ε = (n − 12)s
2
y la distribución muestral del estadístico de prueba será: ∼ χn2−1
σ

Entonces resultan los siguientes límites para el intervalo de confianza del (1 - α)%:

Error estándar
(n − 1) s2 (n − 1) s2
Límite inferior: Límite superior:
χn2−1,1−α 2 Valor crítico χn2−1,α 2

Para construir un intervalo de confianza del (1 - α)% para el desvío estándar (σ)
basta con extraer la raíz cuadrada de los limites del intervalo para la varianza.

75
Intervalo de confianza del (1 - α)% para la diferencia de medias (µ1- µ2) de
poblaciones normales

Suposiciones:
-. {x1,......., xn} muestra aleatoria de X ∼ N(µ1,σ1)
-. {y1,......., ym} muestra aleatoria de Y ∼ N(µ2, σ2)
-. muestras independientes

En el caso de dos muestras independientes debe tenerse también en cuenta si


las varianzas de las poblaciones son conocidas o no.

Caso de σ2 conocidas

Un estimador puntual de la diferencia (μ1 − μ2 ) es x1 − x 2

Y su distribución muestral:
⎛ σ12 σ22 ⎞⎟

x1 − x 2∼N ⎜ μ1 − μ2 , +
⎝ n1 n2 ⎟⎠

Estadístico de Gauss para dos muestras


con varianzas conocidas:
ε = (x1 − x2)2− (μ12− μ2) ~ N(0,1)
σ1 σ2
+
n1 n2

IC para (μ1 − μ2 ) con σ conocidas


2

σ12 σ22
x1 − x 2 ± zα 2 + Error estándar
n1 n2
Valor crítico

76
Caso de σ2 desconocidas

En este caso se debe hacer una suposición adicional:


2 2
-Homogeneidad de varianzas: σ1 = σ2
⎛ (n1 − 1) s12 + (n2 − 1) s22 n1 + n2 ⎞⎟
Y la distribución muestral es: x1 − x 2∼ ⎜ μ1 − μ2 ,
t
⎜ n1 + n2 − 2 n1 ⋅ n2 ⎟⎠

Estadístico t para dos muestras independientes con varianzas desconocidas:
(x1 − x2 ) − (μ1 − μ2)
ε= ~t
(n1 − 1) s12 + (n2 − 1) s22 n1 + n2 n1+n2−2
n1 + n2 − 2 n1 ⋅ n2
Error estándar
IC para (μ1 − μ2 ) con σ desconocidas
2

(n1 − 1) s12 + (n2 − 1) s22 n1 + n2


x1 − x 2 ± tn +n −2
1 2 n1 + n2 − 2 n1 ⋅ n2
Valor crítico

Intervalo de confianza del (1 − α)% para la diferencia de proporciones

Suposiciones:
-. {x1,......., xn} m. a. de X ∼ Bi(p1,1), p^1 = X/n
-. {y1,......., ym} m. a. de Y ∼ Bi(p2,1), p^ = Y/m 2
-. muestras independientes

77
Un estimador puntual de la diferencia p1 − p2 es p̂1 − p̂2

Caso de p ( σ2) conocidas


⎛ p ⋅q p ⋅q ⎞
Distribución muestral: p̂1 − p̂2∼N ⎜⎜ p1 − p2 , 1 1 + 2 2 ⎟⎟
⎝ n1 n2 ⎠

el estadístico de Gauss para dos muestras de ε = (p̂1 − p̂2) − (p1 − p2) ~ N(0,1)
proporciones con p conocidas: p1 ⋅ q1 p2 ⋅ q2
+
n1 n2

IC para (p1 − p2 ) con p conocidas

p1 ⋅ q1 p2 ⋅ q2
p̂1 − p̂2 ± zα 2 +
n1 n2
Valor crítico Error estándar

Caso de p ( σ2) desconocidas

el estadístico de Gauss para dos muestras de ε = (p̂1 − p̂2) − (p1 − p2) ~ N(0,1)
proporciones con p desconocidas: p̂1 ⋅ q̂1 p̂2 ⋅ q̂2
+
n1 n2

IC para (p1 − p2 ) con p desconocidas

p̂1 ⋅ q̂1 p̂2 ⋅ q̂2


p̂1 − p̂2 ± zα 2 +
n1 n2
Valor crítico Error estándar

78
PRUEBA DE HIPÓTESIS

Una hipótesis estadística es una proposición o supuesto sobre los parámetros


de una o más poblaciones, mientras que una hipótesis biológica es también
una proposición, pero expresada en términos de la teoría o los conocimientos de
que se dispone respecto del problema en estudio. Por lo tanto una hipótesis
estadística biológica es una formalización, y en esos términos se puede aplicar
un modelo probabilístico. Esto implica establecer una correspondencia entre el
problema biológico y los elementos del modelo estadístico.

Muchos problemas en ciencia, requieren la toma de una decisión acerca de


aceptar o rechazar una proposición sobre algún parámetro, o sea una
hipótesis. Este es uno de los aspectos más útiles de la inferencia estadística,
puesto que muchos tipos de problemas de toma de decisiones, pruebas o
experimentos pueden formularse por medio de una prueba de hipótesis.
Una prueba de hipótesis permite, además que la decisión respecto de un
fenómeno observado, se tome conociendo la probabilidad de que ésta sea
equivocada, sobre la base de la información suministrada por una muestra.
En este capítulo se estudiará en detalle el procedimiento que permite
establecer una regla de decisión de tal manera que la probabilidad de error
sea, como máximo, un valor, que indicaremos α. Este valor se establece en
forma externa al procedimiento, es arbitrario y depende del problema particular
que se esté tratando de resolver.

Idealmente, α, al tratarse de una probabilidad, puede tomar cualquier valor


entre 0 y 1.

La idea central del método se asemeja a una demostración por el absurdo,


donde se niega lo que se quiere demostrar llegando a una conclusión absurda.

En una prueba de hipótesis existe una teoría preconcebida relativa a la


característica de la población sometida a estudio e implica que en cualquier
estudio estadístico haya de hecho dos teorías que generan dos hipótesis
implícitas. Una de ellas, denotada Ha, se denomina hipótesis de investigación o
alternativa, y la otra, H0 y es la denominada hipótesis nula. El propósito de un
experimento es decidir si la prueba tiende a apoyar o refutar la hipótesis nula.

Cuando se formulan Ha y H0 se deben tener en cuenta tres afirmaciones


generales:
1) La hipótesis nula es la hipótesis de "no diferencia". En términos prácticos
esto quedará explicitado en la afirmación de que la igualdad forma parte de
H0.
2) Se ha de procurar detectar o fundamentar la hipótesis alternativa. Es por
esto que se denomina a la afirmación hecha bajo la Ha “hipótesis de
investigación”.
3) Las hipótesis estadísticas se formulan siempre con la esperanza de que sea
posible rechazar H0.

79
De modo que la prueba de hipótesis tendrá dos resultados posibles que son
mutuamente excluyentes:
a) Rechazar H0. con probabilidad α de hacerlo cuando H0 es cierta.
b) No rechazar H0.

Ejemplo

El Departamento. de Salud ha fijado en 70 ppm de un metal pesado el nivel


medio máximo aceptable para las aguas en que se practica la recolección
de almejas. Se quiere establecer un patrón gubernamental para las aguas.
La hipótesis biológica es que las aguas están contaminadas.
Como se hace lo posible para apoyar o descubrir la hipótesis alternativa, ésta
hipótesis será: µ > 70. Esto implica automáticamente que la hipótesis nula es
la negación de Ha, es decir, que :µ ≤ 70. De modo que las dos hipótesis en
juego son:

H0 : µ ≤ 70 Ha: µ > 70 (aguas peligrosas)

la variable es X: concentración en ppm del metal pesado

Como se dijo mas arriba la afirmación de igualdad forma parte de la hipótesis


nula. Además desde el punto de vista del Departamento de Salud se espera
que H0 sea rechazada (con lo cual se alertará a la población sobre la ingesta
de almejas).
Una vez que se ha tomado una muestra y se tienen los datos, debe tomarse
una decisión, rechazar o no H0. O sea que se quiere saber si la muestra
tomada proviene de una población con media μ ≤ 70 o μ>70

Muestra de tamaño n

x = 75
Población

?
Población

μ ≤ 70 μ > 70

Ho : μ ≤ 70 Ha : μ > 70

La decisión se tomará observando el valor de algún estadístico (estadístico de


prueba), cuya distribución en probabilidades, bajo la presunción de que H0 sea
cierta, es conocida. La idea es que si el valor de la media es superior a 70
ppm, entonces se rechazará la hipótesis nula en favor de la alternativa; si el

80
valor observado es uno que bajo la presunción de que H0 es cierta se presenta
comúnmente, entonces no se rechazará la hipótesis nula.
Cualquier estudio de prueba de hipótesis propone alguna de las siguientes
situaciones:

H0 es verdadera H0 es falsa
Se rechaza H Error de Tipo I No error
No se rechaza H0 No error Error de Tipo II

1) Si se rechazara H0 siendo cierta; se habrá cometido lo que se conoce como


error de tipo I.
2) Si se tomara la decisión correcta de rechazar H0, siendo la alternativa Ha
cierta, no se estaría cometiendo ningún error.
3) Si no se rechazara H0 siendo esta falsa, se habrá cometido lo que conoce
como error de tipo II
4) Si se tomara la decisión correcta de no rechazar H0 siendo esta cierta no se
estaría cometiendo ningún error.

Sobre la base de este esquema se definen:


1) α = máx P(cometer error tipo I) = máx P(rechazar H0 / H0 es verdadera) =
nivel de significación de la prueba = nivel más bajo para sostener la H0 (
cualquier valor de la P(error Tipo I) más pequeño que α, dará un resultado
significativo)

2) β = P(cometer error de tipo II) = P(aceptar H0 / H0 es falsa).

3) 1 − β = P(rechazar H0 / H0 es falsa) = Potencia de la prueba

Cuando se rechaza H0 se conoce la probabilidad de equivocarse mientras que,


cuando no se rechaza, corresponde estudiar la potencia de la prueba para, al
menos varias hipótesis de interés.

Un α = 0,05 indica que 5 de cada 100 veces que se realiza la prueba se


rechazará la hipótesis nula cuando en realidad es verdadera. Es decir nos
permitimos equivocarnos como máximo cinco de cada cien veces.

81
Procedimiento general para las pruebas de hipótesis

Prueba de hipótesis para la media de una población con distribución


normal

Este caso implica que antes de llevar a cabo el experimento, se debe tener un
valor teórico para µ (valor paramétrico de la población).

Ejemplo 1. Es el que plantea el Departamento. de Salud con respecto de la


recolección de almejas y el agua contaminada.
A fin de establecer un patrón gubernamental para las aguas, interesa
contrastar las hipótesis:

H0 : µ ≤ 70
Ha : µ > 70 (aguas peligrosas)

donde la variable es X: concentración en ppm del metal pesado y se supone


sigue una distribución normal con media 70 y varianza desconocida

Ejemplo 2. La concentración de almidón en plantas de lechuga en la provincia


de Buenos Aires, sigue una distribución normal con media 28 g y varianza 25
(µg)2.
Se quiere poner a prueba la hipótesis de que la concentración media de
almidón disminuye con un tratamiento de abono.
En esta situación interesa contrastar las hipótesis:

H0:µ ≥ 28
Ha:µ < 28

Ejemplo 3. El promedio total de proteínas en sangre de un adulto sano es de


7,25 g/dl. En un análisis de sangre, el técnico está contrastando las hipótesis:

Ho: µ = 7,25
Ha: µ ≠ 7,25

Para la variable X: cantidad de proteínas en sangre en adulto sano, que sigue


una distribución normal con media 7,25 g/dl y varianza desconocida

Como se ve en los ejemplos la hipótesis sobre la media poblacional µ puede


optar por cualquiera de tres formas diferentes. Sea µ0 el valor hipotético de la
media poblacional (llamado valor nulo). Las tres formas generales son:

82
1− α
Ho: µ ≤ µ0
1) α
Prueba de una cola a la derecha
Ha: µ > µ0

x
μo

1− α
2) α Ho: µ ≥ µ0
Prueba de una cola a la izquierda
Ha:µ < µ0

1− α

3) α α Ho: µ = µ0
2 2
Prueba de dos colas
Ha: µ ≠ µ0

Estadístico de prueba

Es un estadístico cuyo valor se calcula a partir de la muestra y su distribución


muestral depende de las suposiciones del problema. El estadístico de prueba
es el que permite tomar las decisiones respecto de las hipótesis involucradas
en la prueba.
Para muestras provenientes de poblaciones con distribución normal, en
general un estadístico de prueba es de la forma:

ε= x−μ
ES (x )
donde ES(x ) es el error estándar del estimador de la media poblacional, o sea
la desviación estándar de su distribución muestral, y por lo tanto depende de la
distribución muestral de x . Para un muestra de tamaño n toma la forma:

x−μ
♦ ε=z= , cuando la varianza es conocida (ε∼ N(0, 1) )
σ
n
x−μ
♦ ε = tn−1 = , cuando la varianza es desconocida(ε ∼ tn – 1)
s
n

83
Observación: x estima a la media poblacional. Si H0 es verdadera está
estimando a µ0, por eso la diferencia entre ellos debería ser pequeña. En cada
caso un valor pequeño del estadístico es una indicación de que no debería
rechazarse H0. En el caso (1), de una cola a la derecha, la hipótesis de
investigación es µ > µ0 ; si esto es cierto, entonces está estimando un valor
medio realmente mayor que el valor estipulado por la hipótesis nula. Se
debería esperar que x fuera superior a µ0, forzando a la diferencia ( x - µ0) a ser
positiva. Así, en esta situación se rechazará H0 en favor de Ha para valores
positivos grandes del estadístico x . Un argumento parecido conduce a la
conclusión de que en el caso (2) se rechaza H0 en favor de Ha, para valores
negativos grandes del estadístico. En el caso (3) se rechazará la hipótesis nula
para valores inusualmente grandes del estadístico tanto en sentido positivo
como negativo.

Regla de decisión

Los distintos valores que puede tomar el estadístico de prueba se dividen en


dos grupos. Un grupo son los valores que con mayor probabilidad podría tomar
cuando la hipótesis nula es verdadera que es la Zona de Aceptación, y el otro
es el caso contrario que sería la Zona de Rechazo. La zona de rechazo está
determinada por el nivel de significación de la prueba, ya que cuando se
plantea una prueba de hipótesis se selecciona el nivel de significación α, o sea
cuanto estamos dispuestos a equivocarnos, como ya se dijo. Sea ε0 el valor del
estadístico de prueba, entonces la regla de decisión es:
Prueba de dos colas: Se rechaza H0 α % sii ⏐ε0⏐ ≥ VC
Prueba de una cola a la derecha: Se rechaza H0 α % sii ε0 ≥ VC
Prueba de una cola a la izquierda: Se rechaza H0 α % sii ε0 ≤ VC

El VC (valor crítico) dependerá de la distribución en probabilidades del


estadístico de prueba ε0 .
La prueba de hipótesis de dos colas de nivel α, se puede resolver también con
un intervalo de confianza para la media del (1- α)%. La prueba rechazará la H0
sii µ0 no pertenece al intervalo.

Valor p de la prueba

Cuando se habla de “valores inusualmente grandes" se hace referencia a


aquellos valores del estadístico que se consideraría sorprendente si se
observaran si H0 fuera verdadera. Si el valor nulo es correcto (H0 verdadera)
entonces el estadístico, en el caso en que la varianza no es conocida, sigue
una distribución de 't' con n-1 grados de libertad (tamaño de la muestra menos
uno). Ese hecho puede utilizarse para comprobar si el experimento ha
producido o no un resultado inusual. Esto se hace calculando el valor p o valor
de probabilidad de la prueba o probabilidad de azar, definido como “La
probabilidad de que el estadístico asuma un valor tanto o más extremo que el
que se observa cuando se supone que la hipótesis nula es verdadera.” O sea

84
p = P exacta (cometer error de Tipo I) = P(rechazar H0 / H0 es verdadera)

Hodges y Lehman (1970) describen el valor p como "el que da, en un solo
número adecuado, una medición del grado de sorpresa que el experimento
causaría en un partidario de la hipótesis nula".

Para pruebas con cola a la derecha, el valor p bajo es el área bajo la curva de la
distribución teórica hacia la derecha del valor observado; para una cola a la
izquierda es el área a la izquierda.

Si εo es el valor del estadístico de prueba:

p = P(ε ≥ εo ) prueba de una cola a la derecha

p = P(ε ≤ εo ) prueba de una cola a la izquierda

p = P( ε ≥ εo ) prueba de dos colas

Relación entre α y p
α = máx p y la regla de decisión también se puede expresar como:
p< α se rechaza H0 al α % ó H0 es significativa (S) al α%

p> α no se rechaza H0 al α % ó H0 es no significativa (NS) al α%

Ejemplo Sean los datos del ejemplo 1 en el cual el Departamento de Salud se


ocupan de vigilar las aguas en las que se realiza la pesca de almejas. Como lo
que interesa es detectar si las aguas son peligrosas se toman las hipótesis:

Ho: µ ≤ 70 (las aguas son seguras)


Ha: µ > 70 (las aguas no son seguras)

La variable X: concentración en ppm del metal pesado, sigue una distribución


normal con µ = 70 y varianza desconocida

Supongamos que se extrae una muestra aleatoria de 9 alícuotas de 1 cc de


agua y en cada una se determina la concentración en ppm del metal pesado.
Si se fija como nivel de significación α = 0,05. Como la varianza no es
conocida el estadístico de prueba es el de `t` de Student para una muestra:

x−μ
ε= ∼ tn−1
s
n

85
Si cuando se realiza el experimento se obtienen los siguientes datos:

69 74 75 70 72 73 73 71 68

Entonces: x = 71,70; s = 2,3 ε0 = 2,22


bajo Ho :

ε = 71,702,3− 70 = 2,22
9

Regla de decisión:

a) Sobre la base de la zona de rechazo: Se rechaza H0 al 5% sii ε0 > t8, 0.05 =


1,86

Supuesto: x ∼ N(μ, σ2)

0,95 Regla de decisión:


Si ε > tn−1;1−α ⇒ se rechazaHo con α
0,05

70 x α = 0,05 1 − α = 0,95 t8;0,95 = 1,86


μ 71,70
Conclusión estadística
Como 2,22 > t 8;0,95 ⇒ se rechaza Ho
Zona de aceptación con α = 0,05

Zona de rechazo

Conclusión biológica
0 t8 El agua estaría contaminada. No
1,86 2,22 se aconseja recolectar almejas

b) Sobre la base del valor p


Por definición el valor p es la probabilidad de observar un valor tanto o más
extremo que aquel realmente obtenido. Para una prueba de una cola a la
derecha "más extremo" significa a la derecha del valor obtenido. Entonces
resulta:

p = P( ε0 ≥ 2,22)

86
Observando una tabla de distribución ´t´ para 8 grados de libertad, se tiene que
el valor 2,22 está entre los valores 1,860 y 2,306 . Además

P(t8 ≥ 1,860) = 0,05 P(t8 ≥ 2,306) = 0,025 Luego 0,025 <p < 0,05

Calculando el valor exacto a partir de, por ejemplo una planilla de cálculo
resulta:
p = P(t8 ≥ 2,22) = 0,029
Como el nivel de significación fijado fue del 5 % y p = 0,029, se rechaza la
hipótesis nula.
Luego se concluye que las aguas estarían contaminadas (P < 0,05) y no se
deberían comer almejas de ese lugar
Los programas estadísticos dan siempre la probabilidad exacta, pero el
ejemplo de cálculo a partir de la tabla puede ser útil si no se cuenta con una
computadora a mano.

Cabe aclarar que si el nivel de significación α no hubiera sido fijado junto con
la experiencia, se podría especular acerca de si el valor p obtenido es lo
suficientemente pequeño como para rechazar la hipótesis nula. Recordemos
que siempre que se rechaza H0 existe una probabilidad de estar cometiendo
error de tipo I. El valor p es una medida del riesgo que se corre cuando se
hace la hipótesis de investigación. Si las consecuencias de caer en dicho error
son muy graves, entonces el valor p debe ser muy pequeño antes de que se
decida rechazar H0. Si caer en un error de tipo I sólo produce inconvenientes
no graves, entonces H0 puede rechazarse para valores grandes de p.

Ejemplo 2. En este caso se somete a prueba las hipótesis:

H0: µ ≥ 28 contra H1: µ < 28

donde X : concentración de almidón en plantas de lechuga, que sigue una


distribución normal con media 28 µg y desvío estándar 5 µg. Se trata de una
prueba de una cola a la izquierda.
Se prueba el tratamiento en una muestra de 49 plantas de lechuga de esa
población y se obtiene una media de 27 µg. Como la varianza es conocida, el
estadístico de prueba sigue una distribución normal con media cero y varianza
uno (Estadístico de Gauss para una muestra)

Regla de decisión

a) Sobre la base de la zona de rechazo


Para α = 0,05, resulta z0,05 = -1, 64

Resolviendo resulta ε0 = -1,40. Como ε0 = -1,40 > -1, 64 = z0,05 no se


rechaza la H0.

87
b) Calculo del valor p
Se trata de una prueba de una cola a la izquierda, por lo tanto un 'valor más
extremo' que el obtenido es uno a la izquierda de -1,40, y como la distribución
N(0,1) es simétrica se puede calcular de la siguiente manera para no trabajar
con valores negativos del estadístico:

p = P(Z ≤ - 1,40) = P( Z ≥ 1,40) = 1 – 0,91924 = 0,08076

Como p = 0,08 > α = 0,05 se concluye que no se rechaza H0 por lo tanto no


hay evidencias para suponer que el tratamiento sea realmente efectivo (P >
0,05).

Evaluación del valor p para una prueba de dos colas

Existen dos situaciones bien diferentes:

a) Si la distribución del estadístico es simétrica (como en el caso de la


distribución Normal y la distribución t), para obtener el valor p de la
prueba sólo es necesario multiplicar por 2 al valor p de la prueba de
una cola.

b) Si la distribución es asimétrica se plantea una situación un poco más


complicada y se pueden encontrar discrepancias en la manera en que
distintos autores abordan el tema, pero una manera simple de hacer el
cálculo es utilizar dos veces el valor p de la prueba de una cola.

Para ver de qué se trata este cálculo, se retoma el ejemplo 3 (proteínas en


sangre). Si por ejemplo se realizan ocho análisis de sangre a un mismo
paciente a lo largo de varios días y la variable considerada es el nivel total de
proteínas. Esta variable sigue una distribución normal con media 7,25 g/dl.
Como el nivel de proteínas en sangre no puede ser ni demasiado grande ni
demasiado pequeño, se desea detectar cualquiera de los dos hechos y se
plantean las hipótesis :

H0 : µ = 7,25 (normal para un adulto)


Ha : µ ≠ 7,25

Datos: 7,23 7,25 7,28 7,29 7,32 7,26 7,27 7,24.


Entonces: x = 7,2680 ; s = 0,029 ; ε0 = 1,765
*Si se utiliza α = 0,05 para fijar la zona de rechazo:

resulta t0,975, 7 = 2,365


La prueba Rechaza H0 al 0,05% sii ⏐ε0⏐ > 2,365
Resolviendo resulta ⏐ε0⏐ = 1,765 < 2,365, entonces no se rechaza la H0.

88
*Si se calcula el valor p utilizando la tabla de distribución ´t´:

En la tabla de 't' resulta 1,415 < 1,765 < 1,895, entonces para una prueba de
una cola a la derecha resulta 0,05 < p < 0,10. Duplicando los valores resulta:
0,10 < p < 0,20.

*Si se calcula este valor utilizando un programa que permita hacerlo, la


probabilidad exacta es: p = P( | t7 | ≥ 1,765) x 2 = 0,1209 x 2 = 0,2418

Se concluye que no hay evidencias para suponer que el nivel total de proteína
se aleja significativamente de 7,25 µm, o sea que no se rechaza la hipótesis
nula.

Ejemplo. Un laboratorio está estudiando una nueva droga para ser utilizada en
el tratamiento de cáncer de piel y su hipótesis es que éste resultará eficaz en
la mayoría de los pacientes sobre los que se la aplique. Sea p la proporción de
pacientes para los cuales la droga será efectiva. El laboratorio quiere realizar
alguna prueba estadística que apoye tal información

H0: p ≤ 0,5 Ha: p > 0,5

La variable es X: cantidad de pacientes tratados que mejoran que sigue una


distribución Bi(0,5 , 1). Ha indica que la droga es eficaz en la mayoría de los
casos.

Supongamos que tenemos una muestra de tamaño 100 (n = 100) de la


variable X y resulta X = 13. Entonces:
52
p̂ = = 0,52 q̂ = 1 − 0,52 = 0,48
100

Bajo los supuestos, el estadístico de prueba correspondiente es el de "Gauss


para una proporción" que sigue una distribución N(0, 1).

p̂ − p 0,52 − 0,5
ε0 = = = 0,4
p̂ ⋅ q̂ 0,52 ⋅ 0,48
n 100

p = P(ε ≥ ε0 ) = P(ε ≥ 0,400) = 0,344

Como 0,344 > 0,05 se concluye que no existen evidencias para rechazar la
hipótesis nula, por lo tanto no se puede suponer que el tratamiento sea
efectivo en la mayoría de los casos (P > 0,05).

89
Relación entre los errores de Tipo I y II

Si se comete un error de tipo I, se habrá rechazado H0, siendo ésta cierta. En


términos prácticos, se habrá concluido que la droga es eficaz para una
mayoría de usuarios cuando en realidad no lo es. Este error puede conducir a
la comercialización de un producto que no es efectivo para la mayoría de los
pacientes. Por otro lado, se cometerá un error de tipo II si no se rechaza H0,
cuando no es verdadera. En tal caso se concluirá que la tasa de efectividad de
la droga es del 50% o menos, cuando, de hecho, es efectiva para una mayoría
de los pacientes sobre los que se aplica. Este error puede conducir a la no
comercialización de una droga útil. Ambos errores son muy importantes. El de
tipo I es el que generalmente se considera más grave, ya que resultaría, en
este ejemplo, en una dilatación en el tratamiento apropiado de la enfermedad.
Por esto, determinar cuál de los dos errores es el más riesgoso dependerá del
tipo de problema o experimento particular que se esté realizando.

Potencia de la prueba

Se define como:

Potencia = 1 - β = P(Rechazar H0 / H0 es Falsa)

Es el complemento de la probabilidad de cometer error de tipo II y mide la


efectividad de la prueba estadística. Tiene sentido su cálculo a posteriori
cuando la hipótesis nula no fue rechazada. El cálculo a priori es útil para
determinar, por ejemplo, el tamaño de la muestra para una potencia fijada por
el investigador.

Ejemplo de cálculo de la Potencia.

Potencia a posteriori

En el ejemplo 2 (concentración de almidón en plantas de lechuga) la hipótesis


de una disminución del almidón por un tratamiento resultó no significativa.
A continuación se calcula la potencia para distintos valores de la concentración
media, como hipótesis alternativa. Siempre sesupone que se mantiene el valor
de la varianza.
Tenemos la variable X: concentración de almidón en plantas de lechuga, X ∼
N(28, 25). De la muestra de tamaño 49 resultó x = 27. Pongamos la regla de
decisión en términos de la variable.

Se rechaza H0 sii [ x - 28] 7/5 < -1,64 x < 26,83

Las hipótesis a probar son: H0 : µ = µ0 contra Ha : µ = µ1 (con µ1 ≠ µ0)

90
El estadístico de prueba es el de Gauss para una muestra y su distribución en
probabilidades es:
x − μo
εo =
σ
∼ N(0,1) bajo la H0

ε1 = x − μ1 ∼ N(0,1) bajo la Ha
σ
n
1) Si se supone µ = 27. Entonces las hipótesis a probar son:

H0: µ = 28 contra Ha : µ = 27

La potencia se calcula bajo la hipótesis alternativa. Entonces:

Potencia = P( x < 26,83) = P(Z < (26,83 – 27)7/5) = P(Z < -0,238) = 0,4052
Esto da una potencia del 40 %, que es muy baja.

2) Si se supone µ = 26. Entonces las hipótesis son:

H0: µ = 28 contra Ha : µ = 26

La potencia se calcula bajo la hipótesis alternativa. Entonces:

Potencia = P( x < 26,83) = P(Z < (26,83 – 26)7/5) = P(Z <1,162) = 0,8769

Esto da una potencia del 88 %, que es una buena potencia.

Potencia a priori: estimación del tamaño de muestra mínimo

Supongamos que se quiere llevar a cabo una prueba de hipótesis que tenga
una potencia determinada, es necesario saber el tamaño de muestra necesario
para que la prueba pueda detectar una determinada diferencia.
En estos casos conocer la potencia a priori sirve para estimar el tamaño de
muestra n, si se tiene una estimación s2 de la varianza poblacional σ2.
Para el cálculo de n se debe especificar α, β y se debe establecer cual es la
diferencia mínima que se desea que la prueba detecte (δ) que es la diferencia
entre μ (la verdadera media poblacional) y μo.
Para una prueba con un nivel de significación α y una potencia de 1-β, el
tamaño de muestra mínimo requerido es:

2 2
s
n = 2 ( z α + zβ) para distribución normal (1)
δ

91
2 2
n = s2 ( t α,υ + tβ,υ) para distribución t (2)
δ

Ejemplo

Para el juego de hipótesis

H0: µ = 0 contra Ha : µ ≠ 0

se quiere probar con una significación de 0.05 y con una probabilidad del
90% de detectar una media poblacional diferente de H0: µ = 0 tanto o mas
chica que 1. Para esto se tomó una muestra piloto de la que se obtuvo una
varianza de 1,5682.
Se pueden dar dos situaciones:
a) se tiene una buena estimación de la varianza poblacional, por lo que
se puede suponer que se está en condiciones de utilizar la ecuación
(1) o
b) La estimación de la varianza que se hizo a partir de la muestra puede
no ser muy precisa.
Se verá la resolución para las dos situaciones

Situación a).

Como se va a considerar que la estimación de la varianza que se posee es


precisa, entonces a los efectos del cálculo se considerará σ2=1.5682
Se determinan Z0.975=1,96 y Z0,90=1,282.

Entonces reemplazando en la ecuación (1)

1.5682
n= (1,96 +1,282) 2 = 16,482
2
1

Entonces se concluye que el tamaño de muestra buscado es de, como mínimo


17

Situación b).

Un detalle a tener en cuenta es que las probabilidades de la distribución t se


ven influenciadas por el tamaño de muestra. Por lo tanto para calcular el
tamaño mínimo de muestra es necesario utilizar el método iterativo.
Se supone que se parte de una muestra de tamaño 20, entonces ν=19, y se
considera s2=1.5682. Entonces ahora se utiliza la ecuación (2) y los valores
necesarios son t0.975,19=2.093 y t0,90,19=1.328.

92
Reemplazando:

1.5682 2
n= (2.093 +1.328) = 18.4
2
1

Ahora se usará n=19 y entonces ν=18, t0.975,18=2.101, y t0,90,18=1.330. El


valor de la varianza y la diferencia mínima se mantienen.
Reemplazando:

1.5682
n= (2.101+1.330) 2 = 18.5
2
1

Entonces se concluye que el tamaño de muestra buscado es de, como mínimo


19

Nota: Como puede observarse, en la situación a) se obtuvo un valor de tamaño


de muestra mínimo un poco menor que en la situación b). Esto es
consecuencia directa de la bondad de la estimación de la varianza poblacional
realizada.

Mínima diferencia detectable

Despejando de las ecuaciones utilizadas mas arriba es posible determinar cuan


pequeña es δ (diferencia entre μ1 y μ0) para una potencia y un nivel de
significación dados, utilizando un tamaño de muestra n.
En el caso de distribución t la ecuación tiene la forma:

2
δ = s ( t α,υ + tβ,υ)
n
Prueba para comparar dos medias provenientes de poblaciones con
distribución normal. Se presentan distintos casos

Sean
[x1, ....., xn} una muestra aleatoria de la variable X ∼ N(µx , σx)
[y1, ....., yn} una muestra aleatoria de la variable Y ∼ N(µy , σy)

Caso A: las dos muestras son independientes


Caso B: las dos muestras son dependientes

Ejemplo. Se quiere probar el efecto de dos medicamentos para mitigar la


migraña. Se toma como variable el tiempo en que la migraña desaparece
después del tratamiento

Caso A: se selecciona una muestra aleatoria de individuos con migraña los


cuales se separan al azar en dos grupos; a cada uno de los grupos se le

93
asigna al azar uno de los tratamientos. Entonces se tienen dos muestras
independientes de la variable de interés

Caso B: Se selecciona una muestra aleatoria de individuos con migraña se


los trata al azar, primero con uno de los medicamentos y luego con el otro,
dejando pasar un tiempo para atenuar el efecto residual. Entonces se tienen
dos muestras dependientes o muestras pareadas. Sobre cada unidad
experimental (cada individuo) se determinan dos variables

A continuación la resolución del problema para cada caso

Caso A: Aquí se debe distinguir entre el caso de varianzas poblacionales


conocidas o no :

Hipótesis
H0 : µx = µy contra Ha : µx ≠ µy. Prueba de dos colas
H0 : µx ≤ µy contra Ha : µx > µy. Prueba de una cola a la derecha
H0 : µx ≥ µy contra Ha : µx < µy. Prueba de una cola a la izquierda

Estas mismas hipótesis pueden ser escritas también como

H0 : µx − µy = 0 contra Ha : µx − µy ≠ 0. Prueba de dos colas


H0 : µx − µy ≤ 0 contra Ha : µx − µy > 0. Prueba de una cola a la
derecha
H0 : µx − µy ≥ 0 contra Ha : µx − µy < 0. Prueba de una cola a la
izquierda

En cualquiera de las tres situaciones, fijado el α, se necesita un estimador de la


diferencia de medias y la distribución muestral de ese estimador.

Estimador de la diferencia de medias: μˆ x − μˆ y = x − y


Estadístico de prueba

*Varianzas conocidas: "Estadístico de Gauss para dos muestras


independientes":

εo = ( x − y) − (μ x − μy)
∼ N(0,1)
σx + σy
2 2

n1 n2
*Varianzas desconocidas

Se estiman con s2x y s2y. Y se agrega un nuevo supuesto:


"Homogeneidad de varianzas, o sea que se supone que las varianzas son
desconocidas pero deben suponerse iguales: σ2x = σ2y = σ2 "

94
εo =
( x − y ) − (μ x − μ y )
∼ t + −2
n1 n2
(n1−1)⋅sx + (n2−1)⋅sx n1 + n2
2 2

n1 + n2 − 2 n1 ⋅ n2

Caso B. dos muestras dependientes. En este caso se define una nueva


variable, llamada D, que se construye como la diferencia entre X e Y, y se
mide en cada unidad experimental.

D=X–Y se tiene una muestra aleatoria de tamaño n de valores di = xi - yi :


2
∑ (di−d)
μˆ d = d = x − y sd =
2

n −1
Hipótesis: Como en le caso de una prueba de una muestra para la media

Estadístico de prueba:

εo = d −s μd ∼ tn−1
d
n

Este es el "estadístico de `t´ para dos muestras pareadas". La prueba se llama


de `t´ para dos muestras pareadas y tiene como supuestos:
Muestra dependientes
Variable D = X – Y sigue una distribución normal con media cero y
varianza desconocida.

95
ANÁLISIS DE FRECUENCIAS

El análisis de frecuencias permite comparar una distribución de frecuencias


observadas (muestra) con una distribución de frecuencias esperadas bajo
alguna hipótesis respecto de la población de la que se extrajo la muestra. El
objetivo es poner a prueba la hipótesis considerada para obtener las
frecuencias esperadas, tomándola como hipótesis nula en una prueba de
hipótesis. La hipótesis planteada se puede referir a alguna distribución en
probabilidades supuesta para la población, a una determinada relación, a una
proporción, etc.

Las hipótesis a estudiar se realizan respecto de la distribución en


probabilidades y no requieren ninguna forma particular de la misma. No se trata
de utilizar la función de distribución sino la distribución en probabilidades; por lo
que la prueba puede aplicarse a variables categóricas. Se estudia la
distribución de frecuencias observadas en la muestra de donde proviene el
nombre de análisis de frecuencias; más comúnmente estas pruebas se
2
conocen con el nombre de pruebas χ (Chi - Cuadrado) de independencia, de
homogeneidad o más generalmente de bondad de ajuste.

Esta es una de las pruebas estadísticas no paramétricas, también llamadas de


distribución libre porque no se supone que, en la población, la distribución de
frecuencias tome alguna forma determinada (por ejemplo la prueba de
hipótesis respecto de las medias en las que se supone distribución normal de la
variable).

En cierto sentido, todas las pruebas de este tipo se reducen a una prueba de
bondad de ajuste puesto que en todos los casos se comparan distribuciones de
frecuencias muestrales (observadas) con teóricas (esperadas).

Pruebas de bondad de ajuste

Esquema general
Sean X1, X2, ....., Xk las k categorías mutuamente excluyentes en que se divide
la variable X. Se toma una muestra aleatoria de tamaño n de la población (o
sea una muestra aleatoria de unidades experimentales) y se determina cuantos
elementos caen en cada una de las categorías definidas; es decir se construye
la distribución de frecuencias observadas. Sean F1obs, F2obs, ...., Fkobs los
elementos de la muestra que caen en las categorías X1, X2, ...., Xk
respectivamente.

Fiobs es la frecuencia muestral (observada) absoluta de la categoría Xi y se


cumple: ∑ Fiobs = n.

Fespi es la la frecuencia esperada para la categoría Xi, bajo alguna hipótesis


(que dará origen a la hipótesis nula) que permita calcular las probabilidades pi
de cada una de las categorías en la población. Se calcula entonces Fiesp = npi y
se cumple: ∑ Fi esp = n.

96
Si la hipótesis nula es verdadera entonces la frecuencia observada se
aproximará a la frecuencia esperada. La distancia entre ambas distribuciones
(la observada y la esperada según la hipótesis nula) tiende a cero a medida
que crece el n.
La diferencia Fi obs – Fi esp mide la desviación de la frecuencia observada
respecto a la frecuencia esperada para el valor Xi de la variable X bajo algún
modelo supuesto. Además
∑ Fiobs - ∑ Fiesp = n – n = 0

Una medida de la magnitud de estas desviaciones es una proporción de la


frecuencia esperada, definida como:
(Fi−F̂i)2
X =
2
∑1k ∼ χq2
F̂i
Donde
Fi es la frecuencia observada para el valor i de la variable y F̂i es la frecuencia
esperada para el valor i de la variable

Supuestos
Como se dijo mas arriba, esta es una prueba no paramétrica o de distribución
libre, de modo que a la variable que se estudia en la población no se le exige
como supuesto, una determinada distribución en probabilidades. Los supuestos
necesarios se pueden pensar como los correspondientes a la distribución
binomial (que se aplica a cada una de las categorías):

Resultados dicotómicos (cae o no cae en la categoría), lo que implica que


las k categorías deben ser mutuamente excluyentes y cubrir todos los
resultados posibles.
Muestreo aleatorio
Independencia entre las unidades experimentales

Además, la prueba debe realizarse bajo las siguientes restricciones:

• n > 50, con n= tamaño de la muestra.


• No se admiten frecuencias esperadas nulas.
• Se acepta a lo sumo un 20% de frecuencias esperadas menores que 5 y en
caso de no cumplirse alguna de estas restricciones se pueden unir
categorías de manera lógica. Las frecuencias correspondientes a esas
nuevas categorías son las sumas de las anteriores (tanto para observadas
como para esperadas).

En este último caso se debe tener cuidado porque los grados de libertad deben
ser mayores o iguales a uno y cada vez que se juntan categorías se van
perdiendo grados de libertad.

Existe otro estadístico de prueba para comparar las frecuencias esperadas con
las observadas que se basa en el cociente de verosimilitud y es el llamado
estadístico G o logaritmo del cociente de verosimilitud, que también sigue una
distribución χ²k - 1.

97
Esta prueba es más utilizada porque da mejores valores y es una mejor
aproximación. Se define como:
K
G = 2∑ Fi ⋅ ln Fi
1 F̂i
Ambas pruebas son equivalentes y dan resultados más o menos parecidos;
además ambas son aproximadas porque se distribuyen aproximadamente
como una χ²k-1; .

APLICACIONES

La forma general que hemos visto tiene diversas aplicaciones específicas,


según el problema de que se trate, aunque se aplique el mismo modelo
general.

Pruebas de bondad de ajuste de una vía

Se las conoce como pruebas de una vía porque las unidades experimentales
se clasifican según un único criterio en varias categorías.

En realidad aunque todas las pruebas χ² son pruebas de bondad de ajuste,


esta designación se utiliza más comúnmente cuando se trata de verificar si la
distribución en probabilidades de una variable aleatoria sigue un determinado
modelo teórico de distribución.

Para resolver el problema se plantean las hipótesis:

H0 : buen ajuste a una determinada distribución


Ha: caso contrario

Una vez calculadas las frecuencias esperadas se obtiene el estadístico que, si


se cumplen los supuestos y restricciones mencionados más arriba, sigue una
distribución χ² con q = k - 1 - m grados de libertad, donde k es el número de
categorías en las que se clasifica la variable aleatoria y m el número de
parámetros que ha sido necesario estimar a partir de la muestra para obtener
las probabilidades esperadas.

La regla de decisión, para ambos estadísticos es:

Ho si X2 > χ q o si p < α
2
se rechaza

Ho si G > χ q o si p < α
2
se rechaza

98
Prueba de una vía de bondad de ajuste a una proporción con dos
categorías

Ejemplo. Se trata de verificar si la probabilidad de aprobar o no el primer


parcial de Biometría en la cursada de 2004 es la misma (p=0,5) .

Las hipótesis se plantean como:

H0: aprobado : no aprobado ≡ 1 : 1


Ha: caso contrario

Tabla de datos:

Condición Fobservada Fesperada Porcentaje observado


Aprobado 186 113 82,30
No aprobado 40 113 17,70
Total 226 226

En la resolucion de los ejemplos, además del valor crítico sacado de tablas, se


dá el p de la prueba, calculado utilizando la computadora.

X2 = 94,185: G = 102,3088 p ≈ 0 < 0,05

χq2=1;0,95 = 3,841

Conclusión: la proporción de aprobados:no aprobados no es 1:1 (P < 0,01 y


mirando las frecuencias observadas, se puede llegar a la conclusión de que el
rechazo de esta hipótesis nula se debe a que la proporción de aprobados es
significativamente mayor a la de no aprobados.

Prueba de bondad de ajuste a una distribución binomial

Ejemplo. Se quiere estudiar la variable X: cantidad de caras en 4 tiradas de


una moneda. Se toma una muestra aleatoria de tamaño 100 (se arrojan 100
veces cuatro monedas y se registra la cantidad de caras) y se quiere estudiar la
veracidad de las siguientes hipótesis:
a) la moneda está equilibrada (o sea p = 0,5), o sea que la variable sigue una
distribución binomial con p =0,5
b) la variable sigue una distribución binomial con el p (proporción de caras)
estimado de la muestra (P = 0,52)

Las correspondientes hipótesis estadísticas serían:

a) H0 : X ~ Bi(0,5 ; 4)
b) Ho : X ~ Bi(0,52 ; 4)

A partir de los valores obtenidos en la muestra se obtiene la distribución de


frecuencias observadas. Y la distribución de frecuencias esperadas se obtiene
calculando las probabilidades bajo cada una de la hipótesis particular :

99
X Fobservada Fesp (Bi(0,5; 4)) Fesp (Bi(0,52; 4))
0 5 P(X=0)100 = 6,25 P(X = 0)100 = 5,23
1 20 25 23
2 44 37,50 37,38
3 24 25 27
4 7 6,25 7,31
∑ 100 100 100

Resultados.
a) q=K-1-m= 5-1-0=4 χ q2= 4;0,95 = 9,488
X² = 2,51 p = 0,777 > 0.05 NS G = 2,53 p = 0,774 NS

c) q=K-1-m= 5-1-1=3 χ 2q= 3;0,95 = 7,816


En este caso m=1 porque la p de la binomial se estimó a partir de la muestra.

X² = 1.93, p = 0,860 > 0,05 NS G = 1,90 p = 0,864 NS

En ambas situaciones la hipótesis nula no fue rechazada. Entonces uno se


preguntaría ¿cuál de las dos probabilidades debe aceptarse como la de
obtener una cara al arrojar la moneda: p = 0,5 ó p = 0,52?. Esta es una
situación muy particular porque las dos hipótesis proponen probabilidades
cercanas y en realidad lo que se acepta en ambos casos es que la moneda
esta mas o menos equilibrada o la prueba no es capaz de detectar las
diferencias en caso de que existan. Esta es una situación donde es apropiado
estudiar la potencia de la prueba realizada.

Corrección por continuidad (Corrección de YATES)

La realización de esta corrección corresponde en el caso de pruebas de una


vía con dos clases (k=2) o pruebas de dos vías con dos filas y dos
columnas(tablas de contingencia de 2 x 2). Las pruebas de dos vías se verán
un poco mas adelante.
Debido a que, se utiliza una distribución continua (χ²) para calcular probabilidad
de ocurrencia de una variable discreta se obtiene un valor p (P(rechazar H0 / es
verdadera) más pequeño que el verdadero, rechazando la hipótesis nula más
veces de lo especificado por el nivel de significación elegido. O sea que este
caso la probabilidad de cometer error de tipo I es mayor que α.
En las pruebas de χ² con un grado de libertad, los valores de X² y G antes
calculados muestran un sesgo (resulta un error de tipo I con un nivel mayor que
el establecido) que puede ser modificado aplicando una corrección de Yates,
que consiste en sumar y restar ½ a las frecuencias observadas de modo de
minimizar el valor de X² o de G. Simplemente se ajustan las frecuencias
observadas para reducir las diferencias entre éstas y las esperadas. Luego se
calculan los estadísticos X²Yates y GYates y sus valores de probabilidad. Esta

100
corrección suele dar pruebas mas conservativas (con una zona de rechazo
menor)
Observar:
P(X2 > X02) < P(X2Yates > X20) mientras que X2Yates < X2

La corrección por continuidad se aplica cuando n es menor que 200. De todas


fomas, cabe destacar que esta corrección produce pocas diferencias entre los
valores de los estadísticos X² y G, aún cuando sea n<200.

Corrección de Williams

Corresponde a pruebas con cualquier número de categorías y n<200. G,


Williams (1976) propone:
G donde h = 1 + k2 − 1
Gw = 6nq
h
con q = grados de libertad, n = tamaño de la muestra y k = cantidad de
categorías.

GW < G, entonces P(GW >G0) > P(G > G0)

Esta corrección tiene por objeto mejorar la aproximación del estadístico a la


distribución χ², asegurando el valor de la probabilidad de cometer error de tipo I
(α ).

Tablas de contingencia (pruebas de bondad de ajuste de dos vías)

Este es el caso en que las unidades experimentales se clasifican según dos


criterios diferentes. Aunque existen la posibilidad de estudiar tablas de
contingencia donde la clasificación se realiza según tres o mas criterios, no
trataremos el tema en este curso.

Para este tipo de diseño existen tres procedimientos de muestreo que


determinan tres modelos diferentes, caracterizados según las frecuencias
totales marginales tomen valores aleatorios (libres) o sean fijados por el
experimentador:

Modelo I: ambos totales marginales libres: Prueba de independencia


Modelo II: un total marginal libre y el otro fijo. Prueba de homogeneidad
Modelo III: ambos totales marginales fijos. Prueba exacta de Fisher

Modelo I: ambos totales marginales aleatorios. Pruebas de independencia

Uno de los usos más frecuentes de las pruebas de χ² es para poner a prueba la
hipótesis nula de que dos criterios de clasificación son independientes cuando
se aplican a las mismas unidades experimentales. Se dice que dos criterios de
clasificación son independientes cuando la distribución de uno de ellos es la
misma sin importar cual sea la del otro.
El esquema general es el siguiente:

101
Sean los criterios A y B con las categorías: A1, ......, Aa para A y B1, ....,
Bb para B, los cuales deben ser mutuamente excluyentes.

Se toma una muestra aleatoria de tamaño n de la población y se cuenta la


cantidad de elementos de la muestra que caen en cada una de las
combinaciones de categorías. Sea Fijo (indicamos como Fij para más
simplicidad) el número de elementos de la muestra en la combinación de las
categorías Ai y Bj., o sea la frecuencia absoluta de la casilla (i, j). Los datos se
disponen en una tabla de doble entrada o Tabla de Contingencia de a x b, de
la siguiente forma:

B1 Bj Bb Totales
A1 F1.

Ai Fij Fi.

Aa Fa.
Totales F.1 F.j F.b F..

Donde Fij es la frecuencia de la casilla o clase (Ai ,Bj) ó (i, j), Fi. y F.j son las
frecuencias o totales marginales calculadas como:
Fi. = ∑ Fij , sumado sobre j = 1, 2, ..., b y representa la cantidad de
elementos de la muestra que están en la categoría Ai .
Fj. = ∑ Fij , sumado sobre i = 1, 2, ..., a y representa la cantidad de
elementos de la muestra que están en la categoría Bj.

Además se cumple:
∑ Fi. = ∑ F.j = ∑ Fij = n

Las hipótesis en una prueba de independencia se indican como:

H0 : los criterios A y B son independientes.


Ha : caso contrario.

Para poner a prueba esta hipótesis, se utilizan los dos mismos estadísticos de
prueba con una distribución aproximada χ2 con grados de libertad (a – 1)*(b –
1):
(Fi−F̂i)2 K
X = ∑1k ∼ χq2 G = 2∑ Fi ⋅ ln Fi
2

F̂i 1 F̂i
y la regla de decisión es la misma que antes:

Ho si X > χ q o si p < α
2 2
se rechaza

Ho si G > χ q o si p < α
2
se rechaza

y los valores p se calculan como:

P(χ2(a - 1)(b – 1) > X20) y P(χ2(a - 1)(b – 1) > G0)

102
Cálculo de lasF̂ij :

La hipótesis nula biológica se expresa, en términos de la distribución en


probabilidades (hipótesis nula estadística):

H0 : Prob(A i ∩ Bj) = Prob(A i ) . Prob(Bj) para todo i,,j.

Entonces, si la hipótesis nula es verdadera, tenemos que la probabilidad en


cada celda de la tabla es igual al producto de las probabilidades marginales:

F̂ij Fi. F. j
=
n n
En tablas de este tipo, los grados de libertad de la distribución Chi cuadrado a
la que se aproxima el estadístico X2 cuando la hipótesis nula es verdadera se
calcula como:
Grados de libertad = (# de filas –1) .(# de columnas –1).

Esto se debe a que los totales marginales deben ser los mismos.

Ejemplo. Una muestra de tamaño 100 de alumnos de Biometría de la cursada


de 2004, se clasifica según el turno de TP al que asistieron y la condición de
haber aprobado o no los TP de la materia:

Turno Aprobado No aprobado Total


Mañana (M) 20 10 30
Tarde (T) 25 15 40
Noche (N) 15 15 30
Total 60 40 100

Interesa estudiar la independencia entre ambas características

Las hipótesis son:

H0: La condición de aprobar es independiente del turno de TP


Ha: Caso contrario

G = 1,5635, GL = 2, p = 0,4576 ; GW = 1,5307, p = 0,4652

Conclusión: no hay evidencias para rechazar la independencia entre la


aprobación del parcial y el turno de TP (P > 0,05).

103
Modelo II: un total marginal fijo y el otro aleatorio. Pruebas de
Homogeneidad

Se toman muestras de igual o distinto tamaño según las categorías de uno de


los criterios (marginal fijo) y luego se clasifican según el otro (marginal aleatorio).
En Biología, el tamaño de un experimento (tamaño de la muestra) está limitado,
a menudo, por la disponibilidad de material vivo, por las dificultades para
cultivarlo, el tiempo disponible para llevar cabo un experimento, el costo de los
reactivos utilizados, etc.
A veces los resultados de varios experimentos similares se agrupan para ser
analizados, es decir se toman como una sola muestra; pero previo a ello hay
que estudiar si el material es homogéneo, es decir si puede suponerse que
proviene de una misma población.
Incluso cuando un experimento o investigación comprende un tamaño grande
de muestra se puede efectuar de una sola vez, si existen dudas respecto de la
uniformidad del material experimental o sobre las condiciones del experimento,
es conveniente disponer de los datos subdivididos en submuestras y ver su
homogeneidad.

La prueba de homogeneidad es matemáticamente igual a la de independencia


pero responde a hipótesis diferentes.

Si la pregunta es: ”¿son independientes dos criterios de clasificación? ” se trata


de una prueba de independencia pero si la pregunta es :”¿las muestra
extraídas pertenecen a poblaciones que son homogéneas con respecto a un
criterio de clasificación?”, entonces se trata de una prueba de homogeneidad.

En la práctica se fija uno de los totales marginales (el correspondiente a la


población que se quiere ver si es homogénea) y el otro se deja librado al azar.

Ejemplo. La siguiente tabla corresponde a la distribución de frecuencias de


una especie de escarabajo (Cicindela fulgida) recogidos en cuarto ambientes
de un bosque y luego clasificados según su color verde: brillante o no brillante.
Se tomaron 50 ejemplares al azar en cada muestreo con los siguientes
resultados:

Estación Verde brillante Verde Opaco Total


Troncos caidos 36 14 50
Arboles vivos 29 21 50
Hojarasca 10 40 50
Claros 25 25 50
Totales 90 110 200

104
Hipótesis de homogeneidad:

H0: Los ambientes del bosque son homogénoas en la distribución de colores.

H1: Los ambientes del bosque no son homogénoas en la distribución de


colores.

Calculando resulta G = 62,5 χ2q;1−α = χ32;0,95 = 7,815 p= 1,71778.10-13

la hipótesis de homogeneidad es rechazada, por lo tanto las estaciones del año


no son homogéneas en la distribución de colores.

Corrección al estadístico de prueba en tablas de rxc

Corrección de Yates

Esta corresponde a las tablas de 2x2, tanto para el estadístico X2 como para el
G. Se procede como en el caso de una vía.

Corrección de Williaams

Para el caso general de r filas y c columnas, Williams propone una corrección


para el estadístico G :

GW = G / c con c = 1 + [[n ∑(1 / Fi.) - 1] [n∑(1 / F.j - 1)]} / 6n(r – 1)(c – 1)

Modelo III: ambos totales marginales fijos.

Este es el modelo menos frecuente.


La resolución de este tipo de problema se realiza mediante la Prueba Exacta
de Fisher que se basa en las probabilidades de una distribución
hipergeométrica (Ver Sokal-Rohlf, Cap. 16 y textos de estadística no
paramétrica). Si bien la prueba corresponde al caso de totales marginales fijos
se suele utilizar cuando el tamaño total de la muestra (N) es pequeño y no se
está en las condiciones de la prueba Chi cuadrado de independencia

Ejemplo1. Se quiere estudiar la preferencia de la larva de gorgojo por dos tipos


de porotos que difieren en el color de la cubierta de la semilla: verde o amarillo.
Se toman 50 semillas de porotos de cada color (marginal fijo). Las semillas se
colocan en un recipiente al que se agregan 70 larvas (suponiendo que en estas
condiciones de densidad no entrará más de una larva por semilla y que cada
larva entrará en una semilla). Después de un tiempo se cuenta el número de
semillas de cada color atacadas.
Las variables son X: color de la semilla e Y ataque.

105
Los dos totales marginales son fijos y quedaría una tabla del tipo:

Atacadas No atacadas Total


Verdes 50
Amarillas 50
Total 70 30 100

H0 : No hay preferencia por el color de la semilla

Ejemplo 2. Se colocan 100 trampas para ratones, 50 trampas impregnadas


con un aroma que se supone atractivo a los ratones y 50 sin impregnar. Se
sueltan 100 ratones, 60 de sp A y 40 de sp B. Se supone que en cada trampa
entra un solo ratón y que todos los ratones entran en alguna trampa. Se
cuenta, al cabo de un tiempo el número de ratones en cada combinación de
trampa y especie
Las variables son : especie de ratón e Y: presencia del aroma
La tabla de datos es la siguiente:

Sp A Sp B Total
Impregnadas 15
Sin impregnar 13
Total 16 12 28

H0 : las especies no tienen preferencia con respecto al aroma.

Ejemplo 3. En un campo experimental se tienen acacias de dos especies


diferentes. Para un experimento con plaguicidas se rocían con hormiguicidas15
árboles de la sp A y 13 de la sp B. Posteriormente se traen 16 colonias
separadas de hormigas de una especie que ataca a las acacias. Las colonias
se sitúan equidistantes a los 28 árboles que forman parte del experimento,
permitiéndoseles la invasión. Se registra la cantidad de árboles de cada
especie de acacia invadidos por las hormigas. Se supone que cada colonia
invade a una sola planta y que todas las colonias invaden. Las variables son X:
sp de acacia e Y: invasión
La tabla resultante es:

Invadidas No invadidas Total


Sp A 15
Sp B 13
Total 16 12 28

H0: las hormigas no tienen preferencia con respecto a la sp de acacia

Prueba de Kolmogorov-Smirnov o de Dmax

Al utilizar para una prueba de bondad de ajuste a una determinada distribución,


como estadístico de prueba el X2 cuando la variable en estudio admite una
relación de orden (o sea se puede construir una Función de Distribución),
particularmente cuando es numérica, se pierde información respecto del orden,

106
resultando una prueba con menor potencia. En este caso se utiliza una medida
de distancia entre distribuciones, conocida como la distancia de Kolmogorov ya
que este autor describió su distribución en el muestreo con la que se construye
el estadístico de prueba.

Esta es una prueba no paramétrica que se utiliza fundamentalmente en el caso


de variables continuas con muestras de tamaño pequeño; también puede
utilizase con variables discretas, como se verá más adelante con un ejemplo.

Comparación de la prueba de K-S con la prueba de χ


2

-La prueba de K-S no requiere que las observaciones sean agrupadas, como
2
en las pruebas de χ . La consecuencia de estad diferencia es que la prueba de
K-S utiliza toda la información presente en el conjunto de datos.
-La prueba de K-S puede utilizarse con muestras de cualquier tamaño.

La prueba centra su atención en la función de distribución (acumulada)


indicada como F(x) = P(X ≤ x).

Si se extrae una muestra aleatoria de una población con función de distribución


F0 (x) desconocida (este es el único supuesto) y se está interesado en poner a
prueba la hipótesis de que esa F(x) es una cierta F0(x) conocida, por ejemplo
una distribución normal, entonces se están planteando las hipótesis:

Ho : F(x) = F0(x) contra Ha: F(x) ≠ F0(x)

Se decide en base a la función de distribución de la muestra, sea S(x). Para


ambas funciones de distribución se toman las frecuencias relativas.

La prueba a utilizar depende del tipo de hipótesis de que dispone:


1) Hipótesis extrínseca: µ y σ² son conocidos: prueba de K – S.
2) Hipótesis intrínseca: µ y σ² no conocidos entonces se estiman con x- y s²:
prueba de Lilliefors (1967).

Para la prueba de Kolmogorov el estadístico de prueba de dos colas es:

sup S( x i) − Fo( x i)
Dmax =
n
donde sup = supremo sobre x y n el tamaño de la muestra. Se rechaza la H0
cuando el Dmax > VC (valor de la tabla de Kolmogorov).

Esquema de cálculo:

X Frecuencia Fre Acumulada Fr ac bajo modelo F0 ⏐S(xx) – F0(xi)⏐

xi Fi S (xi) F 0(xi) D

107
Para la prueba de Lilliefors el estadístico de prueba de dos colas es:

sup S( x i) − So( x i)
Dmax =
n
donde sup = supremo sobre x y n el tamaño de la muestra y S0 (x) es la
distribución de frecuencias acumuladas calculadas con los parámetros
estimados de la muestra. Se rechaza la H0 cuando el Dmax > VC (valor de la
tabla de Lilliefors).

Se puede utilizar una tabla de Kolmogorov cuando los parámetros de la


población no son conocidos con lo que se hace más conservativa. Para
modificar esta situación la diferencia entre la frecuencia esperada y observada,
se calcula de manera diferente. Se dispone de una tabla como la de mas
arriba, pero la diferencia entre la frecuencia acumulada observada y esperada
se toma la mayor diferencia entre:

S( xi) − So( xi) y S( xi−1) − So( xi)

Para mas información ver Sokal y Rohlf, § 17.2.

Prueba χ² de bondad de ajuste versus K – S, en el caso discreto

Ejemplo Supongamos el caso de 10 individuos seleccionados al azar que


eligen entre 5 gamas de un color con los siguientes resultados:

Tonalidad Gama Fobs Fesp


+ claro 1 0 2
2 1 2
3 0 2
4 5 2
+ obscuro 5 4 2

Se quiere poner a prueba la hipótesis de que hay preferencia en la elección de


las gamas del color. Entonces la hipótesis nula a probar es:

H0 : no existe preferencia (o sea se asignan 2 individuos a cada gama)

a) Resolución como prueba χ²:

Como no se cumplen las restricciones de la prueba hay que juntar categorías.


Esto puede realizarse, por ejemplo, de las dos siguientes formas, según como
se defina la tonalidad:

108
a1)
Tonalidad Fobservada Fesperada
Claro (1, 2) 1 4 X² = 2,40 p =0,1213
Obscuro (3, 4, 5) 9 6 X²Y = 1,07 p =0,3117 NS

a2)
Tonalidad Fobservada Fesperada
Claro (1, 2, 3) 1 6 X² = 5,49 p =0,0191
Obscuro (4, 5) 9 4 X²Y =3,52 p =0,0608 NS

b) Resolución con K – S

Gama Fobservada Sobservada Sesp acumulda ⏐D⏐


1 0 0 2 2
2 1 1 4 3
3 0 1 6 5 Dmax
4 4 5 8 3
5 5 10 10 0
Dmax = 0,5 > 0,489 = D10, 0.01 .O sea p < 0,01 (dos colas) para K – S S

Se llega a la conclusión que con la prueba de K-S, en la que no es necesario


juntar categorías se llega a un resultado significativo al 1%, como parece ser el
resultado mas cercano a la realidad al observarse la distribución de
frecuencias.

109
ANALISIS DE VARIANZA DE UN FACTOR

El análisis de la varianza es una técnica muy utilizada en el diseño


experimental, debido a que en investigación científica es muy común que se
quiera comparar mas de dos tratamientos. O sea en aquellos casos donde los
estadísticos para la comparación de dos tratamientos vistos en capítulos
anteriores son insuficientes.

El Análisis de la Varianza (Anova) es un modelo estadístico que permite


comparar varias medias entre si con el objeto de poner a prueba la hipótesis
referente a si dos o más muestras provienen de una misma población (o sea de
poblaciones con una misma media).

La denominación de Análisis de la Varianza se debe a que, para poner a


prueba la hipótesis de igualdad de medias, utilizando las varianzas. Uno de los
objetivos de este capítulo es brindar los conocimientos necesarios para la
comprensión de la relación existente entre la magnitud de las varianzas que
expresan las diferentes fuentes de variabilidad y las medias de las
subpoblaciones involucradas en el experimento.
Por otro lado, se trata de un ANOVA de un factor porque las muestras son
clasificadas según un único criterio.

En ANOVA de un factor, el Factor se corresponde con la fuente de variación


que se desea comparar; los niveles de este factor son, en el caso general,
cada uno de los grupos o tratamientos del mismo tipo.

La manera de ordenar los datos, se puede resumir en la siguiente tabla:

Tratamientos T1 .... Ti
Respuesta y11 yi1
.... ...
y1j yij
.... ...
y1b1 ybi
Tamaño de la muestra b1 bi
Media y 1. y i. Y ..
Varianza s²1 s²i

110
Donde:

∑ y i.
j media del grupo o tratamiento i
y i. =
bi
∑ y ij
ij
Y .. = = ∑ b i y ij media general
∑ bi ij
i

(yij − yi. )2
si2 =∑
(bi − 1)

Notación:
Ti : grupo o tratamiento i con 1 = 1, 2,....., a
bi : tamaño de la muestra del grupo o tratamiento i
yij: respuesta u observación de la unidad experimental j del grupo i, con j
= 1, 2,..., bi
bi = N = número total de observaciones = número total de unidades
experimentales

El método permite poner a prueba hipótesis referidos a los efectos relativos de


los grupos o tratamientos sobre la variable de interés.

Las hipótesis tienen la siguiente forma general:

H0 :los tratamientos no producen efectos diferenciados


Ha : caso contrario

Para resolver esta prueba de hipótesis es necesario construir un modelo


estadístico que describe los resultados en términos probabilísticas.

Modelo estadístico

En el caso de una variable aleatoria medida en una muestra aleatoria, tomada


de una población con media µ, el modelo estadístico describe a la observación
realizada (observación individual) en una unidad experimental como el
resultado de la media poblacional, común a todas las observaciones, más un
error aleatorio:

y=µ+ε

Si se tienen a muestras aleatorias independientes extraídas de una población,


a las que se les aplican distintos tratamientos, se tienen a subpoblaciones y
cada una de ellas puede ser representada de la siguiente manera:

yij = µi + εij

Donde la observación i,j es la j-ésima observación del i-ésimo tratamiento y el


modelo la representa como la media de la subpoblación más el error individual.

111
Además: εij = yij - µi, con i= 1, 2,... , a, j = 1, 2,... , bi

que expresa la desviación del individuo j con respecto de la media (µi) de su


subpoblación.

A su vez la media de cada subpoblación puede ser entendida como el


resultado de la media general µ más el efecto del tratamiento particular
aplicado a la población, que se indica αi.

De esta forma, la población total (cuya media es µ) está subdividida en a


subpoblaciones o grupos independientes con valores medios µi :

µi = µ + αi con i = 1, 2,...., a

Si se tiene en cuenta que de cada una de estas subpoblaciones se extrae una


muestra, cada valor de la variable estudiada (cada observación individual) se
puede expresar descomponiéndola de la siguiente forma:

(1) yij = µ + αi + εij , con i= 1, 2, ., a; j = 1, 2, ... , bi

Donde:

µ = media poblacional (media general)


αi = efecto del tratamiento o grupo i. Es común a todos los miembros de la
subpoblación i y varía de una subpoblación a otra.
εij = término de error. Corresponde a aquella fuente de variación que no se
puede asignar a una causa determinada. Se dice también que esta fuente de
variación es no controlada, varía de una observación a otra y es la
responsable de que dos unidades experimentales sometidas al mismo
tratamiento tengan una respuesta diferente. Además E(εij) = 0

La expresión (1) más las condiciones: αi son constantes y ∑ αi = 0,


constituyen el Modelo lineal de Anova de un factor.

Cuando se planea una experiencia, la forma en que se definen los


tratamientos, se asignan y seleccionan las unidades experimentales a los
distintos tratamientos, se fija el número de observaciones y, en general, se
determina el modelo a utilizar constituye el Diseño Experimental

El modelo se dice de efectos fijos o modelo I cuando la inferencia es válida


sólo para los niveles involucrados (tratamientos), es decir se analiza el efecto
de los tratamientos sobre la población estudiada (los αi son constantes).
Cuando los efectos son aleatorios se denomina modelo de efectos aleatorios
o modelo II (los αi son variables aleatorias) y los niveles (tratamientos) son
seleccionados aleatoriamente de un conjunto mayor.

112
El caso que nos ocupa en este capítulo es el de un ANOVA de un factor de
efectos fijos y por lo tanto interesa comparar el efecto medio de los
tratamientos.

El diseño se dice que es completamente aleatorizado (DCA) debido a que


cada tratamiento es asignado al azar a las unidades experimentales o
viceversa y de cada una de la a subpoblaciones independientes se extrae una
muestra aleatoria de tamaño b

Suposiciones para un modelo de efectos fijos

a) Los a grupos son muestras aleatorias extraídas de sus respectivas


subpoblaciones (se refiere a la población de las unidades experimentales)
b) Las a subpoblaciones son independientes.
c) La respuesta o variable aleatoria que identifica a cada subpoblación está
normalmente distribuída con media µi y varianza σ²i.
d) Las varianzas de las subpoblaciones son iguales. Homogeneidad de las
varianzas.

De estos supuestos se deduce que los errores se distribuyen normalmente y


son independientes.

Planteo de las hipótesis

La hipótesis nula propuesta es la que se refiere a que no existe efecto del


tratamiento (hipótesis biológica), mientras que las hipótesis estadísticas
correspondientes pueden ser de las dos siguientes formas :

H0 : µi = µ para todo i contra Ha: µi ≠ µ para algún i

H0 : αi = 0 para todo i contra Ha: : αi ≠ 0 para algún i

Descomposición de la suma de cuadrados total y construcción del


estadístico de prueba

Para poner a prueba esta hipótesis se debe definir un estadístico de prueba.


Para definirlo es necesario descomponer la suma de cuadrados total, que es
una medida de la variabilidad de las todas las observaciones con respecto a la
media general.
Una medida de la variabilidad de una medición, que ya se ha utilizado
ampliamente en este curso, está dada por su varianza.
El ANOVA, supone que la variabilidad total puede descomponerse en fuentes
de variación parciales y esta es la base de esta prueba estadística, ya que la
comparación de las diferentes fuentes de variabilidad permite tomar una
decisión acerca de la hipótesis planteada.
La idea es identificar las diferentes fuentes de variabilidad involucradas en el
diseño y en este sentido es útil una explicación detallada.

En primer lugar, cabe recordar aquí la forma general de la varianza, tal cual ha
sido definida al principio de este curso:

113
∑ (y − y )
2 2
∑y −ny
2
SC
s =
2 = =
n −1 n −1 GL
Donde
SC: suma de cuadrados
GL: grados de libertad

Utilizando la nomenclatura definida mas arriba:

(
SCtotal = ∑ y ij − y .. )2
ij

Esta suma de cuadrados es una expresión de la variabilidad total y puede


descomponerse en una variabilidad dentro de los grupos, que es la que
expresa la diferencia de la respuesta entre todas las unidades experimentales
sometidas a un mismo tratamiento y una variabilidad de la media entre los
grupos, que es la que depende da la diferencia en la respuesta expresada por
la media de los diferentes tratamientos:

∑ (yij − y.. ) = ∑ (yij − yi. ) + ∑ibi (yi. − y.. ) (**)


2 2 2

ij ij

SCtotal = SCdentro + SCentre

Para construir varianzas es necesario obtener los grados de libertad


correspondientes a cada una de las fuentes de variación. Los grados de
libertad, como se ha definido oportunamente están determinados por la
cantidad de desviaciones independientes o la cantidad de observaciones
independientes en una serie de datos menos el número de parámetros
estimados a partir de la muestra para calcular esas desviaciones.
En ANOVA las varianzas toman el nombre de Cuadrados Medios (CM):

SC
s 2 = CM =
GL

De modo que si las sumas de cuadrados definidas en (**) se dividen por sus
grados de libertad se tendrán cuadrados medios y cada uno de ellos será un
estimador de varianza.
La descomposición en sumandos independientes es válida también para los
grados de libertad:
GLtotal = GLentre + GLdentro
N - 1 = (a - 1) + (N - a)

114
Toda esta información se puede resumir en la siguiente tabla.:

Fuente de variación G de L SC CM

Entre a–1 2
∑ bi y i . − N Y 2 CME = s2E
i

Dentro (error) N–a SCtotal-SCentre CMD = s2D


Total N –1 ∑ y ij − N Y 2
2
ij

El CMD es el llamado error experimental y representa a toda fuente de


variación no controlada por el experimentador. Los distintos diseños
experimentales tienen como objetivo el control del error experimental.

De este modo se han obtenido dos estimadores insesgados de la varianza:

s²E = CME y s²D = CMD

El s²D estima la varianza común dentro de los grupos y varía de grupo en


grupo.
1) El s2E estima la varianza de la media entre los grupos, es decir mide la
variación de las medias entre los grupos

Recordar que las hipótesis estadísticas pueden ser expresada como:

H0: µi = µ para todo i contra Ha : µi ≠ µ para algún i

H0: αi = 0 para todo i contra Ha: αi ≠ 0 para algún i

O sea que se postula que los tratamientos o grupos no producen efectos


diferentes o lo que es lo mismo, que las muestras provienen de una misma
población o de poblaciones con la misma media. Si la Ho es correcta, la
variabilidad dentro y entre grupos no deberían ser diferentes, o sea que vale la
igualdad:
E(s²E) = E(s²D)

Por lo tanto si s²E y s²D son aproximadamente iguales debe suponerse cierta la
hipótesis nula. En otras palabras, las diferencias encontradas entre los efectos
de los tratamientos o grupos son debidas al azar (efecto nulo de tratamiento o
grupo).
Por el contrario si resulta que s²E difiere tanto de s²D que no puede ser
explicado por el azar, la alternativa lógica sería que las µi son realmente
diferentes entre sí, o sea que los tratamientos o grupos producen efectos
diferenciados.
Luego es necesaria una regla de decisión para poner a prueba la hipótesis
planteada, y para ello se necesita definir un estadístico de prueba.

115
Probar que la hipótesis nula es no significativa (NS) es lo mismo que probar
que ambos estimadores de la varianza coinciden. Por lo tanto se define el
estadístico de prueba:
s2
FANOVA = E2
sD
y se rechazará la hipótesis nula si FAnova > VC (valor crítico). Falta por lo tanto
determinar el valor del VC, que estará determinado por la distribución en
probabilidades del cociente de varianzas.

Puede probarse que el estadístico FAnova así definido sigue una distribución ℑ
de Fisher, porque es la razón de dos estimadores independientes de una
misma varianza (por lo tanto es un cociente de variables con distribución χ²), y
que bajo H0 tienen la misma esperanza. Intuitivamente se ve que son
independientes, puesto que están basados en observaciones diferentes: s²E se
basa en los valores medios de los grupos mientras que s²D se basa tan sólo en
las variaciones individuales dentro de los grupos (es decir se mide a partir de la
media de su grupo), cualquiera sea la media del grupo.

Entonces el valor crítico (VC) de la prueba es un percentil de la distribución ℑ


de Fisher con a -1 grados de libertad en el numerador y N - a grados de libertad
en el denominador. Una vez fijado el nivel de significación α, la regla de
decisión resulta:
H0 se rechaza al α% si FAnova > ℑ a -1, N - a, α

La regla de decisión se puede también poner en términos del valor p de la


prueba, que en este caso sería:

p = P(ℑ a - 1, N - a, > FAnova) y se rechaza H0 al α% si p < α.

Intuitivamente es facil observar que la hipótesis de efecto nulo de tratamiento o


grupo tiene mayor probabilidad de ser rechazada cuanto mayor sea el valor del
FAnova; esto responde a valores grandes del numerador del cociente de
varianzas con respecto al denominador, es decir la variación entre las medias
de tratamiento con respecto a la variación dentro.

Algunas consideraciones a tener en cuenta para la obtención de un


diseño experimental adecuado

1) La unidades experimentales deben estar muy bien definidas; es decir debe


estar bien definida la población sobre la que se realizarán las inferencias
(alcance).

2) Elección al azar (Aleatorización): debe asegurarse el proceso de


aleatorización de las muestras extraídas de cada población en estudio. Esto
asegura una medida válida del error experimental.

3) Repeticiones: aseguran la manera de calcular el error experimental, y están


relacionadas con el grado de precisión. Para detectar pequeñas diferencias
deben realizarse muchas repeticiones, en cambio para detectar diferencias

116
más o menos grandes con unas pocas alcanza. Es importante no caer en
seudoréplicas.

Diferentes tipos de repeticiones dan diferentes fuentes de variación:

a) Repeticiones en un mismo objeto (unidad experimental): en esta situación


las lecturas sucesivas dan errores de variación humana, de variación de
aparatos, o ambas.
b) Repeticiones en objetos diferentes: aquí aparecen variaciones por la sencilla
razón de que los objetos no son idénticos.

La variación es un fenómeno fundamental en el material biológico. Deben


considerarse dos tipos de variación:

1) Variación sistemática: se puede explicar

2) Fluctuaciones del azar: se pueden observar y describir mediante


observaciones repetidas bajo determinadas condicione en las cuales se
controlan la variaciones sistemáticas, pero no se pueden explicar

Ejemplo. Se quiere estudiar el efecto de una nueva droga analgésica en


pacientes con neuralgia crónica. Para ello se la compara con el efecto
producido por la aspirina y por un placebo. Se seleccionan 30 pacientes al azar
y se asignan, también al azar, diez a cada droga.
Para medir el efecto de los tratamientos se toma como variable el número de
horas en que el paciente está libre del dolor después del tratamiento.
La siguiente tabla posee datos útiles para los cálculos:

Tratamiento Media Varianza


Placebo 2.5 0.329
Aspirina 2.82 0.332
Droga nueva 3.2 0.260

117
X : número de horas hasta que desaparece el dolor
a=3
bi (ni)= b =10
n = 30
Ho : μ1 = μ2 = μ3 = μ Ho : αi = 0
ó
Ha : μi ≠ μ para algún i = 1,2,3 Ha : αi ≠ 0 F GLentre,GLdentro ,1-α = F
2 ; 27 ; 0,95 = 3,32

Fuente de GL SC CM F VC Valor p
variación

Tratamiento 2 2,456 2,456


= 1,228
2 1,228
=4 3,32 0,03
8,289 0,307
Dentro (error) 27 8,289 = 0,307
27
Total 29 10,745

Como F = 4 > 3,32 se rechaza Ho con α = 0,05

los tres tratamientos actúan en forma diferenciada sobre la


desaparición de la neuralgia

Hasta aquí el resultado del ANOVA, que solo nos dice que las tres drogas
tienen efecto diferente sobre la neuralgia cronica, pero resulta obvio que la
investigación estará completa cuando se puede saber cual o cuales
tratamientos son los que provocan esta diferencia. Esto se verá más adelante
cuando se trate el tema de contrastes y comparaciones múltiples.

Relación entre Anova de un factor con dos niveles (a = 2) y prueba de 't'


para dos muestras independientes

Una de las situaciones mas comunes que se plantean en el curso de una


investigación está relacionada con aquellos casos en los que se tienen dos
tratamientos aplicados a dos muestras independientes. Muchas veces en estos
casos se puede tener la duda acerca de la prueba estadística a aplicar: una
prueba de t para dos muestras independientes o un ANOVA de un factor con
dos niveles?
Aquí se muestra la razón por la que ambas técnicas son adecuadas en este
caso.

Para el Anova con dos niveles resultaría:


Grados de libertad entre = a - 1 = 2 - 1 = 1
Grados de libertad dentro = b1 + b2 - a = N - 2

118
Como se vio cuando se trató el tema de prueba de hipótesis, para la prueba de
‘t’ de dos muestras independientes el estadístico toma la forma:

(x1 - x2) - (μ1 − μ2)


ε= ∼t
(n1 − 1) s12 + (n2 − 1) s22 n1 + n2 n1+n2
n1 + n2 − 2 n1⋅n2

Las dos pruebas (el t y el ANOVA) son equivalentes debido a que el valor del
estadístico t elevado al cuadrado da el valor del estadístico FAnova. En cuanto a
la significación se debe tener en cuenta que vale la relación:
ℑ1, q, α = t²q, α/2

puesto que la prueba de ℑ del Anova es de 1 cola.

Validez de los supuestos del Anova y consecuencias de su violación

(Ver Sokal y Rohlf, cap 13)


El ANOVA es uno de los métodos estadísticos mas utilizados y potentes que
existen, pero para su correcta aplicación es necesario tener en cuenta los
supuestos en los que se basa, procurando que estos se cumplan. A
continuación se detallan cuales son estos supuestos, se tratarán los métodos
para comprobar su validez y por último se estudiarán las consecuencias que
tienen la violación de los mismos sobre el resultado del Anova.

Los supuestos para el Anova de un factor son:

1.- Muestreo aleatorio (aleatoriedad)


2.- Independencia de los errores.
3.- Errores normalmente distribuidos.
4.- Homogeneidad de la varianzas (Homocedacea)

1.- Muestreo aleatorio

El ANOVA requiere que el muestreo de las unidades experimentales sea al


azar. De esto se trata cuando se habla de aleatorización, que en cada diseño
tendrá caracteristicas particulares.
En el caso del DCA de un factor como el que se vio anteriormente, la
aleatorización supone que la asignación de las unidades experimentales a cada
tratamiento debe hacerse al azar. Otra manera de expresar este proceso
azaroso es decir que cada unidad experimental debe tener la misma
probabilidad de ser asignada a cualquiera de los tratamientos comprendidos en
el ANOVA. En el ejemplo de la droga analgésica se tenían 30 pacientes a
distribuir en 3 tratamientos. La idea es que cada uno de los pacientes es
asignado al azar a uno de los tres tratamientos.

119
La falta de aleatoriedad de la muestra puede provocar la falta de normalidad
de la distribución de la variable, la falta de homogeneidad de las varianzas o no
independencia de los errores.

2.- Independencia

Como se vio cuando se dedujo el modelo estadístico del ANOVA, cada


observación es de la forma yij = µ + αi + εij , y el supuesto hecho con respecto
a los errores es que estos se distribuyen normalmente εij ∼ N(0, σ²) y que son
independientes entre si. De esto se trata cuando se habla acerca de la
independencia de los errores.

La independencia de los errores no puede ser comprobada mediante una


prueba estadística, pero puede ser asegurada mediante un correcto proceso de
aleatorización. En el ejemplo de los analgésicos, si los pacientes han sido
elegidos al azar de entre todos los disponibles y no guardan relaciones de
parentesco, etc entre ellos, puede suponerse que la respuesta de un individuo
al tratamiento será independiente de la de otro.

Si no se puede garantizar la independencia, el camino a seguir es buscar un


diseño del experimento que contemple esta característica del muestreo. Por
ejemplo el diseño en bloques al azar (DBA), que se verá mas adelante en este
curso, supera la falta de independencia de los errores, aleatorizando el efecto
de las diferencias de los denominados bloques.

Si los errores no son independientes la validez de la prueba de ℑ del Anova


sobre la significación puede ser errónea.

Observación: Como se deduce de lo antedicho, la independencia y la


aleatoriedad son responsabilidad del investigador y dependen directamente de
la manera en que se realiza el muestreo o se lleva a cabo el experimento y otra
vez, estamos ante el caso en que el criterio del profesional es la unica
herramienta valida y dependerá de cada caso particular. Por eso puede decirse
que el cumplimiento de estos supuestos solamente puede comprobarse por
medios indirectos, no generales y siempre externos al procedimiento
estadístico en si mismo.

3.- Homogeneidad de las varianzas

La homogeneidad de varianzas supone que las varianzas de las


subpoblaciones de las cuales se extraen las muestras son iguales.

Algunas posibles causas de la heterogeneidad de las varianzas podrían ser:


1) Algunas poblaciones son más variables que otras.
2) Algunas especies son relativamente uniformes para un carácter y no lo son
para otro.
3) Puede suceder que algunas de las muestras usadas para el Anova se hayan
tomado en condiciones diferentes a las otras.
4) En algunos casos es haber elegido mal la escala de medición. Con
algunas escalas de medida la varianza varía con la media. De este modo las

120
diferencias entre las medias provocan la heterogeneidad de las varianzas. Tal
es el caso de una población con distribución de Poisson en la que, de hecho, la
varianza es igual a la media y las poblaciones con mayores medias tendrán
mayor varianza. Las desviaciones con respecto a la homogeneidad de
varianzas pueden a menudo ser corregidas con un cambio de escala.

Un chequeo rápido para detectar si las medias y las varianza son


s2 s
independientes es considerar los cocientes o , que no serán
y y
aproximadamente constantes para las muestras y variarán
independientemente.

Las consecuencias de la no homogeneidad de varianza son:

a) Caso en que la no homogeneidad es moderada:


a1) no es muy grave para el Anova
a2) es grave para las comparaciones, sobre todo de a pares.
a3) no es de preocuparse si el diseño es balanceado

b) Caso en que son marcadamente no homogéneas


Cuando esto sucede y no hay forma de remediarlo, cabe la posibilidad de
comparar las medias con pruebas aproximadas (por ejemplo la aproximación
de Games y Howell a la prueba de 't' para dos muestras independientes, Sokal
y Rohlf, pag 401), siempre que se cumpla el supuesto de normalidad, o utilizar
alguna prueba no paramétrica.

4.- Normalidad

Lo que se supone es la normalidad de los errores, es decir εij ∼ N(0, σ²).


La violación del supuesto de distribución normal no es muy grave, salvo en el
caso de una distribución de los errores muy asimétrica que tendría un efecto
muy marcado sobre el nivel de significación de la prueba de Fisher o sobre la
potencia.
La mejor forma de corregir la falta de normalidad es realizar alguna
transformación a los datos, cuando esto sea posible.

Comprobación de los supuestos del Anova

Aleatoriedad e independencia

De todo lo expuesto se deduce que para la no violación de los supuestos debe


ponerse mucho cuidado en el diseño experimental seleccionado y por lo tanto
en la extracción de la muestra.

Hay pruebas no paramétricas para probar la aleatoriedad de una muestra: son


las pruebas de rachas. En Zar (Capítulo 24, §24.6 y §24.7) se da una prueba
para probar la aleatoriedad de una muestra correspondiente a una variable
continua y a de una muestra de una variable discreta.

121
También hay pruebas de rachas para el caso de dos muestras independientes
y de dos muestras dependientes. Pero la mejor forma de garantizar la
aleatoriedad sigue siendo mediante un muestreo correctamente diseñado y
cuidadosamente ejecutado.

Normalidad
(Ver Sokal y Rolhf §17.2).

1-Métodos gráficos

Q-Q plot

Este es un método gráfico utilizado para evaluar el ajuste a una distribución en


probabilidades teórica (la normal inclusive) y aunque no llevan a cabo una
prueba de hipótesis para la bondad de ajuste, son muy utilizados.

El siguiente es un ejemplo de un gráfico Q-Q plot normal aplicado a una


muestra con distribución aproximadamente normal (programa INFOSTAT)

Los gráficos Q-Q plot, representan la correlación entre los cuantiles observados
en la muestra versus los cuantiles de la distribución teórica seleccionada. En
nuestro caso, la distribución Normal (eje X ) cuyos parámetros se estiman a
partir de la muestra.
La idea es que si la muestra proviene de una distribución normal, entonces los
puntos muestrales deberían estar sobre una recta.
Existen otros métodos gráficos para la evaluación de la normalidad, pero solo
se muestra el Q-Q plot a manera de ejemplo por ser uno de los mas utilizados.
Por otro lado, en este curso se hará mas hincapié en los métodos analíticos.

2.- Métodos analíticos

Existen varias pruebas para comprobar normalidad de una serie de datos.


Entre las mas comunes puede citarse la prueba de χ² de bondad de ajuste, la
prueba de Kolmogorov-Smirnov para aquellos casos en que la media y
varianza poblacional son conocidas (hipótesis extrínseca) o la de Lilliefors, que

122
se utiliza cuando la media y varianza son estimados a partir de la muestra
(hipótesis intrínseca).
A continuación se da un ejemplo utilizando el programa estadístico Biom, pero
las consideraciones son perfectamente generales.
----- BIOMstat 3.2c: Date 19/08/2004, Time 11:13:00 -----
Basic statistics. Data file: BASTAT1.DTA
Title: Aphid stem mother femur length data (BOX 2.1)
Total number of records in file: 25
Variable: FemLen
Alpha: 0.05000
Total sample size = 25

Results:
Statistic Stand. error Confidence limits
(95.00%)
Mean 4.0120000000 0.0717216843 3.8405213413 4.1834786587
Median 3.9000000000 0.0898887869 3.6850857971 4.1149142029
Min 3.3000000000
Max 4.7000000000
Range 1.4000000000
Var. 0.1286000000
s 0.3586084215
V (%) 8.9383953525 1.3004130021 5.8292508942 12.0475398107
g_1 -0.0355051234 0.4636835008 -0.9445079015 0.8734976546
g_2 -0.8246635597 0.9017205463 -2.5923919351 0.9430648156

g1 = coeficiente de asimetría g2 = coeficiente de curtosis

Kolmogorov-Smirnov statistic
Test fit to normal distribution using estimated parameters.

Dmax = 0.14904
Dallal & Wilkinson (1986) approximation to Lilliefors test: P > 0.1

Khamis delta-corrected statistics:


D_0 = 0.13520, D_1 = 0.16427
g_0 = 0.13520, g_1 = 0.12260, 0.05<P<=0.1. obtienen 0,05 < p < 0,10

El párrafo recuadrado contiene el resultado de la prueba. Dmax (desviación


máxima) es el estadístico de la prueba, que se compara con un valor critico de
la prueba de Lilliefors de una tabla ad hoc.
La hipótesis nula considerada supone que la distribución es normal, por lo tanto
en este caso al no rechazarse esta hipótesis (p>0.1) se da por comprobada la
normalidad.
Mas abajo, con el título Khamis delta-corrected statistics se da la probabilidad
correspondiente a otra prueba para estudiar la normalidad, que también usa la
tabla de Lilliefors y cuyo resultado es 0,05 < p < 0,10.

123
Estudio de la asimetría y kurtosis
Como se dijo mas arriba, la violación del supuesto de distribución normal no es
muy grave, salvo en el caso de una distribución de los errores muy asimétrica.
Por esta razón, es interesante evaluar la simetría mediante los coeficientes de
asimetría (γ1, estimado por g1) y kurtosis (γ2 estimado por g2). En el caso de una
distribucón normal, estos dos coeficientes son nulos. Una manera de estudiar
estos coeficientes es analizando el intervalo de confianza del 95 % para ellos.
En la salida del BIOMstat dada mas arriba se puede estudiar la significación de
esta prueba (en negrita).

Toma de decisiones en el proceso de prueba del supuesto de normalidad

Hay que tener en cuenta que el resultado de estas pruebas se ve afectado por
el tamaño de las muestras: cuanto mayor el tamaño de muestra, mayor la
potencia de la prueba y por lo tanto mas probabilidad de rechazar la hipótesis
nula (que es lo que determina que lleguemos a la conclusión de que el
supuesto no se cumple). Por otro lado, cuando la muestra es pequeña, la baja
potencia de la prueba hace que sea muy difícil rechazar la hipótesis nula,
incluso en aquellos casos en que la distribución es claramente no-normal. La
manera de encarar estas situaciones es la siguiente:
a) Cuando los tamaños de las muestras son muy pequeños conviene trabajar
( )
con los desvíos y ij − y i. y probar el ajuste a una distribución normal de media
cero, tomando todas las observaciones como una gran muestra.
b) Cuando no se tenga evidencia para decir que la distribución es normal, es
conviente analizar los coeficientes de asimetría y kurtosis. Máxime teniendo en
cuenta que estas pruebas son paramétricas y por lo tanto de mayor potencia
que las de bondad de ajuste.
c) Cuando el tamaño de las muestras es grande, se supone que se esta bajo la
validez del Teorema Central del Límite para la distribución de la media, siempre
que no se presente, por ejemplo, una distribución polimodal y por lo tanto no es
necesario poner a prueba la normalidad.

Homogeneidad de varianzas

También para la comprobación de este supuesto existen varias pruebas;


algunas de ellas son la de Bartlett, la de Sheffé-Box y la de Levene.

Prueba de Bartlett

Esta prueba indica hasta que punto se puede suponer que las varianzas de las
subpoblaciones, σ²i, son iguales cuando las varianzas muestrales s²i son
aparentemente diferentes.
La varianza de las s²i es mucho mayor que la varianza de la varianza media.
Esto es como considerar la variable aleatoria s² que toma valores s²i, con
2 Vars i2
media s , entonces Var s 2 = < Vars i2 , para un conjunto de a muestras.
a
Los valores aparentemente diferentes de las s²i pueden no ser
significativamente diferentes si se consideran sus grandes varianzas
muestrales. Bartlett ha desarrollado una prueba de χ² para la homogeneidad de

124
varianzas basada en el cociente de máxima verosimilitud cuyo estadístico de
prueba es

s2
X2 = ∑ (bi − 1) ln
si2

s2
X = ∑ (bi − 1)ln
2
= (N − a) ln s2 − ∑ (bi − 1) ln si2
si2

donde N es el tamaño total de la muestra, a es el número de muestras, bi en


tamaño del grupo i, y s² es el CM del error, o sea el estimador conjunto de la
varianza:

2 ∑ (bi − 1) si2
s = CMerror =
N−a

Si se tiene en cuenta esta expresión no es necesario realizar el Anova para


obtener el valor del CMerror.
El estadístico X² sigue aproximadamente una distribución Chi-Cuadrado con a -
1 grados de libertad y la hipótesis nula de homogeneidad de varianzas se
rechaza si X² > χ²a -1, α.

Debido a que el valor de Chi-cuadrado calculado para la prueba de Bartlett es


ligeramente mayor que el verdadero, podría suceder que el valor del X² quede
por encima del valor crítico; entonces se corrige el valor de X² corregido, que
queda definido como:
2
X 1 1 1
Xc2 = con c= ⋅∑ −
1+ c 3(a − 1) bi N − a
La consecuencia de realizar esta corrección es que el valor del estadístico que
se obtiene es menor, con lo cual existen meno probabilidades de rechazar la
hipótesis nula. En estos casos se dice que la prueba es mas conservativa.

Una de las características de la prueba de Bartlett es su sensibilidad a la falta


de normalidad. Debido a esto, un valor de X² alto puede, en realidad, indicar
más que heterogeneidad de varianzas falta de normalidad de la población
estadística.
Existen otras pruebas menos sensibles a la falta de normalidad. Pero la
prueba de Barlett es la más potente de todas ellas. Por esto, sigue siendo
conveniente su uso.

125
Ejemplo utilizando el programa estadístico Biom:

----- BIOMstat 3.2c: Date 16/05/2006, Time 13:37:30 -----

Data file: HOMOV.DTA


Title: Hyopsodus data (Box 13.2)
Total number of records in file: 8
Samples defined by: Sample
Input records are summary statistics
Sample sizes: n
Variances: Var
alpha: 0.05000

Variances sorted from low to high


Sample Code n_i Variance
3 3 17 0.0237
1 1 18 0.0707
7 7 10 0.0791
4 4 16 0.0836
2 2 13 0.1447
6 6 11 0.1770
5 5 8 0.2189
8 8 10 0.2331

MS(Within) = 0.1125 with 95 degrees of freedom

Fmax test
Fmax = 9.8354 with parameters 8 and 9, 0.01<P<=0.05

Bartlett's test:
X^2 = 21.6367, df = 7
c = 1.034566
X^2c = 20.9138, P = 0.0039

---------------

El párrafo recuadrado contiene el resultado de la prueba.


Se da el valor del estadístico X2, el valor del factor de corrección C y el del
estadístico corregido.
La hipótesis nula considerada supone que las varianzas son iguales, por lo
tanto en este caso al rechazarse esta hipótesis (p=0.0039) se concluye que no
se cumple el supuesto de homocedacea.

Prueba de Levene

Ver: Levene, H. “Robust Tests for Equality of Variances”. in Contributions to


Probability y Statistics. OLKIN et al (eds). 1960: Essay in Honor of H. Hotelling.
Palo Alto, California: Stanford university Press, 1960: p 278 - 292

Consiste en realizar un Anova de un factor con los valores absolutos de las


desviaciones de las observaciones de cada grupo respecto de su media. Con
esto se pone a prueba la hipótesis Ho: µ = 0 y σ² común a todos los grupos.
Pero no se prueba que la variable sigue una distribución normal.

Cuando la distribución se aleja de la normalidad los desvíos se realizan con


respecto a la mediana y se trasforma en una prueba no paramétrica.

126
Transformación de datos

(Ver: Sokal y Rohlf, cap 13; Zar, cap 14)

Cuando algún supuesto del ANOVA no se cumple se indica la búsqueda de


alguna transformación para la variable, que consiste en un cambio en la escala
de medición y en última instancia, si no es posible cumplir con los supuestos
del ANOVA, se puede utilizar la prueba no paramétrica equivalente, de ser
posible
Para un ANOVA de un factor cada observación es de la forma:

yij = µ + αi + εij

es decir se trata de un modelo donde las componentes son aditivas, sus


efectos se suman.
Para una situación en que los efectos fueran multiplicativos, cada observación
tomaría de la forma:
yij = µ αi εij

y en ese caso se estarían violando los supuestos de normalidad y de


homogeneidad de varianzas. Esta situación puede ser corregida rápidamente
utilizando una escala logarítmica en lugar de una lineal:

log yij = log µ + log αy + log εij

con lo cual resulta un modelo aditivo y homocedástico.

La transformación de la variable no debe ser interpretada como una


modificación que fuerza los datos para poder cumplir los supuestos y así ser
tratados utilizando un Anova, es sólo que la escala lineal no es la única escala
de medida existente, y que no hay una preferencia marcada por usar un tipo de
escala u otro. Si se buscan efectos aditivos y no se consiguen en escala lineal,
porque con ella son multiplicativos, se debe buscar la escala de medida que
más convenga; ésta puede ser la logarítmica u alguna otra.

La raíz cuadrada de la superficie es, a menudo, una medida biológica más


apropiada que la superficie misma, ya que sigue una distribución normal
mientras que la distribución de áreas es asimétrica.

Las mediciones de pH son logaritmos, las series de una dilución en los análisis
volumétricos se expresan como la inversa de la observación registrada.

Una ventaja de la transformación de datos es que algunas veces una sola de


ellas subsana varias violaciones de los supuestos del Anova, por ejemplo:
lograr homogeneidad de varianzas y normalidad con la misma transformación.

Cuando se aplica una transformación, las pruebas de significación se realizan


sobre los datos transformados. Para volver a los datos originales, los valores
de las medias de los tratamientos y el error estándar deben ser calculados en
los valores originales, mientras que los límites de los intervalos de confianza

127
pueden ser obtenidos destransformando los límites del intervalo de confianza
de los datos transformados. Estos intervalos serán no simétricos.

Transformación logarítmica

Es la más común de las transformaciones y consiste en definir x' = logx, x'= lnx,
x'= log(x + 0.5), etc. Se aplica cuando la media está correlacionada
positivamente con la varianza; o cuando la distribución es marcadamente
asimétrica con la cola pesada a la derecha (g1 > 0).

Transformación raíz cuadrada

Cuando los datos son de conteo (discretos) frecuentemente se utiliza la


transformación raíz cuadrada: x, = x ; generalmente se aplica a variables que
siguen una distribución de Poisson, más que una distribución normal, donde la
media es igual a la varianza. La raíz cuadrada hace que la media se
independice de la varianza.
Cuando algunos datos son nulos se puede considerar: x, = x + 0,5

Transformación arcoseno

Llamada también transformación angular, se utiliza para datos de porcentaje o


de proporciones. En una distribución de proporciones las medias y las
varianzas no son independientes porque:
μq
μ=p y σ=
n
La transformación angular elimina esta dependencia. Cuando p es una
p
proporción se utiliza x, = arcsen p y cuando es un porcentaje x, = arcsen
100
El efecto de esta transformación es hacer “mas pesadas” las colas de la
distribución de porcentajes o proporciones y comprimir el centro.

Cuando los porcentajes se transforman en ángulos la distribución se aproxima


a una normal con σ² = 180²/4π²n = 820,8/n, donde nes el número total de
observaciones. Cuando los ángulos se miden en radianes la varianza es 1/4n.

Cuando los porcentajes en los datos originales se extienden entre el 30 y el


70%, generalmente no es necesario aplicar la transformación angular.

Transformación recíproca

En el caso en que la varianza crece como la cuarta potencia de la media


1
conviene considerarx, = , y valen los comentarios anteriores.
x
Transformación Box-Cox

Da una metodología para seleccionar la mejor transformación a los fines de


obtener normalidad y homogeneidad de varianzas. Se utiliza como
transformaciones una familia de potencias. El proceso para estimar la potencia
es iterativo, por lo tanto de necesita de un programa estadístico que lo tenga
incorporado.

128
Pata detalles consultar Sokal y Rohlf § 13.9,

A veces se puede utilizar el valor de el coeficiente simetría como guía para


ensayar transformaciones para conseguir la normalidad. La siguiente es una
regla sencilla que puede dar buenos resultados:

Valor de g1 Transformación recomendada


1 1
> 0 (asimetría hacia la derecha) x, = x, = lg x x, = x, = x x, = ln x
x x

< 0 (asimetría hacia la izquierda) x², x3, .....

Introducción a los métodos de contrastes o comparaciones

Toothaker, (1993). Sokal y Rolh §9.6 y §9.7. Steel y Torrie, Cap. 8. Zar, cap
11. Kuehl, cap 3.

Introducción

Generalmente la hipótesis general de ANOVA debe ser complementada con


hipótesis parciales, para producir una conclusión que permita determinar cual o
cuales tratamientos son los que difieren de los demás.
Hay dos situaciones que se pueden presentar:

a) Una vez realizado un Anova y resulta significativo, interesaría conocer la


causa de tal significación. Es decir que tratamientos o conjuntos de
tratamientos son los causantes del rechazo de la hipótesis general del
ANOVA.
b) Responder a las mismas preguntas del punto a), independientemente de la
significación del ANOVA, en este caso estas hipótesis fueron planeadas con
la experiencia. Por ejemplo seleccionar el tratamiento óptimo en el caso de
las tres drogas o contestar las preguntas que fueron planteadas.

En todos los casos se plantearían hipótesis nulas del tipo:

H0 : µ1 = µ2 ó H0 : [µ1 + µ2] = 2µ3, etc.

Las hipótesis que son independientes del resultado del experimento y por lo
tanto son planificadas e incluidas en el planteo general del problema se
denominan "comparaciones a priori o planeadas"; por el contrario aquellas
sugeridas por los resultados del experimento y por el ANOVA son las
"comparaciones a posteriori o no planeadas". Las pruebas de significación
apropiadas en cada caso son diferentes y la zona de rechazo para las hipótesis
planeadas son mayores que para las no planeadas. En otras palabras, las
pruebas no planeadas son mas conservativas que las planeadas.

En general es posible tratar hipótesis que puedan expresarse por medio de


funciones lineales de la forma:
f = ∑ ci μi con ci constantes

129
A partir de los datos obtenidos es siempre posible estimar el valor de f, por esta
razón se las llama funciones estimables.

Definición: Se define como contraste a una función lineal estimable de la forma

fi = ∑ ci μi , con los ci constantes y tales que ∑ ci = 0.

Las hipótesis nulas, correspondientes a los distintos contrastes son del tipo: Hoi : fi
=0

Estas funciones se estiman con las medias muestrales : f̂ = ∑ ci ⋅ yi

En el ejemplo de los pacientes con neuralgia supongamos que nos interesa poner a
prueba las siguientes hipótesis:

aspirina y placebo vs nueva droga

μ1 + μ2 μ1 + μ2 μ1 + μ2
Ho : = μ3 Ho : − μ3 = 0 Ha : − μ3 ≠ 0
2 2 2
placebo vs aspirina

Ho : μ1 = μ2 Ho : μ1 − μ2 = 0 Ha : μ1 − μ2 ≠ 0

y los contrastes tienen la forma:

μ1 + μ2 1 1
f1 = − μ3 c1 = c2 = c 3 = −1
2 2 2

f 2 = μ1 − μ2 c1 = 1 c 2 = −1 c3 = 0

Contrastes ortogonales

Definición: Dos contrastes sean f y g, se dicen ortogonales sii:

f = ∑ ci μi g = ∑ dj μj con ∑ ci = ∑ dj = ∑ ci dj = 0

La última sumatoria se refiere al producto escalar de los dos vectores formados por
los valores de las constantes de cada uno de los contrastes. El producto escalar nulo
indica que los vectores que definen los contrastes son perpendiculares
(ortogonales).

Continuando con el ejemplo de los analgésicos, donde la cantidad de tratamientos


es a=3, pueden realizarse 2 contrastes como máximo.

130
En primer lugar debe probarse la ortogonalidad:

C1 C2 C3 ∑
1 1 −1 0
2 2
1 −1 0 0
⎛ 1⎞
⎜ ⎟
⎝2⎠
+ ⎛ 1⎞
⎜− ⎟
⎝ 2⎠
+ 0 =0

Como el producto escalar es nulo, entonces se dice que los contrastes son
ortogonales.

Comparación de dos medias

Cuando se comparan dos medias, por medio de un método de contrastes,


cada una de las comparaciones se denomina Contraste o comparación, pero a
veces, para esclarecer los resultados de un experimento es necesario realizar
mas de una comparación. En este caso se denominan contrastes o
comparaciones múltiples y existen varios métodos para llevarlos a cabo.

Comparaciones múltiples vs pruebas de t

Una de las maneras erróneas mas frecuentes de abordar la resolución de


comparaciones múltiples es hacerlo por medio de la realización de tantas
pruebas de t para dos muestras independientes como pares de medias se
quieran comparar.
La razón por la cual este procedimiento es debido a que cuando se realizan
comparaciones es importante mantener el error global o tasa de error
experimental .

Hay dos tipos básicos de control de la tasa de error experimental: controlarla


para cada comparación o controlarla para un grupo de comparaciones.

Notación:
α = nivel de significación del Anova.
αC = nivel de significación de cada contraste o comparación.
α‘= tasa de error experimental.

α‘ : tasa de error experimental es la probabilidad de cometer al menos un error


de Tipo I en el grupo total (o familia) de comparaciones en el experimento.

Básicamente el control de la tasa de error experimental consiste en seleccionar


el valor de αc que debe ser asignado a cada contraste o comparación de modo
que α‘ no supere a α. Con esto se obtiene una prueba exacta en el caso de
comparaciones independientes y conservativa cuando no lo son

131
Sin embargo, dependiendo del método que sea utilizado, puede resultar: α‘ =
α, α‘ > α ó α‘ < α

En el caso de querer comparar la efectividad de a tratamientos independientes, la


pregunta clave es: ¿cuales serían las consecuencias de compararlos de a pares?.
Para compararlos de a pares se podría, por ejemplo, utilizar una prueba de ‘t’ para
dos muestras independientes para todos y cada uno de los pares posibles de
muestras.

Si por ejemplo a = 5; luego se pueden realizar 10 pruebas (son las combinaciones


de 5 elementos tomados de a dos).
Veamos con este ejemplo que si se realizan las 10 pruebas de `t` se aumenta
considerablemente la probabilidad de cometer al menos un error de tipo I, o sea se
aumenta el α.

0,05 = P(equivocarse en la H0i) = P(cometer error de tipo I en la H0i) =


= máx P(rechazar la H0i / H0i es V)

Luego:
0,95 = P(no equivocarse en la H0i) = P(no rechazar H0i / H0i es V) =
= 1 – P(rechazar H0i / H0i es V)

Esto es para cada una de las 10 pruebas que suponemos independientes.


Entonces para i = 1, 2, ..., 10:
P(no rechazar H0i ∀ i / H0i es V) = ∏i=110 P(no rechazar H0i / H0i es V) =
= 0,9510 = 0,5987

Entonces: 0,4013 = P(equivocarse en al menos una de las H0i ) =


= P(cometer al menos un Error de Tipo I) = α´.

Por lo tanto la probabilidad de cometer al menos un error de tipo I es del 40% y


no del 5%. Entonces tasa de error experimental sería del 40% y no del 5%
como se pretendía.
Claramente el proceso utilizado agrandó el α´. Notar que en el caso de los
contrastes no planeados si, por ejemplo, se seleccionan la mayor y la menor de las
medias de tratamientos obtenidas se está tomando en cuenta la información de
todas las comparaciones posibles, por lo tanto no es válido utilizar el mismo
estadístico de prueba que si la comparación a realizar se hubiera decidido sobre la
base de información externa al experimento realizado.
Las distintas técnicas de comparaciones y/o contrastes múltiples controlan el
error global o tasa de error experimental y lo hacen de diferentes formas.

La condición de planeado o no planeado de un contraste no puede determinarse


por métodos estadísticos, corresponde al experimentador determinarlo.

Se Verán algunos de los muchos métodos que existen

132
Métodos para contrastes planeados

Contrastes ortogonales

Restricciones:
1. El máximo número de contrastes ortogonales que se pueden realizar es igual al
número de grados de libertad entre.
2. Para poder atribuirle a cada contraste una suma de cuadrados y utilizarla para
construir un estadístico de prueba, es necesario que el diseño sea balanceado.

Para estudiar la significación de los contrastes ortogonales se debe definir algún


estadístico de prueba y su distribución en probabilidades. La idea es realizar una
descomposición de la SCentre del Anova (que mide la variabilidad entre las medias
de los tratamientos) en sumandos independientes y ortogonales; y cada uno de ellos
con un grado de libertad. En el ejemplo propuesto la SCentre se descompondría en:

SCentre = SCentre 1,2,3 + SCentre 1, 2 = SC f1 + SC f2

2

Donde SCf i = i 2 , para todo i = 1, 2, ..., a - 1
c
∑ i
b

Entonces la tabla de Anova queda descompuesta como:

F. de variación GL SC CM F
Entre (a – 1)

2

f1 1 SCf 1 = 1 2 SCf1 SCf 1
c CMerror
∑ 1
b
2

f2 1 SCf 2 = 2 2 SCf2 SCf 2
c CMerror
∑ 2
b
Dentro (error) N–a

Las hipótesis propuestas en el ejemplo de los pacientes con neuralgia son dos
contrastes ortogonales: (1) nueva droga contra aspirina y placebo y (2) placebo
contra aspirina. Las hipótesis son las planteadas en (***). Resolviendo resulta:

⎛1 ⎞ ⎛1 ⎞ −0,542 ⋅ 10
f̂ 1 = ⎜ ⋅ 2,5 ⎟ + ⎜ ⋅ 2,82 ⎟ + (− 1⋅ 3,2) = −0,54 SC1 = 2 2
= 1,94
⎝2 ⎠ ⎝2 ⎠ ⎛ 1⎞ ⎛ 1⎞
⎜ ⎟ + ⎜ ⎟ + (−1)
2
⎝ 2⎠ ⎝ 2⎠

133
−0,322 ⋅ 10
f̂ 2 = (1⋅ 2,5 ) + (− 1⋅ 2,82) + (0 ⋅ 3,2) = −0,32 SC2 = 2 = 0,51
1 + (−1) + 0
2 2

F. de variación GL SC CM F Valor p
Entre drogas 2 2,456 1,2280 4 0,003
f1 1 1,944 1,9440 6,3322 0,0181
f2 1 0,5120 0,5120 1,6677 0,2075
Dentro (error) 27 0,3070

Conclusión: No se encuentran diferencias significativas entre el placebo y la


aspirina (P > 0,05) pero si entre la nueva droga y el promedio de las otras dos (P<
0,05).

No siempre los contrastes ortogonales contestan las preguntas de los


investigadores. Algunas veces interesan las comparaciones de pares de medias o
algún contraste en particular. Por otra parte se podría tratar de un diseño no
balanceado.

Método de Bonferroni (Planeado)

Con el objeto de mantener el nivel de significación global (error experimental), este


método define m = cantidad de contrastes a realizar y se toma como nivel de
significación para cada contraste αc = α /m (para una cola y αc / 2m para dos
colas).

El estadístico de prueba tiene la forma:



ε=
2
con ci
ES( f̂ ) = CMerror ⋅ ∑
ES( f̂ ) bi

ES( f̂ ) = error estándar del estimador del contraste, bi = tamaño del tratamiento i

El valor crítico corresponde a un percentil de la distribución ‘t’ de Student y sus


grados de libertad son los del error experimental:

VC = t αc / m, N – a para una cola


VC = t αc/ 2m, N – a para dos colas

Este valor generalmente no se encuentra en tabla, pero se puede obtener con


cualquier programa estadístico o planilla de cálculo(*), pero en el caso hipotético
de disponer solamente de tablas estadísticas, se puede utilizar la aproximación
normal:

(*) Por ejemplo si se utilizan las funciones dadas por el programa Excel, entrando por
distribución ‘t’ inversa, este da el valor crítico mayor para 2 colas. Si por ejemplo se
quiere calcular el valor de t para α = 0,05 y m =2, se debe entrar por 0,025.

tα , ν = zα + [zα3 + zα ] / 4ν , donde ν = grados de libertad del error.

134
Se debe tener en cuenta que, debido a la modificación del valor critico con la
cantidad de contrastes, el método de Bonferroni es aconsejado cuando se realizan
pocos contrastes, generalmente no mas de dos.

Ejemplo: Se quiere comparar la eficiencia de tres dietas, A, B y C, en ratones. Se


dispones de 24 ejemplares, los que se asignan al azar a las dietas de modo de
obtener un diseño balanceado. Se registra el aumento de peso, en gramos, al cabo
de cinco días de dieta, con los siguientes resultados:

Dietas Media Varianza


A 33 18 CMerror = 16,73 , GL = 21
B 39,70 14,90
C 44 17,30 FAnova = 14, 69
promedio 38,90 16,73

Se plantean las hipótesis planteadas con la experiencia son: (1) el aumento de


peso de los ratones alimentados con la dieta C no difiere de las otras dos y (2) los
aumentos de peso producidos por las dietas A y B no dieren entre si.

m= 2, t 21, 0.05/4 = t 21, 0.9875 = 2,414


ε1 = 3,239 > 2,414 ε2 = 0,8174 < 2,414
*El aumento de peso de los ratores alimentados con la dieta C es signigicativamente
diferente al de los alimentados con las otras dos dietas
*El aumento de peso de los ratones alimentados con la dieta A no difiere del de los
alimentados con la dieta B

Métodos para contrastes no planeados

Método de Scheffé (de intervalos simultáneos)

El estadístico de prueba tiene la misma forma que el de Bonferroni:


ε= con ES( f̂ ) = CMerror ⋅ ∑
ci2
ES( f̂ ) bi

Se compara con VC = (a − 1) F a−1,N−a

En el ejemplo de las dietas mirando los datos se puede querer comparar las dietas A
y C debido a que sus medias son las mas diferentes. Entonces:

como ε = 1,34 < VC = 2 ⋅ 4,26 = 2,92 no se rechaza la Ho al 5% (p>0,05)

135
Método de comparaciones múltiples de Tukey: (no planeado)

Este método sirve para comparar todos los pares posibles de medias. Tiene como
restricción que el diseño debe ser balanceado, pero es el más potente de todos los
métodos no planeados y de hecho su nivel de significación coincide con el del
Anova. Es una prueba de dos colas y debido a que es muy utilizado forma parte de
la mayoría de los paquetes estadísticos. Se basa en la distribución de los rangos
estudientizados, o sea en la distribución de ymáximo - ymínimo.
ymáximo − ymínimo
Se define: q=
ES(y )
Esta distribución tiene su propia tabla que en general da las probabilidades para
pruebas de una cola, como la que se usa en este curso.
Para tomar una decisión acerca de la diferencia entre dos medias cualquiera, se
compara esa diferencia con un estadístico denominado Mínima Diferencia
Significativa (MDS):
MDS = qα (a,GLerror ) ⋅ s y
Donde:

a = cantidad de tratamientos
CMerror
sy = = desvío estándar de la media = error estándar
b
b = tamaño común de los grupos
qα(a, GLerror) = valor crítico (tabla de Tukey)
MDS = mínima diferencia significativa

Regla de decisión

Dos tratamientos A y B difieren significativamente al α % si y A − yB > MDS

Una manera práctica de resolver este tipo de contrastes, es comparar en primer


lugar la media mas grande vs la mas chica y, como la MDS es la misma para todos
los contrastes, si esta diferencia resulta no significativa, se concluye que todas las
demás también lo serán. Si, en cambio, esta diferencia resulta significativa, se
continua con la diferencia que le sigue en orden decreciente a la primera y se reitera
el procedimiento anterior.

Si se usa otra vez el ejemplo de las dietas, se tiene:

A = 3, CMerror = 16,75, GL = 21, q0,05 (3,21) ≈ 3,56. Entonces


16,75
MDS = 3,56 ⋅ = 5,1512
8
Comparación Diferencia Significación
A vs B 6,7 > 5,15 P < 0,05
A vs C 11 > 5,15 P < 0,05
B vs C 4,3 < 5,15 P > 0,05

136
Una manera usada comúnmente para resumir a conclusión para comparaciones
múltiples es, ordenando las medias de menor a mayor, unir con una línea aquellas
medias que resultaron no significativas entre sí. En el ejemplo esto toma la siguiente
forma:

Dieta A B C
Significación −⎯−⎯

Lo que significa que las dietas B y C no difieren entre si, y la dieta A es diferente a B
y C.

Método de Dunnett (no planeado)

Este método está diseñado para comparar cada tratamiento contra un control. Tiene
su propia distribución y por lo tanto también su propia tabla de una y dos colas.
Corresponde al caso en que interesa comparar los tratamientos contra un control y
no los tratamientos entre si. Por lo tanto se trata de un conjunto dependiente de
comparaciones.
Si se tienen p grupos y un control, entonces se pueden realizar p comparaciones. El
procedimiento se basa en ordenar las medias de los tratamientos de menor a mayor
y se comparan con el control y un tratamiento cualquiera difiere del control sii:

2 2 ⋅ CMerror
Δ = yc − yp > tDunnett ES Con ES = s =
n n

Reemplazando por la expresión del ES, se obtiene:

2 ⋅ CMerror
Δ = yc − yp > tα,p,N − a ⋅
n

137
ANALISIS DE VARIANZA DE DOS FACTORES

Como se vio en el capítulo anterior, mediante un Anova de un factor se puede


controlar solamente la variación correspondiente al factor en estudio. Esa
fuente de variación está expresada por el CMentre, mientras que el CMdentro, o
CMerror es una medida de la variabilidad no controlada por el experimentador, o
sea todas las fuentes de variación que no se pueden asignar con certeza a una
ausa determinada. Por eso se dice que esas fuentes de variación son no
controladas por el experimentador. Cabe recordar que ese término es conocido
como error experimental y es el denominador de la F del Anova. Por lo tanto,
un error experimental alto llevaría al no rechazo de la hipótesis nula de los
tratamientos, pero es posible que ese valor alto se deba a la existencia de
fuentes de variación que no se han controlado y que aumentan el error
experimental, pudiendo llegarse a conclusiones erróneas.
El Anova es útil para controlar todas las fuentes de variación conocidas, que
constituyen los factores. Cuando las fuentes de variación controladas son dos,
se trata de un Anova de dos factores.
La tabla de datos, para el caso general de un Anova de dos factores es la
clásica tabla de doble entrada, donde en las filas (A) y las columnas (B) se
encuentran los niveles correspondientes a ambos factores:

B1 Bj Bb
A1 y11k ...... y1jk ....... y1bk
...... ...... ...... ........ .......
Ai yi1k yijk ....... yibk
...... ....... ...... ...... .....
..
Aa ya1k yajk yabk
Donde:

Factor A : filas con niveles i = 1, 2, ...., a


Factor B : columnas con niveles j = 1, 2, .... , b
yijk: observación k-ésima (individuo k) con de la columna j y la fila i, con k =
1, 2, ....., Mij.
Mij : número de unidades experimentales = número de observaciones en la
celda o tratamiento (i, j)

A lo largo de este capítulo, se utilizará terminología que es oportuno definir


aquí antes de continuar:

Factor: es un conjunto de tratamientos de un único tipo (por ejemplo; drogas


para diabetes, fertilizantes para avena, salinidad del agua, etc.)

Nivel de un factor: es un tratamiento cualquiera del conjunto anterior

Experimento factorial: es aquel en que los tratamientos resultan de los


cruzamientos de dos o más factores

138
Tratamiento experimental: es una combinación de un nivel de cada factor
considerado en el experimento, con los niveles del otro. Es decir son las
combinaciones representadas por cada celda.

Efecto principal: son comparaciones entre los niveles de un factor, realizadas


promediando sobre los factores restantes.

Efecto simple. Es la comparación entre los niveles de un factor en cada uno


de los niveles del otro factor
Interacción: son comparaciones entre los niveles de un factor y niveles de un
segundo factor, realizadas promediando sobre los niveles de todos los factores
restantes.

Se dice que los efectos son aditivos, cuando el efecto total es igual a la suma
de los efectos tomados independientemente. En este caso se trata de un
modelo sin interacción.

La existencia de interacción indica que los efectos de los dos factores no son
sólo aditivos, sino que alguna combinación dada de niveles contribuye en forma
positiva o negativa a la variable que se está estudiando. En este sentido se
puede estar ante efectos sinérgicos o antagónicos:

Sinergia: un gran incremento positivo. La acción conjunta de ambos factores


es mucho mayor que la suma de los efectos tomados independientemente. Por
ejemplo, cuando dos drogas actúan sinérgicamente el resultado de la
interacción de ambas puede resultar por encima y más allá de los efectos
separados de cada una de ellas.

Antagonismo o Interferencia: este es el caso cuando una combinación de


niveles de los factores (tratamiento) inhibe mutuamente sus efectos
individuales. El efecto total es menor que cualquiera de los efectos que la
componen, si éstos actuaran independientemente.

Mucha de la terminología ya definida para el caso de Anova de un factor, es


válida para el caso de dos factores. Cuando se trata de un Diseño
Completamente Aleatorizado (DCA) en el caso de Anova de dos factores, la
definición es similar a la dada para Anova de un factor, pero teniendo en cuenta
aquí el DCA se basa en que los axb tratamientos (combinación de fila y
columna) son asignados al azar a las unidades experimentales, o las unidades
experimentales son asignadas al azar a los tratamientos. El modelo estadístico
es un Anova de dos factores y se trata de un experimento factorial (más de un
factor y generalmente más de una observación por casilla).

139
Llegados a este punto es oportuno tratar brevemente uno de los planteos mas
frecuentes por parte de los investigadores que supone que es lo mismo
realizar, en vez de un Anova de dos factores, dos Anovas de un factor: uno
para el factor fila y otro para el factor columna. Pero para ello sería necesario
un número mayor de unidades experimentales, porque se obtiene una sensible
economía ya que la misma unidad experimental se utiliza en la estimación de
más de un factor. Además de que seguramente no se trabajaría con el mismo
nivel de error (el caso es análogo al del cálculo de varias pruebas t en lugar de
contrastes) que tomando todo junto en un mismo experimento. Por otra parte
no se podría estudiar el efecto de la interacción, que la mayoría de las veces
enriquece la experimentación.

El Anova de dos factores las características de los efectos, determinan el


modelo en cuestión:

Ambos factores fijos Modelo de efectos fijos


Ambos factores aleatorios Modelo aleatorio
Un factor fijo y el otro aleatorio Modelo mixto

Anova de dos factores fijos


Cuando se tiene un DCA de dos factores con replicaciones, interesa estudiar
los efectos principales (los factores individuales) y la interacción.

Teniendo en mente la tabla 1, se tiene:


Factor A : filas con niveles i = 1, 2, ...., a
Factor B : columnas con niveles j = 1, 2, .... , b
yijk: observación k-ésima (individuo k) con de la columna j y la fila i, con k =
1, 2, ....., Mij.
Mij : número de unidades experimentales = número de observaciones en la
celda o tratamiento (i, j)

Para Mij existen tres posibilidades:


1) Mij = 1 Anova de dos factores sin replicaciones
2) Mij = M Anova dos factores balanceado con replicaciones. DCA
3) Mij ≠ Anova de dos factores no balanceado. DCA

En todos los casos es ∑Mij = N = cantidad total de unidades experimentales =


cantidad de observaciones.
Si el diseño es balanceado N = abM.
En este curso se tratará con detalle el caso del Anova de dos factores
balanceado.

140
Si se resumen los resultados en una tabla de medias, se obtiene:

Bj

Ai y ij. y i..

y. j. Y...
media de la fila i media de la columna j media de la celda ij media general

∑ y ij. ∑ yij. ∑ yijk ∑ y ijk


j y. j. = i k ij
yi.. = yij. = Y... =
J I k IJK

Modelo lineal del el Anova de dos factores:


yijk = µ + αiA + βjB + αβijAB + εijk
Donde :
µ es la media general
αiA es el efecto fila : αiA = µi. − µ
βjB es el efecto columna: αjB = µ.j − µ
αβijAB es el efecto de la interacción (fila x columna):αβijAB = (µij − µi.) – (µ.j −
µ) = (µij - µ.j ) – ( µi. − µ)
εijk es el error

Al igual que en el caso de Anova de un factor se introducen las condiciones:

∑αiA = 0 ; ∑ βjB = 0 ; ∑i αijAB = 0 ∀ j : ∑j αβijAB = 0 ∀ i

Hipótesis estadísticas que pueden ponerse a prueba

Prueba del efecto principal fila (A)

H0A : αiA = 0 ∀ i= 1,...., a vs HaA : ∃ i / αiA ≠ 0


H0A : µi. = µ ∀ i= 1,...., a vs HaA : ∃ i / µi. ≠ µ

Prueba del efecto principal columna (B)

H0B : βjB = 0 ∀ j= 1,...., b vs HaB : ∃ j / βjA ≠ 0


HoB : µ.j = µ ∀ j= 1,...., b vs HaB : ∃ j / µ.j ≠ µ

Prueba de interacción

H0AB : αβijAB = 0 ∀ ij , vs HaAB: ∃ ij / αβijAB ≠ 0


H0AB : µij = µi. + µ.j - µ ∀ ij , vs HaAB: ∃ ij / µij ≠ µi. + µj.- µ

141
El valor esperado en cada una de las celdas es:

µij = µ + αiA + βjB + αβijAB + εijk

La hipótesis nula de interacción implica que: µij = µ + αiA + βijB

Esta última expresión significa que, bajo la hipótesis nula de no existencia de


interacción, los efectos fila y columna en cada celda es la suma de ambos y se
dice que los efectos son aditivos y que se trata de un modelo sin interacción.
En un modelo sin interacción todas las observaciones de una fila o columna
pueden utilizarse para estimar las medias de los distintos tratamientos. En
forma análoga al ANOVA de un factor se tienen distintos estimadores de una
misma varianza que se obtienen a través de la comparación entre sí de las
medias de los tratamientos fila, columna o de cada celda respecto de la suma
de las medias correspondientes de fila y columna (interacción). Si las
distribuciones de las que se extraen las muestras aleatorias en cada celda
siguen la distribución normal, se llega a estadísticos de prueba que siguen la
distribución de Fisher para las filas, para las columnas y para la interacción.
A continuación se estudiara el caso en que los factores A y B son determinados
por el experimentador; o sea que se trata de un modelo de efectos fijos.

Supuestos para el ANOVA de dos factores de efectos fijos

Los a × b grupos (celdas o casillas) contienen unidades experimentales que


son muestras aleatorias de sus respectivas subpoblaciones definidas por
las combinaciones de fila y columna.
Las a × b subpoblaciones son independientes
Cada una de las a x b subpoblaciones (estadísticas) está normalmente
2
distribuida con media μ y varianza σij La varianzas de las subpoblaciones
(estadísticas) son iguales (Homocedacea u homogeneidad de varianzas).
Los αiA . βjB y αβijAB son constantes y están sujetos a las restricciones del
modelo

Del conjunto de supuestos se deduce que los errores εIJK = yijk - μIJ siguen una
distribución normal con media cero y varianza σ² y son independientes.

142
Descomposición de la suma de cuadrados

De la misma forma que en un ANOVA de un factor en suma de cuadrados


entre y suma de cuadrados dentro, la suma de cuadrados total se puede
descomponer de la siguiente manera:
(
∑ yijk − Y...
ijk
)
2
= (
∑ yijk − yij. )
2
+ (
k ∑ yij.− Y... )
2
ijk i

SCTotal
= SCdentro + SCentre celdas

SCTotal = SCdentro + SCentre filas + SCentre columnas + SCinteracción

N–1 = (N – ab) + (a – 1) + (b – 1) + (a – 1)(b – 1)

GLTotal = GLdentro + GLentre filas + GLentre columnas + GLinteracción

donde a es la cantidad de filas, b el número de columnas y N la cantidad total de


observaciones.

Resumiendo esta información resulta la tabla de Anova de dos factores:

Fuente de Grados de Suma de Cuadrados Cuadrados F


Variación Libertad Medios
22
Entre celdas (ab – 1) k ∑ yij. − N Y...
ij
SCe.filas CMe.filas
2 2
Entre filas (A) a– 1 Jk ∑ yi.. − N Y... GL e.filas CMdentro
i
2 2 SCe.columnas CMe.columnas
Entre columas (B) b–1 Ik ∑ y. j. − N Y...
j GL e.columnas CMdentro
Interacción (AxB) (a – 1).(b – SCe. celdas – SCe. filas – SCe. columnas SCint eracción CMint eracción
1) GLint eracción CMdentro

SCdentro( error )
Dentro (error) N – ab SCTotal – SCe. celdas
GL dentro( error )

2 2
Total N -1 ∑ yijk − N Y...
ijk

143
Regla de decisión

Prueba del efecto principal fila (A)


H0A : αiA = 0 ∀ i= 1,...., a
HaA : ∃ i / αiA ≠ 0
Si F = CMe.filas > F GL e.filas,GLdentro ,1-α se rechaza Ho con α
CMdentro

Prueba del efecto principal columna (B)


H0B : βjB = 0 ∀ j = 1,...., b
HaB : ∃ j / βjB ≠ 0
CMe.columnas
Si F =
CMdentro
> F GL e.columnas, GLdentro,1-α se rechaza Ho con α

Prueba de interacción
H0AB : αβijAB = 0 ∀ ij
HaAB; ∃ ij / αβijAB ≠ 0
Si F = CMint eracción > F GL interacción, GLdentro,1-α se rechaza Ho con α
CMdentro

Ejemplo

Se quiere estudiar si existe preferencia en el consumo de tocino fresco y rancio en


ratas R rattus de ambos sexos. Se considera la variable aleatoria X: cantidad de
comida, en gramos, consumida durante 70 días, con los siguientes resultados:
Fresco Rancio
medias
709 592
Hembras 679 538 Fresco Rancio Total
699 476 Hembras 695,67 535,33 615,50
657 508 Machos 642,67 517,33 580,00
Machos 694 505 Total 669,17 426,33 597,35
677 539

Hipótesis
H0A : αiA = 0 ∀ i= 1,...., a No existe efecto sexo
HaA : ∃ i / αiA ≠ 0

H0B : βiB = 0 ∀ j = 1,...., b No existe efecto frescura


HaB : ∃ j / βiB ≠ 0

H0AB : αβijAB = 0 ∀ ij , No existe interacción entre sexo y frescura


HaAB; ∃ ij / αβijAB ≠ 0

144
F. de variación GL. CM F F Valor p
Sexo (A) 1 3770,75 2,9252 5,32 0,1256
Frescura (B) 1 61204,08 41,9686 5,32 0,0002
Sexo x estado (AxB) 1 918,75 0,6300 5,32 0,4502
Dentro (Error) 8 1458,33
F 1; 8 ; 0,95 =5,32

Gráfico de perfiles. Los puntos corresponden a las medias de cada tratamiento.


800
cantidad de com ida gr

700
Hembras

600

500 Machos
400
fresco rancio
frescura
Conclusión: Ambos sexos prefieren el tocino fresco (P < 0,05)

Cuando la interacción es significativa no es posible poner a prueba las


hipótesis referidas a los efectos principales ya que el resultado que se obtenga
para, por ejemplo, las filas dependerá de los niveles particulares que se hayan
elegido para los tratamientos columna. El problema se resuelve realizando
pruebas de efectos simples

145
Ejemplo donde la interacción es significativa.

Se estudia el efecto en el largo, en cm, de plántulas de arveja tratadas sometidas a


tres temperaturas ambiente (15, 20 y 250C) y en dos intensidades de luz: baja y
alta. Se seleccionan al azar 10 plantas para ser tratadas con cada combinación de
temperatura e intensidad de luz .
X: largo, cm, plántulas de arveja

15 0C 20 0C 25 0C Total
Int. baja 16 24 29 23 a =2; b= 3, k= 10, N= 60
Int. alta 20 12 25 19
Total 18 19 27 21

F. de variación GL. SC CM F Valor p


Luz 1 240 240 8,41 0,0054
Temperatura 2 1080 5540 18,93 0,00001
Luz x Temperatura 2 640 320 11,22 0,0001
Dentro (Error) 54 1540 28,5185
Total 59 3500

Gráfico de perfiles

35 Int. baja
largo de plántulas cm.

30
25
20
15
10
5 Int. alta
0
15 C 20 C 25 C
Temperatura C

Como la interacción luz x temperatura resulta significativa corresponde


estudiarla en primer lugar mediante pruebas de efectos simples. Esto es así
porque al ser la interacción significativa el efecto observado al someter a las
plantas a una condición de luz depende de cuál sea la temperatura con que se
combina.

146
Pruebas de efectos simples.
Como se dijo mas arriba, estas pruebas corresponden cuando la interacción
resulta significativa y consisten en realizar un Anova de un factor para
comparar las filas en cada una de las columnas y viceversa, pero utilizando el
cuadrado medio dentro del Anova de dos factores original.
Entonces, si se está en el caso de una Anova de dos factores balanceado, la
tabla de medias poblacionales se puede representar de la siguiente manera:

Bj

Ai µij µi.

µ.j µ

El modelo lineal del Anova de dos factores con interacción es:

yijk = µ + αiA + βjB + αβijAB + εijk con i= 1, ..., a j= 1, ..., b y


k= 1, ..., M

Como se definió anteriormente, en este diseño se tiene:

Efectos principales

Para A: αiA = μi. − μ → αˆ iA = yi.. − y...


B
Para B: βBj = μ. j − μ → βˆ j = y. j. − y...

Efectos simples

Para A en Bj : αiA (B j) = μij − μ. j → α A


ˆ i (B j) = yij. − y. j.

B B
Para B en Ai : β j ( A i) = μ ij − μ i. → βˆ j ( A i) = y ij. − y i..

Sea el caso de estudiar los efectos simples de A en Bj , entonces la SC es:

SC(A para Bj) = [ ]


2
(
∑ αiA (B j) = ∑ yij.− y. j. )2
= SCentre de Anova de un factor
ij ij

Una vez calculada la SC(A en Bj), para estudiar su significación se construye el


estadístico de prueba
FA en Bj = CMA en Bj / CMerror

El CMerror en el denominador de la F es el del Anova general de dos factores y


como se puede ver, la construcción de este estadístico de prueba es análoga a
la de los estadísticos de prueba de un contraste.

147
En el ejemplo:
a) Temperaturas en condiciones de luz
A continuación el Anova de un factor considerando solamente los valores para Intensidad de luz
baja (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los
grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la
tabla de Anova:
Tabla de medias Tabla de Anova del efecto simple
15 oC 20 oC 25 oC F de V GL CM F F
Int. baja 16 24 29 Entre 2 430 15,08 3,15

Int. alta 20 12 25 Dentro 54 28,5185

Conclusión
F 2; 60 ; 0,95 =3,15
Para baja intensidad de luz, el crecimiento de las plántulas varía con la temperatura

A continuación el Anova de un factor considerando solamente los valores para Intensidad de luz
alta (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los
grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la
tabla de Anova:
Tabla de medias Tabla de Anova del efecto simple
15 oC 20 oC 25 oC F de V GL CM F F
Int. baja 16 24 29 Entre 2 540 18,93 3,15

Int. alta 20 12 25 Dentro 54 28,5185

Conclusión
F 2; 60 ; 0,95 =3,15
Para alta intensidad de luz, el crecimiento de las plántulas varía con la temperatura

b) Condiciones de luz en temperaturas


A continuación el Anova de un factor considerando solamente los valores para la temperatura
de 15o C (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los
grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la
tabla de Anova: Tabla de medias Tabla de Anova del efecto simple
15 oC 20 oC 25 oC F de V GL CM F F
Int. baja 16 24 29 Entre 1 80 2,80 4
Int. alta 20 12 25 Dentro 54 28,5185

Conclusión
Para 15 oC, el crecimiento de las plántulas no varía con la intensidad de luz
F 1; 60 ; 0,95 =4

A continuación el Anova de un factor considerando solamente los valores para la temperatura


de 20o C (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los
grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la
tabla de Anova: Tabla de medias Tabla de Anova del efecto simple

15 oC 20 oC 25 oC F de V GL CM F F
Int. baja 16 24 29 Entre 1 720 25,25 4
Int. alta 20 12 25 Dentro 54 28,5185

Conclusión
Para 20 oC, el crecimiento de las plántulas varía con la intensidad de luz
F 1; 60 ; 0,95 =4

148
A continuación el Anova de un factor considerando solamente los valores para la temperatura
de 25o C (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los
grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la
tabla de Anova:

Tabla de medias Tabla de Anova del efecto simple

15 oC 20 oC 25 oC F de V GL CM F F
Int. baja 16 24 29 Entre 1 720 1, 5 4
Int. alta 20 12 25 Dentro 54 28,5185

F 1; 60 ; 0,95 =4
Conclusión
Para 25 oC, el crecimiento de las plántulas no varía con la intensidad de luz

Conclusión general:
Cuando las plantas se ponen a 20oC crecen más rápidamente las que están en intensidad
baja de luz (P< 0,05) mientras que para las otras dos temperaturas no se encuentran
diferencias significativas en el crecimiento (P > 0,05). Además en intensidad baja de luz
crecen más las que están a las dos temperaturas más altas (P< 0.05), mientras que en la
intensidades alta de luz esto se da para las dos temperaturas extremas. Por otro lado la
temperatura de 20oC es la que produce las diferencias.

ANOVA DE DOS FACTORES SIN REPLICACIONES

Es el caso en que existe una sola observación para cada combinación de fila y
columna (celda). Debido a que hay una sola observación por celda es
imposible estimar la varianza dentro de celda y por lo tanto no puede ser
estudiada la hipótesis de interacción. Esto lleva a suponer que los efectos de
fila y columna son aditivos (modelo aditivo). La comprobación de la aditividad
del modelo (modelo sin interacción) se realiza con la prueba de Tukey de no
aditividad, que se verá más adelante.

El esquema general es:


Bj Media de la
Media de la fila i Media general
columna j
∑ yij ∑ y ij ∑ y ij
Ai y i.. yi. j i ij
y i. = y. j = Y.. =
J I IJ
y. j Y..

Donde
A: (factor fila) con a niveles y B: (factor columna) con b niveles
N= ab = cantidad total de observaciones = cantidad total de unidades
experimentales
yij es cada observación con i = 1, ..., a y j = 1, ..., b.

149
Modelo estadístico

Modelo lineal de efectos fijosy:ij = μ + α iA + βBj + εij


Supuestos: Los supuestos de este diseño son los del Anova más el supuesto de
aditividad.

Hipótesis y reglas de decisión

Prueba del efecto principal fila (A)


H0A : αiA = 0 ∀ i= 1,...., a
HaA : ∃ i / αiA ≠ 0
Si F = CMe.filas > FGL e.filas,GLdentro,1-α
se rechaza Ho con α
CMdentro

Prueba del efecto principal columna (B)


H0B : βjB = 0 ∀ j = 1,...., b
HaB : ∃ j / βjB ≠ 0
CMe.columnas
Si F =
CMdentro
> F GL e.columnas,GLdentro,1-α
se rechaza Ho con α

Tabla de Anova de dos factores sin replicaciones

Fuente de G. de L. SC CM F
variación

Entre filas (A) a– 1 J∑ yi2. − N Y..2 SC e.filas CMe.filas


i GL e.filas CMdentro

Entre columnas (B) b–1 I∑ y.2j − N Y..2 SC e.columnas CMe.columnas


j GL e.columnas CMdentro

Dentro (Error) (a-1)(b-1) SCtotal - SCentre filas - SCentre columnas SCdentro ( error )
GL dentro ( error )
2
Total N -1
∑ yij − N Y..2
ij

150
Prueba de Tukey de no aditividad
Hipótesis
H0: Modelo aditivo vs Ha: caso contrario
La idea es descomponer la suma de cuadrados del error en:

SCerror = SCno aditividad (SCNN) + SCresidual (SCres)

Cálculo de la SCNN

Bj Efecto fila

Ai yij αˆ iA = yi. − y..

Efecto columna B
βˆ j = y. j − y..

SCNN = [∑ij yij (αiA)∧ (β jB)∧]2 / [∑i (αiA)∧2 ∑j (β jB)∧2]

El estadístico de prueba es:


CMNN FGL
FNN = ~ NN, GLres, 1-α Con GLNN = 1 y GLres = N − a − b
CMres

151
Esta prueba se puede realizar utilizando algún programa estadístico. A
continuación se muestra un ejemplo de salida del programa Tukey's test
perteneciente al paquete BIOMstat, que esta a disposición de los alumnos de
esta materia.

----- BIOMstat 3.2c: Date 23/05/2006, Time 13:10:16 -----

Test for non-additivity statistics

Data file: NONADD.DTA


Title: O2 consumption in relation to salinity & species (Boxes 11.2 & 13.4)
Total number of records in file: 48
Factor A defined by: Salinity
Factor B defined by: Species
Input records are individual observations
Variable: O2

Sample size: 48
Number of levels for factor Salinity = 3
Number of levels for factor Species = 2
Number of replicates per cell = 8

Cell means: Salinity x Species

1 2
--------------------
1 | 10.561 7.429
2 | 7.890 7.338
3 | 12.174 12.326

Test for nonadditivity


Source df SS MS FS P
Salinity x Species 2 23.9262
Nonadditivity 1 4.2399 4.2399 0.2154 0.7234
Residual 1 19.6863 19.6863

---------------
Section 13.5 (pp. 407-409) discusses this test for
one component of the interaction between two factors.
Box 13.5 (pp. 410-411) shows how the computations are done.

En este ejemplo el resultado de la prueba estaría confirmando que el modelo


en cuestion es aditivo (P=0,7234).

Aplicaciones del Anova dos factores sin replicaciones:

1.- Diseño en Bloques al Azar (DBA)


Como se discutió en el caso general de Anova, la fuente de variación que no es
controlada (no se conoce con certeza su causa, es aleatoria) tiene como
consecuencia aumentar la magnitud del CMerror (también llamado error
experimental). La implementación de diferentes diseños puede ser efectivo
para el control de error experimental. Uno de estos diseños, es el diseño en
bloques al azar (DBA).
Para aplicar este diseño es necesario que las unidades experimentales puedan
ser reunidos en grupos más o menos homogéneos y de tamaño igual al
número de tratamientos que se quieren comparar. Estos grupos reciben el
nombre de bloques. La aleatorización en este diseño consiste en que los
tratamiento se asignan al azar a cada uno de los integrantes de cada grupo o
bloque. Un bloque puede ser también una misma unidad particionada a la que

152
se le asignan los tratamientos al azar. Este caso es bastante frecuente y la
finalidad de la aplicación del diseño en este caso es controlar el error
experimental cuando no se cuenta con unidades experimentales totalmente
homogéneas para la realización de un experimento.

Los ejemplo de bloques son muy comunes en biología. A continuación se dan


algunos casos:

a) El caso mas típico es cuando un bloque es un conjunto de unidades


experimentales homogéneas: el bloque esta formado por animales
pertenecientes a una camada de animales, el bloque es una cepa, un
bloque esta compuesto por animales del mismo peso, sexo, raza, etc.
b) Otro caso muy frecuente es aquel donde el material experimental proviene
del mismo individuo: En plantas se aplican diferentes tratamientos a las
hojas, entonces el bloque es la hoja. En el caso de animales cuando se
aplican distintos tratamientos a un mismo individuo, entonces el bloque es
cada animal, que además es la unidad experimental
c) Por ultimo, aquellos experimentos en los que no es posible mantener las
condiciones experimentales a lo largo de toda la experiencia: en este caso
se trata de mantener las condiciones lo más uniforme posible dentro de
cada réplica, o sea dentro de cada bloque. Por ejemplo condiciones del
medio ambiente (humedad, temperatura, etc) que no pueden mantenerse
estables durante mucho tiempo de modo que hay que conformarse con
mantenerlas lo más estables que se pueda hasta completar una réplica.

Otros ejemplos de bloques son:


1) Franjas de igual fertilidad en un campo experimental.
2) Cada uno de los días en que se prueba un grupo de tratamientos.
3) Cada uno de los laboratorios donde se procesan muestras de un
determinado tipo.
4) Un animal, cuando se realiza una misma medición en distintas partes del
cuerpo, por ejemplo se prueban dos insecticidas en vacas. El bloque sería
una vaca y las divisiones cada uno de sus flancos en los que los
insecticidas se aplican al azar.
5) Un grupo de individuos que son medidos en tiempos sucesivos .

El DBA corresponde a un modelo aditivo, es decir sin interacción. Se trata en


general de un modelo mixto de Anova pues se considera:

Factor A (tratamientos): fijo


Factor B (bloques) ; aleatorio
A B
ε
Modelo lineal: y ij = μ + α i + α j + ij

Donde αiA es el efecto de tratamiento, αjB el efecto de bloque y εij es el término


de error

153
Supuestos

Son los de un Anova dos factores sin replicaciones. Si el modelo es mixto


(bloques al azar) se debe agregar el supuesto αjB es una variable aleatoria tal
que αjB ∼ N(0, σ2B) e independientes

Para un DBA con los bloques aleatorias la hipótesis son

Para el tratamiento (A) Para los bloques (B)


H0A : αiA = 0 ∀ i= 1,...., a H0B : σ2B = 0
HaA : ∃ i / αiA ≠ 0 HaB : σ2B ≠ 0

*Los niveles del factor tratamiento no son independientes como en el Anova


correspondiente a un DCA. Pero esa dependencia está contemplada en el
DBA, ya que controla la diferencia individual mediante la utilización de bloques.
*Pero el número de bloques puede ser cualquiera. La cantidad de bloques
constituye el tamaño de muestra, cuando el factor bloque es aleatorio, pero hay
que tener presente que el número de divisiones por bloque debe ser igual al
número de tratamientos a comparar (caso contrario se trataría de un DBA
incompleto).

Tabla de Anova del DBA

Fuente de G. de L. SC CM F
variación

Entre filas (A) a– 1 J∑ yi2. − N Y..2 SC e.filas CMe.filas


i GL e.filas CMdentro

Entre columnas (B) b–1 I∑ y.2j − N Y..2 SC e.Columnas * CMe.Columnas*


j GL e.Columnas CMdentro

Dentro (Error) (a-1)(b-1) SCtotal - SCentre filas - SCentre columnas SC dentro ( error )
GL dentro ( error )
2
Total N -1
∑ yij − N Y..2
ij

154
(*) Las F´s en el DBA
La hipótesis de interés que se plantea en este diseño está orientada a comparar las
medias de tratamientos; pero en el caso en que interese la comparación de las medias
de los bloques Ho: βj=0; se plantea el dilema: ¿Cómo comparar esas medias de
bloques? ¿Es adecuado compararlas con la F=CMbloques/CMdentro?
Desde el punto de vista del diseño la objeción fundamental para probar la hipótesis de
bloques mediante una F es que la aleatorización fue realizada sólo para los
tratamientos dentro de los bloques, y no para los bloques dentro de los tratamientos;
es por eso que se dice que los bloques representan una restricción para la
aleatorización.
La pregunta que surge de inmediato es ¿Qué efecto tiene esto sobre el estadístico F =
CMbloques/CMdentro?
La mayoría de los autores argumentan que la restricción de aleatorización impide que
la F sea útil para comparar las medias de los bloques.
En resumen, no es adecuado tomar F = CMbloques/CMdentro como una prueba F
exacta, sino usar la esperanza de los cuadrados medios de los bloques para darse
una idea de la variabilidad de los bloques (este análisis no se verá en el presente
curso), aunque se podría examinar la razón entre MSbloques y MSdentro para
investigar de forma aproximada el efecto de la variable bloque. Un valor grande de
esta razón, indica que el factor bloque tiene un efecto grande y que la reducción de
ruido obtenida al analizar por bloques posiblemente fue útil al mejorar la precisión de
las comparaciones entre las medias de tratamiento. Pero nunca con la prueba exacta
(la F de fisher). Por esta razón a veces aparecen en un DBA los cuadrados medios de
bloques, pero no la F.

¿Qué hacer en la práctica?


Los autores que aceptan que en alguna circunstancia se pueda calcular la F de
bloques para una comparación de las medias de bloques (si esta tuviera sentido desde
el punto de vista de la conclusión biológica) requieren un supuesto adicional: la falta de
interacción.

Zar (páginas 254-259) trata el tema y dice que “una hipótesis nula de igualdad entre
bloques usualmente no tiene interés, además es no aconsejable, porque hacerlo
requeriría conocimiento acerca del efecto de interacción. Entonces generalmente no
se testea”. A continuación dá un ejemplo donde no calcula ni el cuadrado medio para
que no haya dudas.

Sokal no difiere en cuanto a la teoría (en eso no hay duda). En la página 342 explica el
asunto en términos de sumas de cuadrados: En un anova de dos factores, cuando a la
SCtotal se le “sacan” la SCentre filas y la SCentre columnas, queda la de interacción
que en un DBA recibe el nombre de SC de discrepancia (lo que nosotros llamamos
SCerror en el DBA) y es el único termino de error en el anova. Por eso dice que la
única manera de aceptar que se pueda poner a prueba la hipótesis de medias de
bloques con la F (si tuviera sentido) es suponer que no existe interacción, pero si
existe la interacción, en un modelo mixto (como es el DBA) solo el factor fijo puede ser
testeado usando esa SC de discrepancia.

Consideraciones similares se pueden encontrar en


-STEEL, R. G. y J. H. TORRIE. 1986. Bioestadística: Principios y Procedimientos.
-ANIEL, W. W. 2002. Bioestadística. 4TA ed. Ed. Limusa - Wiley, México.

155
En resumen:

-Desde el punto de vista teórico no es adecuado testear un factor aleatorio con una F y
todos los autores coinciden en esto.
-En el caso en que interesara explorar ese factor mediante la F (si tuviera sentido
hacerlo o aportara alguna información útil), se tiene que tener en cuenta que esta es
una forma aproximada para testear el efecto de la variable bloque.
-En este curso no hay ningún problema en el que quede de manifiesto que interesa
probar la diferencia entre las medias de bloques. Tampoco hay ninguna pregunta
acerca de la significación del efecto de los bloques. Sin embargo se dan los valores de
la prueba de no aditividad para estar dentro de los supuestos si uno quisiera poner
usar la F de bloques y sacar conclusiones (que siempre serían aproximadas y en
ningún momento en este curso tiene importancia experimental).
-Una forma de medir la eficiencia del uso del diseño de bloques que usamos en la
materia es el cálculo de la Eficiencia Relativa, pero no la F de los bloques.

DCA vs DBA

No es raro el caso en que, ante la necesidad de decidir que diseño utilizar, se


tengan dudas acerca de las bondades de cada uno de los posibles diseños. En
particular esta situación frecuentemente se plantea cuando es posible elegir
entre un DCA y un DBA. A continuación se detalla un ejemplo.

Ejemplo. Se quiere probar el efecto de la dosis de FSH sobre el tamaño del


ovario en ratones. Se consideran tres tratamientos: dosis baja, dosis media y
dosis alta.
Un posible diseño podría resultar de dividir un lote de N ratones en tres grupos
al azar y, también al azar, cada uno de estos grupos asignarlo para ser tratado
con cada una de las dosis de FSH. Este esquema corresponde a un DCA de un
factor. Recordar que para este diseño los ratones deben ser lo más
homogéneos posible.
Otra manera de diseñar el experimento es teniendo en cuenta la diferencia
individual e incorporarla como una posible fuente de variación. En este caso se
pueden seleccionar camadas de tres ratones cada una y se aleatoriza la dosis
de hormona que le corresponderá a cada ejemplar de la camada. Este
esquema corresponde a un DBA, donde los bloques están constituidos por las
camadas que, en este caso, es un factor aleatorio.

En situaciones como esta, cuando hay mas de un diseño posible para poner a
prueba la hipótesis de interés (la diferencia entre tratamientos), es útil poder
escoger, entre los diseños planteados, cual es el mejor para contestar la
hipótesis planteada.

Resolución del problema como DCA

Si se tiene una muestra aleatoria de 18 ratones, que se asignan al azar a los


tres tratamientos descritos mas arriba y se considera la variable aumento de
peso, en mgr del ovario de ratón, a las 12 horas del tratamiento, con los
siguientes resultados:

156
Tratamiento Aumento de peso (gramos) media Des st
Dosis baja 60 44 28 59 45 52 48,00 11,88
Dosis media 82 48 38 75 50 80 62,17 19,02
Dosis alta 94 67 45 70 50 82 68 18,60

Suponiendo que se cumplen los supuestos del modelo, se tiene la siguiente


tabla de anova de un factor

Fuente de variación GL SC CM F Valor p


Entre dosis 2 1240 620 2,04 0,16
Dentro (error) 15 4565 304

Se llega a la conclusión que no hay evidencias para suponer que las distintas
dosis de la hormona producen efectos diferenciados sobre el crecimiento del
ovario (P > 0,05). Si se observan las medias de los tratamientos, a simple vista
puede parecer que los pesos medios son diferentes, pero cuando se observa el
valor del CMerror. se encuentra una explicación a esto basada en la magnitud de
dicho error, que genera un valor F pequeño.

Resolución del problema como DBA

A continuación se resuelve el mismo ejemplo, pero suponiendo que se tienen


seis camadas de tres ratones cada una y que a cada ejemplar de la camada se
le asigna una de las dosis al azar.
En primer lugar se pone a prueba el supuesto de aditividad mediante la prueba
de Tukey : FNN = 3,7654, GL = 1, 15, p = 0,084. Por lo tanto no se rechaza la
hipótesis nula de aditividad.

Tabla de datos: es la misma que la citada mas arriba, con la diferencia de que
ahora cada columna corresponde a una camada (bloque):

Camada medi Des st


a
1 2 3 4 5 6
Dosis baja 60 44 28 59 45 52 48,00 11,88
Tratamiento Dosis media 82 48 38 75 50 80 62,17 19,02
Dosis alta 94 67 45 70 50 82 68 18,60

Tabla de Anova del DBA

Fuente de variación GL SC CM F Valor p


Entre dosis 2 1240 620 11,70 0,025
Camadas 5 4937 807
Dentro (error) 10 528 53

Como se puede observas, al controlar la variación producida por los animales,


lo que provoca una disminución en la magnitud del CMerror, el valor de la F es
mas grande que la del DCA y este efecto lleva a concluir que existe diferencia
de crecimiento del ovario de ratón según la dosis aplicada (P < 0,05)

157
Aclaración: En el curso de un experimento no es posible pasar de un diseño a
otro porque ambos diseños corresponden a aleatorizaciones diferentes. Este
ejemplo tiene por objeto poner de manifiesto que un CM error (error
experimental) grande, como se observó en el DCA puede deberse a una fuente
de variación no controlada. Para este ejemplo hay un solo diseño correcto, el
DBA.

Eficiencia relativa

Una manera de comparar la cantidad de información que suministran dos


diseños aplicados a un mismo conjunto de datos es el cálculo de la eficiencia
relativa.

Por cantidad de información que suministra un diseño se entiende:

N
I=
σˆ 2
2
Donde N es el número total de observacionesσ̂y = CMdentro

Para comparar la cantidad de información de dos diseños se define la


eficiencia relativa de la siguiente forma:

(GL1 + 1) ⋅ (GL 2 + 3) CMdentro 2


ERD1D2= ⋅
(GL2 + 1) ⋅ (GL1 + 3) CMdentro1

Con Ni = grados de libertad del diseño i

El diseño 1 será más eficiente que el diseño 2 si: ER(D1 / D2) > 1

Ejemplo: En el ejemplo de las dosis de hormona (suponiendo que la


aleatorización hubiera sido la correcta para cada diseño) calculemos la
eficiencia relativa de DBA con respecto al DCA

D1 = DBA N1 = 10, s21 = 53


D2 =DCA N2 = 15, s22 = 304

11⋅ 18 ⋅ 304
ERD1D2= = 5,46
13 ⋅ 16 ⋅ 53

Entonces el DBA es 4,46 veces más eficiente que el DCA. Si se expresa la


eficiencia relativa en porcentaje se puede decir que el DBA es 446 veces mas
eficiente que el DCA.

158
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN

Al analizar datos, con frecuencia se observa que es conveniente conocer algo


acerca de la relación entre dos variables. Algunas veces una variable puede
tener efecto sobre la otra o puede servir para predecirla. Por ejemplo, es posible
que la presión sanguínea y la edad estén relacionadas o que una de ellas tenga
efecto sobre la otra, o que la prediga. Otros ejemplos podrían ser:
1) Respuesta a dosis diferentes de una droga.
2) Altura y peso en humanos.
3) Nivel de consumo de alguna de grasa y ganancia en peso en cerdos.
4) Cantidad de lluvia caída y rendimiento de una cosecha de trigo.
5) Intensidad de un estímulo y la reacción en cangrejos de laboratorio
6) Cantidad de anillos de crecimiento y edad de un árbol

Sea la situación en que grupos de animales son inyectados con dosis


crecientes de una droga y se quiere estudiar el efecto del aumento de la dosis
en el plasma sanguíneo. Un Anova no respondería exactamente esta cuestión
porque no tiene en cuenta la forma en que los tratamientos están relacionados
entre sí. O sea que, en el análisis de resultados tendríamos que buscar alguna
relación funcional entre la dosis y su efecto en el plasma sanguíneo.

La naturaleza y la intensidad de las relaciones entre variables como éstas


pueden ser examinadas por medio del Análisis de Regresión lineal y el de
Correlación lineal, dos técnicas estadísticas que, aunque relacionadas, tienen
objetivos y supuestos diferentes.

Los métodos de regresión y correlación permiten tratar algunos de los


problemas que surgen al estudiar simultáneamente más de una variable en
cada unidad de muestreo. Aplican modelos diferentes para explicar las
relaciones existentes entre las variables medidas.

El Análisis de Regresión es útil para poner a prueba distintos modelos para la


relación funcional existente entre dos o más variables, y cuando se lo emplea, el
objetivo final es predecir o estimar el valor de una variable como función de la
otra. Por otra parte, mediante los modelos de correlación se estudia la
distribución conjunta de dos o más variables; que no implican una relación
funcional determinada entre las variables en estudio sino una distribución
conjunta de una forma particular, y mide la intensidad de la relación lineal.

La idea de regresión fue introducida por primera vez por el científico inglés Sir
Galton (1822-1911) en los informes de investigación sobre la herencia, primero
en arvejas y posteriormente en la estatura humana. Describió una tendencia del
hijo adulto, que tiene padres bajos o altos, a regresar a la estatura promedio de
la población general. Primero usó la palabra ‘reversión ‘y después ‘regresión’
para referirse a este fenómeno.

Frente a un problema de esta naturaleza lo primero que se hace es construir un


diagrama de dispersión que dará una idea de la forma de la relación, si es que
ésta existe. En un diagrama de dispersión se grafican los puntos (xi, yij ), donde

159
xi son los valores de la variable X e yij son las observaciones de la variable Y
correspondientes a cada valor de la variable X. Cada punto en el diagrama
representa el valor asignado a cada una de la unidades experimentales
utilizadas en el experimento. En este diagrama aparece una nube de puntos.
Lo que se trata de buscar es una curva, lo más sencilla posible, que ajuste la
nube de puntos y luego ver en que medida el ajuste es bueno.

La situación general es la siguiente:


Se busca una función y = f(x)
donde f es una función desconocida y cuya expresión es generalmente
complicada o difícil de construir, las xi’s son variables observables y
controlables y la Y es la variable respuesta.

La idea es aproximar la función f por otra, sea g, más sencilla, pero de modo
que al reemplazar una por otra el error que se cometa sea pequeño cuando las
xi recorren un determinado conjunto de valores.

En la expresión de la función g intervienen constantes o parámetros a, b, ...,h;


entonces será de la forma:
y = g(X, a, b, ....., h) + ε

El ε es una variable aleatoria que representa el error que se comete al


reemplazar f por g; esta ecuación recibe el nombre de ecuación de regresión
de la población o “modelo de regresión a ajustar”.

Cuando la función g es lineal en los parámetros se habla de una Modelo de


Regresión Lineal Simple.

El modelo de regresión sugiere una relación de causalidad.

Ejemplos

La velocidad de un auto puede ponerse como función del número de


revoluciones por minuto de las ruedas. Parece razonable pensar la velocidad
como causada por el giro de las ruedas (o al menos que el giro de las ruedas
interviene en la cadena de causas del movimiento del auto). Pero también es
posible estudiar el giro de las ruedas como función de la velocidad del auto;
en este caso no tendría el mismo valor teórico para el estudio del problema.
En el dosaje de sustancias químicas suelen utilizarse métodos colorimétricos
donde se establece una función que vincula la concentración de la droga
(variable dependiente) con la absorción de luz en determinadas longitudes
de onda (variable independiente). En este caso no puede decirse que sea el
color el que causa la concentración de la droga sino a la inversa, pero el
tratamiento estadístico que se utiliza es exactamente el mismo.

160
Modelo de Regresión

Mediante este método pretendemos contestar preguntas tales como:


Dada una familia de funciones (funciones que tienen la misma forma y que
solo varían en los valores de uno o más parámetros) a la que se supone que
pertenece la verdadera función: ¿cuáles son los valores de los parámetros
que mejor se ajustan a los datos disponibles?.
Una determinada expresión para f(X) es plausible frente a los datos
observados (o sea ajusta bien)?
Dado un valor x, cuál es el valor de y?
Si la función f(X) es demasiado complicada para tratarla: ¿es posible
construir una función más simple que mantenga acotada la diferencia?

En este curso nos limitaremos a tratar las tres primeras cuestiones en el caso
particular en que f(X) pertenece a la familia de las funciones lineales en los
parámetros (polinomios):

Ejemplo de modelos lineales:

a) y = a + bx + ε
b) y = ax² + bx + c + ε
c) y = a0+ a1x + a2x² + ..... + anxn + ε

Ejemplos de modelos no lineales: Curvas de crecimiento

Regresión lineal
100
80
60
y
40
20
0
0 10 20 30 40 50 60
x
y = a + bx
Regresión exponencial Regresión logística

A
b y=
y = a⋅x 1 + B.e−cx

161
Para la curva de crecimiento potencial y = axb, el parámetro b es la proporción
de crecimiento en Y por cambio de unidad en X. Si por ejemplo X es el tamaño
de un órgano e Y el de otro, cuando b= 1 el crecimiento se dice isométrico,
ambos órganos crecen de la misma forma. Cuando b ≠ 1 el crecimiento se dice
alométrico: si b > 1 es alometría positivo y si b < 1 es alometría negativa.

Algunas curvas no lineales pueden ser linealizadas mediante una


transformación conveniente (por ejemplo tomando logaritmos), que en realidad
no es otra cosa que un cambio de la escala de medición. Ejemplo son las
curvas exponencial y potencial. Para la logística se utiliza un método iterativo
pero también ajustando una lineal. De todas formas estas curvas no lineales
tienen su propia teoría estadística .

Para decidir que curva debe ser utilizada entre las no lineales es de gran
ayuda obtener diagramas de dispersión de las variables transformadas. Por
ejemplo si un diagrama de dispersión de ejes (X, logY) muestra una relación
lineal, la ecuación de crecimiento exponencial es la que mejor ajusta, mientras
que si esto ocurre para los ejes (logX , logY) entonces es mejor la potencial.

Modelo de Regresión Lineal Simple

Las observaciones de las que se dispone son determinaciones de valores de la


variable dependiente o respuesta Y para distintos valores de la variable
independiente X. Encontrar los parámetros del modelo sería nada más que
una cuestión de resolver las ecuaciones correspondientes por métodos
matemáticos usuales si no fuera porque las variables en juego son aleatorias:
están afectadas por variabilidad natural.

Cuando ambas variables son aleatorias se trata de un Modelo II de regresión y


cuando solamente es aleatoria la variable dependiente se habla de un Modelo
I. Se verá únicamente el Modelo I ya que el caso del Modelo II se escapa de
este curso.

Suposiciones del Modelo de Regresión Lineal Simple


El modelo es entonces:

yij = a + b xi + εij,

donde: 1 ≤ i ≤ m ; 1 ≤ j ≤ ni ; m es el número de valores de x ; ni es el número


de valores de y observados para el i-ésimo valor de x.

Notar que este modelo es idéntico al de ANOVA de un factor excepto que los
efectos αi de los tratamientos son proporcionales al valor de la variable x.

A partir de los datos observados obtendremos la recta estimada:

ŷi = â + b̂ xi
O sea un valor de ŷ estimado en función del valor de x y de los parámetros â y b̂
, estimados a partir de los datos observados. Cuando ni > 1 podremos estimar

162
E(yi) en forma independiente de a y b mediante y-i, para lo que es necesario
que se cumpla con ciertos supuestos:

1) La variable independiente X se supone medida sin error. Es decir se


supone fija; sus distintos valores están fijados por el investigador de
antemano.
2) Los valores esperados de la variable aleatoria Y, para cada valor de la variable
X, están alineados, es decir: E(Y) = a + bx.
3) Para cada valor de la variable X la subpoblación de la variable Y sigue una
distribución normal; las subpoblaciones son independientes.
4) La varianzas de las subpoblaciones son iguales.

Para la estimación puntual de los parámetros de la recta de regresión sólo son


necesarios los supuestos (1) y (2), mientras que para estudiar la significación
de estas estimaciones, construir intervalos de confianza y verificar la bondad
del ajuste son necesarios además los supuestos (3) y (4).

El parámetro b es la pendiente de la línea de regresión o sea el cambio en la


variable respuesta Y, por unidad de cambio en la variable independiente X.
Suele llamarse el coeficiente de regresión. El parámetro a es la ordenada al
origen.

El problema consiste en estimar los parámetros a y b de la recta de regresión


poblacional. Para ello de cada subpoblación Yi se extrae una muestra de
tamaño ni de la forma {yi1, yi2, ....., yini }, donde yij es la j - ésima observación
correspondiente al nivel Xi de la variable X (1≤ i ≤ a, 1 ≤ j ≤ ni , n = ∑ ni =
número total de observaciones).

Con los datos de la muestra el primer paso consiste en graficar el diagrama de


dispersión para ver si la variable respuesta Y depende o no, en cierto grado,
de la variable independiente X y si la relación entre ellas puede ser
razonablemente expresada por una ecuación lineal.

100
80
60
y
40
20
0
0 10 20 30 40 50 60
x

En un diagrama de dispersión cada punto es un par de valores (xi , yij). A partir


de los valores observados se tratará de estimar los parámetros a y b del
modelo de regresión mediante los estimadores â y b̂ y por lo tanto se tendrá
la ecuación estimada:

163
ŷi = â + b̂ xi
Los parámetros a y b se estiman de tal manera que esa estimación tenga
propiedades útiles; en general se busca alguna forma de minimizar los errores
dados por la diferencia entre los valores observados y los esperados, o sea los
residuos.
Definimos:
2
SCresidual = ∑ ( yi− ŷi)

Una elección razonable para obtener los estimadores de los parámetros es


minimizar SCresidual (o sea hallar los valores â y b̂ que hagan mínima SC residual)

Método de Mínimos Cuadrados

El método de estimación más utilizado para la estimación de la recta de


regresión es el de los mínimos cuadrados (por eso algunas veces se la conoce
como la recta de mínimos cuadrados), que consiste en minimizar las distancias
entre los valores observados y los esperados (que se encuentran sobre la
recta estimada), o sea los residuos.

1) Caso de un sólo valor de Y para cada valor de X.

Estimación de la recta de regresión

El método de estimación más utilizado para la estimación de la recta de regresión


es el de los mínimos cuadrados, que consiste en minimizar las distancias entre
los valores observados y los esperados (que se encuentran sobre la recta
estimada), llamados residuos

Estimación de b

S xy
b̂ =
SCxx

2
SCxx = ∑ ni xi2 − N x S xy = ∑ xi yij − Nx y

Estimación de a

a = y − b̂ ⋅ x

Evaluación de la recta de regresión

Una vez que se ha obtenido la ecuación de regresión estimada, ésta debe ser
evaluada para detectar si describe adecuadamente la relación funcional entre
las variables y si puede ser utilizada de manera efectiva con fines de
estimación y predicción.

164
Una forma de evaluar la ecuación es comparar la dispersión de los puntos alrededor
de la recta con la dispersión de los puntos alrededor de la media y- :

Evaluación de la recta de regresión


Una vez que se ha obtenido la ecuación de regresión estimada, ésta debe ser evaluada para
detectar si describe adecuadamente la relación funcional entre las variables y si puede ser
utilizada de manera efectiva con fines de estimación y predicción.

yi − y = (ŷi − y ) + (yi − ŷi)


Desviación total Desviación explicada desviación no explicada

∑ (yi− y ) ∑ (ŷi− y ) ∑ (yi− ŷi)


2 2 2
= +
i i i
SCtotal SCregresión SCresidual

n-1 = 1 + ( n - 2)
GLtotal GLregresión GLresidual

SCtotal es una medida de la dispersión de los valores observados de Y


respecto de la media, es decir, este término es una medida de la variación
total en los valores observados de Y. Además no es otra cosa que el
numerador del estimador de la varianza total (SCyy).
SCregresión = SCexplicada es una medida de la variabilidad de los valores
estimados de Y respecto de su media. O sea es una medida de la
variabilidad de los valores observados de Y que resulta cuando se toma en
consideración su regresión en X, respecto de la media de Y. Esta
variabilidad es explicada por la regresión, por la ecuación construida.

SCresidual = SCno explicada es una medida de la dispersión de los valores de Y


observados respecto a la recta de regresión. Esta es la cantidad que se
minimiza para la obtención de los estimadores de mínimos cuadrados de
los parámetros a y b de la recta de regresión. Esta variabilidad es la que el
modelo no puede explicar.

La descomposición de la suma de cuadrados total lleva a una tabla de Anova


para medir la significación de la regresión mediante una prueba de hipótesis
para la hipótesis nula de no relación lineal entre X e Y; también se puede
realizar una prueba de hipótesis, o un intervalo de confianza para la pendiente

165
b de la recta de regresión. Las hipótesis que se plantean para poner la prueba
la significación de la regresión son:

Anova
Caso de un y para cada x
Fuente de variación G de L SC CM F
2⋅ SCreg
Regresión 1 b SCxx
CMreg
GLreg
CMres
F GL reg, GLres,1-α
Residual N–2 SCtotal - SCregresión SCres
GLres
∑ (yi− y )
Total N–1 2

i
SC yy

Regla de decisión
H0 : b = 0 CMregr
Ha : b ≠ 0 Si F= > F GL reg, GLres,1-α se rechaza Ho con α
CMres

De esta manera se prueba la significación de la recta de regresión pero no el


ajuste del modelo a los datos. Se podría dar el caso de que por ejemplo exista
un término cuadrático en la ecuación. Intuitivamente es razonable especular,
que si una ecuación de regresión funciona bien al describir la relación entre
dos variables, la SCexplicada = SCregresión debe contribuir con una gran proporción
a la SCtotal = SCyy . Entonces, sería interesante determinar la magnitud de esta
proporción, calculando la razón de la suma de cuadrados explicada a la suma
de cuadrados total. Esto es exactamente lo que se hace al evaluar una
ecuación de regresión basada en datos de la muestra y el resultado se llama
Coeficiente de Determinación y mide el porcentaje de la variación total
explicada por la regresión de Y en X. En otras palabras mide la proximidad del
ajuste de la ecuación de regresión de la muestra a los valores observados de
Y. Este coeficiente no posee una distribución muestral, por lo tanto no puede
ser estudiada su significación estadística.

SC regresión
Coeficiente de Determinación R2 =
SC total

Un valor grande de R² indica que la regresión ha tenido en consideración una


gran proporción de la variabilidad total en los valores observados de Y, y por lo
tanto la ecuación de regresión sería aceptable. Un R² pequeño, indica una falla
de la regresión para explicar una proporción de la variación total en los valores
observados de Y, y por ende arroja dudas sobre la utilidad de tal ecuación. Sin
embargo no se pasa al juicio final sin antes realizar alguna prueba estadística.

0 ≤ R² ≤ 1
SCresidual = 0 SCregresión = SCtotal R² = 1
SCresidual = SCtotal SCregresión = 0 R² = 0

166
Distribución de â Distribución de b̂
â − a
ε= ~ tN-2 ε= b̂ − b
~ tN-2
∑ xi2 CMres
i
CMres ⋅ SCxx
N ⋅ SCxx

Intervalo de confianza del (1 - α )% para la pendiente b

b̂ ± t α ;N − 2 ⋅ CMres
2 SCxx

intervalo de confianza del (1 - α )% para la ordenada al origen a

∑ xi2
â ± t α ;N − 2 ⋅ CMres ⋅ i
2 N SCxx

Sobre la base de las distribuciones anteriores la significación de la regresión


se puede estudiar mediante un intervalo de confianza del (1 - α)% para b; la
regresión resultará no significativa si el cero pertenece al intervalo de
confianza. Las hipótesis son:

H0 : b = 0 contra Ha : b ≠ 0.

Este método también puede ser utilizado para poner a prueba la hipótesis de
un valor hipotético para la pendiente, o sea plantear:

H0 : b = b0 contra Ha : b ≠ b0

167
Usos de la ecuación de regresión

*Para predecir un valor de la variable Y dado un valor de X, distinto de los Xi considerados


para estimar la ecuación. Para esto puede construirse un intervalo de predicción.

Intervalo de predicción

ŷn+1 ± tα ;n − 2 CMresidual ⎢⎢1+ 1+ (x n +1− x ) ⎥⎥


⎡ 2⎤
2 n SCxx ⎥

⎣ ⎦

*Para estimar el valor medio (esperado) de una subpoblación de Y, o sea para estimar E(Y), para
un dado valor de X, y construir un intervalo de confianza para E(Y).

Intervalo de confianza para E(Y)

) ±
E( ŷo tα ; n − 2

⎢ 1
CMresidual ⎢ + (x o − x )2⎤

2 n SC ⎥
⎢ xx ⎥
⎣ ⎦

Banda de confianza

Como se ve para cada valor de α fijo el intervalo de confianza para el valor


esperado de Y se agranda si X0 se aleja de su media. Esto da una idea para la
construcción de una banda de confianza de la recta de regresión poblacional,
que se obtiene con los intervalos de confianza para la E(Y) para los valores
distintos de X, pero con el mismo α. Luego se habla de la banda de confianza
del (1 - α)% para la recta de regresión. Esta banda tiene la forma de una
hipérbola.

Comparación de las rectas de regresión

Es bastante común el problema de querer comparar dos o más rectas de


regresión, para estudiar su paralelismo. Las rectas son paralelas si sus
pendientes son iguales; por lo tanto una prueba de hipótesis para esta
situación es una prueba para la hipótesis nula de igualdad de pendientes. Por
ejemplo puede interesar comparar las respuestas en machos y hembras a una
determinada hormona de crecimiento. Si para cada sexo se obtiene una recta
de regresión significativa, bastaría con poner a prueba una hipótesis respecto
de sus pendientes.

168
Comparación de dos rectas de regresión

Sean las rectas :

ŷ1 = â1 + b̂1 x ŷ 2 = â2 + b̂2 x

Ho : b1 = b2 Ha : b1 ≠ b2

(b̂1−b̂2)2
Estadístico de prueba: F=
(SC xx )1 + (SC xx )2 2

(SC xx )1 ⋅ (SC xx )2 s
2 SCres1+ SCres2
con s =
q

Regla de decisión q = n1 + n2 - 4 , con ni = cantidad


de valores distintos de la X para
Si F > F 1q , se rechaza Ho con α la recta i.

caso de más de un valor de Y para cada valor de X

X Y
x1 y11 y12 y13 ....................... y1j y
1
x2 y 21 y 22 y 23 ....................... y 2 j y 2
⋅ ⋅
⋅ ⋅
⋅ ⋅
⋅ ⋅
xi ......................................................... y. j y
i
y..

y.. : media de todos los valores observados


ŷi : valor esperado para el i-ésimo valor de X

yi :valor medio observado para el i-ésimo valor de X


y. j :j – ésima observación correspondiente al i-ésimo valor de X

169
Análisis de la significación de la regresión y bondad del ajuste

SC total = SC entre + SC error = [SC regresión + SC residual] + SC error

SCresidual = ∑ ni (yi.− ŷi)


2
SCerror = ∑ yij− yi ( )2 (
SCregresión = ∑ ni ŷi.− y.. )2
i ij i

Ho : b = 0 Ho : E( yi ) = a + b⋅xi para todo i


Ha : b ≠ 0 Ha : E( yi ) ≠ a + b⋅xi

F de variación GL SC CM F
Entre a-1 2 2 SCentre CMentre
∑ ni yi. − N y.. GLentre CMerror
i
Regresión 1 SCreg
2
b̂ ⋅ SC xx GLreg
*
Residual a-2 SCentre − SCreg SCres CMres
GLres CMerror
SCerror
Error N-a SCtotal − SCentre
GL error
2 2
Total N-1 ∑ yij − N y..
ij

Construcción de las F
Ho : E( yi ) = a + b⋅xi para todo i
*Prueba de ajuste al modelo
Ha : E( yi ) ≠ a + b⋅xi

Regla de decisión
CM F GL
Si Fres = CMerror
res
> res, GLerror, 1-α se rechaza Ho con α

*Prueba de significación de la regresión Ho : b = 0


Ha : b ≠ 0

*Se pone a prueba la significación de la Fres al 75%

Regla de decisión
CMreg
*Si Fres > F GL rres,GL, error1 − α = 0,25 ⇒ Freg =
CMres

Regla de decisión
CMreg
*Si Fres < F GLres, GLerror,1 − α = 0,25 ⇒ Freg =
SCres + SCerror
GLres + GLerror

170
Ejemplo: (Sokal-Rohlf § 14.5, pag 476 )
Se estudia la supervivencia del coleóptero Tribulium castaneum sembrado en cuatro
densidades distintas en harina (medida como número de huevos por gramos). La
supervivencia se considera desde el estado de huevo hasta el de adulto. Las variables son:
X: cantidad de huevos/ gramo de harina (Densidad)
Y: porcentaje de sobrevida
Densidades
5/gr 20/gr 50/gr 100/gr
61,68 68,21 58,65 53,23
58,37 66,21 58,37 49,89
69,30 63,44 58,37 49,82
61,68 60,84
69,30
N 5 4 3 3
Media 64,02 64,80 58,48 50,95 N = ∑ni = 15

El objetivo en la experiencia es estudiar si la supervivencia varía significativamente con el


aumento de la densidad de siembra
Estimación recta de regresión para el

75
70
% sobrevida

65
60
55
50
45
0 10 20 30 40 50 60 70 80
80 90
90 100
100 110
110
# huevos/gr harina

1 1
x= ∑ ni xi = 37 y= ∑ ni yi = 60,5207
N i N i

2 b̂ = −0,14701
SCxx = ∑ ni xi2 − N x = 18690
i
â = 65,9601
2 2
SCyy = SCtotal= ∑ yij − N y.. = 562,3883
ij
Recta estimada
Sxy = ∑ xi yi − N xi yi = −2747,6685
i ŷ = 65,9601 − 0,15 ⋅ x

171
F de variación GL SC CM F P
Entre a-1=3 423,7016 141,2339 11,2 0,001

Regresión 1 403,9281 403,9281 40,86 0,023

Residual a-2=2 19,7744 9,8868 0,78 0,481

Error N-a=11 138,6867 12,6079


Total N-1=14 562,3887

Ho : E( yi ) = a + b⋅xi para todo i


*Prueba de ajuste al modelo
Ha : E( yi ) ≠ a + b⋅xi

Como P=0,481 > 0,05 no se rechaza la Ho, por lo tanto hay buen ajuste al modelo lineal

*Prueba de significación de la regresión Ho : b = 0


Ha : b ≠ 0
significación de la Fres al 75%
CMreg 403,9281
Como P=0,481 < 0,75 se rechaza la Ho ⇒ Freg = = = 40,86
CMres 9,8868
Como P=0,023 < 0,05 se rechaza la Ho, por lo tanto b ≠0
El porcentaje de sobrevida disminuye significativamente con el aumento de la densidad.

172
MODELO DE CORRELACIÓN LINEAL

Es el caso bivariado, es decir cuando se tiene una muestra aleatoria de


tamaño n de una variable aleatoria bidimensional (X, Y), o sea una muestra
aleatoria de n pares (x, y), extraída de una población con distribución conjunta
F(x,y).

Aquí se estudiará el caso en que F(x,y) es la distribución normal bivariada, o


sea:

(x,y) ∼ N(μX , μy, σ²X, σ²y, σxy).


Donde
σ²X denota la varianza de la variable X
σ²y, la varianza de la variable Y
σxy la covarianza entre X e Y

El objetivo de este modelo es estudiar una medida de la relación lineal entre


las variables en estudio; y se dirá si las variables están o no linealmente
correlacionadas. El parámetro que indica tal correlación es el coeficiente de
correlación (ρ), que se define como:

2
COV ( x,y )
ρxy =
Var ( x ) ⋅ Var ( y )

El coeficiente de correlación compara la variabilidad conjunta de las dos


variables (covarianza) con la variabilidad independiente de cada una de ellas
(el producto de las varianzas).Se estima por medio del estadístico r, que más
adelante se definirá. El signo de ρ es el de la covarianza e indica si la
correlación es directa o indirecta, es decir si al aumentar los valores de una
variable aumentan o disminuyen los de la otra respectivamente.

En el modelo de regresión se define el llamado coeficiente de determinación


(R²) que de ninguna manera es un estimador del cuadrado del coeficiente de
correlación ya que es sólo un número que no varía para el mismo conjunto de
valores de la variable X, por lo tanto no es posible el estudio de su significación
estadística; y además R² y r corresponden a modelos con supuestos y
objetivos diferentes.

173
Si ρ=0 X e Y no están correlacionadas
−1≤ ρ ≤ 1 Si ρ =1 o ρ = −1 X e Y están linealmente correlacionadas

Estimación del coeficiente de correlación


Un estimador puntual del coeficiente de correlación es el coeficiente de
correlación muestral r, definido como la raíz cuadrada de :

S2xy
r=
SCxx ⋅ SCyy

Prueba de significación de la correlación

Ho : ρ = 0
Ha : ρ ≠ 0
*Se compara el r con el valor crítico de la tabla de valores críticos para el coeficiente de correlación
Regla de decisión
Si r > VC se rechaza Ho con α

N−2
*Se calcula ε=r y se lo compara con tN− 2,α
2
1− r2
Regla de decisión
Si ε > tN−2,α 2se rechaza Ho con α

ρ 1− r2
*Se construye un intervalo de confianza para como r ± tN− 2,α ⋅ y se verifica si el
cero queda contenido en él. 2 N−2
Regla de decisión
Si el intervalo de confianza no contiene al 0 se rechaza Ho con α

174
Ejemplo de Sokal pp571
Se quiere estudiar la relación entre el peso de las branquias y el peso del cuerpo
en el cangrejo Pachygrapsus crassipes.
Se toma una muestra aleatoria de 12 de estos cangrejos y se obtiene la tabla:
Peso de las Peso del Ho : ρ = 0
Ha : ρ ≠ 0
branquias cuerpo(g)
(mg)
r=0,86519
159 14,40
179 15,20
N=12 GL=N-2=10
100 11,30
45 2,50 Regla de decisión

384 22,70 Si r > VC se rechaza Ho con α

230 14,90
100 1,41 Conclusión
320 15,81 Como 0,86519 > 0,708 se rechaza Ho con α=0,01
80 4,19
220 15,39 El peso de las branquias y el del cuerpo de Pachygrapsus
320 17,25 crassipes están positivamente correlacionados. A
210 9,52 mayor peso del cuerpo, mayor peso de las branquias.

175

También podría gustarte