Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TEORIA - UBA - 2009 2do PDF
TEORIA - UBA - 2009 2do PDF
Ciencias Biológicas
Apuntes Teóricos
2009
1
Indice
Página
Introducción…………………………………….. 3
Muestra y Población…………………………... 3
Estadística descriptiva………………………… 9
Distribucion de Frecuencias………………….. 9
Probabilidades…………………………………. 16
Distribución en Probabilidades………………. 30
Distribuciones Discretas………………………. 39
Distribuciones Continuas……………………... 52
Prueba de Hipótesis…………………………... 78
Análisis de Frecuencias………………………. 95
2
Por Javier Calcagno
BIOMETRÍA
INTRODUCCIÓN
Biometría (bios, vida y metron medir) La biometría se puede definir como la aplicación
de la Estadística para resolver problemas relacionados con las Ciencias Biológicas. El
significado de esta definición no es trivial, porque si bien los conocimientos teóricos
son de primordial importancia para la comprensión de los procedimientos y la
validación de los supuestos de las técnicas estadísticas aplicadas, es imprescindible el
conocimiento de los procesos biológicos que rigen el funcionamiento y la actividad de
los organismos y de su relación con el medio. De nada sirve el conocimiento teórico si
no se tiene el criterio profesional del biólogo en el momento de tomar decisiones,
plantear experiencias y evaluar el resultado de las mismas.
No es casual que en las mas importantes Universidades del mundo, sean biólogos los
académicos a cargo del dictado de la estadística para biólogos. Es significativo el
hecho de que los textos de referencia por excelencia en biometría son obra de
biólogos. Claros ejemplos son dos textos propuestos en este curso (Biometry, de R.
SOKAL y R. ROHLF que trabajan en la State University of New Cork y Biostatistical
Análisis, de J. H ZAR, profesor Departamento de Ciencias Biológicas de la Northern
Illinois University)
MUESTRA Y POBLACIÓN
3
Observación individual (o.i.)
Variable
Población
Es el conjunto de todas las unidades experimentales que en el ejemplo (c) serían, por
ejemplo todas las plantas de trigo de esa variedad. As veces la población puede
coincidir con la llamada población biológica, pero en otras oportunidades la población
en estudio no está representada por el mismo concepto.
Población estadística
4
Población hipotética o virtual
Muestra de tamaño n
Alcance de la experiencia
Aunque las conclusiones obtenidas, estrictamente son solo válidas para las
condiciones en que se realizó la experiencia o el muestreo, si se toma el ejemplo (a)
las deducciones que se obtienen acerca de la fisiología de las ratas en cuestión
puede justificar su validez para todas las ratas e incluso, bajo ciertas condiciones
5
generales, pueden ser válidas para otras especies; de allí el valor de los estudios en
animales en la investigación aplicada a la salud. No son pocos los adelantos
producidos por la medicina humana, que tienen su base en experimentos realizados
con animales de laboratorio.
Muestreo
Muestreo sistemático
6
Variabilidad explicada
Variables discretas son aquellas que resultan de conteos y por lo tanto sus posibles
valores se pueden expresar mediante números enteros (0, 1, 2,......). Volviendo a los
ejemplos del principio, son variables discretas la (b) Y: cantidad de huevos puestos
por hembra de un insecto y la (d) W: cantidad de individuos de una especie de pájaro
parasitados con cierto platielminto por cada cinco individuos de esa especie de pájaro.
Variables continuas son aquellas que resultan de mediciones cuyos posibles valores
pueden ser expresados por medio de números reales. En los ejemplos del principio,
son variables continuas la (a) X: peso, en gramos de ratas sometidas a un
determinado tratamiento y la (c) Z: largo del tallo, en cm. de plantas de trigo de esa
variedad.
Escalas
Las categorías en las que está dividida la variable pueden o no tener una ordenación
natural. Una clasificación realizada en cuanto al sexo, por ejemplo no tiene una
7
ordenación natural, pues no existe razón lógica para pensar que un sexo se debe
poner en orden anterior o posterior al otro. En estos caso la escala es nominal. Si las
categorías siguen una ordenación natural o se pueden ordenar, por ejemplo si se
clasifican organismos según el orden en que nacen (primero, segundo, tercero, etc),
se dice que la escala es ordinal.
Las variables numéricas siempre se pueden ordenar ya que los números por
definición tienen un orden establecido. Las variables numéricas, sean discretas o
continuas, se clasifican según que el cero de la escala tenga o no un significado. Si en
el marco de un experimento para medir fertilidad de un insecto, un individuo pone cero
huevos, ese cero tiene sentido ya que expresa la ausencia de huevos puestos por el
individuo en cuestión. En cambio si se registra la temperatura en, por ejemplo grados
Fahrenheit o Centrígrados, el valor cero en esa escala es artificial, pues no indica la
falta de temperatura. Tampoco tiene sentido decir que un objeto cuya temperatura es
de 32 grados es el doble de caliente que uno cuya temperatura es de 16 grados; pero
sí tiene sentido decir que la diferencia entre 200C y 25°C es la misma que entre 50C y
10°C (ó 77°F- 68°F = 50°F - 41°F) . En el caso de las temperaturas, la escala se
denomina escala intervalo. En estos casos, tiene sentido comparar diferencias pero
no cocientes.
Cuando se pueden comparar cocientes se dice que la variables se miden en escala
cociente; por ejemplo la variable peso, ya que el cociente entre dos pesos es el
mismo sea éste registrado en gramos o en onzas.
Escala nominal
Categórica
Escala ordinal
Variable
Escala de intervalo
Numérica
Escala de cociente
8
ESTADÍSTICA DESCRIPTIVA
DISTRIBUCIÓN DE FRECUENCIAS
Frecuencia absoluta
Frecuencia relativa
Fi =
Es el cociente entre la frecuencia absoluta y el tamaño de la muestra, se indica: f i = f ( xi)
n
Frecuencia acumulada
Cuando se refiere a frecuencias agrupadas para una variable continua, esto significa
que la variable se presenta dividida en intervalos. Estos intervalos se denominan
intervalos de clase que deben ser contiguos (pegados) y excluyentes (una
observación no puede pertenecer a dos intervalos) y los intervalos de clase así
definidos deben contener a todos los valores de la muestra.
9
Existen distintos criterios para la construcción de los intervalos de clase para que se
puedan satisfacer los requisitos citados mas arriba:
a) Cuando un valor de la muestra cae en algún extremo del intervalo se utiliza como
regla que dicho valor se asigna al intervalo inferior o al superior. Cualquiera de los
dos criterios son válidos, siempre que se aplique de la misma manera para todos
los intervalos.
Gráficos
ε = f(x1,....., xn}
Por extensión suele usarse el término estadístico para referirse al valor de la función .
Entonces se habla del estadístico y = ε = f(x1,....., xn} cuando en realidad se está
refiriendo a la función Y= f(X, ...., Xn)
De la definición se deduce que el valor del estadístico varía de una muestra a otra de
la misma variable.
Se los llama estadísticos o "características muestrales"; para diferenciarlos de los
parámetros que son las "características poblacionales".
Los estadísticos son útiles para describir la muestra y para estimar parámetros de la
población. El estudio del uso descriptivo de los estadísticos es lo que se denomina
Estadística Descriptiva.
Son los que indican el 'centro' de la muestra, representan los valores alrededor de los
cuales fluctúan las observaciones individuales de la muestra.
Entre los estadísticos de posición se encuentran la media aritmética, la media
geométrica, la mediana, la moda, los cuartiles, los percentiles.
De aquí en mas {x1,...., xn} se refiere a una muestra aleatoria de tamaño n de una
variable aleatoria X, extraída de una población determinada.
10
1) Media aritmética. También conocida simplemente como media. Se define
como el promedio aritmético de los valores de la muestra, y se indica x :
n
∑ xi Fi
x= 1 donde Fi es la frecuencia de la observación xi
n
n
∑ xi
x= 1 cuando cada xi tiene frecuencia uno
n
log y
MGx = n x1 ⋅ x 2 ⋅ ..... ⋅ xn = antilog ∑ n
Si n es par, la mediana es el valor de la variable entre los valores que ocupan los
lugares
n y n+2
2 2
11
Relación entre la media, moda y mediana
Observar que Q2 = M
Estadísticos de dispersión
Dan una medida de la dispersión de los valores de la muestra alrededor del valor
central.
2) Desviación intercuartil. Q3 − Q 1
∑ (xi− x )
2
3) Promedio cuadrático de las desviaciones q=
n
∑ (x i − x )
2
2
5) Varianza muestral . s =
n−1
6) Desviación estándar. s = s2
12
Ventajas de s² sobre q
Suma de cuadrados.
Grados de libertad.
Cuadrado medio
Como se vio, la varianza muestral es el cociente entre una suma de cuadrados y sus
grados de libertad. Este cociente recibe el nombre de cuadrado medio. Entonces la
varianza muestral, basada en una muestra de tamaño n, es un cuadrado medio con
n−1 grados de libertad.
Estadístico de asimetría
∑ (xi− x ) Fi
3
g1 =
n s3
13
Estadístico de aplanamiento
⎡ ∑ (x − x )4 Fi ⎤
g2 = ⎢ i ⎥−3
⎢⎣ n s4 ⎥⎦
Si la curva es normal g2 = 0. Si g2 > 0 la curva es leptocúrtica y si g2 < 0 la curva es
platicúrtica.
g2 = 0 g2 > 0 g2 < 0
⎛ 1⎞
CV * = CV ⎜1 + ⎟
⎝ 4n ⎠
1) Se quiere estudiar si una muestra es más o menos variable con respecto a una
característica que a otra. A una muestra de mujeres de 20 años se le registra el peso
(en kg) y la altura (en cm). El CV es útil en este caso para saber cual de las dos
características medidas es más variable en esta muestra
Peso Altura
Media 52 160
Desvío estándar 8 9,92
CV 15,39 % 6,20 %
14
Aunque el valor del desvío estándar es mayor para la altura, esto no significa que sea
esta la que presenta mayor variabilidad, pues como se dijo mas arriba, este valor está
influenciado por el valor de la media y las si la variable está medida en diferentes
unidades. Cuando se observa el valor del CV se verifica que, para las mujeres de 20
años el peso presenta una mayor variabilidad que la altura.
Inglaterra Argentina
Media 75 pulgadas 160 cm
Desvío estándar 2 pulgadas 10 cm
Coef. Variación 2.6 % 6.25 %
Sobre la base del valor del CV se concluye que los argentinos serían de alturas más
variables que los ingleses. En este caso como la altura está medida en diferentes
escalas para ambas muestras, la utilización del s es, además de incorrecta, confusa.
15
PROBABILIDADES
Introducción
1.- Las probabilidades son números comprendidos entre cero y uno inclusive, que
reflejan las expectativas con respecto a que un suceso físico determinado se
produzca o no.
2.- Una probabilidad próxima a uno indica que es de esperar que un determinado
suceso ocurra. No indica que el suceso vaya a producirse, solo que es un tipo de
suceso que generalmente ocurre.
4.- Una probabilidad próxima a ½ indica que es tan verosímil que el suceso ocurra
como que no ocurra.
¿Qué puede ser considerada una probabilidad grande o pequeña? Sin duda una
probabilidad de 1 es grande y una de 0 es pequeña. ¿Cuán cerca a estos extremos
debe encontrarse una probabilidad para ser considerada grande o pequeña?. No
existe una respuesta definitiva para esta pregunta. La interpretación de las
probabilidades siempre incluye una cuota de subjetividad. Una probabilidad que se
considera grande en un contexto, puede parecer pequeña en otro. Por ejemplo si se
va a realizar un paseo al aire libre y la probabilidad de lluvia para ese día es del 10%.
Si se considera que esa probabilidad es baja no hay mayor problema en salir de todas
maneras y sin paraguas porque lo más probable es que no llueva y si de todos modos
lloviera no sería tan grave mojarse un poco. Pero si se supone que uno es convocado
para ser el primer hombre en descender al fondo del océano en un nuevo aparato
submarino y existe una probabilidad del 10% de que falle, la valoración de esa
probabilidad puede ser distinta a la que se hace en el primer ejemplo.
16
Experimento o ensayo aleatorio
1.1. Arrojar una moneda al aire tres veces y contar el número de caras.
1.2. Arrojar dos monedas al aire y registrar sobre que cara caen.
1.3. Contar el número de ácaros en un lobo marino (huésped).
1.4. Contar el número de peces extraídos de un estanque hasta conseguir uno
marcado.
1.5. Registrar el peso de una rata de quince días.
1.6. Inyectar tres ratas con una droga letal y registrar la sobrevida (cantidad de
días hasta morir)
Espacio muestral
En el ejemplo (1.6) se define la variable X: cantidad de días hasta morir de tres ratas
tratadas.
17
Para este ejemplo la unidad experimental serían las tres ratas tratadas y la población
las ternas de ratas tratadas a las que se les registra la sobrevida
Si en el mismo ejemplo se define la variable Y: cantidad de ratas muertas al cabo de
diez días, entonces S = {0, 1, 2, 3}, la unidad experimental y la población son las
mismas que la de la variable X.
Suceso o evento
Tanto en el caso del espacio muestral como en el de los sucesos algunas veces los
resultados posibles pueden ser contados y otras no; pero siempre se podrá calcular la
posibilidad de que un determinado resultado ocurra.
Frecuencia relativa
Con lo dicho hasta aquí se puede describir todo el conjunto de los resultados posibles
de un experimento aleatorio pero no se puede asegurar la ocurrencia o no de un
determinado suceso A. Para ello se necesita asociar con cada suceso un número que
mida la posibilidad de ocurrencia de A .
Se vio que una de las características de un experimento aleatorio se basa en que
puede ser repetido indefinidas veces bajo las mismas condiciones experimentales.
Sea por lo tanto un experimento aleatorio E que se repite un número n finito de veces
y sean A y B dos sucesos asociados con él. Sean nA y nB el número de veces que
ocurren A y B respectivamente, en las n repeticiones .
Se define
fA = n A / n
18
como la frecuencia relativa del suceso A en las n repeticiones del experimento E y es
tal que cumple :
1) 0 ≤ fA ≤ 1
2) fA = 1 si y solo si A ocurre siempre (suceso cierto)
3) fA = 0 si y solo si A nunca ocurre
4) Si A y B son m.e. entonces fA ∪ B = fA + fB
5) Si la cantidad n de repeticiones es muy grande entonces la frecuencia relativa
converge (en probabilidad) a un número llamado probabilidad del suceso A; es
decir fA → P(A), cuando n → ∞. Esto significa que la frecuencia relativa basada en
un número creciente de repeticiones tiende a estabilizarse en las proximidades de
un valor definitivo. Esto es una realidad empírica, no una noción rigurosamente
matemática; cuando esto sucede se dice que el experimento muestra regularidad
estadística, es decir, una regularidad de los resultados medios de largas series de
repeticiones, en contraposición a la irregularidad aleatoria de las repeticiones
individuales.
Nociones de probabilidad
El problema planteado es el de definir para todo suceso A un número P(A) que mida
la probabilidad de ocurrencia de A.
Axiomas de probabilidad.
Además P(Ø) = 0 , de lo que se puede deducir para todo n finito que si los Ai, con
i=1,....n, son mutuamente excluyentes de a pares, entonces
19
Es de notar que esta definición de probabilidad no permite calcular la probabilidad de
un suceso dado, sino que, como toda definición axiomática, da las propiedades
básicas llamadas axiomas. Las restantes propiedades que se necesiten para el
cálculo de probabilidades habrá que deducirlas de ellas. Veamos algunas propiedades
sencillas de P(A) :
Entonces:
P(A ∪ B) = P(A) + P(B∩AC)
P(B) = P(A∩B) + P(B∩AC)
Restando:
20
Si los k resultados de un experimento aleatorio son igualmente probables se puede
utilizar la definición P(A)=fA para calcular probabilidades y puede por lo tanto
deducirse que cada uno de ellos tiene una probabilidad p = 1/k de ocurrencia. Esto
sale del hecho de que ∑pi = 1, de donde kpi = 1.
Luego si A es un suceso que consta de r resultados favorables resulta:
P(A) = r/k
Es importante destacar que la expresión (1) para evaluar P(A) es sólo consecuencia
de la equiprobabilidad y la finitud del espacio muestral S.
Para poder aplicar la expresión (1) se debe tener equiprobabilidad de los resultados.
Probabilidad condicional
Ejemplo.
Sea la población de alumnos de Biometría de la cursada de 2005, clasificados según
el turno de TP al que asistieron y la condición de haber aprobado o no los TP de la
materia, como muestra la siguiente tabla :
b) Cuál es la probabilidad de que un alumno del turno mañana, elegido al azar, haya
aprobado los TP? O, dicho de otra forma, ¿cuál sería la probabilidad de que el alumno
extraído al azar de entre los del turno mañana haya aprobado los TP?, o, ¿cuál es la
probabilidad de que el alumno haya aprobado los TP, dado que era del turno de la
mañana ?
21
Respuestas:
b) Este caso se trata de otro tipo de probabilidad. Hay que calcular la P(Aprobado /
turno mañana) = P(A / M), que se lee probabilidad de A condicional a B, o
probabilidad de que el alumno haya aprobado los TP dado que concurrió al turno
mañana .
La probabilidad propuesta puede ser calculada de dos maneras:
i) restringiendo el espacio de resultados posibles sólo a los alumnos del turno
mañana, entonces utilizando (1) resulta:
Esto en realidad se puede considerar como un cociente entre dos probabilidades pues
dividiendo el numerador y el denominador por el n total (100 en este ejemplo), se
obtienen las probabilidades en ambos; el resultado no cambia, pero es otra forma de
cálculo. Se obtiene:
P(A/ M) = P(A∩M) / P(M) = [20 /100] / [30 /100] = 20/30 = 2/3 = 0,67
22
estos números son las estimaciones de las proporciones de aprobados en el turno
mañana, en el tarde y en el de la noche. Esta comparación se estudiará más adelante
con una prueba de bondad de ajuste (Prueba de independencia)
Ocurrencia simultánea
Probabilidad total
Partición del espacio muestral :
Se dice que los sucesos B1, B2, ...,Bk constituyen una partición del espacio de
resultados posibles S si:
(a) Bi ∩ Bj = ∅ ∀para todo par i ≠ j. Esto significa que al realizar la experiencia ocurre
uno y solo uno de los Bi
(b) ∪ Bi = S
(c) P(Bi) > 0 para todo i=1,2,...,k
23
Dada una partición de S, para cualquier suceso A asociado a S es decir A ⊂ S se
puede escribir:
A = (B1 ∩ A) ∪ (B2 ∩ A) ... ∪... (Bk ∩ A)
donde los (Bi ∩ A) son disjuntos dos a dos puesto que los son los Bi y,
eventualmente alguno puede ser vacío.
Luego:
P(A) = P(B1 ∩ A) + P(B2 ∩ A) + ...... + P(Bk ∩ A)
y en razón de (9.1)
P(A) = P(B1)P(A/B1) + P(B2)P(A/B2) +.....+ P(Bk)P(A/Bk)
Se tienen tres urnas con bolillas blancas y rojas con la siguiente composición:
Cantidad de bolillas
Urna Blancas Rojas Total
1 (U1) 3 7 10
2 (U2) 5 3 8
3 (U3) 3 9 12
Total 11 19 30
La experiencia consiste en elegir una urna al azar y de ella extraer una bolilla también
al azar. Supongamos que la bolilla extraída es blanca y queremos saber cuál es la
probabilidad de que provenga de la urna tres
Sean los sucesos B = {extraer una bolita blanca} y Ui = {elegir la urna i} con i 1, 2, 3.
Luego:
24
Probabilidades a priori:
Sucesos independientes
Asimismo: P( A / B) = P( A / B) = P( A)
25
A es independiente de B y B es independiente de A. Es por esto que se verifica que
los sucesos A y B son independientes si y solo si:
P(A∩B) = P(A).P(B)
Prueba de diagnóstico
1.- La condición está presente y el test la detecta. Es decir el sujeto está realmente
enfermo (positivo) y el test da positivo (T+). Entonces no se ha cometido error:
2.- La condición está presente y el test no la detecta. Es decir el sujeto está enfermo
(A+) y el test da negativo (T-). Entonces se ha cometido error:
26
Especificidad : P(T- / A-) es la proporción de negativos entre los sanos.
Ejemplo. Se realiza una experiencia con 2000 sujetos elegidos al azar de entre
aquellos que son suceptibles a una cierta enfermedad (A), de los cuales 1420 son
personas sanas. Los resultados obtenidos se vuelcan en la siguiente tabla de 2x2:
Resultados
Positivo (T +) Negativo (T -) Total
Enfermos (A +) 540 400 580
Sano (A -) 120 1300 1420
Total 660 1340 2000
Calculando resulta:
Valor predictivo positivo = P(A+/ T+) = 540 / 660 = 0,8181 81,81 %
Valor predictivo negativo = P(A- / T-) = 1300 / 1340 = 0,97 97 %
27
Sabiendo también que en el ejemplo anterior 660 de las pruebas dieron positivas, y
suponiendo conocidas la especificidad y la especificidad, se puede construir una tabla
de probabilidades para este ejemplo:
Resultados
Positivo (T +) Negativo (T -) Total
Enfermos (A +) 0,27 0,02 0,29
Sano (A -) 0,06 0,65 0,71
Total 0,33 0,67 1
Riesgo relativo
Se podría deducir que hay diferencia entre los porcentajes de mortalidad según con
que fueron tratados. Parece que el nuevo tratamiento es más efectivo. Pero, ¿cuánto?
¿Qué riesgo existe al no utilizarlo?
y es una medida del impacto del factor de riesgo. Los datos se ponen en una tabla de
2x2.
En general los totales marginales correspondientes al factor de riesgo deberían ser
fijos, por lo tanto lo que se calcula es una aproximación del riesgo relativo verdadero.
28
Esto nos dice que un ratón con moquillo tratado con el tratamiento tradicional tiene el
doble de probabilidad de morir que uno tratado con el nuevo tratamiento.
Usos en epidemiología
Sea el suceso T = {cierto test da resultado positivo}, o sea en nuestro ejemplo indica
que la persona resulta positiva para una prueba de mal de Chagas. Una vez conocido
el resultado de test, el médico querrá conocer la P(C/T), es decir la probabilidad de
que el paciente realmente tenga Chagas dado que la prueba resultó positiva. Entonces
calcula:
P(C/T) = P(paciente con prueba + tenga Chagas) =
= [P(C∩T)] / P(T) = [P(C) P(T/C) / P(T)] =
= [(Prevalencia/100)P(prueba + entre los enfermos)] / P(prueba positivo)
Donde C´ indica a los pacientes sanos. La forma en que se recoge la información para
responder a la pregunta, no es la requerida para este cálculo puesto que los test se
practican en personas que ya se sabe si tienen o no mal de Chagas (P(T/C) y P(T/C')
son conocidos). Es decir que si los datos se ponen en una tabla de 2x2, uno de los
totales marginales (enfermedad) es fijo.
En Epidemiología se estiman:
P(T/C) = sensibilidad
P(T'/C') = especificidad
Donde T´ indica que la prueba dio resultado negativo, y que representan la proporción
de resultados positivos entre los enfermos y la de resultados negativos entre los
sanos, respectivamente. Es de esperar que estas probabilidades estén cercanas a
uno.
La expresión
P(C/T) = [P(C∩T)] / P(T) = [P(C) P(T/C) / P(T)]
es el Teorema de Bayes.
29
DISTRIBUCIÓN EN PROBABILIDADES
En la muestra En la población
X f X P
xi fi Xi pi
Suma 1 Suma 1
X 0 1 2 3 4 ó más
P 1/8 1/8 2/8 2/8 2/8
Luego si se elige un alumno de segundo año al azar se tiene una probabilidad del
25% de que haya aprobado tres materias y una probabilidad del 50% que tenga más
de dos materias aprobadas.
Definición: Una variable aleatoria es aquella cuyos valores son los resultados de un
experimento aleatorio.
Notación: Se indica con mayúscula la variable y con minúscula sus valores, entonces:
pi = P(X = xi) = PX(xi)
30
P(X = 2) = 2/8 = 0,25 P(X > 2) = 1 - [1/8 + 1/8 +2/8] = 0,50
En general para cada unidad experimental uno puede definir varias variables. En el
ejemplo dado podrían también haberse definido las variables aleatorias: Y: edad, en
meses, Z: coeficiente intelectual (IQ), etc.
Observación: Cuando las variables no son medibles, caso de los atributos, se les
puede hacer una conveniente asignación de valores.
NOTAS
7
4
No of obs
Expected
0
20 30 40 50 60 70 80 90 100 Normal
31
NOTAS
3
No of obs
Expected
0
20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 Normal
Definición: Se dice que X es una variable aleatoria continua si existe una función
continua fX(x), llamada densidad de probabilidad tal que:
1) fX(x) ≥ 0 ∀ - ∞ ≤ x ≤ ∞
2) ∫ fX(x) dx = 1 con - ∞ ≤ x ≤ ∞
Si X es una variable aleatoria discreta que toma valores x1,....xk con probabilidad
p1,..., pk entonces:
FX(xt) = ∑ pi = ∑ P(X ≤ xi) desde i = 1 hasta i = t ≤ k
Si X es una variable aleatoria continua con función de densidad fX(x) que toma
valores entre menos y mas infinito, entonces:
32
FX(x) = ∫ -∞x fX(t) dt
Propiedades de FX(x)
1) FX(x) es no decreciente, o sea si x1 ≤ x2, entonces FX(x1) ≤ FX(x2)
2) FX(- ∞) = 0 ; FX (+∞) = 1
3) Si X es una variable aleatoria continua, entonces ∂FX(x) / ∂dx = fX(x)
Función de ditribución
acumulada
frecuencia
variable
33
Nota: Sea una población finita de tamaño N y sea la variable aleatoria discreta X que
toma valores x1,...., xN con probabilidades p1 ,..., pN, donde cada pi = 1/N. Entonces:
E ( x ) = ∑ x i p i = ∑ x i [1 / N ] = [1 / N ]∑ x i = x = μ
X 0 1 2 3 4 ó más
P 0,05 0,15 0,20 0,40 0,20
Propiedades de E(X)
34
Para tener una idea de la dispersión en las mismas unidades que la variable se define
la desviación estándar como la raíz cuadrada positiva de la varianza y se indica σ.
Propiedades de VarX
Sea por ejemplo el experimento que consiste en elegir hojas al azar de un árbol y
medirles el largo(Y) y el ancho(X) en cm. Los datos se pueden arreglar en una tabla del
siguiente tipo:
Otros ejemplos:
a) Y: peso, en gramos, X: largo, en cm de langostas hembras
b) Y: largo st (cm), X: largo cabeza (cm) de truchas arco iris juveniles machos
c) Y: número de espinas, X: largo (cm) de rama de algarrobo.
Diagrama de Dispersión
66
64
62
Ancho
60
58
56
54
0 10 20 30 40
Largo
35
La dispersión de la nube de puntos da una idea aproximada de la distribución de los
individuos (unidades experimentales) en la población en estudio. En casos sencillos
hasta puede postularse la hipótesis de que los individuos están separados en grupos
más o menos distinguibles. Pero estos temas corresponden a la estadística
multivariada.
A veces se está interesado en buscar una relación funcional entre las variables y la
intensidad de tal relación. Este punto se resolverá más adelante con un análisis de
regresión lineal y uno de correlación lineal respectivamente.
Las probabilidades correspondientes a una variable aleatoria bidimensional pueden ser
tabulados en tablas de doble entrada. Sea por ejemplo el caso de pájaros de tres
especies (sp 1, 2 y 3) y de cuatro lugares de procedencia (L 1, 2, 3 y 4); las
probabilidad en la intersección de fila i con la columna j representa la probabilidad de
que un pájaro de la sp i pertenezca a la localidad j :
L1 L2 L3 L4 Total
sp 1 0,01 0,07 0,09 0,03 0,20 E(sp) = 2,14
sp 2 0,02 0,16 0,18 0,10 0,46 E(L) = 2,80
sp 3 0,01 0,10 0,15 0,08 0,34 Cov(sp, L) = 0,048
Total 0,04 0,33 0,42 0,21 1
Gráfico de perfiles:
Gráfico de lugares en sp
0,2
probabilidad
0,15 L1
L2
0,1
L3
0,05 L4
0
sp 1 sp 2 sp 3
Gráfico de sp en lugares
0,2
probabilidad
0,15
sp 1
0,1 sp 2
0,05 sp 3
0
L1 L2 L3 L4
36
Viendo estos gráficos podríamos plantear algunas hipótesis respecto a la distribución
de las especies en las cuatro localidades (o algunas hipótesis sobre la distribución de
la población de aves en las localidades), y para estudiar su significación, como
veremos más adelante, se trabajará con muestras aleatorias de aves extraídas de
cada una de las cuatro localidades y separadas por especies.
Caso discreto: Sean X e Y variables aleatorias discretas que toman valores xx con i =
1, 2, ..., k
e yj con j = 1, 2, ..., h, respectivamente. Luego los datos pueden tabularse de la
siguiente forma:
Yj
.....................
Xi ........ pij = PXY(xi , yj) ........ pi. = Px(xi)
....................
p.j = PY(yj)
Las probabilidades que aparecen en los bordes (totales) son las probabilidades
marginales, y representan las distribuciones en probabilidades de las variables X e Y:
el total marginal columna es la distribución en probabilidades de la variable X, mientras
que el total marginal fila lo es de la variable Y. Además:
37
Caso continuo: Sean X e Y variables aleatorias continuas. En este caso se tiene una
función de densidad conjunta, que se indica fXY(x,y), de dos variables; las
correspondientes densidades marginales serán fX(x) y fY(y), calculadas como:
Covarianza
Para las variable aleatoria bidimensionales se tiene un nuevo parámetro que indica la
variación conjunta de las variables intervinientes. Se llama covarianza y se define
como:
cov(X, Y) = σ XY = E{[X − E(X)][Y − E(Y)]} = E(XY) − E(X) E(Y)
Propiedades de la covarianza
38
donde la primer suma es sobre el total de variables y la segunda para los sumandos en
que i es distinto de j.
Muestra aleatoria
Una muestra aleatoria de tamaño n de una variable aleatoria con una cierta distribución
en probabilidades es un conjunto de n variables aleatorias independientes cada una
con la misma distribución en probabilidad. Es decir se trata de n variables
independientes equidistribuídas. Esta nueva definición de muestra aleatoria utilizando
el concepto de independencia de variables es válida aún cuando la población sea
infinita.
Introducción
Elegir un modelo probabilístico equivale a definir una variable aleatoria y asignarle una
determinada distribución en probabilidades. Esta distribución dependerá de las
condiciones bajo las cuales se efectúa la experiencia.
Ensayo de Bernoulli
Supongamos que una variable aleatoria X toma uno de dos valores. Se asigna el
valor 0 a uno de los resultados posibles y 1 al otro. Al resultado 1 suele llamárselo
"éxito" y al 0 "fracaso". Esta asignación de 0 y 1 al fracaso y al éxito es, por supuesto
arbitraria y, como se definió anteriormente, a este tipo de variables se las llama
dicotómicas.
39
Sea la variable X: número de éxitos y tal que :
S = {0,1}
P(x = 1) = p = probabilidad de éxito
P( x= 0) = q = (1-p) = probabilidad de fracaso
cantidad de éxitos
p̂ =
cantidad total de ensayos
x
Si se atribuyó el valor 0 al fracaso y 1 al éxito se tiene que p̂ = ; donde X es la
variable n
40
Se cuentan los fracasos hasta obtener el r-ésimo éxito en repeticiones
independientes en condiciones idénticas: Distribución Binomial Negativa ó de
Pascal.
Distribución Binomial
a) Los resultados posibles en cada repetición del ensayo son dicotómicos, pueden ser
considerados como éxito o fracaso. Para la variable X los resultados posibles son
cara o ceca, para la Y la semilla germina o no germina y para la H el insecto está
infectado o no lo está.
b) Cada uno de los ensayos se repite un número finito de veces, en este caso es seis
para todos ellos. Seis veces se arroja la moneda, seis son las semillas que se
observan y seis son los insectos que se consideran.
d) Para cada ensayo se puede definir una probabilidad de éxito, que se mantiene
constante para cada una de las repeticiones; esta probabilidad puede por ejemplo
ser del 50% para X, si se supone que la moneda no está cargada.
⎛n⎞
P( X = k ) = ⎜ ⎟ pk (1 − p)n − k con k= 0, 1,...., n
⎜ ⎟
⎝k ⎠
Esta forma de calcular la probabilidad de una binomial puede deducirse de la
siguiente forma:
Sea x ∼ Bi(p, n). Se quiere calcular la probabilidad de k éxitos de entre los n
resultados posibles. Denotemos con E al éxito y con F al fracaso. Luego k éxitos en n
ensayos es un suceso con k valores E y n - k valores F, por ejemplo los k primeros
ensayos son E y los restantes F, o sea:
41
E E E....E F F ...F
Ahora nos preguntamos cuantos sucesos hay con esta probabilidad. Esto se contesta
calculando el número de sucesos con k valores E y n – k valores F. O sea de cuantas
formas se pueden ordena n objetos donde hay k de una clase (repetidos) y n – k de
otra. Estas son las combinaciones de n tomadas de a k. O las permutaciones de n
objetos donde hay k repetidos y n – k repetidos:
⎛n⎞ n!
⎜ ⎟=
⎜ ⎟
⎝ k ⎠ k! (n − k )!
X1 + X2 ~ Bi(p, n1 + n2)
X = ∑ Xi ∼ Bi(p,n)
42
E(X) = E [∑ Xi] = ∑ E(Xi) = ∑i=1n p = np
Var(X) = Var [∑ Xi] = ∑ Var Xi = ∑1n pq = npq = np(1 – p)
Ejemplo:
Sea la variable X: cantidad de ratas muertas de entre cuatro tratadas con una sustancia
cancerígena, al cabo de 10 días.
Luego n = 4, los resultados posibles son 0, 1, 2, 3 ó 4 ratas muertas.
Si se supone para p= probabilidad de muerte las dos siguientes situaciones:
a) p = 0,50 X ∼ Bi(0,50 , 4)
b) p = 0,70 X ∼ Bi(0,70 , 4)
Se calcula la probabilidad con que la variable toma sus distintos valores, para cada uno
de los modelos y se tiene la distribución en probabilidades de la variable:
(a) (b)
X X ∼ Bi(0,50 , 4) X ∼ Bi(0,70 , 4)
0 0,0625 0,0081
1 0,25 0,07556
2 0,3750 0,2646
3 0,25 0,4116
4 0,0625 0,2401
E(X) = µ 2 2,80 ≈ 3
2
Var(X) = σ 1 0,84
Des st (X) = σ 1 0,9165 ≈ 1
0,5
0,4
Pb 0,3 Bi(0,50,4)
0,2 Bi(0,70,4)
0,1
0
0 1 2 3 4
# ratas muertas
Gráfico de barras (histograma)
43
Extracciones con y sin reposición
Distribución Hipergeométrica
a) Si se realizaron con reposición, cada una de las tres variables definidas pueden
seguir una distribución aproximadamente binomial con n = 4 y p = 0,30 constante.
44
[7/10][6/9][3/8][2/7] = 0,05, P(2 machos)= 6x0,05 = 0,30
⎛ 7 ⎞⎛ 3 ⎞
⎜ ⎟⎜ ⎟
CF ⎜⎝ 2 ⎟⎠⎜⎝ 2 ⎟⎠
P( X = 2) = = 10 = 0,30
CP ⎛ ⎞
⎜⎜ ⎟⎟
⎝4⎠
Sea una población de moscas de la fruta que posea N individuos de los cuales D
pertenecen al fenotipo mutante (M) y las restantes N - D pertenecen al fenotipo
salvaje (S). Se extraen n (n ≤ N) moscas sin reposición y se quiere calcular la
probabilidad de que k sean mutantes y n-k salvajes.
El esquema sería:
45
⎛D⎞ ⎡ ⎛ D ⎞⎛ D ⎞⎤ ⎡N − n ⎤
E( X) = ⎜ ⎟n V( X) = ⎢n⎜ ⎟⎜1 − ⎟⎥ ⎢
⎣ ⎝ N ⎠⎝ N ⎠⎦ ⎣ N − 1⎥⎦
Esperanza y varianza
⎝N⎠
Notar que el cociente D/N es como el p de la binomial, luego sería E(X) = np y V(X) =
npq[(N - n) / (N - 1)], que coinciden con la esperanza y varianza de la binomial, salvo
en el factor [(N - n) / (N - 1)], llamado de corrección. Para N (tamaño de la población)
suficientemente grande comparado con n (tamaño de la muestra). La distribución
hipergeométrica converge a la distribución binomial; el factor de corrección es
prácticamente nulo.
Distribución de Poisson
Otros Ejemplos
1) Contar la cantidad de colonias de hongos por caja de Petri
2) Contar la cantidad de microorganismos por cc de agua
3) Contar la cantidad de partículas emitidas por una fuente radiactiva por segundo
4) Contar la cantidad de mutaciones ocurridas en un gen
5) Contar la cantidad de plantas de una especie por m² en la ladera de una montaña.
En todos los casos hay una variable que representa el número de sucesos por unidad
de tamaño “t”.
46
Proceso de Poisson
P( X = x ) = e
− λt
(λt )
x
con x = 0, 1,...........
x!
E(X) = V(X) = λ t
47
Análisis de poblaciones en el espacio: contagio y repulsión
Cuando los sucesos ocurren con independencia mutua, o sea están arreglados al
azar, y cumplen los axiomas de Poisson, la variable sigue una distribución de Poisson
y la población está dispuesta al azar.
Si la ocurrencia de un suceso aumenta la probabilidad de ocurrencia de un segundo
suceso similar al primero en la misma unidad de muestreo, se dice que la población
está en contagio o agrupada (también se dice apiñada o agregada). ejemplos podrían
ser: 1) animales que se reúnen para comer, 2) animales que se reúnen para invernar,
3) agrupaciones sociales, 4) bacterias en colonias, etc.
Si la ocurrencia de un suceso disminuye la probabilidad de ocurrencia de un segundo
suceso similar en la misma unidad de muestreo, se obtiene una población en
repulsión. Por ejemplo animales en competencia por algún recurso limitado.
Como se discutió cuando se vieron los distintos programa de muestreo, es importante
conocer como están arreglados o dispuestos los individuos en la población. Si es al
azar (Poisson) los individuos pueden ser extraídos mediante un muestreo simple al
azar, pero en caso contrario habrá que buscar la forma de extraer la muestra.
2
CD = s
x
En aquellas variables que siguen una distribución de Poisson este valor está próximo
a uno. Será mayor que uno en las agrupadas (contagio) y menor que uno en casos de
repulsión (distribución uniforme):
> 1 Contagio
CD = 1 Azar
< 1 Repulsión
48
Azar Contagio Repulsión
Tomado de Rabinovich, 1980
Si la mayoría de las Fobservada > Fesperada, entonces existe contagio puesto que las
frecuencias observadas son mayores que las esperadas. En caso contrario existe
repulsión. En el caso de la distribución binomial verifica lo mismo que en el caso de
Poisson.
Gráficamente se puede observar que cuando existe contagio “se levantan” ambas
colas de la distribución y en repulsión “se aplastan”; es decir colas mas pesadas
indican repulsión.
Repulsión
Poisson
Contagio
49
Fobservadas - Fesperadas
Azar Contagio Repulsión
+ + -
- + -
+ + -
+ - +
- - +
+ - +
- - +
- + -
+ + -
- + -
50
Distribución Geométrica
Se demuestra:
E(X) = 1/ p
V(X) = q / p²
Ejemplo
Se estudia la cantidad de machos de una especie de pez que se tiene que pescar
hasta pescar la primera hembra. El n no está fijado
Se suponen los dos siguientes modelos:
a) p = ½ = 0,50
b) p = 0,45
51
Distribución Binomial Negativa
Cualquiera de las secuencias en que aparecen los primeros r-1 éxitos (el r-ésimo
aparece siempre en el último ensayo de Bernoulli) tiene probabilidad:
⎛ ⎞
P⎜ exito, exito....exito, fracaso, fracaso ,...... fracaso, EXITO⎟ = p r −1 ⋅ q k ⋅ p = q k p r
⎜
⎟
⎝ r −1 veces k veces ⎠
La cantidad total de ensayos será siempre k + r, de los cuales k + r-1 son candidatos a
que sean fracasos (el último es siempre éxito). O sea que k fracasos se pueden
producir de Ckk+r-1 formas. De ahí que:
P( X = k ) = C kk +r −1q k p r =
(k + r −1)! q k p r
k!(r −1)!
E(X) = rq / p
Var(X) = rq / p²
En la práctica se considera que esta aproximación es buena si np < 5, y n > 30. Nunca
se debe perder de vista que la distribución exacta de la variable es la binomial y la de
Poisson es sólo una aproximada y es tanto más buena cuanto mayor es n.
52
MODELOS DE DISTRIBUCIÓN DE VARIABLES CONTINUAS
Distribución uniforme
Uno de los modelos probabilísticos más sencillos es aquel que corresponde al caso de
elegir dígitos al azar. En este caso, por ejemplo, los enteros 0, 1, 2, ......, 9 son
igualmente probables. Luego:
P(elegir el dígito i) = 1/10, i = 0, 1, 2, ....., 9
La función de distribución es nula hasta el límite inferior del intervalo y luego crece
linealmente hasta el valor 1, valor que alcanza en el límite superior.
Se indica X ~ U[a, b]
53
Expresión para la función de densidad, f(x), de la variable X ~ U[a, b]
La función de distribución F(x) es cero hasta el valor a tenemos que: f(x) = 0 si x<a
Como F(x) permanece constante (es igual a 1) para x > b tenemos: f(x) = 0 si x>b
Por definición sabemos que f(x) = F’(x) = ∂F(x) / ∂x. Además, si F(x) crece entre 0 y 1
en el intervalo (a, b) con velocidad constante, entre a y b, F(x) es una recta de la
forma:
F(x) = k + t x
Luego:
F(a) = 0 ; F(b) = 1
F’(x) = f(x) = t
F(b) = k + t b = 1 y F(a) = k + t a = 0 tb–ta=1 t = 1/(b-a)
Entonces:
⎧ 1 si a ≤ x ≤ b
⎪
f ( x) = ⎨ b − a
⎪⎩0 si x < a ó x > b
Conociendo la función de densidad f(x) es fácil calcular E(X) y Var(X), para X ∼ U(a, b):
b
tx 2 b
1 ⎛ b2 − a2 ⎞ 1
E ( X ) = ∫ t xdx = | = 2 ⎜⎜ b − a ⎟⎟ = (b + a )
a
2 a ⎝ ⎠ 2
1 ⎛ b3 − a3 ⎞ 1 2
⎟⎟ = (b − ab + a 2 )
b b
tx 3
E ( X ) = ∫ t x 2 dx =
2
| = 3 ⎜⎜
a
3 a ⎝ b − a ⎠ 3
(b − a ) 2
Var ( X ) = E ( X 2 ) − E ( X ) 2 =
3
(
1 2
b − ab + a 2 ) − (b + a ) =
1
4
2
12
Se dice que una variable aleatoria continua X, que toma valores no negativos, tiene
una distribución exponencial con parámetro k si su función de densidad está dada
⎧ ke−kx si x > 0
por: f ( x) = ⎨
⎩ 0 si x ≤ 0
54
La distribución exponencial desempeña un rol importante en la descripción de
numerosos fenómenos. El parámetro k de la distribución exponencial es una tasa, que
para alguna experiencias se debe suponer constante y que, por la forma en que se ha
definido la densidad, sólo puede tomar valores positivos.
∫ ke dx = −e | = (−0) − (−1) = 1
− kx − kx
0
0
x x
F ( x) = P( X ≤ x) = ∫ ke − kx dx = − e − kx | = 1 − e − kx cuando x ≥ 0
0 0
F(x) = 0 si x < 0.
Luego P(X ≥ x) = e-kx
Esto nos indica que el valor esperado de la variable es la inversa del cuadrado del
valor del parámetro k. Por lo tanto si k es la tasa, por ejemplo de mortalidad, de algún
organismo en horas, la E(X) nos indicaría el tiempo esperado de sobrevida del
organismo. Además la E(X) crece con la disminución de la mortalidad y viceversa.
∞
u = x 2 ⇒ du = 2 xdx;
E ( X ) = ∫ x 2 e − kx kdx . Integrando por partes, tomando:
2
0 ke − kx dx = dv ⇒ v = −e − kx
55
∞ ∞ − kx
− ∫0 − e 2 xdx = 0 + ∫ ∫
2k ∞ 2 ∞ − kx 2
E ( X 2 ) = − x 2 e− kx e− kx xdx = ke xdx = 2
0 k 0 k0
k
E(X )
2 1 1
Var ( X ) = E ( X 2 ) − E ( X ) 2 = 2 − 2 =
k k k2
Distribución Normal
La distribución normal aparece como caso límite de varias distribuciones (en general
cuando el tamaño de la muestra tiende a infinito), lo que permite utilizarla como
aproximación en el cálculo de probabilidades. Los errores de medición muy
frecuentemente se distribuyen según esta ley, razón por la cual se la conoce también
como "ley de frecuencias del error". Esto se debe a que la distribución de una suma de
variables aleatorias independientes se aproxima a la distribución normal a medida que
aumenta su número. En la práctica esto significa que es posible utilizarla como modelo
para la distribución de variables aleatorias que resultan de la suma de muchas causas
de pequeña magnitud.
Sea X una variable aleatoria continua (puede tomar cualquier valor en la recta real).
X tiene una distribución normal o de Gauss - Laplace, que se indica X ~ N(µ, σ²)
cuando su función de densidad es: 2
1 ⎛ ⎞
1 − ⎜
x−μ
⎟
f (x ) = e 2⎝ ⎠
σ 2π σ
56
El gráfico de la función de densidad de la distribución normal es simétrica y, debido a
su forma, es común que se la llame la 'Campana de Gauss'. Toma el valor máximo en
x = µ y los puntos de inflexión en µ ± σ.
Vale
P(µ - σ ≤ X ≤ µ + σ) 100 = 69 %
Proposiciones
1.- Sean dos variables aleatorias, cada una con distribución normal de igual media µ y
varianzas σ21 < σ22, respectivamente. Representadas en el mismo gráfico se observa
que la de menor varianza es más puntiaguda, mientras que la otra tiene las colas más
pesadas.
2.- Sean las variables aleatorias independientes X1 ∼ N(µ1, σ21) y X2 ∼ N(µ2, σ22).
Entonces la variable aleatoria suma de ambas también sigue una distribución normal;
con media µ1 + µ2 y varianza σ21 + σ22:
Proposición:
a) Sigue distribución normal por ser combinación lineal de una variable con
distribución normal.
57
Los valores de probabilidad correspondientes a variables aleatorias con distribución
N(0,1) se calculan a partir de la función de distribución y están tabulados. Mediante el
proceso de estandarización, pueden utilizarse para calcular probabilidades para
cualquier variable con distribución normal. Por supuesto también pueden resolverse
estos casos utilizando una planilla de cálculo o cualquier programa estadístico.
Se define como
x
φ( x ) = ∫ ϕ( x )dx → P(a ≤ x ≤ b) = φ(b) − φ(a)
−∞
Ejemplo de cálculo de probabilidades:
Sea X ∼ N(6.05, 4), se quiere calcular la probabilidad de que la variable tome valores
menores que 7,50:
P(X ≤ 7,50) = P( [(X – 6,05)/ 2] ≤ [(7,50 – 6,05) /2] ) = P(Z ≤ 0,725) = 0,7658
Proposición:
Aproximación normal
x - np
Z= ~ N(0,1)
npq
Esta aproximación es tanto mejor cuando n > 30 y p cercado a ½. En general se
utiliza para np ≥ 5.
58
Ejemplo:
Luego:
x−λ
Z= ∼ N(0,1)
λ
Valen las mismas acotaciones en cuanto a corrección.
Distribución χ (Chi-Cuadrado)
2
Sean las variable aleatoria X1 , X 2 , ....., Xk, independientes cada una con
distribución N(0 , 1).
se dice que sigue una ley de distribución Chi-Cuadrado con k grados de libertad y se
2
indica como X ∼ χ k . Los grados de libertad corresponden al número de sumandos
independientes. Está definida entre 0 y +∞.
59
Propiedades
sigue una distribución ‘t ‘de Student con k grados de libertad. Se observa que los
grados de libertad son los de la Chi-Cuadrado del denominador. Se indica T ∼ tk . Está
definida entre -∞ y + ∞.
60
Para utilizar una tabla y/o algún programa valen las mismas indicaciones que para la
distribución Chi-Cuadrado.
Distribución ℑ de Fisher
2 2
Sean las variables aleatorias independientes X ~ χ p e Y~ χ q , entonces la variable
aleatoria x/y sigue una distribución ℑ de Fisher con p grados de libertad en el numerador y
q en el denominador y se indica ℑp, q. Está definida entre 0 y + ∞.
La forma del gráfico de la curva depende de los grados de libertad, pero su forma
general es:
61
Propiedades
♦ E(ℑp, q, ) = q / [q - 2] → 1 cuando q → ∞
Relación entre ℑ y χ2
2 2
tp = Z / [χ p / p]½ t2p = Z2 / [χ p / p] = [χ21 / 1] / [χ2p / p] = ℑ1,p. Luego t2p, α/2 =
ℑ1 , p, α
62
DISTRIBUCIONES MUESTRALES. ESTIMACIÓN
Distribuciones muestrales
Población infinita
Se extraen todas las muestras posibles de tamaño n, con o sin reposición. (En
el caso de población finita equivale a extraer las muestras con reposición).
Entonces vale: E(x ) = E(x) Var(x ) = Var(x)/n
63
Población finita de tamaño N
Demostración
1) La distribución de la variable x es normal por ser combinación lineal de
variables independientes con distribución normal (Recordar la definición de
muestra aleatoria).
μ ∑ xi 1 1
2) E( x ) = E ∑ xi = ⋅ n = μ Var( x ) = Var = 2 ⋅ n ⋅ Var( xi) = σ2
n n n n n
En estos casos se debe tener en cuenta el Teorema Central del Límite (TCL),
que dice: "Dada una población con cualquier distribución, con media µ y
varianza finita σ2 entonces x ∼ N(µ, σ / √n), cuando el tamaño, n, de la muestra
es suficientemente grande".
64
Distribución muestral de proporciones
Sea una muestra aleatoria de tamaño n de una población con distribución Bi(p,
1) (ensayo de Bernoulli). Luego p̂ = X es la proporción estimada de éxitos.
n
El problema consiste en estudiar la distribución en probabilidades de p̂ , o sea
su distribución muestral.
E(p̂) = p pq
Var(p̂) =
n
1 n X 1 npq pq
pues: E(p̂) = ⋅ E( x ) = ⋅ p = p y Var(p̂) = Var( ) = ⋅ Var( x ) = =
n n n n
2
n
2
n
n ≥ 30, np ≥ 5 y nq ≥ 5.
Ejemplo:
Sea p = 0,6 y q = 0,4
Para n = 10 resulta np = 6 > 5 y nq= 4 < 5
Para n = 15 resulta np = 9 > 5 y nq= 6 > 5
Para n = 20 resulta np = 12 > 5 y nq= 8 > 5
Luego alcanzaría con muestras de al menos 15 datos
65
Población Finita
66
Distribución muestral de s²
∼ χn − 1 cuando µ es desconocida
2
(n − 1) s 2
σ
2
∼ χn
2
(n − 1) s 2
cuando µ es conocida
σ
2
ESTIMACIÓN ESTADÍSTICA
Estimación puntual
67
3) El estimador varía de muestra a muestra, es decir que es una variable
aleatoria y por lo tanto posee una distribución muestral.
Para decidir cual es el mejor estimador hay que comparar las características
salientes de sus distribuciones muestrales. El estimador óptimo será el
insesgado de mínima varianza.
Sesgo
En efecto:
⎛∑ ⎞ 1 n
E( x ) = E⎜ xi ⎟ = ⋅ E(∑ xi) = ⋅ E(xi) = μ
⎝ n ⎠ n n
⎡ ∑ (x − x )2 ⎤ n − 1 ⎡ ∑ (x − x )2 ⎤
E⎢ i ⎥= ⋅ σ ⇒ E⎢
2 i ⎥ = σ2
⎢⎣ n ⎥⎦ n ⎢⎣ n − 1 ⎥⎦
Variabilidad
68
medida de su concentración alrededor de su media E(θ̂ ). Cuando un estimador
es insesgado es E( θ̂ ) = θ, entonces la varianza es una medida de la
concentración de la distribución muestral alrededor del parámetro mismo.
Por lo tanto un buen estimador será aquel que tenga varianza de la distribución
muestral pequeña. Luego, de entre todos los estimadores insesgados se debe
elegir el de menor varianza.
Para obtener una estimador óptimo también se puede utilizar el concepto de:
Error Cuadrático Medio (o función de pérdida media)
Para caracterizar la distribución muestral en lugar de considerar una medida
de posición y una dispersión se puede utilizar una sola que resume a ambas y
por ende, a toda la información. Tal medida es el error cuadrático medio, que
se define como:
ECM(θˆ ) = E (θˆ −θ)
2
69
Estimación del tamaño muestral en base al ECM
Var( x ) = σ ≤ a, ⇒ n ≥ σ
2 2
n a
Observar que para la aplicación de este método se debe tener conocimiento
de la varianza de la población a muestrear.
70
Pueden construirse intervalos de confianza de tal manera que el coeficiente de
confianza sea tan grande como se quiera. Entonces podría decirse: a) 95 de
cada 100 intervalos de confianza contienen al parámetro; b) 99 de cada 100
intervalos contienen al parámetro y así siguiendo. Sin embargo a medida que
la confianza aumenta, sus informes se hacen más vagos porque aumenta la
longitud del intervalo de confianza El intervalo más preciso es el más pequeño.
Por otro lado, a medida que se aumenta la confianza el intervalo aumenta de
longitud y ya no es tan preciso. Se quieren intervalos que estimen lo mejor
posible: con un buen nivel de confianza y de pequeña amplitud, cosa que se
obtendrá, como se verá mas adelante, aumentando el tamaño de la muestra.
Cada estadístico de prueba tendrá una función de distribución indicada por F(θ̂)
Los límites del intervalo de confianza del (1 - α)%, para un intervalo simétrico
serán:
θ̂ ± VC ES( θ̂ )
donde VC significa valor crítico (llamado coeficiente de confianza) y depende
de la distribución muestral del estimador. La expresión VC ES( θ̂ ), da la
precisión de la estimación, que según se observa es de la forma: ± múltiplo del
error estándar del estimador
Suposiciones
71
Hay que distinguir si la varianza de la población es conocida o no
σ2 conocida
2
Caso de σ conocida
Un estimador puntual de µ es x
σ
x ~ N(μ, ) porque x ~ N(μ, σ)
n
La figura muestra los Intervalos de confianza para la media poblacional del 95% de
100 muestras de largo de ala de moscas. La linea horizontal representa la media
poblacional μ y la ordenada representa los valores de la variable. Tomado de Sokal y
Rohlf, 1995, pp1403
72
2
Caso de σ desconocida
2
Cuando σ no se conoce se estima a partir de la muestra de tamaño n
∑ (xi− x )
2
2
s =
n −1
Valor crítico
Error estándar
Observaciones:
a) Es importante destacar que el estadístico `t` bajo los supuestos de muestra
aleatoria con distribución normal y varianza desconocida, sigue exactamente
una distribución ´t´ de Student. No es necesario realizar ninguna aproximación,
como ocurre cuando la distribución de la población de la que se extrae la
muestra no es normal pero el Teorema Central del Límite asegura una buena
aproximación para muestras de tamaño considerable.
n z tn - 1
16 1,96 2,131
25 1,96 2,062
31 1,96 2,042
61 1,96 1,980
73
Una vez hallado el intervalo de confianza con los datos transformados, para
volver a los datos originales y tener un intervalo de confianza de la media
poblacional se deben “destransformar” los límites hallados (pero no la media).
Como se ve en este caso la solución aparece por vía del tamaño de muestra.
Por el teorema central del límite, la distribución en el muestreo es
aproximadamente normal con media µ y varianza σ²/n. Cuando el n es grande
la aproximación es aceptable y no se ve afectada por el hecho de que la
varianza sea desconocida ya que dividir por n o por n-1 es prácticamente lo
mismo a los fines de la aproximación. Se utiliza el estadístico de Gauss. Luego
para n suficientemente grande:
X n ~ N(µx, σx²/n)
74
Intervalo de confianza del (1 - α )% para una proporción p
ε = p̂ − p ∼ N(0,1)
p̂q̂
n
IC para una proporción
p̂q̂
p̂ ± zα 2
n
Valor crítico Error estándar
∑ (xi− x )
2
2 2
El estimador puntual para la varianza es: σˆ = s =
n −1
ε = (n − 12)s
2
y la distribución muestral del estadístico de prueba será: ∼ χn2−1
σ
Entonces resultan los siguientes límites para el intervalo de confianza del (1 - α)%:
Error estándar
(n − 1) s2 (n − 1) s2
Límite inferior: Límite superior:
χn2−1,1−α 2 Valor crítico χn2−1,α 2
Para construir un intervalo de confianza del (1 - α)% para el desvío estándar (σ)
basta con extraer la raíz cuadrada de los limites del intervalo para la varianza.
75
Intervalo de confianza del (1 - α)% para la diferencia de medias (µ1- µ2) de
poblaciones normales
Suposiciones:
-. {x1,......., xn} muestra aleatoria de X ∼ N(µ1,σ1)
-. {y1,......., ym} muestra aleatoria de Y ∼ N(µ2, σ2)
-. muestras independientes
Caso de σ2 conocidas
Y su distribución muestral:
⎛ σ12 σ22 ⎞⎟
⎜
x1 − x 2∼N ⎜ μ1 − μ2 , +
⎝ n1 n2 ⎟⎠
σ12 σ22
x1 − x 2 ± zα 2 + Error estándar
n1 n2
Valor crítico
76
Caso de σ2 desconocidas
Suposiciones:
-. {x1,......., xn} m. a. de X ∼ Bi(p1,1), p^1 = X/n
-. {y1,......., ym} m. a. de Y ∼ Bi(p2,1), p^ = Y/m 2
-. muestras independientes
77
Un estimador puntual de la diferencia p1 − p2 es p̂1 − p̂2
el estadístico de Gauss para dos muestras de ε = (p̂1 − p̂2) − (p1 − p2) ~ N(0,1)
proporciones con p conocidas: p1 ⋅ q1 p2 ⋅ q2
+
n1 n2
p1 ⋅ q1 p2 ⋅ q2
p̂1 − p̂2 ± zα 2 +
n1 n2
Valor crítico Error estándar
el estadístico de Gauss para dos muestras de ε = (p̂1 − p̂2) − (p1 − p2) ~ N(0,1)
proporciones con p desconocidas: p̂1 ⋅ q̂1 p̂2 ⋅ q̂2
+
n1 n2
78
PRUEBA DE HIPÓTESIS
79
De modo que la prueba de hipótesis tendrá dos resultados posibles que son
mutuamente excluyentes:
a) Rechazar H0. con probabilidad α de hacerlo cuando H0 es cierta.
b) No rechazar H0.
Ejemplo
Muestra de tamaño n
x = 75
Población
?
Población
μ ≤ 70 μ > 70
Ho : μ ≤ 70 Ha : μ > 70
80
valor observado es uno que bajo la presunción de que H0 es cierta se presenta
comúnmente, entonces no se rechazará la hipótesis nula.
Cualquier estudio de prueba de hipótesis propone alguna de las siguientes
situaciones:
H0 es verdadera H0 es falsa
Se rechaza H Error de Tipo I No error
No se rechaza H0 No error Error de Tipo II
81
Procedimiento general para las pruebas de hipótesis
Este caso implica que antes de llevar a cabo el experimento, se debe tener un
valor teórico para µ (valor paramétrico de la población).
H0 : µ ≤ 70
Ha : µ > 70 (aguas peligrosas)
H0:µ ≥ 28
Ha:µ < 28
Ho: µ = 7,25
Ha: µ ≠ 7,25
82
1− α
Ho: µ ≤ µ0
1) α
Prueba de una cola a la derecha
Ha: µ > µ0
x
μo
1− α
2) α Ho: µ ≥ µ0
Prueba de una cola a la izquierda
Ha:µ < µ0
1− α
3) α α Ho: µ = µ0
2 2
Prueba de dos colas
Ha: µ ≠ µ0
Estadístico de prueba
ε= x−μ
ES (x )
donde ES(x ) es el error estándar del estimador de la media poblacional, o sea
la desviación estándar de su distribución muestral, y por lo tanto depende de la
distribución muestral de x . Para un muestra de tamaño n toma la forma:
x−μ
♦ ε=z= , cuando la varianza es conocida (ε∼ N(0, 1) )
σ
n
x−μ
♦ ε = tn−1 = , cuando la varianza es desconocida(ε ∼ tn – 1)
s
n
83
Observación: x estima a la media poblacional. Si H0 es verdadera está
estimando a µ0, por eso la diferencia entre ellos debería ser pequeña. En cada
caso un valor pequeño del estadístico es una indicación de que no debería
rechazarse H0. En el caso (1), de una cola a la derecha, la hipótesis de
investigación es µ > µ0 ; si esto es cierto, entonces está estimando un valor
medio realmente mayor que el valor estipulado por la hipótesis nula. Se
debería esperar que x fuera superior a µ0, forzando a la diferencia ( x - µ0) a ser
positiva. Así, en esta situación se rechazará H0 en favor de Ha para valores
positivos grandes del estadístico x . Un argumento parecido conduce a la
conclusión de que en el caso (2) se rechaza H0 en favor de Ha, para valores
negativos grandes del estadístico. En el caso (3) se rechazará la hipótesis nula
para valores inusualmente grandes del estadístico tanto en sentido positivo
como negativo.
Regla de decisión
Valor p de la prueba
84
p = P exacta (cometer error de Tipo I) = P(rechazar H0 / H0 es verdadera)
Hodges y Lehman (1970) describen el valor p como "el que da, en un solo
número adecuado, una medición del grado de sorpresa que el experimento
causaría en un partidario de la hipótesis nula".
Para pruebas con cola a la derecha, el valor p bajo es el área bajo la curva de la
distribución teórica hacia la derecha del valor observado; para una cola a la
izquierda es el área a la izquierda.
Relación entre α y p
α = máx p y la regla de decisión también se puede expresar como:
p< α se rechaza H0 al α % ó H0 es significativa (S) al α%
x−μ
ε= ∼ tn−1
s
n
85
Si cuando se realiza el experimento se obtienen los siguientes datos:
69 74 75 70 72 73 73 71 68
ε = 71,702,3− 70 = 2,22
9
Regla de decisión:
Zona de rechazo
Conclusión biológica
0 t8 El agua estaría contaminada. No
1,86 2,22 se aconseja recolectar almejas
p = P( ε0 ≥ 2,22)
86
Observando una tabla de distribución ´t´ para 8 grados de libertad, se tiene que
el valor 2,22 está entre los valores 1,860 y 2,306 . Además
P(t8 ≥ 1,860) = 0,05 P(t8 ≥ 2,306) = 0,025 Luego 0,025 <p < 0,05
Calculando el valor exacto a partir de, por ejemplo una planilla de cálculo
resulta:
p = P(t8 ≥ 2,22) = 0,029
Como el nivel de significación fijado fue del 5 % y p = 0,029, se rechaza la
hipótesis nula.
Luego se concluye que las aguas estarían contaminadas (P < 0,05) y no se
deberían comer almejas de ese lugar
Los programas estadísticos dan siempre la probabilidad exacta, pero el
ejemplo de cálculo a partir de la tabla puede ser útil si no se cuenta con una
computadora a mano.
Cabe aclarar que si el nivel de significación α no hubiera sido fijado junto con
la experiencia, se podría especular acerca de si el valor p obtenido es lo
suficientemente pequeño como para rechazar la hipótesis nula. Recordemos
que siempre que se rechaza H0 existe una probabilidad de estar cometiendo
error de tipo I. El valor p es una medida del riesgo que se corre cuando se
hace la hipótesis de investigación. Si las consecuencias de caer en dicho error
son muy graves, entonces el valor p debe ser muy pequeño antes de que se
decida rechazar H0. Si caer en un error de tipo I sólo produce inconvenientes
no graves, entonces H0 puede rechazarse para valores grandes de p.
Regla de decisión
87
b) Calculo del valor p
Se trata de una prueba de una cola a la izquierda, por lo tanto un 'valor más
extremo' que el obtenido es uno a la izquierda de -1,40, y como la distribución
N(0,1) es simétrica se puede calcular de la siguiente manera para no trabajar
con valores negativos del estadístico:
88
*Si se calcula el valor p utilizando la tabla de distribución ´t´:
En la tabla de 't' resulta 1,415 < 1,765 < 1,895, entonces para una prueba de
una cola a la derecha resulta 0,05 < p < 0,10. Duplicando los valores resulta:
0,10 < p < 0,20.
Se concluye que no hay evidencias para suponer que el nivel total de proteína
se aleja significativamente de 7,25 µm, o sea que no se rechaza la hipótesis
nula.
Ejemplo. Un laboratorio está estudiando una nueva droga para ser utilizada en
el tratamiento de cáncer de piel y su hipótesis es que éste resultará eficaz en
la mayoría de los pacientes sobre los que se la aplique. Sea p la proporción de
pacientes para los cuales la droga será efectiva. El laboratorio quiere realizar
alguna prueba estadística que apoye tal información
p̂ − p 0,52 − 0,5
ε0 = = = 0,4
p̂ ⋅ q̂ 0,52 ⋅ 0,48
n 100
Como 0,344 > 0,05 se concluye que no existen evidencias para rechazar la
hipótesis nula, por lo tanto no se puede suponer que el tratamiento sea
efectivo en la mayoría de los casos (P > 0,05).
89
Relación entre los errores de Tipo I y II
Potencia de la prueba
Se define como:
Potencia a posteriori
90
El estadístico de prueba es el de Gauss para una muestra y su distribución en
probabilidades es:
x − μo
εo =
σ
∼ N(0,1) bajo la H0
ε1 = x − μ1 ∼ N(0,1) bajo la Ha
σ
n
1) Si se supone µ = 27. Entonces las hipótesis a probar son:
H0: µ = 28 contra Ha : µ = 27
Potencia = P( x < 26,83) = P(Z < (26,83 – 27)7/5) = P(Z < -0,238) = 0,4052
Esto da una potencia del 40 %, que es muy baja.
H0: µ = 28 contra Ha : µ = 26
Potencia = P( x < 26,83) = P(Z < (26,83 – 26)7/5) = P(Z <1,162) = 0,8769
Supongamos que se quiere llevar a cabo una prueba de hipótesis que tenga
una potencia determinada, es necesario saber el tamaño de muestra necesario
para que la prueba pueda detectar una determinada diferencia.
En estos casos conocer la potencia a priori sirve para estimar el tamaño de
muestra n, si se tiene una estimación s2 de la varianza poblacional σ2.
Para el cálculo de n se debe especificar α, β y se debe establecer cual es la
diferencia mínima que se desea que la prueba detecte (δ) que es la diferencia
entre μ (la verdadera media poblacional) y μo.
Para una prueba con un nivel de significación α y una potencia de 1-β, el
tamaño de muestra mínimo requerido es:
2 2
s
n = 2 ( z α + zβ) para distribución normal (1)
δ
91
2 2
n = s2 ( t α,υ + tβ,υ) para distribución t (2)
δ
Ejemplo
H0: µ = 0 contra Ha : µ ≠ 0
se quiere probar con una significación de 0.05 y con una probabilidad del
90% de detectar una media poblacional diferente de H0: µ = 0 tanto o mas
chica que 1. Para esto se tomó una muestra piloto de la que se obtuvo una
varianza de 1,5682.
Se pueden dar dos situaciones:
a) se tiene una buena estimación de la varianza poblacional, por lo que
se puede suponer que se está en condiciones de utilizar la ecuación
(1) o
b) La estimación de la varianza que se hizo a partir de la muestra puede
no ser muy precisa.
Se verá la resolución para las dos situaciones
Situación a).
1.5682
n= (1,96 +1,282) 2 = 16,482
2
1
Situación b).
92
Reemplazando:
1.5682 2
n= (2.093 +1.328) = 18.4
2
1
1.5682
n= (2.101+1.330) 2 = 18.5
2
1
2
δ = s ( t α,υ + tβ,υ)
n
Prueba para comparar dos medias provenientes de poblaciones con
distribución normal. Se presentan distintos casos
Sean
[x1, ....., xn} una muestra aleatoria de la variable X ∼ N(µx , σx)
[y1, ....., yn} una muestra aleatoria de la variable Y ∼ N(µy , σy)
93
asigna al azar uno de los tratamientos. Entonces se tienen dos muestras
independientes de la variable de interés
Hipótesis
H0 : µx = µy contra Ha : µx ≠ µy. Prueba de dos colas
H0 : µx ≤ µy contra Ha : µx > µy. Prueba de una cola a la derecha
H0 : µx ≥ µy contra Ha : µx < µy. Prueba de una cola a la izquierda
εo = ( x − y) − (μ x − μy)
∼ N(0,1)
σx + σy
2 2
n1 n2
*Varianzas desconocidas
94
εo =
( x − y ) − (μ x − μ y )
∼ t + −2
n1 n2
(n1−1)⋅sx + (n2−1)⋅sx n1 + n2
2 2
n1 + n2 − 2 n1 ⋅ n2
n −1
Hipótesis: Como en le caso de una prueba de una muestra para la media
Estadístico de prueba:
εo = d −s μd ∼ tn−1
d
n
95
ANÁLISIS DE FRECUENCIAS
En cierto sentido, todas las pruebas de este tipo se reducen a una prueba de
bondad de ajuste puesto que en todos los casos se comparan distribuciones de
frecuencias muestrales (observadas) con teóricas (esperadas).
Esquema general
Sean X1, X2, ....., Xk las k categorías mutuamente excluyentes en que se divide
la variable X. Se toma una muestra aleatoria de tamaño n de la población (o
sea una muestra aleatoria de unidades experimentales) y se determina cuantos
elementos caen en cada una de las categorías definidas; es decir se construye
la distribución de frecuencias observadas. Sean F1obs, F2obs, ...., Fkobs los
elementos de la muestra que caen en las categorías X1, X2, ...., Xk
respectivamente.
96
Si la hipótesis nula es verdadera entonces la frecuencia observada se
aproximará a la frecuencia esperada. La distancia entre ambas distribuciones
(la observada y la esperada según la hipótesis nula) tiende a cero a medida
que crece el n.
La diferencia Fi obs – Fi esp mide la desviación de la frecuencia observada
respecto a la frecuencia esperada para el valor Xi de la variable X bajo algún
modelo supuesto. Además
∑ Fiobs - ∑ Fiesp = n – n = 0
Supuestos
Como se dijo mas arriba, esta es una prueba no paramétrica o de distribución
libre, de modo que a la variable que se estudia en la población no se le exige
como supuesto, una determinada distribución en probabilidades. Los supuestos
necesarios se pueden pensar como los correspondientes a la distribución
binomial (que se aplica a cada una de las categorías):
En este último caso se debe tener cuidado porque los grados de libertad deben
ser mayores o iguales a uno y cada vez que se juntan categorías se van
perdiendo grados de libertad.
Existe otro estadístico de prueba para comparar las frecuencias esperadas con
las observadas que se basa en el cociente de verosimilitud y es el llamado
estadístico G o logaritmo del cociente de verosimilitud, que también sigue una
distribución χ²k - 1.
97
Esta prueba es más utilizada porque da mejores valores y es una mejor
aproximación. Se define como:
K
G = 2∑ Fi ⋅ ln Fi
1 F̂i
Ambas pruebas son equivalentes y dan resultados más o menos parecidos;
además ambas son aproximadas porque se distribuyen aproximadamente
como una χ²k-1; .
APLICACIONES
Se las conoce como pruebas de una vía porque las unidades experimentales
se clasifican según un único criterio en varias categorías.
Ho si X2 > χ q o si p < α
2
se rechaza
Ho si G > χ q o si p < α
2
se rechaza
98
Prueba de una vía de bondad de ajuste a una proporción con dos
categorías
Tabla de datos:
χq2=1;0,95 = 3,841
a) H0 : X ~ Bi(0,5 ; 4)
b) Ho : X ~ Bi(0,52 ; 4)
99
X Fobservada Fesp (Bi(0,5; 4)) Fesp (Bi(0,52; 4))
0 5 P(X=0)100 = 6,25 P(X = 0)100 = 5,23
1 20 25 23
2 44 37,50 37,38
3 24 25 27
4 7 6,25 7,31
∑ 100 100 100
Resultados.
a) q=K-1-m= 5-1-0=4 χ q2= 4;0,95 = 9,488
X² = 2,51 p = 0,777 > 0.05 NS G = 2,53 p = 0,774 NS
100
corrección suele dar pruebas mas conservativas (con una zona de rechazo
menor)
Observar:
P(X2 > X02) < P(X2Yates > X20) mientras que X2Yates < X2
Corrección de Williams
Uno de los usos más frecuentes de las pruebas de χ² es para poner a prueba la
hipótesis nula de que dos criterios de clasificación son independientes cuando
se aplican a las mismas unidades experimentales. Se dice que dos criterios de
clasificación son independientes cuando la distribución de uno de ellos es la
misma sin importar cual sea la del otro.
El esquema general es el siguiente:
101
Sean los criterios A y B con las categorías: A1, ......, Aa para A y B1, ....,
Bb para B, los cuales deben ser mutuamente excluyentes.
B1 Bj Bb Totales
A1 F1.
Ai Fij Fi.
Aa Fa.
Totales F.1 F.j F.b F..
Donde Fij es la frecuencia de la casilla o clase (Ai ,Bj) ó (i, j), Fi. y F.j son las
frecuencias o totales marginales calculadas como:
Fi. = ∑ Fij , sumado sobre j = 1, 2, ..., b y representa la cantidad de
elementos de la muestra que están en la categoría Ai .
Fj. = ∑ Fij , sumado sobre i = 1, 2, ..., a y representa la cantidad de
elementos de la muestra que están en la categoría Bj.
Además se cumple:
∑ Fi. = ∑ F.j = ∑ Fij = n
Para poner a prueba esta hipótesis, se utilizan los dos mismos estadísticos de
prueba con una distribución aproximada χ2 con grados de libertad (a – 1)*(b –
1):
(Fi−F̂i)2 K
X = ∑1k ∼ χq2 G = 2∑ Fi ⋅ ln Fi
2
F̂i 1 F̂i
y la regla de decisión es la misma que antes:
Ho si X > χ q o si p < α
2 2
se rechaza
Ho si G > χ q o si p < α
2
se rechaza
102
Cálculo de lasF̂ij :
F̂ij Fi. F. j
=
n n
En tablas de este tipo, los grados de libertad de la distribución Chi cuadrado a
la que se aproxima el estadístico X2 cuando la hipótesis nula es verdadera se
calcula como:
Grados de libertad = (# de filas –1) .(# de columnas –1).
Esto se debe a que los totales marginales deben ser los mismos.
103
Modelo II: un total marginal fijo y el otro aleatorio. Pruebas de
Homogeneidad
104
Hipótesis de homogeneidad:
Corrección de Yates
Esta corresponde a las tablas de 2x2, tanto para el estadístico X2 como para el
G. Se procede como en el caso de una vía.
Corrección de Williaams
105
Los dos totales marginales son fijos y quedaría una tabla del tipo:
Sp A Sp B Total
Impregnadas 15
Sin impregnar 13
Total 16 12 28
106
resultando una prueba con menor potencia. En este caso se utiliza una medida
de distancia entre distribuciones, conocida como la distancia de Kolmogorov ya
que este autor describió su distribución en el muestreo con la que se construye
el estadístico de prueba.
-La prueba de K-S no requiere que las observaciones sean agrupadas, como
2
en las pruebas de χ . La consecuencia de estad diferencia es que la prueba de
K-S utiliza toda la información presente en el conjunto de datos.
-La prueba de K-S puede utilizarse con muestras de cualquier tamaño.
sup S( x i) − Fo( x i)
Dmax =
n
donde sup = supremo sobre x y n el tamaño de la muestra. Se rechaza la H0
cuando el Dmax > VC (valor de la tabla de Kolmogorov).
Esquema de cálculo:
xi Fi S (xi) F 0(xi) D
107
Para la prueba de Lilliefors el estadístico de prueba de dos colas es:
sup S( x i) − So( x i)
Dmax =
n
donde sup = supremo sobre x y n el tamaño de la muestra y S0 (x) es la
distribución de frecuencias acumuladas calculadas con los parámetros
estimados de la muestra. Se rechaza la H0 cuando el Dmax > VC (valor de la
tabla de Lilliefors).
108
a1)
Tonalidad Fobservada Fesperada
Claro (1, 2) 1 4 X² = 2,40 p =0,1213
Obscuro (3, 4, 5) 9 6 X²Y = 1,07 p =0,3117 NS
a2)
Tonalidad Fobservada Fesperada
Claro (1, 2, 3) 1 6 X² = 5,49 p =0,0191
Obscuro (4, 5) 9 4 X²Y =3,52 p =0,0608 NS
b) Resolución con K – S
109
ANALISIS DE VARIANZA DE UN FACTOR
Tratamientos T1 .... Ti
Respuesta y11 yi1
.... ...
y1j yij
.... ...
y1b1 ybi
Tamaño de la muestra b1 bi
Media y 1. y i. Y ..
Varianza s²1 s²i
110
Donde:
∑ y i.
j media del grupo o tratamiento i
y i. =
bi
∑ y ij
ij
Y .. = = ∑ b i y ij media general
∑ bi ij
i
(yij − yi. )2
si2 =∑
(bi − 1)
Notación:
Ti : grupo o tratamiento i con 1 = 1, 2,....., a
bi : tamaño de la muestra del grupo o tratamiento i
yij: respuesta u observación de la unidad experimental j del grupo i, con j
= 1, 2,..., bi
bi = N = número total de observaciones = número total de unidades
experimentales
Modelo estadístico
y=µ+ε
yij = µi + εij
111
Además: εij = yij - µi, con i= 1, 2,... , a, j = 1, 2,... , bi
µi = µ + αi con i = 1, 2,...., a
Donde:
112
El caso que nos ocupa en este capítulo es el de un ANOVA de un factor de
efectos fijos y por lo tanto interesa comparar el efecto medio de los
tratamientos.
En primer lugar, cabe recordar aquí la forma general de la varianza, tal cual ha
sido definida al principio de este curso:
113
∑ (y − y )
2 2
∑y −ny
2
SC
s =
2 = =
n −1 n −1 GL
Donde
SC: suma de cuadrados
GL: grados de libertad
(
SCtotal = ∑ y ij − y .. )2
ij
ij ij
SC
s 2 = CM =
GL
De modo que si las sumas de cuadrados definidas en (**) se dividen por sus
grados de libertad se tendrán cuadrados medios y cada uno de ellos será un
estimador de varianza.
La descomposición en sumandos independientes es válida también para los
grados de libertad:
GLtotal = GLentre + GLdentro
N - 1 = (a - 1) + (N - a)
114
Toda esta información se puede resumir en la siguiente tabla.:
Fuente de variación G de L SC CM
Entre a–1 2
∑ bi y i . − N Y 2 CME = s2E
i
Por lo tanto si s²E y s²D son aproximadamente iguales debe suponerse cierta la
hipótesis nula. En otras palabras, las diferencias encontradas entre los efectos
de los tratamientos o grupos son debidas al azar (efecto nulo de tratamiento o
grupo).
Por el contrario si resulta que s²E difiere tanto de s²D que no puede ser
explicado por el azar, la alternativa lógica sería que las µi son realmente
diferentes entre sí, o sea que los tratamientos o grupos producen efectos
diferenciados.
Luego es necesaria una regla de decisión para poner a prueba la hipótesis
planteada, y para ello se necesita definir un estadístico de prueba.
115
Probar que la hipótesis nula es no significativa (NS) es lo mismo que probar
que ambos estimadores de la varianza coinciden. Por lo tanto se define el
estadístico de prueba:
s2
FANOVA = E2
sD
y se rechazará la hipótesis nula si FAnova > VC (valor crítico). Falta por lo tanto
determinar el valor del VC, que estará determinado por la distribución en
probabilidades del cociente de varianzas.
Puede probarse que el estadístico FAnova así definido sigue una distribución ℑ
de Fisher, porque es la razón de dos estimadores independientes de una
misma varianza (por lo tanto es un cociente de variables con distribución χ²), y
que bajo H0 tienen la misma esperanza. Intuitivamente se ve que son
independientes, puesto que están basados en observaciones diferentes: s²E se
basa en los valores medios de los grupos mientras que s²D se basa tan sólo en
las variaciones individuales dentro de los grupos (es decir se mide a partir de la
media de su grupo), cualquiera sea la media del grupo.
116
más o menos grandes con unas pocas alcanza. Es importante no caer en
seudoréplicas.
117
X : número de horas hasta que desaparece el dolor
a=3
bi (ni)= b =10
n = 30
Ho : μ1 = μ2 = μ3 = μ Ho : αi = 0
ó
Ha : μi ≠ μ para algún i = 1,2,3 Ha : αi ≠ 0 F GLentre,GLdentro ,1-α = F
2 ; 27 ; 0,95 = 3,32
Fuente de GL SC CM F VC Valor p
variación
Hasta aquí el resultado del ANOVA, que solo nos dice que las tres drogas
tienen efecto diferente sobre la neuralgia cronica, pero resulta obvio que la
investigación estará completa cuando se puede saber cual o cuales
tratamientos son los que provocan esta diferencia. Esto se verá más adelante
cuando se trate el tema de contrastes y comparaciones múltiples.
118
Como se vio cuando se trató el tema de prueba de hipótesis, para la prueba de
‘t’ de dos muestras independientes el estadístico toma la forma:
Las dos pruebas (el t y el ANOVA) son equivalentes debido a que el valor del
estadístico t elevado al cuadrado da el valor del estadístico FAnova. En cuanto a
la significación se debe tener en cuenta que vale la relación:
ℑ1, q, α = t²q, α/2
119
La falta de aleatoriedad de la muestra puede provocar la falta de normalidad
de la distribución de la variable, la falta de homogeneidad de las varianzas o no
independencia de los errores.
2.- Independencia
120
diferencias entre las medias provocan la heterogeneidad de las varianzas. Tal
es el caso de una población con distribución de Poisson en la que, de hecho, la
varianza es igual a la media y las poblaciones con mayores medias tendrán
mayor varianza. Las desviaciones con respecto a la homogeneidad de
varianzas pueden a menudo ser corregidas con un cambio de escala.
4.- Normalidad
Aleatoriedad e independencia
121
También hay pruebas de rachas para el caso de dos muestras independientes
y de dos muestras dependientes. Pero la mejor forma de garantizar la
aleatoriedad sigue siendo mediante un muestreo correctamente diseñado y
cuidadosamente ejecutado.
Normalidad
(Ver Sokal y Rolhf §17.2).
1-Métodos gráficos
Q-Q plot
Los gráficos Q-Q plot, representan la correlación entre los cuantiles observados
en la muestra versus los cuantiles de la distribución teórica seleccionada. En
nuestro caso, la distribución Normal (eje X ) cuyos parámetros se estiman a
partir de la muestra.
La idea es que si la muestra proviene de una distribución normal, entonces los
puntos muestrales deberían estar sobre una recta.
Existen otros métodos gráficos para la evaluación de la normalidad, pero solo
se muestra el Q-Q plot a manera de ejemplo por ser uno de los mas utilizados.
Por otro lado, en este curso se hará mas hincapié en los métodos analíticos.
122
se utiliza cuando la media y varianza son estimados a partir de la muestra
(hipótesis intrínseca).
A continuación se da un ejemplo utilizando el programa estadístico Biom, pero
las consideraciones son perfectamente generales.
----- BIOMstat 3.2c: Date 19/08/2004, Time 11:13:00 -----
Basic statistics. Data file: BASTAT1.DTA
Title: Aphid stem mother femur length data (BOX 2.1)
Total number of records in file: 25
Variable: FemLen
Alpha: 0.05000
Total sample size = 25
Results:
Statistic Stand. error Confidence limits
(95.00%)
Mean 4.0120000000 0.0717216843 3.8405213413 4.1834786587
Median 3.9000000000 0.0898887869 3.6850857971 4.1149142029
Min 3.3000000000
Max 4.7000000000
Range 1.4000000000
Var. 0.1286000000
s 0.3586084215
V (%) 8.9383953525 1.3004130021 5.8292508942 12.0475398107
g_1 -0.0355051234 0.4636835008 -0.9445079015 0.8734976546
g_2 -0.8246635597 0.9017205463 -2.5923919351 0.9430648156
Kolmogorov-Smirnov statistic
Test fit to normal distribution using estimated parameters.
Dmax = 0.14904
Dallal & Wilkinson (1986) approximation to Lilliefors test: P > 0.1
123
Estudio de la asimetría y kurtosis
Como se dijo mas arriba, la violación del supuesto de distribución normal no es
muy grave, salvo en el caso de una distribución de los errores muy asimétrica.
Por esta razón, es interesante evaluar la simetría mediante los coeficientes de
asimetría (γ1, estimado por g1) y kurtosis (γ2 estimado por g2). En el caso de una
distribucón normal, estos dos coeficientes son nulos. Una manera de estudiar
estos coeficientes es analizando el intervalo de confianza del 95 % para ellos.
En la salida del BIOMstat dada mas arriba se puede estudiar la significación de
esta prueba (en negrita).
Hay que tener en cuenta que el resultado de estas pruebas se ve afectado por
el tamaño de las muestras: cuanto mayor el tamaño de muestra, mayor la
potencia de la prueba y por lo tanto mas probabilidad de rechazar la hipótesis
nula (que es lo que determina que lleguemos a la conclusión de que el
supuesto no se cumple). Por otro lado, cuando la muestra es pequeña, la baja
potencia de la prueba hace que sea muy difícil rechazar la hipótesis nula,
incluso en aquellos casos en que la distribución es claramente no-normal. La
manera de encarar estas situaciones es la siguiente:
a) Cuando los tamaños de las muestras son muy pequeños conviene trabajar
( )
con los desvíos y ij − y i. y probar el ajuste a una distribución normal de media
cero, tomando todas las observaciones como una gran muestra.
b) Cuando no se tenga evidencia para decir que la distribución es normal, es
conviente analizar los coeficientes de asimetría y kurtosis. Máxime teniendo en
cuenta que estas pruebas son paramétricas y por lo tanto de mayor potencia
que las de bondad de ajuste.
c) Cuando el tamaño de las muestras es grande, se supone que se esta bajo la
validez del Teorema Central del Límite para la distribución de la media, siempre
que no se presente, por ejemplo, una distribución polimodal y por lo tanto no es
necesario poner a prueba la normalidad.
Homogeneidad de varianzas
Prueba de Bartlett
Esta prueba indica hasta que punto se puede suponer que las varianzas de las
subpoblaciones, σ²i, son iguales cuando las varianzas muestrales s²i son
aparentemente diferentes.
La varianza de las s²i es mucho mayor que la varianza de la varianza media.
Esto es como considerar la variable aleatoria s² que toma valores s²i, con
2 Vars i2
media s , entonces Var s 2 = < Vars i2 , para un conjunto de a muestras.
a
Los valores aparentemente diferentes de las s²i pueden no ser
significativamente diferentes si se consideran sus grandes varianzas
muestrales. Bartlett ha desarrollado una prueba de χ² para la homogeneidad de
124
varianzas basada en el cociente de máxima verosimilitud cuyo estadístico de
prueba es
s2
X2 = ∑ (bi − 1) ln
si2
s2
X = ∑ (bi − 1)ln
2
= (N − a) ln s2 − ∑ (bi − 1) ln si2
si2
2 ∑ (bi − 1) si2
s = CMerror =
N−a
125
Ejemplo utilizando el programa estadístico Biom:
Fmax test
Fmax = 9.8354 with parameters 8 and 9, 0.01<P<=0.05
Bartlett's test:
X^2 = 21.6367, df = 7
c = 1.034566
X^2c = 20.9138, P = 0.0039
---------------
Prueba de Levene
126
Transformación de datos
yij = µ + αi + εij
Las mediciones de pH son logaritmos, las series de una dilución en los análisis
volumétricos se expresan como la inversa de la observación registrada.
127
pueden ser obtenidos destransformando los límites del intervalo de confianza
de los datos transformados. Estos intervalos serán no simétricos.
Transformación logarítmica
Es la más común de las transformaciones y consiste en definir x' = logx, x'= lnx,
x'= log(x + 0.5), etc. Se aplica cuando la media está correlacionada
positivamente con la varianza; o cuando la distribución es marcadamente
asimétrica con la cola pesada a la derecha (g1 > 0).
Transformación arcoseno
Transformación recíproca
128
Pata detalles consultar Sokal y Rohlf § 13.9,
Toothaker, (1993). Sokal y Rolh §9.6 y §9.7. Steel y Torrie, Cap. 8. Zar, cap
11. Kuehl, cap 3.
Introducción
Las hipótesis que son independientes del resultado del experimento y por lo
tanto son planificadas e incluidas en el planteo general del problema se
denominan "comparaciones a priori o planeadas"; por el contrario aquellas
sugeridas por los resultados del experimento y por el ANOVA son las
"comparaciones a posteriori o no planeadas". Las pruebas de significación
apropiadas en cada caso son diferentes y la zona de rechazo para las hipótesis
planeadas son mayores que para las no planeadas. En otras palabras, las
pruebas no planeadas son mas conservativas que las planeadas.
129
A partir de los datos obtenidos es siempre posible estimar el valor de f, por esta
razón se las llama funciones estimables.
Las hipótesis nulas, correspondientes a los distintos contrastes son del tipo: Hoi : fi
=0
En el ejemplo de los pacientes con neuralgia supongamos que nos interesa poner a
prueba las siguientes hipótesis:
μ1 + μ2 μ1 + μ2 μ1 + μ2
Ho : = μ3 Ho : − μ3 = 0 Ha : − μ3 ≠ 0
2 2 2
placebo vs aspirina
Ho : μ1 = μ2 Ho : μ1 − μ2 = 0 Ha : μ1 − μ2 ≠ 0
μ1 + μ2 1 1
f1 = − μ3 c1 = c2 = c 3 = −1
2 2 2
f 2 = μ1 − μ2 c1 = 1 c 2 = −1 c3 = 0
Contrastes ortogonales
f = ∑ ci μi g = ∑ dj μj con ∑ ci = ∑ dj = ∑ ci dj = 0
La última sumatoria se refiere al producto escalar de los dos vectores formados por
los valores de las constantes de cada uno de los contrastes. El producto escalar nulo
indica que los vectores que definen los contrastes son perpendiculares
(ortogonales).
130
En primer lugar debe probarse la ortogonalidad:
C1 C2 C3 ∑
1 1 −1 0
2 2
1 −1 0 0
⎛ 1⎞
⎜ ⎟
⎝2⎠
+ ⎛ 1⎞
⎜− ⎟
⎝ 2⎠
+ 0 =0
Como el producto escalar es nulo, entonces se dice que los contrastes son
ortogonales.
Notación:
α = nivel de significación del Anova.
αC = nivel de significación de cada contraste o comparación.
α‘= tasa de error experimental.
131
Sin embargo, dependiendo del método que sea utilizado, puede resultar: α‘ =
α, α‘ > α ó α‘ < α
Luego:
0,95 = P(no equivocarse en la H0i) = P(no rechazar H0i / H0i es V) =
= 1 – P(rechazar H0i / H0i es V)
132
Métodos para contrastes planeados
Contrastes ortogonales
Restricciones:
1. El máximo número de contrastes ortogonales que se pueden realizar es igual al
número de grados de libertad entre.
2. Para poder atribuirle a cada contraste una suma de cuadrados y utilizarla para
construir un estadístico de prueba, es necesario que el diseño sea balanceado.
2
f̂
Donde SCf i = i 2 , para todo i = 1, 2, ..., a - 1
c
∑ i
b
F. de variación GL SC CM F
Entre (a – 1)
2
f̂
f1 1 SCf 1 = 1 2 SCf1 SCf 1
c CMerror
∑ 1
b
2
f̂
f2 1 SCf 2 = 2 2 SCf2 SCf 2
c CMerror
∑ 2
b
Dentro (error) N–a
Las hipótesis propuestas en el ejemplo de los pacientes con neuralgia son dos
contrastes ortogonales: (1) nueva droga contra aspirina y placebo y (2) placebo
contra aspirina. Las hipótesis son las planteadas en (***). Resolviendo resulta:
⎛1 ⎞ ⎛1 ⎞ −0,542 ⋅ 10
f̂ 1 = ⎜ ⋅ 2,5 ⎟ + ⎜ ⋅ 2,82 ⎟ + (− 1⋅ 3,2) = −0,54 SC1 = 2 2
= 1,94
⎝2 ⎠ ⎝2 ⎠ ⎛ 1⎞ ⎛ 1⎞
⎜ ⎟ + ⎜ ⎟ + (−1)
2
⎝ 2⎠ ⎝ 2⎠
133
−0,322 ⋅ 10
f̂ 2 = (1⋅ 2,5 ) + (− 1⋅ 2,82) + (0 ⋅ 3,2) = −0,32 SC2 = 2 = 0,51
1 + (−1) + 0
2 2
F. de variación GL SC CM F Valor p
Entre drogas 2 2,456 1,2280 4 0,003
f1 1 1,944 1,9440 6,3322 0,0181
f2 1 0,5120 0,5120 1,6677 0,2075
Dentro (error) 27 0,3070
ES( f̂ ) = error estándar del estimador del contraste, bi = tamaño del tratamiento i
(*) Por ejemplo si se utilizan las funciones dadas por el programa Excel, entrando por
distribución ‘t’ inversa, este da el valor crítico mayor para 2 colas. Si por ejemplo se
quiere calcular el valor de t para α = 0,05 y m =2, se debe entrar por 0,025.
134
Se debe tener en cuenta que, debido a la modificación del valor critico con la
cantidad de contrastes, el método de Bonferroni es aconsejado cuando se realizan
pocos contrastes, generalmente no mas de dos.
f̂
ε= con ES( f̂ ) = CMerror ⋅ ∑
ci2
ES( f̂ ) bi
En el ejemplo de las dietas mirando los datos se puede querer comparar las dietas A
y C debido a que sus medias son las mas diferentes. Entonces:
135
Método de comparaciones múltiples de Tukey: (no planeado)
Este método sirve para comparar todos los pares posibles de medias. Tiene como
restricción que el diseño debe ser balanceado, pero es el más potente de todos los
métodos no planeados y de hecho su nivel de significación coincide con el del
Anova. Es una prueba de dos colas y debido a que es muy utilizado forma parte de
la mayoría de los paquetes estadísticos. Se basa en la distribución de los rangos
estudientizados, o sea en la distribución de ymáximo - ymínimo.
ymáximo − ymínimo
Se define: q=
ES(y )
Esta distribución tiene su propia tabla que en general da las probabilidades para
pruebas de una cola, como la que se usa en este curso.
Para tomar una decisión acerca de la diferencia entre dos medias cualquiera, se
compara esa diferencia con un estadístico denominado Mínima Diferencia
Significativa (MDS):
MDS = qα (a,GLerror ) ⋅ s y
Donde:
a = cantidad de tratamientos
CMerror
sy = = desvío estándar de la media = error estándar
b
b = tamaño común de los grupos
qα(a, GLerror) = valor crítico (tabla de Tukey)
MDS = mínima diferencia significativa
Regla de decisión
136
Una manera usada comúnmente para resumir a conclusión para comparaciones
múltiples es, ordenando las medias de menor a mayor, unir con una línea aquellas
medias que resultaron no significativas entre sí. En el ejemplo esto toma la siguiente
forma:
Dieta A B C
Significación −⎯−⎯
Lo que significa que las dietas B y C no difieren entre si, y la dieta A es diferente a B
y C.
Este método está diseñado para comparar cada tratamiento contra un control. Tiene
su propia distribución y por lo tanto también su propia tabla de una y dos colas.
Corresponde al caso en que interesa comparar los tratamientos contra un control y
no los tratamientos entre si. Por lo tanto se trata de un conjunto dependiente de
comparaciones.
Si se tienen p grupos y un control, entonces se pueden realizar p comparaciones. El
procedimiento se basa en ordenar las medias de los tratamientos de menor a mayor
y se comparan con el control y un tratamiento cualquiera difiere del control sii:
2 2 ⋅ CMerror
Δ = yc − yp > tDunnett ES Con ES = s =
n n
2 ⋅ CMerror
Δ = yc − yp > tα,p,N − a ⋅
n
137
ANALISIS DE VARIANZA DE DOS FACTORES
B1 Bj Bb
A1 y11k ...... y1jk ....... y1bk
...... ...... ...... ........ .......
Ai yi1k yijk ....... yibk
...... ....... ...... ...... .....
..
Aa ya1k yajk yabk
Donde:
138
Tratamiento experimental: es una combinación de un nivel de cada factor
considerado en el experimento, con los niveles del otro. Es decir son las
combinaciones representadas por cada celda.
Se dice que los efectos son aditivos, cuando el efecto total es igual a la suma
de los efectos tomados independientemente. En este caso se trata de un
modelo sin interacción.
La existencia de interacción indica que los efectos de los dos factores no son
sólo aditivos, sino que alguna combinación dada de niveles contribuye en forma
positiva o negativa a la variable que se está estudiando. En este sentido se
puede estar ante efectos sinérgicos o antagónicos:
139
Llegados a este punto es oportuno tratar brevemente uno de los planteos mas
frecuentes por parte de los investigadores que supone que es lo mismo
realizar, en vez de un Anova de dos factores, dos Anovas de un factor: uno
para el factor fila y otro para el factor columna. Pero para ello sería necesario
un número mayor de unidades experimentales, porque se obtiene una sensible
economía ya que la misma unidad experimental se utiliza en la estimación de
más de un factor. Además de que seguramente no se trabajaría con el mismo
nivel de error (el caso es análogo al del cálculo de varias pruebas t en lugar de
contrastes) que tomando todo junto en un mismo experimento. Por otra parte
no se podría estudiar el efecto de la interacción, que la mayoría de las veces
enriquece la experimentación.
140
Si se resumen los resultados en una tabla de medias, se obtiene:
Bj
Ai y ij. y i..
y. j. Y...
media de la fila i media de la columna j media de la celda ij media general
Prueba de interacción
141
El valor esperado en cada una de las celdas es:
Del conjunto de supuestos se deduce que los errores εIJK = yijk - μIJ siguen una
distribución normal con media cero y varianza σ² y son independientes.
142
Descomposición de la suma de cuadrados
SCTotal
= SCdentro + SCentre celdas
SCdentro( error )
Dentro (error) N – ab SCTotal – SCe. celdas
GL dentro( error )
2 2
Total N -1 ∑ yijk − N Y...
ijk
143
Regla de decisión
Prueba de interacción
H0AB : αβijAB = 0 ∀ ij
HaAB; ∃ ij / αβijAB ≠ 0
Si F = CMint eracción > F GL interacción, GLdentro,1-α se rechaza Ho con α
CMdentro
Ejemplo
Hipótesis
H0A : αiA = 0 ∀ i= 1,...., a No existe efecto sexo
HaA : ∃ i / αiA ≠ 0
144
F. de variación GL. CM F F Valor p
Sexo (A) 1 3770,75 2,9252 5,32 0,1256
Frescura (B) 1 61204,08 41,9686 5,32 0,0002
Sexo x estado (AxB) 1 918,75 0,6300 5,32 0,4502
Dentro (Error) 8 1458,33
F 1; 8 ; 0,95 =5,32
700
Hembras
600
500 Machos
400
fresco rancio
frescura
Conclusión: Ambos sexos prefieren el tocino fresco (P < 0,05)
145
Ejemplo donde la interacción es significativa.
15 0C 20 0C 25 0C Total
Int. baja 16 24 29 23 a =2; b= 3, k= 10, N= 60
Int. alta 20 12 25 19
Total 18 19 27 21
Gráfico de perfiles
35 Int. baja
largo de plántulas cm.
30
25
20
15
10
5 Int. alta
0
15 C 20 C 25 C
Temperatura C
146
Pruebas de efectos simples.
Como se dijo mas arriba, estas pruebas corresponden cuando la interacción
resulta significativa y consisten en realizar un Anova de un factor para
comparar las filas en cada una de las columnas y viceversa, pero utilizando el
cuadrado medio dentro del Anova de dos factores original.
Entonces, si se está en el caso de una Anova de dos factores balanceado, la
tabla de medias poblacionales se puede representar de la siguiente manera:
Bj
Ai µij µi.
µ.j µ
Efectos principales
Efectos simples
B B
Para B en Ai : β j ( A i) = μ ij − μ i. → βˆ j ( A i) = y ij. − y i..
147
En el ejemplo:
a) Temperaturas en condiciones de luz
A continuación el Anova de un factor considerando solamente los valores para Intensidad de luz
baja (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los
grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la
tabla de Anova:
Tabla de medias Tabla de Anova del efecto simple
15 oC 20 oC 25 oC F de V GL CM F F
Int. baja 16 24 29 Entre 2 430 15,08 3,15
Conclusión
F 2; 60 ; 0,95 =3,15
Para baja intensidad de luz, el crecimiento de las plántulas varía con la temperatura
A continuación el Anova de un factor considerando solamente los valores para Intensidad de luz
alta (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los
grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la
tabla de Anova:
Tabla de medias Tabla de Anova del efecto simple
15 oC 20 oC 25 oC F de V GL CM F F
Int. baja 16 24 29 Entre 2 540 18,93 3,15
Conclusión
F 2; 60 ; 0,95 =3,15
Para alta intensidad de luz, el crecimiento de las plántulas varía con la temperatura
Conclusión
Para 15 oC, el crecimiento de las plántulas no varía con la intensidad de luz
F 1; 60 ; 0,95 =4
15 oC 20 oC 25 oC F de V GL CM F F
Int. baja 16 24 29 Entre 1 720 25,25 4
Int. alta 20 12 25 Dentro 54 28,5185
Conclusión
Para 20 oC, el crecimiento de las plántulas varía con la intensidad de luz
F 1; 60 ; 0,95 =4
148
A continuación el Anova de un factor considerando solamente los valores para la temperatura
de 25o C (medias en negrita en la tabla de medias), reemplazando en este Anova los CM y los
grados de libertad dentro del Anova de dos Factores realizada anteriormente (en negrita en la
tabla de Anova:
15 oC 20 oC 25 oC F de V GL CM F F
Int. baja 16 24 29 Entre 1 720 1, 5 4
Int. alta 20 12 25 Dentro 54 28,5185
F 1; 60 ; 0,95 =4
Conclusión
Para 25 oC, el crecimiento de las plántulas no varía con la intensidad de luz
Conclusión general:
Cuando las plantas se ponen a 20oC crecen más rápidamente las que están en intensidad
baja de luz (P< 0,05) mientras que para las otras dos temperaturas no se encuentran
diferencias significativas en el crecimiento (P > 0,05). Además en intensidad baja de luz
crecen más las que están a las dos temperaturas más altas (P< 0.05), mientras que en la
intensidades alta de luz esto se da para las dos temperaturas extremas. Por otro lado la
temperatura de 20oC es la que produce las diferencias.
Es el caso en que existe una sola observación para cada combinación de fila y
columna (celda). Debido a que hay una sola observación por celda es
imposible estimar la varianza dentro de celda y por lo tanto no puede ser
estudiada la hipótesis de interacción. Esto lleva a suponer que los efectos de
fila y columna son aditivos (modelo aditivo). La comprobación de la aditividad
del modelo (modelo sin interacción) se realiza con la prueba de Tukey de no
aditividad, que se verá más adelante.
Donde
A: (factor fila) con a niveles y B: (factor columna) con b niveles
N= ab = cantidad total de observaciones = cantidad total de unidades
experimentales
yij es cada observación con i = 1, ..., a y j = 1, ..., b.
149
Modelo estadístico
Fuente de G. de L. SC CM F
variación
Dentro (Error) (a-1)(b-1) SCtotal - SCentre filas - SCentre columnas SCdentro ( error )
GL dentro ( error )
2
Total N -1
∑ yij − N Y..2
ij
150
Prueba de Tukey de no aditividad
Hipótesis
H0: Modelo aditivo vs Ha: caso contrario
La idea es descomponer la suma de cuadrados del error en:
Cálculo de la SCNN
Bj Efecto fila
Efecto columna B
βˆ j = y. j − y..
151
Esta prueba se puede realizar utilizando algún programa estadístico. A
continuación se muestra un ejemplo de salida del programa Tukey's test
perteneciente al paquete BIOMstat, que esta a disposición de los alumnos de
esta materia.
Sample size: 48
Number of levels for factor Salinity = 3
Number of levels for factor Species = 2
Number of replicates per cell = 8
1 2
--------------------
1 | 10.561 7.429
2 | 7.890 7.338
3 | 12.174 12.326
---------------
Section 13.5 (pp. 407-409) discusses this test for
one component of the interaction between two factors.
Box 13.5 (pp. 410-411) shows how the computations are done.
152
se le asignan los tratamientos al azar. Este caso es bastante frecuente y la
finalidad de la aplicación del diseño en este caso es controlar el error
experimental cuando no se cuenta con unidades experimentales totalmente
homogéneas para la realización de un experimento.
153
Supuestos
Fuente de G. de L. SC CM F
variación
Dentro (Error) (a-1)(b-1) SCtotal - SCentre filas - SCentre columnas SC dentro ( error )
GL dentro ( error )
2
Total N -1
∑ yij − N Y..2
ij
154
(*) Las F´s en el DBA
La hipótesis de interés que se plantea en este diseño está orientada a comparar las
medias de tratamientos; pero en el caso en que interese la comparación de las medias
de los bloques Ho: βj=0; se plantea el dilema: ¿Cómo comparar esas medias de
bloques? ¿Es adecuado compararlas con la F=CMbloques/CMdentro?
Desde el punto de vista del diseño la objeción fundamental para probar la hipótesis de
bloques mediante una F es que la aleatorización fue realizada sólo para los
tratamientos dentro de los bloques, y no para los bloques dentro de los tratamientos;
es por eso que se dice que los bloques representan una restricción para la
aleatorización.
La pregunta que surge de inmediato es ¿Qué efecto tiene esto sobre el estadístico F =
CMbloques/CMdentro?
La mayoría de los autores argumentan que la restricción de aleatorización impide que
la F sea útil para comparar las medias de los bloques.
En resumen, no es adecuado tomar F = CMbloques/CMdentro como una prueba F
exacta, sino usar la esperanza de los cuadrados medios de los bloques para darse
una idea de la variabilidad de los bloques (este análisis no se verá en el presente
curso), aunque se podría examinar la razón entre MSbloques y MSdentro para
investigar de forma aproximada el efecto de la variable bloque. Un valor grande de
esta razón, indica que el factor bloque tiene un efecto grande y que la reducción de
ruido obtenida al analizar por bloques posiblemente fue útil al mejorar la precisión de
las comparaciones entre las medias de tratamiento. Pero nunca con la prueba exacta
(la F de fisher). Por esta razón a veces aparecen en un DBA los cuadrados medios de
bloques, pero no la F.
Zar (páginas 254-259) trata el tema y dice que “una hipótesis nula de igualdad entre
bloques usualmente no tiene interés, además es no aconsejable, porque hacerlo
requeriría conocimiento acerca del efecto de interacción. Entonces generalmente no
se testea”. A continuación dá un ejemplo donde no calcula ni el cuadrado medio para
que no haya dudas.
Sokal no difiere en cuanto a la teoría (en eso no hay duda). En la página 342 explica el
asunto en términos de sumas de cuadrados: En un anova de dos factores, cuando a la
SCtotal se le “sacan” la SCentre filas y la SCentre columnas, queda la de interacción
que en un DBA recibe el nombre de SC de discrepancia (lo que nosotros llamamos
SCerror en el DBA) y es el único termino de error en el anova. Por eso dice que la
única manera de aceptar que se pueda poner a prueba la hipótesis de medias de
bloques con la F (si tuviera sentido) es suponer que no existe interacción, pero si
existe la interacción, en un modelo mixto (como es el DBA) solo el factor fijo puede ser
testeado usando esa SC de discrepancia.
155
En resumen:
-Desde el punto de vista teórico no es adecuado testear un factor aleatorio con una F y
todos los autores coinciden en esto.
-En el caso en que interesara explorar ese factor mediante la F (si tuviera sentido
hacerlo o aportara alguna información útil), se tiene que tener en cuenta que esta es
una forma aproximada para testear el efecto de la variable bloque.
-En este curso no hay ningún problema en el que quede de manifiesto que interesa
probar la diferencia entre las medias de bloques. Tampoco hay ninguna pregunta
acerca de la significación del efecto de los bloques. Sin embargo se dan los valores de
la prueba de no aditividad para estar dentro de los supuestos si uno quisiera poner
usar la F de bloques y sacar conclusiones (que siempre serían aproximadas y en
ningún momento en este curso tiene importancia experimental).
-Una forma de medir la eficiencia del uso del diseño de bloques que usamos en la
materia es el cálculo de la Eficiencia Relativa, pero no la F de los bloques.
DCA vs DBA
En situaciones como esta, cuando hay mas de un diseño posible para poner a
prueba la hipótesis de interés (la diferencia entre tratamientos), es útil poder
escoger, entre los diseños planteados, cual es el mejor para contestar la
hipótesis planteada.
156
Tratamiento Aumento de peso (gramos) media Des st
Dosis baja 60 44 28 59 45 52 48,00 11,88
Dosis media 82 48 38 75 50 80 62,17 19,02
Dosis alta 94 67 45 70 50 82 68 18,60
Se llega a la conclusión que no hay evidencias para suponer que las distintas
dosis de la hormona producen efectos diferenciados sobre el crecimiento del
ovario (P > 0,05). Si se observan las medias de los tratamientos, a simple vista
puede parecer que los pesos medios son diferentes, pero cuando se observa el
valor del CMerror. se encuentra una explicación a esto basada en la magnitud de
dicho error, que genera un valor F pequeño.
Tabla de datos: es la misma que la citada mas arriba, con la diferencia de que
ahora cada columna corresponde a una camada (bloque):
157
Aclaración: En el curso de un experimento no es posible pasar de un diseño a
otro porque ambos diseños corresponden a aleatorizaciones diferentes. Este
ejemplo tiene por objeto poner de manifiesto que un CM error (error
experimental) grande, como se observó en el DCA puede deberse a una fuente
de variación no controlada. Para este ejemplo hay un solo diseño correcto, el
DBA.
Eficiencia relativa
N
I=
σˆ 2
2
Donde N es el número total de observacionesσ̂y = CMdentro
El diseño 1 será más eficiente que el diseño 2 si: ER(D1 / D2) > 1
11⋅ 18 ⋅ 304
ERD1D2= = 5,46
13 ⋅ 16 ⋅ 53
158
ANÁLISIS DE REGRESIÓN Y CORRELACIÓN
La idea de regresión fue introducida por primera vez por el científico inglés Sir
Galton (1822-1911) en los informes de investigación sobre la herencia, primero
en arvejas y posteriormente en la estatura humana. Describió una tendencia del
hijo adulto, que tiene padres bajos o altos, a regresar a la estatura promedio de
la población general. Primero usó la palabra ‘reversión ‘y después ‘regresión’
para referirse a este fenómeno.
159
xi son los valores de la variable X e yij son las observaciones de la variable Y
correspondientes a cada valor de la variable X. Cada punto en el diagrama
representa el valor asignado a cada una de la unidades experimentales
utilizadas en el experimento. En este diagrama aparece una nube de puntos.
Lo que se trata de buscar es una curva, lo más sencilla posible, que ajuste la
nube de puntos y luego ver en que medida el ajuste es bueno.
La idea es aproximar la función f por otra, sea g, más sencilla, pero de modo
que al reemplazar una por otra el error que se cometa sea pequeño cuando las
xi recorren un determinado conjunto de valores.
Ejemplos
160
Modelo de Regresión
En este curso nos limitaremos a tratar las tres primeras cuestiones en el caso
particular en que f(X) pertenece a la familia de las funciones lineales en los
parámetros (polinomios):
a) y = a + bx + ε
b) y = ax² + bx + c + ε
c) y = a0+ a1x + a2x² + ..... + anxn + ε
Regresión lineal
100
80
60
y
40
20
0
0 10 20 30 40 50 60
x
y = a + bx
Regresión exponencial Regresión logística
A
b y=
y = a⋅x 1 + B.e−cx
161
Para la curva de crecimiento potencial y = axb, el parámetro b es la proporción
de crecimiento en Y por cambio de unidad en X. Si por ejemplo X es el tamaño
de un órgano e Y el de otro, cuando b= 1 el crecimiento se dice isométrico,
ambos órganos crecen de la misma forma. Cuando b ≠ 1 el crecimiento se dice
alométrico: si b > 1 es alometría positivo y si b < 1 es alometría negativa.
Para decidir que curva debe ser utilizada entre las no lineales es de gran
ayuda obtener diagramas de dispersión de las variables transformadas. Por
ejemplo si un diagrama de dispersión de ejes (X, logY) muestra una relación
lineal, la ecuación de crecimiento exponencial es la que mejor ajusta, mientras
que si esto ocurre para los ejes (logX , logY) entonces es mejor la potencial.
yij = a + b xi + εij,
Notar que este modelo es idéntico al de ANOVA de un factor excepto que los
efectos αi de los tratamientos son proporcionales al valor de la variable x.
ŷi = â + b̂ xi
O sea un valor de ŷ estimado en función del valor de x y de los parámetros â y b̂
, estimados a partir de los datos observados. Cuando ni > 1 podremos estimar
162
E(yi) en forma independiente de a y b mediante y-i, para lo que es necesario
que se cumpla con ciertos supuestos:
100
80
60
y
40
20
0
0 10 20 30 40 50 60
x
163
ŷi = â + b̂ xi
Los parámetros a y b se estiman de tal manera que esa estimación tenga
propiedades útiles; en general se busca alguna forma de minimizar los errores
dados por la diferencia entre los valores observados y los esperados, o sea los
residuos.
Definimos:
2
SCresidual = ∑ ( yi− ŷi)
Estimación de b
S xy
b̂ =
SCxx
2
SCxx = ∑ ni xi2 − N x S xy = ∑ xi yij − Nx y
Estimación de a
a = y − b̂ ⋅ x
Una vez que se ha obtenido la ecuación de regresión estimada, ésta debe ser
evaluada para detectar si describe adecuadamente la relación funcional entre
las variables y si puede ser utilizada de manera efectiva con fines de
estimación y predicción.
164
Una forma de evaluar la ecuación es comparar la dispersión de los puntos alrededor
de la recta con la dispersión de los puntos alrededor de la media y- :
n-1 = 1 + ( n - 2)
GLtotal GLregresión GLresidual
165
b de la recta de regresión. Las hipótesis que se plantean para poner la prueba
la significación de la regresión son:
Anova
Caso de un y para cada x
Fuente de variación G de L SC CM F
2⋅ SCreg
Regresión 1 b SCxx
CMreg
GLreg
CMres
F GL reg, GLres,1-α
Residual N–2 SCtotal - SCregresión SCres
GLres
∑ (yi− y )
Total N–1 2
i
SC yy
Regla de decisión
H0 : b = 0 CMregr
Ha : b ≠ 0 Si F= > F GL reg, GLres,1-α se rechaza Ho con α
CMres
SC regresión
Coeficiente de Determinación R2 =
SC total
0 ≤ R² ≤ 1
SCresidual = 0 SCregresión = SCtotal R² = 1
SCresidual = SCtotal SCregresión = 0 R² = 0
166
Distribución de â Distribución de b̂
â − a
ε= ~ tN-2 ε= b̂ − b
~ tN-2
∑ xi2 CMres
i
CMres ⋅ SCxx
N ⋅ SCxx
b̂ ± t α ;N − 2 ⋅ CMres
2 SCxx
∑ xi2
â ± t α ;N − 2 ⋅ CMres ⋅ i
2 N SCxx
H0 : b = 0 contra Ha : b ≠ 0.
Este método también puede ser utilizado para poner a prueba la hipótesis de
un valor hipotético para la pendiente, o sea plantear:
H0 : b = b0 contra Ha : b ≠ b0
167
Usos de la ecuación de regresión
Intervalo de predicción
*Para estimar el valor medio (esperado) de una subpoblación de Y, o sea para estimar E(Y), para
un dado valor de X, y construir un intervalo de confianza para E(Y).
) ±
E( ŷo tα ; n − 2
⎡
⎢ 1
CMresidual ⎢ + (x o − x )2⎤
⎥
2 n SC ⎥
⎢ xx ⎥
⎣ ⎦
Banda de confianza
168
Comparación de dos rectas de regresión
Ho : b1 = b2 Ha : b1 ≠ b2
(b̂1−b̂2)2
Estadístico de prueba: F=
(SC xx )1 + (SC xx )2 2
⋅
(SC xx )1 ⋅ (SC xx )2 s
2 SCres1+ SCres2
con s =
q
X Y
x1 y11 y12 y13 ....................... y1j y
1
x2 y 21 y 22 y 23 ....................... y 2 j y 2
⋅ ⋅
⋅ ⋅
⋅ ⋅
⋅ ⋅
xi ......................................................... y. j y
i
y..
169
Análisis de la significación de la regresión y bondad del ajuste
F de variación GL SC CM F
Entre a-1 2 2 SCentre CMentre
∑ ni yi. − N y.. GLentre CMerror
i
Regresión 1 SCreg
2
b̂ ⋅ SC xx GLreg
*
Residual a-2 SCentre − SCreg SCres CMres
GLres CMerror
SCerror
Error N-a SCtotal − SCentre
GL error
2 2
Total N-1 ∑ yij − N y..
ij
Construcción de las F
Ho : E( yi ) = a + b⋅xi para todo i
*Prueba de ajuste al modelo
Ha : E( yi ) ≠ a + b⋅xi
Regla de decisión
CM F GL
Si Fres = CMerror
res
> res, GLerror, 1-α se rechaza Ho con α
Regla de decisión
CMreg
*Si Fres > F GL rres,GL, error1 − α = 0,25 ⇒ Freg =
CMres
Regla de decisión
CMreg
*Si Fres < F GLres, GLerror,1 − α = 0,25 ⇒ Freg =
SCres + SCerror
GLres + GLerror
170
Ejemplo: (Sokal-Rohlf § 14.5, pag 476 )
Se estudia la supervivencia del coleóptero Tribulium castaneum sembrado en cuatro
densidades distintas en harina (medida como número de huevos por gramos). La
supervivencia se considera desde el estado de huevo hasta el de adulto. Las variables son:
X: cantidad de huevos/ gramo de harina (Densidad)
Y: porcentaje de sobrevida
Densidades
5/gr 20/gr 50/gr 100/gr
61,68 68,21 58,65 53,23
58,37 66,21 58,37 49,89
69,30 63,44 58,37 49,82
61,68 60,84
69,30
N 5 4 3 3
Media 64,02 64,80 58,48 50,95 N = ∑ni = 15
75
70
% sobrevida
65
60
55
50
45
0 10 20 30 40 50 60 70 80
80 90
90 100
100 110
110
# huevos/gr harina
1 1
x= ∑ ni xi = 37 y= ∑ ni yi = 60,5207
N i N i
2 b̂ = −0,14701
SCxx = ∑ ni xi2 − N x = 18690
i
â = 65,9601
2 2
SCyy = SCtotal= ∑ yij − N y.. = 562,3883
ij
Recta estimada
Sxy = ∑ xi yi − N xi yi = −2747,6685
i ŷ = 65,9601 − 0,15 ⋅ x
171
F de variación GL SC CM F P
Entre a-1=3 423,7016 141,2339 11,2 0,001
Como P=0,481 > 0,05 no se rechaza la Ho, por lo tanto hay buen ajuste al modelo lineal
172
MODELO DE CORRELACIÓN LINEAL
2
COV ( x,y )
ρxy =
Var ( x ) ⋅ Var ( y )
173
Si ρ=0 X e Y no están correlacionadas
−1≤ ρ ≤ 1 Si ρ =1 o ρ = −1 X e Y están linealmente correlacionadas
S2xy
r=
SCxx ⋅ SCyy
Ho : ρ = 0
Ha : ρ ≠ 0
*Se compara el r con el valor crítico de la tabla de valores críticos para el coeficiente de correlación
Regla de decisión
Si r > VC se rechaza Ho con α
N−2
*Se calcula ε=r y se lo compara con tN− 2,α
2
1− r2
Regla de decisión
Si ε > tN−2,α 2se rechaza Ho con α
ρ 1− r2
*Se construye un intervalo de confianza para como r ± tN− 2,α ⋅ y se verifica si el
cero queda contenido en él. 2 N−2
Regla de decisión
Si el intervalo de confianza no contiene al 0 se rechaza Ho con α
174
Ejemplo de Sokal pp571
Se quiere estudiar la relación entre el peso de las branquias y el peso del cuerpo
en el cangrejo Pachygrapsus crassipes.
Se toma una muestra aleatoria de 12 de estos cangrejos y se obtiene la tabla:
Peso de las Peso del Ho : ρ = 0
Ha : ρ ≠ 0
branquias cuerpo(g)
(mg)
r=0,86519
159 14,40
179 15,20
N=12 GL=N-2=10
100 11,30
45 2,50 Regla de decisión
230 14,90
100 1,41 Conclusión
320 15,81 Como 0,86519 > 0,708 se rechaza Ho con α=0,01
80 4,19
220 15,39 El peso de las branquias y el del cuerpo de Pachygrapsus
320 17,25 crassipes están positivamente correlacionados. A
210 9,52 mayor peso del cuerpo, mayor peso de las branquias.
175