Documentos de Académico
Documentos de Profesional
Documentos de Cultura
LIBROESTADISTICA
LIBROESTADISTICA
RPI N°:153541
2
Prologo
Este libro ha sido diseñado como un curso de estadística general de acuerdo a los
programas vigentes en diferentes universidades. Está escrito en una forma general con
ejemplos aplicables a diferentes ámbitos. Tiene un énfasis en las bases conceptuales y
metodológicas de los distintos temas, sin perder el rigor matemático de sus
fundamentos. En general se evitan las demostraciones matemáticas dificultosas que
distraen del objetivo general.
El libro está dividido en seis unidades, de las cuales las primeras cuatro
corresponden a los programas habituales de los cursos de pre-grado en todas las carreras
donde el análisis de datos es relevante.
Las unidades tres y cuatro son las más importantes en un curso básico, donde se
encuentran los principales métodos usados en inferencia estadística. Se separan en una
unidad especial el análisis de varianza y la regresión. Para los lectores poco avezados en
matemáticas, se puede pasar directamente desde la unidad 1 a la 3.
III.- PROBABILIDADES 25
Ejercicios de Probabilidades 41
V.- ESTIMACIÓN 67
V.1.- Estimadores 67
V.2.- Estimaciones 69
V.2.1 Intervalo de confianza para una proporción P y para la diferencia P1-P2 69
V.2.2 Intervalo de confianza para el promedio x y para la diferencia x1-x2 70
V.3.- El tamaño muestral 71
V.2.3.- Estimaciones en Medicina 72
Ejercicios de estimación 74
VI.1.- Bases 76
VI.2.- Dócimas para una muestra 80
VI.3.- Dócimas para dos muestras 82
VI.4.- Supuestos de las dócimas 86
VII.1.- La distribución 2 93
VII.2.- Bondad de ajuste de 2 98
VII.3. El χ2 para proporciones 100
VII.4.- La prueba G 101
5
Bibliografía 190
Esta captación del orden pasa primero por la elección e identificación del
fenómeno y decidiendo el enfoque de interés. Este puede ser de tipo sistémico u holista
en el que el interés esta concentrado en la totalidad y no en las partes (el todo es mas
que la suma de las partes), o bien de tipo reduccionista en el que se estudian las
partes para entender el todo. En general ambos enfoques conducen a la construcción de
modelos, sean éstos formales o de simple palabra, que representen el fenómeno. Estos
reducen la complejidad del fenómeno, haciéndolo comprensible.
La ciencia, según Kuhn (1962), puede ser entendida como una colección de datos
en el contexto de una forma de entender como funciona la naturaleza (paradigma). En
su conjunto, evoluciona saltando de paradigma en paradigma (revoluciones científicas)
en la medida que se acumulan evidencias contradictorias a la luz del paradigma
existente. Esta acumulación de evidencias obedece a un proceso constante de
proposición de explicaciones y causalidades de fenómenos naturales que puede ir de lo
general a lo particular (deducción) o desde lo particular a lo general (inducción).
Para Popper (1979) el método consiste en una confrontación de los datos con una
hipótesis, pudiendo ésta ser solamente rechazada y no probada. Así, en el método de
Popper, hipotético-deductivo-refutacionista, existe una hipótesis de nulidad que
cuando es rechazada, nos permite proponer nuevas hipótesis (falsificación de la
hipótesis).
I.- ESTADÍSTICA
I.2.- Definición
i) frecuencia relativa hi ni / n
i j
i j
En este caso la tabla incluye las columnas: yi, ni, hi, Ni, y Hi.
La tabla incluye las columnas: y’i-1, y’i, ci, yi, ni, hi, Ni, y Hi
Histograma y polígono de frecuencias
Ejemplo 1.-
y’i-1 Y’i yi ci ni hi Ni hi
2 4 3 2 20 0.2 20 0.2
4 6 5 2 25 0.25 45 0.45
6 8 7 2 30 0.3 75 0.75
8 10 9 2 10 0.1 85 0.85
10 12 11 2 12 0.12 97 0.97
12 14 13 2 3 0.03 100 1.00
Medidas de posición
x
x i
c L ( n / 2 N L 1 )
Me y ' L 1
nL
Donde L es el subíndice del intervalo que contiene a la mediana, y éste intervalo
es aquel cuya frecuencia acumulada sobrepasa la mitad de la cantidad de observaciones
(cuya Nj sobrepasa a n/2).
c L ( np / 100 N L 1 )
Pp y ' L 1
nL
Es fácil ver que P50 es la mediana. A los percentiles P25, P50 y P75 se les denomina
primer, segundo y tercer cuartíl (Q1, Q2 y Q3). Del mismo modo se pueden definir los
deciles, por ejemplo P10 es el primer decíl.
La tercera medida de interés es la moda. Esta se define como el valor que tiene
una mayor frecuencia relativa. En el caso de series agrupadas la moda corresponde a un
intervalo, aunque se ha propuesto una fórmula que en cierta manera hace perder sentido
a la definición.
nL 1
Md y ' L 1 c L
n L 1 n L 1
Observaciones
Medidas de dispersión
xi2
s x2
2
ni yi2
En una serie agrupada s 2 y 2 hi yi2 y 2
n
Una medida de dispersión aún más usada que la varianza y que corrige el
problema de las unidades, es la desviación estándar (s) que corresponde a la raíz
cuadrada de la varianza:
s s2
Las desviaciones estándar dependen del valor del promedio, siendo más grandes
cuanto mas grande es este último, lo que hace difícil su comparación. El coeficiente de
variación (CV) corrige este problema y corresponde a una desviación estándar
“normalizada” dividida por el promedio:
CV s / x
x Md 3( x Me)
3
s
y 5
s
Ejemplo 2.-
Si tomamos la tabla del ejemplo uno podemos calcular las siguientes medidas de
posición:
h yi
2
i
0.2 9 0.25 25 0.3 49 0.1 81 0.12 121 0.03 169 50.44
0.008 0.018 0.056 0.055 0.135 0.052 0.077 0.026 0.440 0.300
0.025 0.036 0.043 0.100 0.120 0.110 0.100 0.350 0.100 0.300
R: i) a) promedio: 6.04; mediana: 5.78; Moda [4;6]; P 30: 4.71; desviación estándar: 2.39;
CV: 0.395; b) promedio: 0.123; mediana: 0.089; Moda 0.1; P 30: 0.0475; desviación
estándar: 0.120; CV: 0.979.
23
% de cambio en X
Compuesto I Compuesto
II
26.0 31.7 55.1 65.8 63.6
30.0 32.0 56.3 58.3 64.0
30.5 28.6 60.0 57.1 65.3
26.2 29.2 63.5 55.4 62.8
30.7 33.0 64.9 56.5 59.5
31.3 32.0 62.7 55.1
30.5 32.6 60.5 57.0
30.1 28.2 59.2 59.3
29.6 29.1 63.7 60.7
30.2 30.7 64.1 62.1
R: i) Compuesto I: media 30.11, mediana: 30.55; Compuesto II: media 60.5, mediana
60.5; ii) CI: V 3.52, ds 1.87; CII: V 12.04, ds 3.47; iii) CI: Rango 7, RIQ 2.35; CII:
Rango 10.7, RIQ 6.5; iv) el primero (ver coeficiente de variación)
24
III.- PROBABILIDADES
Ejemplo1.-
Del ejemplo anterior es evidente que hay sucesos más “posibles” o “probables”
que otros. Es necesario definir entonces probabilidad de un suceso.
Existen varias definiciones de probabilidad, cada una de las cuales tiene cierta
utilidad.
casosfavorables
P ( A)
casosposibles
nA
P ( A)
n
P ( A) lim (nA / n)
n
i) P () = 1
27
ii) P (A) > 0 A -
iii) si A B = , entonces P (A B) = P(A) +P(B) (teorema de la o)
Conjunto universo: .
Conjunto vacío (): suceso imposible.
Elemento de -: suceso.
A B: sucede A o sucede B o ambos.
A B: sucede A y sucede B.
AC: no sucede A.
I) P () = 0
Ejemplo 2.-
Ejemplo 3.-
Si tiro una vez un dado, la probabilidad que salga 5 o 6 es P(5 o 6) = P(5) + P(6)
= 1/6 +1/6 = 2/6, pues los sucesos “sale 5” y “sale 6” son excluyentes.
Ejemplo 4.-
Ejemplo 5.-
Es posible extender este teorema a más de 2 conjuntos, por ejemplo: P(A B C)=
P(A) + P(B) + P(C) – P(A B) –P(A C) – P(B C)+ P(A B C)
Ejemplo 6.-
Ejemplo 7.-
Ejemplo 8.-
P ( A) P ( A / Bi ) P( Bi )
i
P(A) = P(A B1) + P(A B2) + ... P(A Bn) = P(A Bi) y por la definición de
probabilidad condicional,
P( A / Bi ) P( Bi )
P( Bi / A)
j P( A / B j ) P( B j )
9.- Se lanza una moneda tres veces. a) ¿Cuál es su espacio muestral? b) ¿Cuál es la
probabilidad de obtener exactamente 2 caras? c) ¿cual es la probabilidad de obtener al
menos 2 caras d) ¿cual es la probabilidad de que los tres lanzamientos sean iguales?
R: a) P(C) = 17/98
b) P(T2) = 28/98
c) P(C T2) = P(C/T2) · P (T2) = 12/28 · 28/98= 12/98
d) P(C/T2) = 12/28 = P(C) = 17/98, entonces no son independientes.
12.- En una caja hay 4 huevos de gallina, 10 de pato y 8 de ganso. Si son fértiles 4 de
cada 5 de gallina, 6 de cada 7 de pato y 11 de cada 12 de ganso. Al sacar un huevo:
R.- P(G) = 4/22, P(P) = 10/22, P(Gz) = 8/22, P(F/G) = 4/5, P(F/P) = 6/7 y P(F/Gz) =
11/12.
a) Los sucesos G, P y Gz constituyen una partición de , pues G Ո P Gz =
y G P Gz = . Entonces por teorema de la probabilidad total:
Animales con pm 13 7 20
Animales sin pm 8 32 40
Total 21 39 60
Probabilidades en el diagnóstico
p
O
1 p
EXAMEN
+ - Total
ENFERMO A B a +b
NO ENFERMO C D c+d
Total a+c b+d n = a+b+c+d
En este caso, los falsos positivos serían c y los falsos negativos serían b.
a
S P( / E )
ab
d
Sp P ( / noE )
cd
a
VPP P ( E / )
ac
ad
P (C )
n
S
LR P( / E ) / P( / noE ) P( / E ) /(1 P ( / noE ))
1 Sp
LR (1 S ) / Sp
Por ejemplo es interesante saber que sucede con un paciente que a priori tiene una
probabilidad “P” de tener una enfermedad, cuando se hace el examen y este sale
positivo. Su chance a priori es Oo = P/(1-P). En este caso interesa P(E/+), y por el
teorema de Bayes:
Op LR Oo
EXAMEN A
+ - Total
ENFERMO de X 85 20 105
NO ENFERMO 10 200 210
de X
Total 95 220 315
Probabilidades en el tratamiento
a
CER P (evento / control ) y tasa de evento en el grupo experimental:
ac
b
EER P (evento / ex)
bd
Estas tasas miden los riesgos absolutos de presentar cierto evento en situación
control y en situación experimental. De aquí surgen varias medidas útiles. Primero es
interesante medir el riesgo relativo RR = EER/CER, que indicará si es mayor que 1 un
aumento en el riesgo, y si es menor que 1 una disminución en éste:
37
RR EER / CER
Por ejemplo si la ARR = 0.01 significa que uno de cada cien saldrán beneficiados
con el tratamiento, o de otra manera habría que tratar 100 para beneficiar a uno. En otras
palabras el número necesario para beneficiar a uno es:
NNT 1 / ARR
Ejemplo 15.- Se está ensayando un nuevo tratamiento “Y” para una enfermedad
de alta mortalidad y se obtiene:
Probabilidades en la etiología
38
Muchas veces es necesario indagar en las causas de las enfermedades. A veces se
sospecha de un agente causal y se procede con estudios que pueden ser de dos tipos: i)
Seguimiento de cohortes que consiste en el seguimiento de dos grupos a lo largo del
tiempo (seguimiento longitudinal) uno expuesto al factor sospechoso y el otro no
expuesto, para estudiar después cuantos desarrollan la enfermedad en cada grupo (por
ejemplo tabaco y cáncer bronquial); e ii) Estudio de casos y controles que consiste en
la elección de dos grupos, el primero de enfermos y el segundo de no enfermos,
estudiando en ellos cuantos de éstos estuvieron expuestos al factor. En este caso es un
estudio transversal. Cualquiera sea el tipo de estudio en general se expresa en la
siguiente tabla:
Aunque la tabla sea la misma las medidas útiles son distintas. En el caso de un
estudio de cohortes tiene sentido estudiar el riesgo de tener la enfermedad cuando se está
expuesto EER = a/(a+b) y cuando no se está expuesto CER = c/(c+d) y en este caso el
aumento absoluto del riesgo al estar expuesto:
El riesgo relativo:
RR EER / CER
En este caso el número necesario de expuestos para que haya 1 enfermo es:
NNH 1 / ARA
a / c ad
OR
b / d bc
Ejemplo 17.- Se piensa que el cigarrillo tiene relación con el cáncer de Vejiga,
entonces se realiza un estudio en pacientes con cáncer de vejiga (casos) y en sujetos
normales, pareados por edad y sexo (controles). Se estudia en estos pacientes el
antecedente de consumo de cigarrillos, obteniendo:
En este caso la chance de fumar en pacientes con cáncer de vejiga es: 56:120,
mientras que cuando no se tiene este cáncer es de 26:200. Así la razón de disparidades es
OR = 56x200/(26x120) = 3.59. Así si por ejemplo la prevalencia de cáncer de vejiga en
fumadores fuera PEER = 0.03, entonces NNH =[0.03(3.59-1)+1]/[0.03(3.59-1)(1-0.03)]
= 14.3.
41
Ejercicios de Probabilidades
1. Se tira una moneda 3 veces y se observa la secuencia de caras y sellos que aparecen.
El espacio muestral es:
= {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS}
Sea A el evento que aparezcan dos o más caras consecutivas, y B, que sean todas cara
o todas sello. Calcular P(A), P(B) y P(AB).
R: 3/8; 1/4; 1/8.
5. Una ruleta de casino tiene 37 números, del 0 al 36. Excepto por el 0, el cual es verde,
la mitad de los números son rojos (pares) y la otra mitad, negros (impares). Encuentre
la probabilidad de:
i) obtener un 18 en un solo tiro de ruleta.
ii) obtener un número rojo en un solo tiro.
iii) obtener un 5 o un número negro en un solo tiro.
iv) obtener un número rojo en el primer tiro y el cero en el segundo tiro.
42
R: 1/37; 18/37; 18/37; 18/1369.
9. En una cierta ciudad, 40% de la gente tiene pelo castaño, 25% tiene ojos pardos y un
15% tienen ambas características. Si una persona es seleccionada al azar:
i) y tiene el pelo castaño, cuál es la probabilidad de que también tenga ojos
pardos.
ii) y tiene ojos pardos, cuál es la probabilidad de que no tenga pelo castaño.
iii) cuál es la probabilidad de que no tenga ni los ojos pardos ni el pelo castaño.
R: 0.375, 0.6, 0.5.
10.Se estima que el 15% del total de la población adulta padece de hipertensión. Además
se estima que el 75% de los adultos creen no tener este problema. Se estima también
que el 6% de la población tiene hipertensión y no es consciente de tenerla. Si un
adulto opina que no tiene hipertensión, ¿cuál es la probabilidad de que la enfermedad
de hecho exista en este individuo?
R: 0.012.
11.Un estudio indica que el 10% de la población de Chile tiene 75 años o más, y que el
1% de la población total padece de deficiencia cardiaca moderada. Además el 10.4%
de la población tiene 75 años o más o padece de enfermedad cardiaca.
i) hallar la probabilidad de que un individuo tenga 75 años o más y padezca de
deficiencia cardiaca.
43
ii) si un individuo tiene 75 años o más, ¿cuál es la probabilidad de que padezca
de deficiencia cardiaca?
iii) si un individuo tiene menos de 75 años, ¿cuál es la probabilidad de que
padezca la enfermedad?
R: i) 0.006; ii) 0.0006; iii) 0.0094.
12.Se realiza un experimento de tirar tres veces al aire una moneda. Considere tres
eventos: A = {la primera moneda sale cara}, B = {segunda moneda sale cara}, C =
{salen exactamente 2 caras en forma consecutiva (CCS o SCC)}. Son estos eventos
independientes entre si (analice parejas de eventos).
R: Independientes A con B; A con C; dependientes B con C.
13.En una escuela se estudia la desnutrición infantil, tratando de ver si el hecho de estar
o no desnutrido tiene que ver con el sexo del niño. De 1000 niños examinados, 100
presentan desnutrición; y de 500 niñas, 49 presentan desnutrición. ¿Afecta el sexo de
los niños al fenómeno de desnutrición?
R: Son eventos estocásticamente dependientes.
16.En la universidad, 4% de los hombres y el 1% de las mujeres son más altos que 1.85
m. Además, se sabe que el 60% de los estudiantes son mujeres. Ahora, si un
estudiante es seleccionado al azar y mide más de 1.85 m, ¿cuál es la probabilidad de
que el estudiante sea mujer?
R: 0.272.
44
17.A un grupo de individuos, algunos enfermos de cierta enfermedad (E) y otros no
(noE) se les practicó cierto examen. En algunos de ellos el examen salió positivo (+)
y en otros no (-). Calcule la prevalencia (pv) de la enfermedad (proporción de
individuos con la enfermedad), la chance a priori de estar enfermo (pv/(1-pv)), la
sensibilidad del examen, la especificidad, el VPP, el VPN, la certeza diagnóstica, el
coeficiente de verosimilitud (LR), y la chance a posteriori de estar enfermo y de no
estarlo.
E NoE Total
731 270 1001
+ 78 1500 1578
- 809 1770 2579
R: O0+ = 0.45; O0-=2.22; S = 0.9; Sp = 0.85; VPP = 0.73; VPN = 0.95; P(C) = 0.87; LR+
= 6; LR-=0.12; Op+=2.7; Op-=0.27.
HT NT
Complicaciones (%) 9.6 2.8
Calcule el CER, EER, RR, ARR, RRR, y NNT. Comente sus resultados.
R: CER = 0.096, EER = 0.028, RR = 0.29, ARR = 0.068, RRR = 0.708, NNT = 15.
E NoE Total
F(+) 58 22 80
F(-) 36 44 80
94 66 160
20. Se estudia la relación entre cierto factor de riesgo (F(+)) y una cierta enfermedad.
Para ello se toma un grupo de enfermos (E) y otro de sanos (controles: noE), midiendo
en ellos la presencia o ausencia de dicho factor. Los resultados se resumen en la
siguiente tabla:
E NoE
F(+) 58 22
F(-) 36 44
94 66
Ejemplo 1.- Sea el experimento “se tira 2 veces una moneda” = {cc, cs, sc,ss}
Podemos definir la variable aleatoria X = número de caras. Así para X = 0 su preimagen
es el suceso (ss), para X = 1 su preimagen es (cs) (sc) y para X = 2 su preimagen es
(cc).
Las variables aleatorias pueden ser discretas si sólo pueden tomar un número k N
valores distintos, en todo otro caso, son continuas.
Variables discretas
Ejemplo 2.-
X p(x) F(x)
0 0.25 0.25
1 0.50 0.75
2 0.25 1.00
47
Las características fundamentales de una variable aleatoria son la esperanza y la
varianza
E[X] = xi · pi
Ejemplos 3-4.-
Sea la variable aleatoria X = retorno; entonces P(X=0) = 0.2 P(X = 100) = 0.2; P(X =
200) = 0.4 y P(X = 300) = 0.2. Entonces, E[X] = 0.0.2 + 100.0.2 + 200.0.4 + 300.0.2 =
160.
Como la esperanza del retorno (160) es mayor que la inversión (100), el negocio parece
conveniente.
48
4.- Un alumno ha dado 100 pruebas de matemáticas con los siguientes resultados:
Se enfrenta a una nueva prueba de matemáticas ¿qué nota esperamos que saque
(esperanza)? ¿Cuál es la varianza?
COV[X,Y] = E[XY]-E[X]E[Y].
49
Ejercicios Propuestos
a) ¿Cuál es la probabilidad de que una vaca tenga parásitos en la región A3? R: 0.489
2.- Se lanza un dado dos veces. ¿Cuál es el espacio muestral? ¿Cuál es la probabilidad
de obtener 2 números iguales? ¿Cuál es la probabilidad de sacar un 1 y un 5? ¿Cuál es
la probabilidad de sacar primero un 1 y después un 5?
R: 1/6; 2/36; 1/36.
3.- En una pieza hay 100 cachorros. Algunos de ellos “Beagle” y otros “Poodle”.
Algunos de ellos sanos y otros enfermos.
Son independientes los sucesos “el perro es sano” y “el perro es Beagle”? R: 0.6; no.
50
4.- Se va a realizar una cirugía de esófago a 2 gatos. Se sabe que en esta cirugía muere
el 1%. ¿Cual es la probabilidad de que: a) mueran los 2 gatos b) muera sólo 1 c)
ninguno muera
R: 0.0001; 0.0198; 0.9801.
6.- La enfermedad x se puede tratar con C o con M. El 80% de los varones prefiere C;
el 90% de las mujeres prefiere M. Si el 60% de los enfermos son varones. ¿Cuál es la
probabilidad de tratar un enfermo con M? R: 0.48.
7.- Sea la variable aleatoria X = suma de los puntos al lanzar 2 veces un dado. a)
encontrar P(X=k) para todo k. b) graficar la función de cuantía y a función de
distribución c) Encontrar E(X) y V[X] R: 7;5.83.
X P(x) F(x)
0 1-p = q 1-p = q
1 P 1
Además E[X] = 1·p+0·q = p, y V[X] = 12·p +02·q –p2 = p-p2 =p(1-p) = pq.
n k n k
P(X k) p (1 p)
k
Vemos que una vad con distribución binomial es caracterizada por 2 parámetros:
n y p, entonces se abrevia B(n,p). Observamos que la distribución binomial consta de n
ensayos fijos e independientes, cada uno dicotómico en su resultado y con una
probabilidad constante (p) de éxito.
n n! (n1)!
kn kn kn
=
k0kk (1) k0kpp k!(n)pq npk1(k1)!nkpq
k nk k n k1 nk
m j m j m j m
haciendo, j k 1 y,, m n 1; np p q np(p q) np
j 0 j
Ejemplo 5.-
10 3 7
P( X 3) 0.2 0.8 0.2013
3
Observación Si de un universo de N elementos en los cuales una proporción p de
ellos tiene un atributo, sacamos n elementos; entonces la probabilidad que en estos n
haya k con el atributo es:
53
N NpNp
(XP k) kn k
N
n
Esta variable tiene distribución hipergeométrica y E[X] = np y V[X] = npq(N-n)/
(N-1). Es fácil darse cuenta que si N es muy grande (tiende a ) la toma de cada
elemento no altera la probabilidad de atributo del siguiente elemento y, entonces cada
ensayo se vuelve de tipo Bernoulli. Así si en una vad con distribución hipergeométrica,
N → , su distribución se vuelve binomial (B(n,p)). Esto es también evidente al
observar que el límite cuando N → ∞ de V[X] es npq. Entonces se puede considerar a
la distribución binomial como una distribución asintótica para poblaciones infinitas.
Ejemplo 6.-
610
32
P(X 2)
16
5
IV.4.- Distribución de Poisson
n k nk
P(X k) p (1 p) = n(n-1)(n-2)……(n-k+1)(/n)k(1-/n)n-k/(k!) =
k
= [k/k!]·[1·(1-1/n)·(1-2/n)···(1-(x-1)/n)]·(1-/n)n(1-/n)-k
k
P( X k ) e
k!
Se dice entonces que esta variable tiene distribución de Poisson. En este caso,
E[X] = V[X] = .
Demostración
Para la esperanza, se tiene que
k
k 1
k 0
k e
k!
e
k 1 ( k 1)!
e e
Para la varianza,
k
k
k
k 0
2
e
k!
E[ X ]2 (k (k 1) k ) e E[ x]2 e 2 e 2
k 0 k!
Ejemplo 7.-
0.032
P( X 2) e 0.03 0.000437
2!
Si un fenómeno ocurre X(t) veces en un intervalo [0,t), como ocurre por ejemplo
en la llegada de llamadas telefónicas, la emisión de partículas, accidentes etc... Y
además la probabilidad de una ocurrencia de éste fenómeno es proporcional al intervalo
(P(una o más ocurrencias en [t,t+) ) = + o(), donde o() es la probabilidad de que
ocurra más de uno), entonces el número de ocurrencias (k) en un plazo fijo (t) se
conoce como un proceso de Poisson y tiene distribución de Poisson con parámetro t:
(t ) k
Pk (t ) e t
k!
Ejemplo 8.-
(3 2) 4
P4 ( 2) e 32
0.134
4!
i) f(x) 0 x,
b
ii) P(a x b) = f(x) dx
+ a
iii) f(x) dx = 1.
-
Podemos observar que la densidad de probabilidad en un punto es 0, y que sólo
tienen sentido las probabilidades de intervalos.
Tanto las funciones como las características de una vac se interpretan del mismo
modo, pero cambian sus definiciones:
+
E[X] = x·f(x) dx y V[X] = E[X2]-(E[X])2
-
M x (t ) e
tx
f ( x ) dx . Observamos inmediatamente que la derivada de esta función, con
M y (t ) [ M x (t )]n
Teorema de De Moivre
a
59
Donde = np y 2 = npq
n k nk
Si en P(X k) p (1 p) , aplicamos la fórmula de Stirling para factoriales,
k
n! n n e n 2n e / 12 n , donde θ es un número entre 0 y 1, se obtiene:
1 k np
P( X k ) , donde y el término R/n tiende a 0 para n
2
e / 2 R / n
2npq npq
grandes.
2
1
Así, si n es grande P(k1 X k 2 ) P(1 2 )
2
e x / 2 dx , lo que define
1 2npq
una distribución normal con = np y 2 = npq.
Este primer teorema nos dice que la distribución normal es una distribución límite
de una binomial cuando n es grande. En la práctica n > 30 o bien np 5.
Teorema del límite central (o central del límite) (expresión general, Laplace
1812, Lyapunov 1901)
Cualesquiera que sean las distribuciones de ciertas variables Xj, con esperanzas
j y varianzas 2j, entonces X = Xj es asintóticamente normal (N(,)) donde =
j y 2 = 2j .
Demostración Consideraremos sólo el caso más sencillo, donde las Xj tienen la misma
distribución. En este caso se puede partir por el siguiente corolario:
t
obtener la fgm de Z: M Z (t ) [ M zj ( )]n y como en MZj(t) el primer y segundo
n
momentos son 0 y σ2 se puede desarrollar en serie de Taylor: M Zj(t) = 1- σ2t2/2 + R, y
reemplazando t por t/ n obtenemos para MZ(t):
t2 1
M Z (t ) [1 R(n, t )]n [1 R(n, t )]( 2 n / t )( t / 2 ) y tomando límite cuando n
2 2
2n 2n / t 2
tiende a infinito se tiene que M Z (t ) e t / 2 . Como esta es la fgm de una distribución
2
El teorema del límite central y sus importantes corolarios nos explican porqué es
normal (habitual) encontrar distribuciones normales en las variables que estudiamos.
Además mediante el uso de la estandarización (Z) de la variable X, es posible calcular
las probabilidades P(a x b)= P((a-)/ z (b-)/). Afortunadamente para
nosotros los valores de las integrales que definen las probabilidades ya se encuentran
tabulados y son accesibles en programas computacionales. Algunos valores muy
conocidos, importantes y fáciles de recordar son P (z > 1.64) = 0.05 y P(z > 1.96) =
0.025.
Ejemplo 9.-
61
Supongamos que el peso (W) de los seres humanos tiene distribución normal con
promedio μ = 70 Kg y desviación estándar σ = 5Kg. Entonces cual es la probabilidad
que un individuo pese más de 83 Kg?. Como W tiene distribución normal N(70; 5),
entonces Z = (W-μ)/σ tiene distribución normal N(0;1) y preguntar por P(W >83) es
equivalente a preguntar por P(Z >(83-70)/5=2.6). En las tablas de áreas de la
distribución normal se puede ver que este valor es: P(Z > 2.6) = 0.0047.
Los siguientes teoremas y distribuciones tienen relación con la función gama (Γ),
de importantes aplicaciones en cálculo y estadística:
( k ) x k 1 e x dx , k > 0.
0
Basados en esta función, se dice que una variable aleatoria continua X, tiene una
distribución Γ de parámetros r y α si su densidad es
f ( x) (x) r 1 e x , x >0; r > 0; α > 0; y 0 en cualquier otro caso.
(r )
Si r = 1, f(x) = α e –αx , E[X] = 1/α y V[X] = 1/α 2. Cuando ocurre esto, se dice que
la variable tiene distribución exponencial.
Demostración Si desarrollamos:
Demostración Si n, s , y entonces por el teorema central del límite, t n-1
N(0,1).
n1 n2
( ) n1n1 / 2 n2n 2 / 2
2 x n1 / 21
f ( x)
( n1 / 2) (n2 / 2) ( n2 n1 x) ( n1 n 2) / 2
Esta es una distribución muy útil usada en las dócimas de varianza y en el análisis
de la varianza (ANOVA).
1. Considere un experimento que consiste en tirar una vez un dado. Siendo X = el valor
obtenido en el lanzamiento una v.a.d., ¿cuál es su esperanza y su varianza?
R: 3.5; 2.92.
X 0 1 2 3 4 5 6
F (x) 0.1 0.2 0.3 0.6 0.8 0.9 1.0
3. ¿Qué requisitos debe cumplir una variable para que en sus análisis se utilice la
distribución binomial?
5. Para estudiar la regulación hormonal de una línea metabólica se inyectan ratas con un
fármaco que inhibe la síntesis de proteínas del organismo. En general, 4 de cada 20
ratas mueren a causa del fármaco antes de que el experimento haya concluido. Si se
trata a 10 animales con el fármaco, ¿cuál es la probabilidad de que al menos lleguen 8
vivas al final del experimento?.
R: 0.677.
6. En Escherichia coli, una célula de cada 105 muta generando resistencia al antibiótico
estreptomicina. Observando 556.000 células, ¿cuál es la probabilidad de que ninguna
mute? ¿cuál es la probabilidad de que al menos una mute?
R: 0.00348; 0.9965.
66
7. Se estima que sólo uno de cada 50 loros capturados en el sur de Chile para su
utilización como animales domésticos sobrevive al cambio. Se capturan 700 pájaros
en un día. ¿Cuál es el número esperado de sobrevivientes? ¿Cuál es la probabilidad
de que sobrevivan entre 10 y 12?
R: 0.1545.
11.La densidad del suelo se define como la masa de materia sólida seca por unidad de
volumen. Una densidad elevada implica un suelo compacto con escasos poros. Esta
densidad es un factor importante para el crecimiento de las raíces, la siembra
precipitada y la ventilación. Sea X la densidad de tierra arcillosa. Los estudios
demuestran que X tiene una distribución normal con =1.5 y =0.2 g/cm3.
a) ¿Cuál es la función densidad de X? Haga un esbozo de la función densidad.
Indique en esa gráfica la probabilidad de que X esté comprendida entre 1.1 y 1.9.
Halle esta probabilidad. R: 0.9544.
b) Halle la probabilidad de que tomando de forma aleatoria una muestra de tierra
arcillosa, ésta tenga una densidad menor que 0.9 g/cm3. R: 0.0013.
67
c) ¿Estaría sorprendido si una muestra de este tipo de tierra, seleccionada
aleatoriamente, tuviese una densidad de 3.2 g? R: absolutamente.
12.La Escala de Inteligencia Wechsler para Niños (WISC) tiene una media de 100 y una
varianza de 225 para la población general. Si un niño cae en el 10% menor de la
población, generalmente los psicólogos clínicos urgen a los padres de los niños a que
les realicen exámenes en busca de posibles problemas cerebrales. Asumiendo que los
puntajes de WISC están normalmente distribuidos, ¿cuál es el puntaje crítico que los
psicólogos utilizan para hablar con los padres?
R: 80.725.
68
V.1.- Estimadores
ii) Estimadores: éstos son funciones de una variable aleatoria cuyo fin es
aproximar el valor de un parámetro a partir de las unidades de la muestra
Los ejemplos más característicos son el promedio muestral x , la
proporción muestral “p”, la desviación estándar “s” y la varianza “s 2”
muestrales.
Además del promedio, otro estimador meli es la proporción muestral “p” como
estimador de la proporción poblacional “P”. Si tenemos una muestra de n elementos y
definimos la variable aleatoria x = 1 si tiene una característica y x = 0 si no la tiene,
entonces se aprecia que p = xi/n, es decir tiene la estructura de un promedio, por lo que
E[p] = P y V[p] = PQ/n.
V.2.- Estimaciones
Las estimaciones o estimas son los valores que toma un estimador para una
muestra determinada. Por ejemplo, el promedio es un estimador y pero el valor
particularx = 5 es una estimación. Las estimaciones pueden ser de dos tipos:
puntuales, por ejemplo el promedio poblacional es 3, o por intervalos, por ejemplo el
promedio poblacional está entre 2 y 5. Obviamente la primera estimación es precisa
pero poco confiable y la segunda es más confiable pero pierde precisión. Estas dos
últimas, precisión y confianza son las dos características de una estimación (no
confundir con estimador).
IC1 [ p Z / 2 pq / n ]
Notamos que Z/2 en el caso de C = 0.95 es Z/2 = 1.96, pero que para otros niveles
son otros valores que se pueden obtener directamente de la tabla de la distribución
N(0;1) (Z).
Ejemplo 1.-
IC1 [( p1 p2 ) Z / 2 ( p1q1 / n1 p 2 q2 / n2 )]
IC1 [ x Z / 2 / n ]
Aquí t(1-/2) tiene el mismo sentido que Z/2 pero se escribe distinto por razón de
construcción de las tablas t de Student.
Ejemplo 2.-
Esta misma forma de pensamiento, permite calcular el tamaño muestral para una
precisión y una confianza dadas.
Si se acepta que una medida de la precisión es la mitad del ancho del intervalo de
confianza, se observa que la precisión es d = k·Es = ê-θ y, entonces equivale al valor
absoluto de la diferencia entre el valor real del parámetro y el promedio muestral
(observación: a mayor valor de d la estimación es menos precisa).
Entonces, por ejemplo si se desea buscar el tamaño muestral con una precisión d y
una confianza C = 1- para estimar una proporción P, es obvio que d = z /2(PQ/n), es
decir, despejando n, el tamaño muestral adecuado es:
Z 2 / 2 PQ
n
d2
74
Ejemplo 3.-
t12 / 2 s 2 Z 2 / 2 s 2
n
d2 d2
Ejemplo 4.-
Si queremos estimar un promedio con un 95% de confianza, con una precisión del
5% y se tienen estimaciones previas que sugieren un promedio de 45 de una desviación
estándar de s = 5.4, entonces el tamaño muestral requerido es aproximadamente: n =
4(5.4)2/(0.05x45)2 = 51.84 = 52.
Observamos que todos los cálculos de tamaño muestral son sólo aproximaciones y
que todos necesitan de algún conocimiento o estimaciones previas de lo que se pretende
estimar y su variabilidad.
V.2.3.- Estimaciones en Medicina
Números necesarios : NNT y NNH Ambos están definidos como los valores
inversos de ARR y ARA respectivamente, por lo que en estos casos, se calculan los
límites de confianza para ARR y ARA y se calcula su inverso. Por ejemplo si los límites
de confianza para ARR son [1/8 y 1/2], entonces para NNT son [2 y 8].
1 1 1 1
Para log RR: IC1 [log RR Z / 2
a b ac bd
]
1 1 1 1
Para log OR: IC1 [log OR Z / 2 ]
a b c d
1 1 1 1
Para log LR: IC1 [log LR Z / 2
a d ab cd
]
76
Ejercicios de estimación
1. Se tomó una muestra que mostró que una variable en los hombres tiene un promedio
de 9.5 mg/dcl y una varianza de 0.25 mg 2/dcl2. ¿Cuál es el intervalo de confianza del
95% si el tamaño muestral es: a) 5; b) 10; c) 100; d) 1000?
R: [8.88;10.12];[9.14;9.86];[9.402;9.6];[9.47;9.53].
2. De 191 niños con dolor al pecho, 160 tienen electrocardiograma (ECG) normal.
Obtener el intervalo de confianza del 90, 95 y 99% de la proporción de niños con
dolor al pecho que tienen ECG normal.
R: [0.794;0.882]; [0.786; 0.890]; [0.769; 0.907].
4. Se dice que el 11.4% de las vinchucas “rojas” están infectadas con un parásito. ¿Qué
tamaño muestral necesito para re-estimar esta proporción con un intervalo de
confianza de 95 % de ancho total 7 %?
R: n = 317.
9. Se cree que los jóvenes adolescentes que fuman comienzan a hacerlo a una edad más
temprana que las mujeres adolescentes fumadoras. Según los siguientes datos, ¿usted
apoyaría esta suposición?
Hombres: N=33 ; edad media a la que empiezan a fumar=11.3 años ; 2=4
Mujeres: N=14 ; edad media a la que empiezan a fumar=12.6 años ; 2=4
R: No.
VI.1.- Bases
Desde esta perspectiva una hipótesis constituye una afirmación cuya validez o
certeza es desconocida. El fin de la estadística es llegar a conocer o aproximar la
incerteza de tal afirmación.
Así, por ejemplo si se afirma que los hombres pesan más que las mujeres, se
establece inmediatamente la dicotomía Ho: los hombres pesan igual o menos que las
mujeres y H1: los hombres pesan más que las mujeres. En términos estadísticos
paramétricos nos referimos a los promedios: Ho: H M vs. H1: H > M. Naturalmente
una u otra es verdad, pero no ambas.
Bajo esta definición es claro que toda la estrategia estadística está destinada al
rechazo de Ho, y que este rechazo es el que permite sostener H 1. Para esto es
estrictamente necesario que las hipótesis Ho y H1 sean complementarias.
79
Sin embargo, encontrar una regla que permita tomar una decisión adecuada no es
fácil como podemos ver en el siguiente ejemplo.
Supongamos que tomamos una muestra de 100 individuos del ave B. Entonces la
idea es encontrar un valor crítico “Co” para el promedio muestral xB sobre el cual
rechazar Ho (y por tanto sostener H1). Esto establece un conjunto de valores Rc =[xB /
xB > Co] que permiten rechazar Ho (zona de rechazo de Ho). Pero....¿cómo elegir este
valor crítico?
K() Ho
0.7 0.0668 V
0.8 0.1587 V
0.9 0.3085 V
1.0 0.5 V
1.1 0.6915 F
1.2 0.8413 F
1.3 0.9332 F
80
En esta tabla observamos que la probabilidad de rechazar Ho (K()) cuando Ho es
verdadera es muy alta, por ejemplo para = 0.9 hay una probabilidad de 0.3 (30%) y
para = 1 una probabilidad de 0.5!!. Entonces no parece adecuado escoger Co = 1.
K() Ho
0.8 0.0228 V
0.9 0.0668 V
1.0 0.1587 V
1.1 0.3085 F
1.2 0.5000 F
1.3 0.6915 F
1.4 0.8413 F
VALOR DE VERDAD de
Ho
V (H1F) F (H1V)
DECISIÓN Rechazo Ho ERROR I () K = 1-
Acepto Ho C = 1- ERROR II ()
En esta tabla se describen dos tipos de errores estadísticos: error de tipo I, aquel
que se comete cuando se rechaza Ho (RHo) y esta es en realidad verdadera (HoV). Su
medida es = Pmax(RHo/HoV); y el error de tipo II es el que se comete cuando se
acepta Ho (AHo) y esta es falsa. Su medida es = Pmax(AHo/H1V) = 1-Pmax(RHo/H1V) =
1-K(1).
81
Observamos que C = P(AHo/HoV) = 1-. El valor C establece la confianza de la
dócima, y a , el máximo error de tipo I que se está dispuesto a tolerar, se le denomina
nivel de significación cuando se encuentra previamente especificado. Del mismo modo
a K(1), el valor de la función de potencia en 1 ,o simplemente K, se le conoce como
potencia de la dócima.
i) Planteamiento de la Hipótesis.
iii) Elección del nivel de significación. En esta etapa se define a priori el nivel de
significación con que se va a trabajar. En general en ciencias se consideran
como adecuados niveles menores que = 0.1; 0.05; 0.01 (o confianzas
mayores que 90%; 95%; 99%). El más aceptado es lejos = 0.05. O sea en
ciencias parece aceptable cometer errores de tipo I con probabilidades
menores o a lo sumo iguales a 0.05.
Dócima para una proporción (P) Una pregunta muy habitual en ciencias de
cualquier tipo es si cierta proporción P corresponde o no a un valor dado. Por ejemplo es
habitual pensar que la proporción de mujeres es mayor que 0.5 o que la prevalencia de
una cierta enfermedad sea menor que una prevalencia dada etc...
Supongamos por ejemplo que se dice que un cierto insecto se encuentra en el 30%
(p0) de las viviendas, pero en la localidad en que vivo yo lo veo en casi todas. Entonces
planteo la hipótesis: la proporción de casas infestadas por este insecto es mayor que un
30%. En términos estadísticos Ho: P 0.3 vs: H1: P > 0.3. Voy a trabajar con un nivel de
significación de = 0.05.
Una segunda manera de ver esto es buscando el valor crítico Co tal que P(Z>Co)
= 0.05. Este es Co = 1.64, es decir rechazaré la hipótesis Ho para todo valor calculado de
z > 1.64 (zona de rechazo Rc). Como el valor calculado de Z = 2.41, entonces cae en la
zona de rechazo de Ho.
pˆ p0
Z
p0 q0
n
Ejemplo 1.-
Aplico el estadígrafo Z:
0.128 0.08
Z 2.48
0.08 0.92
196
Dócima para el promedio () En este caso la afirmación se refiere a una variable
continua distinta de una proporción, por ejemplo se afirma que el peso promedio de los
hombres es más de 70 kg.
x 0
t n 1
s
n
Ejemplo 2.-
En este caso se trata de hipótesis que comparan dos situaciones y por tanto para
probarlas es necesario tomar dos muestras. Por ejemplo, si se afirma que en la ciudad A
hay más prevalencia de cáncer que en la ciudad B, es necesario tomar una muestra en A
y otra en B.
En este caso, para una prueba de dos colas, las hipótesis H 0 y H1 se pueden
escribir como:
H0: (P1-P2) = P0 vs. H0: (P1-P2) ≠ P0. Lo habitual es que P0 = 0, pues en general interesa
la pregunta P1 = P2 o P1≠ P2? La prueba a usar en este caso es:
( pˆ 1 pˆ 2 ) P0
Z pˆ n pˆ 2 n2
1 1 donde p0 1 1
p0 q0 ( ) n1 n2
n1 n2
Ejemplo 3.-
Entonces calculo Z:
0.192 0.36
Z 2.14
1
0.303 0.697(
1
)
. Entonces ahora se debe tomar la decisión. El valor
52 100
crítico de rechazo para un máximo error de tipo I α = 0.05 es 1.96, y como es una prueba
de dos colas rechazaremos H0, cuando el valor calculado de Z sea < -1.96 o > +1.96
. En nuestro caso -2.14 < -1.96 y entonces rechazo H 0 y puedo afirmar que existe
suficiente evidencia para sostener que la proporción de insectos parasitados es diferente.
Podemos observar además que si nuestra hipótesis H1 hubiera sido que el insecto B tiene
una mayor proporción de parasitismo que A. La prueba habría sido de una cola, el valor
crítico habría sido 1.64, y nuevamente habríamos rechazado H0, en este caso afirmando
que existe suficiente evidencia para sostener que la proporción de insectos parasitados es
mayor en el insecto B que en A.
x1 x 2 0
t n n 2 (n1 1) s12 (n2 1) s 22
donde sc
2
1 2
1 1
sc2 ( ) n1 n2 2
n1 n2
Ejemplo 4.-
Se afirma que la especie A pesa más que la especie B. Entonces se plantean las
hipótesis H0:μA – μB > 0 vs H1: μA- μB ≤ 0 y se toman muestras de A y de B. Supongamos
que en 46 individuos de A el peso promedio fue 36g con una desviación estándar de 6g y
que en 50 individuos de B el peso promedio fue 33 g con una desviación estándar de 5g.
Así como el cuociente entre las varianzas es 6 2/52 = 1.44, es decir es menor que 4,
usando nuestra regla simple, podemos suponer homocedasticidad. Además podemos
estimar la “varianza común s2c como:
45 36 49 25
sc2 30.27 . Ahora podemos usar nuestro test:
46 50 2
36 33
t 94 2.67
30.27 (
1
)
1 . Para α = 0.05 y una cola, el valor crítico de t es 1.64,
46 50
entonces como 2.67 > 1.64, rechazamos H0 y podemos sostener H1, es decir A pesa más
que B.
Observamos que el valor crítico de t con 94 grados de libertad es 1.64, idéntico al
valor crítico para Z en el caso de una cola. Esto no debe extrañarnos, pues como hemos
enunciado en un teorema anterior, si el tamaño muestral aumenta, la distribución t se
aproxima a la normal N(0,1) (Z).
b) si no hay homocedasticidad, entonces usamos:
87
x1 x2 0
t gl
s12 s 22 pero los grados de libertad “gl” los estimamos mediante
( )
n1 n2
2
s12 s22
n n
gl 12 2 2
s12 s22
n1 n2
n1 1 n2 1
Ejemplo 5.-
Usando el mismo caso anterior, pero ahora las desviaciones estándar son: para A
6g y para B 2g. Entonces la razón entre las varianzas es 36/4=9. Entonces no podemos
suponer varianzas iguales. En este caso:
36 33 (36 / 46 4 / 50) 2
t gl 3.23 gl 54.15 55
36 4
)
y los grados de libertad: (36 / 46) 2 (4 / 50) 2
(
46 50 46 1 50 1
Entonces con α = 0.05 y una cola el valor crítico de t es aproximadamente 2.
Como 3.23 > 2, entonces nuevamente rechazamos H0 y la interpretación es la misma.
Este caso es equivalente a una dócima para promedio de una muestra. Se crea la
variable auxiliar d = x1-x2, se calcula su promedio d y su desviación estándar sd . Las
hipótesis en este caso son referidas al parámetro D = μ1- μ2. Por ejemplo, proponer que
H1: μ1> μ2, es equivalente a H1: D > 0. Entonces el test de hipótesis a usar es:
d
t n 1
sd / n
Ejemplo 6.-
88
Se piensa que un fármaco baja la presión arterial. Entonces se estudian 10
individuos, tomándole la presión diastólica antes y después de la administración del
fármaco obteniendo:
Entonces se pueden plantear las hipótesis de una cola: H 0: D ≤ 0 vs H1: D > 0, ya que
pensamos que la presión antes debe ser mayor que después (μ 1> μ2 , o D = μ1- μ2 > 0).
7 .8
Calculamos el valor del estadígrafo: t 9
3.79 . Como, para α = 0.05 el valor
6.5 / 10
calculado de t (3.79) es mayor que el valor crítico de t, con 9 grados de libertad y una
cola (1.83), rechazamos H0 y entonces podemos afirmar que efectivamente el fármaco
baja la presión arterial.
Para que las dócimas tengan real validez, se deben cumplir ciertos supuestos
básicos que provienen del uso de ciertas distribuciones como una t de Student o una
normal estandarizada Z = N(0,1). Las dócimas para una y dos muestras deben cumplir
algunos o todos los siguientes supuestos:
i) independencia
ii) normalidad
iii) homocedasticidad
s M2
F( n 1),( n 2 1)
2 2
2 , donde SM representa la varianza mayor y Sm la menor.
1
sm
Ejemplo 7.-
Población A B
Número de árboles 46 68
Altura promedio 3.5 m 4.3 m
Desviación estándar 0.6 m 1.26 m
Planteamos la hipótesis H1 que los árboles de la población B son más altos que los
de la población A. Entonces, en términos estadísticos H 0:μB ≤ μA vs H1: μB > μA, por lo
90
que es una hipótesis de promedios, de una cola, para dos muestras. Surge entonces la
pregunta ¿puedo considerar las varianzas iguales? Entonces, antes de preocuparme por
mi hipótesis principal, planteo las hipótesis: Ho: 21 = 22 (homocedasticidad) vs. H1: 21
22 y aplico el test: F67,45 =(1.26)2/(0.6)2 = 4.41 y comparo este valor con el valor crítico
de la distribución F, con 67 grados de libertad en el numerador y 45 grados de libertad
en el denominador: 1.62. Como 4.41 > 1.62, entonces rechazo la homocedasticidad (H 0)
y deberé considerar las varianzas como diferentes.
1. Un cierto tipo de cáncer tiene habitualmente una letalidad (número de muertos por
cada cien enfermos) de 30. Se experimenta una nueva droga en 80 casos, en los
cuales se producen 15 defunciones. ¿Qué puede decir usted sobre la eficiencia de la
droga?
a) Señale la hipótesis de trabajo.
b) Señale el nivel de significación.
c) Realice la prueba de significación estadística. R: Z = -2.19
d) Saque conclusiones. R: La droga disminuye la letalidad.
3. Habitualmente la ictericia fisiológica del recién nacido dura 3.8 días. Al tratar a 100
niños con fototerapia, el período ictérico dura 2.8 días con una desviación estándar de
2.7 días. ¿Es la fototerapia un tratamiento efectivo contra la ictericia?.
R: t99 = -3.7; la fototerapia es efectiva.
Controles Tratadas
68 66
21 29
100 50
48 77
46 110
7 55
5 91
57 90
96 114
138 50
R: t9 = 0.89. No hay evidencias de variaciones de concentración.
92
5. Se ha observado que la administración de dosis bajas de aspirina en pacientes
sometidos a diálisis renal disminuye la frecuencia de trombosis. Así, en pacientes a
los que se les administró un placebo presentaron trombosis en un 70% de los casos y
en aquellos que recibieron aspirina, se observó trombosis sólo en el 50% de los
casos.
a) Si el número de pacientes es de 30 para ambos grupos, ¿cuál sería su conclusión
respecto al efecto de la aspirina?
b) Si el número de pacientes es 60, ¿cuál sería ahora su conclusión?
R: a) Z = -1.58, no hay evidencia; b) Z = -2.24, la aspirina reduce el riesgo de trombosis.
7. La contracción (en mm) de los úteros de 8 ratas usando dos hormonas distintas (A y
B) es la siguiente:
¿Existe efecto diferencial entre las dos hormonas? Use nivel de significación del 1%.
R: t7 = 1.79; no hay evidencias de efecto para el nivel 1%.
8. Se desea saber si una determinada dieta produce o no aumento de peso. Para ello se
toma una muestra de 7 individuos, los cuales son pesados antes de iniciar la dieta y
después de 3 meses de seguirla rigurosamente. Los resultados (en kg) son los
siguientes:
3 110 104
4 80 78
5 95 94
6 83 75
7 91 91
¿Existirán evidencias para suponer que esta dieta produce una disminución
significativa del peso? (Use nivel de significación del 1%).
R: t6 = 3.24; si hay evidencias de reducción de peso.
¿Existe diferencia en la longitud del pelo entre ambas poblaciones? (pruebe los
supuestos y elija la dócima adecuada).
R: t38 = 1.77; no hay evidencias de diferencias.
11. Mientras paseaba por el parque, un señor se puso a contar el número de perros que
eran sacados a pasear por sus dueños. Los siguientes datos corresponden al número
de perros por persona, separando hombres de mujeres, obtenidos en esta productiva
tarde de ocio.
Hombres: 1-1-2-2-2-3-3-3-3-4-4-6-9
Mujeres: 1-1-1-2-2-2-2-2-2-3-3–5
Suponiendo que los datos son normales, determine si existe diferencia en el número
de perros sacados a pasear entre hombres y mujeres
R: t23 = 1.63; p = 0.059.
12. En un análisis químico de las aguas del río Mapocho, se encontró que los valores de
concentración de coliformes fecales presentaban mayor variabilidad cuando eran
tomados durante la mañana que durante la tarde. La muestra tomada en la mañana
94
presento una varianza de 23 mg2/mL2 (N=15) y la muestra de la tarde, una varianza
de 20 mg2/mL2 (N=20). ¿Tienen razón los investigadores?.
R: no.
95
VII.1.- La distribución 2
Veamos esto de otra forma. Supongamos que en una muestra de N individuos hay
N1 mujeres y N2 hombres y que a priori esperamos que la mitad fueran mujeres, entonces
o1 = N1, o2 = N2, e1 = N/2 = e2 y entonces X2 = (N1-N/2)2/(N/2) + (N2-N/2)2/(N/2) =
= (N1-N2)2/N = 4N(N1-N2)2/4N2 = [(N1-N2)/2N]2/(1/4N) = (N1/N –1/2)2/[((1/2·1/2)/N)]2
= [(p- P)/(PQ/N)]2 = Z2.
Tablas de contingencia
A B C Total marginal
Enfermos
No enfermos
C1 C2 ...... Ct T. marginal
R1 N1,1 N1,2 ...... N1,t N1,0
R2 N2,1 N2,2 ....... N2,t N2,0
….. .......
Rr Nr,1 Nr,2 …… Nr,t Nr,0
T. marginal N0,1 N0,2 ........ N0,t N0,0
Es fácil darse cuenta que si todos los N se comportan en forma homogénea en las
distintas columnas (C), entonces se cumple que las proporciones en cada columna deben
ser semejantes a las proporciones en los totales marginales. Por ejemplo debería ocurrir
que N1,1/ No,1 ≈ N1,o/ No,o.
Entonces si la respuesta es homogénea los valores esperados para cada celda se
pueden determinar como: ei,j = (Ni,o/No,o)No,j.
Existen dos tipos de diseños experimentales que conducen a una tabla de doble
entrada. En el primero se tomas muestras aleatorias sin regular los totales marginales de
ninguna de las dos entradas y lo que interesa es saber si existe asociación entre las
variables de clasificación (entradas) o independencia. En este caso Ho: independencia
vs. H1: asociación. En cambio en el segundo se escoge una muestra de un mismo tamaño
determinado para cada nivel de una primera entrada (total marginal regulado), y en cada
97
una se determina el número que se encuentra en cada nivel de la segunda entrada. En
este último caso interesa la homogeneidad de la repuesta de la segunda variable de
clasificación, dentro de la primera. En este caso Ho: homogeneidad vs. H1: diferencia.
( o e) 2
(2r 1)( c 1) donde r es el número de filas y c el número de columnas.
i, j e
Observaciones importantes
iii) Cuando se realiza una prueba de independencia vs. asociación, una buena
medida de la asociación es: X2/(No,o·(m-1)), donde m es el menor valor
entre r y c.
Ejemplo 1.-
Supongamos que se desea saber si existe asociación entre el color de las flores y la
presencia de abejas. Se realiza un estudio y se obtiene:
Como el valor crítico es ahora 3.84 y 0.36 < 3.84, ahora acepto H 0 y puedo
concluir que las abejas prefieren igualmente las flores blancas y amarillas, pero evitan en
cierta medida las flores rojas.
FACTO
R1
+ - TOTAL
FACTOR 2 (+) A B A+B
FACTOR 2 (-) C D C+D
TOTAL A+C B+D N
P(X= A) = (A+C)!(B+D)!(A+B)!(C+D)!/A!B!C!D!N!.
Ejemplo 2.-
10!6!10!6!
Calculamos P ( X 8) 0.084
8!2!2!4!16!
( o e) 2
n2 p 1
e
Ejemplo 3.-
Intervalo ni
2-4 20
4-6 25
6-8 30
8-10 10
10-12 12
12-14 3
Total 100
Aquí las frecuencias relativas (ni) corresponden a las frecuencias observadas (o).
Entonces debemos calcular las frecuencias esperadas suponiendo una distribución
normal. Mediante las técnicas aprendidas en estadística descriptiva podemos calcular el
promedio (6.56) y la desviación estándar (2.74). A continuación debemos calcular las
probabilidades de que un valor de la variable pertenezca a cada intervalo. Por ejemplo
102
P(2≤x≤4) = P((2-6.56)/2.74 ≤ z ≤ (4-6.56)/2.74) = 0.1277. P(4≤x≤6) =0.2445; P(6≤x≤8)
= 0.2778; P(8≤x≤10) = 0.1977; P(10 ≤x≤12) = 0.0799 y P(12 ≤x≤14) = 0.0204.
Entonces las frecuencias esperadas son respectivamente:0.1227x100 = 12.3; 24.5; 27.8;
19.8; 8.0 y 2.0 .
Entonces como el valor crítico para tres grados de libertad y α = 0.05 es 7.81, y el
valor calculado 12.36 > 7.81, rechazamos la hipótesis de nulidad. Es decir esta variable
no tiene distribución normal.
n ( p p)
en donde p i ni p1 / n
i i
2
n 1
1
pq
Para iliustrar esta prueba consideremos por ejemplo que en n ensayos de Bernoulli
se obtuvieron f1 éxitos y f2 fracasos y nos preguntamos si estas frecuencias corresponden
a las frecuencias esperadas de acuerdo a un cierto criterio, por ejemplo si están en
relación a:b. Si fuera así la probabilidad de un éxito sería p = a/(a+b) y de fracaso q = b/
(a+b). Sin embargo, las proporciones observadas son: pˆ f1 /( f1 f 2 ); qˆ f 2 /( f1 f 2 ) .
f1 f2
f f
L 1 2 , y sacando logaritmo natural:
fˆ fˆ
1 2
a
ln( L) f1 ln( f1 / fˆ1 ) f 2 ln( f 2 / fˆ2 ) ... f i ln( f i / fˆi )
Entonces G = 2x5.48 = 10.96 y como sigue una distribución χ 2, en este caso con 1
grado de libertad, es fácil ver que p << 0.01 y entonces rechazamos H0.
105
1. Un peluquero quiere saber si el color de pelo es dependiente del sexo de las personas
o no. Por eso acude a usted con una serie de datos sobre el sexo y color de pelo de sus
clientes (ver tabla adjunta), y le pide que por favor le resuelva su duda. ¿Qué le diría
usted al peluquero?.
R: χ23 = 8.99; p < 0.05. Existe asociación entre el color del pelo y el sexo.
Cromosoma CD
St/St St/B1 B1/B1
Td/Td 22 96 75
Cromosoma EF St/Td 8 56 64
St/St 0 6 6
R: No. Son independientes. χ24 = 6.3; p > 0.05
En esta prueba se comparan dos muestras [xi] e [yi] y se define una diferencia
poblacional i = xi-yi = + i, donde i representa el error de muestreo. Entonces las
hipótesis pueden ser a) Ho: = 0 vs H1: 0, b) Ho: 0 vs. H1: > 0 o c) Ho: .0
vs. H1: < 0. Se define además di como la diferencia muestral di = xi-yi y una variable
auxiliar bi que es 0 si di 0 y 1 si di > 0.
El estadígrafo es: B bi
Ejemplo 1.-
Se propone que el fármaco baja la presión, es decir Ho: 0 vs. H1: > 0.
Entonces creamos las variables auxiliares d = x1-x2 y b, Obteniendo:
di Ri
-5 5
3 3
0 1
-1 2
4 4
Este valor se compara con un valor crítico tabulado Tc(,n). Si Ho es del tipo a)
rechazamos Ho si T Tc(,n) o s T n(n+1)/2 - Tc(,n), si es del tipo b) rechazamos
Ho si T Tc(,n), y si es del tipo c) cuendo T n(n+1)/2 - Tc(,n).
Ejemplo 2.-
En este caso tenemos dos muestras independientes [xi] e [yi] de tamaños n1 y n2.
Se propone que xi = i y que yi = i + , donde i es el error experimental y da cuenta
de las diferencias (efecto del tratamiento). Como antes, las hipótesis pueden ser a) Ho:
= 0 vs H1: 0, b) Ho: 0 vs. H1: > 0 o c) Ho: .0 vs. H1: < 0.
En este caso, se ordenan todos los valores juntos ( de las dos muestras) y se les
asigna un rango (Ri) y se consigna el estadígrafo:
no
T1 Ri
1
Aquí es importante indicar que la suma se realiza sobre aquella muestra de tamaño
no que tiene el menor rango promedio.
Ejemplo 3.-
Dócima de McNemar
Como vemos en esta tabla sólo las celdas C y B muestran el cambio (efecto)
producido por el factor de estudio. Y bajo la hipótesis de nulidad de efecto se espera que
C = B = (B+C)/2. Por lo que con estos valores esperados para éstas celdas se puede
realizar un prueba 21 que después de algún trabajo algebraico se reduce a:
(B C )2 ( B C 1) 2
12 o 2
si se quiere corregir la distorsión provocada por aplicar
(B C ) (B C)
1
Ejemplo 4.-
( 8 2 1) 2
Calculamos: 12 2 .5 y como el valor crítico para α = 0.05 es 3.84 y
(8 2)
2.5 < 3.84, aceptamos H0. Es decir la campaña no tuvo éxito.
114
X (antes) Y (después) di bi
175 140
179 143
165 135
170 133
160 162
180 150
177 182
2. Se realiza una investigación sobre los efectos del ejercicio físico sobre pacientes
cardiópatas, midiendo el máximo de oxígeno consumido por cada paciente antes de
comenzar el entrenamiento y después de seis meses de régimen. Se obtuvieron los
siguientes datos (suponga simetría):
EN EL ÚTERO En la leche
0.12 0.19
0.19 0.21
0.17 0.21
0.20 0.23
0.09 0.20
0.13 0.22
0.21
¿Indican estos datos, a un nivel =0.05, que el contenido proteínico total tiende a ser
menor entre las ratas privadas de la sustancia X en el útero que entre las privadas de ella
en la leche?
Muchas veces en ciencias es necesario comparar más de dos muestras, como por
ejemplo cuando se estudia el comportamiento de una variable en tres poblaciones, o bajo
4 o 5 condiciones experimentales reguladas. En este caso, la primera tentación es hacer
varias pruebas tomando de a pares. Sin embargo inmediatamente vemos que este puede
ser un número elevado de comparaciones, pues si hay N muestras, el número de pruebas
que se deben hacer es:
N
k
2
K 1 2 3 5 10
P(al menos 0.05 0.09 0.14 0.23 0.4
1 en Ek)
TEMPERATURA
BAJA MEDIA ALTA
HUMEDAD ALTA ------- ------- --------
BAJA ------- ------- --------
Cuando los niveles de un factor son todos los posibles, en general fijados por el
experimentador se dice que se trabaja con un modelo tipo I o de efectos fijos, cuando
los niveles son sólo una muestra de las categorías posibles se dice que es un modelo II o
de efectos aleatorios. Cuando en algunos factores es de un tipo y en otros de otro, es un
modelo mixto. Así por ejemplo, si nos interesa el efecto de la altitud sobre el
metabolismo, y escogemos tres localidades a diferentes alturas, se trata de un modelo de
tipo II, pues las localidades son sólo una muestra de todas las posibles alturas. Si en
cambio estudiamos una variable frente a tres condiciones experimentales fijadas por el
investigador, entonces es un modelo de tipo I.
119
En este caso, el más simple, se tiene un factor con varios niveles y una variable
respuesta. Como sólo hay un factor, los niveles coinciden con los tratamientos.
Supuestos Los supuestos son normalidad de la variable respuesta, que se puede probar
mediante una prueba de bondad de ajuste de 2 o bien Kolmogorov-Smirnov;
independencia que debe asegurarla el investigador mediante un muestreo adecuado; y
homocedasticidad que se puede probar mediante una dócima de Bartlett o bien una
dócima de Hartley, habitualmente disponibles en los programas estadísticos
computacionales.
Modelo El modelo que se plantea es que cada valor de la variable repuesta y ij se puede
expresar como la suma entre un promedio paramétrico poblacional , un efecto
provocado por el tratamiento (i ) y el error experimental o residual (ij) Esto se
conoce como el supuesto de aditividad. De esta manera i = i -, mide el efecto
provocado sobre yij por el tratamiento. El modelo se escribe:
yij = + i + ij
FACTOR
T1 T2 ..... Tt TOTAL
y11 y21 ..... yt1
y12 y22 ..... yt2
.... ..... ...... .....
y1n y2n ....... ytn
TOTALES Y1o Y2o ..... Yto Yoo
PROMEDIOS y1o y2o ..... yto yoo
El esquema general del ANOVA es una tabla que incluye sucesivamente las
fuentes de variación (FV), las sumas de cuadrados (SC), los grados de libertad (que
corresponden a los denominadores de las varianzas), las varianzas, cuadrados medios o
medias cuadráticas (CM), el valor del estadígrafo F y la probabilidad de error I (p). En
un ANOVA de una vía, balanceado (igual tamaño muestral en cada tratamiento), ésta es:
FV SC Gl CM=SC/gl F P
T (entre) (Y 2
i0 / n) Y / nt
2
00 t-1 F =
i
CME/CMD
(dentro o yij Yi 0 / n t(n-1)
2 2
ij i
error)
TOTAL yij2 Y002 / nt
ij
nt-1
Como dato práctico, observamos que para los cálculos en una tabla de ANOVA, se
necesitan tres cálculos sencillos:
121
(Y
i
2
i0
/ n) y
i, j
2
ij Y002 / nt
Es posible demostrar que el valor esperado o esperanza del cuadrado medio del
error (dentro) es E[CMD] = 2, es decir es la varianza poblacional. Además si el modelo
del diseño es de tipo I E[CME] = 2 + n (i-)2/(t-1) = 2+() y si es de tipo II
E[CME] =2+n2 .La interpretación de esto es que se espera que la desviación
cuadrática entre tratamientos sea similar a la desviación cuadrática dentro de
tratamientos más un componente añadido por los tratamientos (efecto del tratamiento).
Ejemplo 1.-
A B C
110 100 80
100 90 76
90 86 82
85 97 88
90 100 84
100 96 78
(Y
i
2
i0 / n) (575 2 569 2 4882 ) / 6 148755
y
i, j
2
ij
110 2 1002 ..... 1002 902 .....802 762 ...782 149430
FV SC Gl
CM=SC/gl F2,15 P
T (entre) i (Y / n) Y / nt
2
i0
2
00 787/2 = t-1 = 2
F =
= 393.5 CME/CMD
=148755-147968 = = 393.5/45 =
787 = 8.74
(dentro o yij Yi 0 / n t(n-1) = 675/15 =
2 2
ij i
error) 15 = 45
= 1462 – 787 = 675
TOTAL ij
yij2 Y002 / nt nt-1 = 1462/17 =
17 = 86
=149430-147968 =
1462
El valor crítico de F2,15 con α = 0.05 es 3.68, y como el valor calculado 8.74 >
3.68, entonces rechazo H0 y al menos un par de promedios es diferente. Obviamente,
mirando los datos, el grupo C tiene presiones claramente diferentes de los otros dos.
Siguiendo el rigor estadístico, a continuación habría que hacer comparaciones múltiples
a posteriori.
Transformaciones
123
dy
T f ( y) cuya varianza y esperanza son independientes. El resultado es una
( y )
En general el ANOVA no termina con el rechazo de Ho. Con esto sólo sabemos
que existe un efecto de los tratamientos sobre la variable respuesta. Sin embargo a
menudo (sobre todo en modelo de efectos fijos) interesa saber cuál o cuales de los
tratamientos produce el efecto. En este caso es necesario realizar comparaciones
múltiples. Estas son de dos tipos: i) definidas a priori o no sugeridas por los datos e
ii) definidas a posteriori. Aquí es importante notar que a priori o a posteriori no se
124
refiere a si se ha hecho o no primero el ANOVA, sino al diseño experimental. A veces
por diseño sólo interesa comparar los tratamientos contra un control (a priori), o sólo
realizar las comparaciones relevantes (a priori). En cambio otras veces nos interesan
todas las comparaciones para interpretar después (a posteriori).
Comparaciones a priori
cij
Lineal -1 -1 1 1
Cuadrática -1 1 1 -1
Cúbica -1 1 -1 1
El estadígrafo adecuado para probar la hipótesis es una t de Student con los grados
de libertad del error (tgle):
Lj
t gle
CMD ci2 / ni
Prueba de Dunnet Muchas veces la idea del diseño es comparar los tratamientos
contra un tratamiento control. En este caso el estadígrafo adecuado es t d(t,gle,) de
Dunnet (existen tablas especiales):
125
yi 0 ycontrol
td
2CMD / n
L2
Ft 1, gle
(t 1) CMD ci2 / ni
Comparaciones a posteriori
Existen muchas pruebas para hacer comparaciones múltiples, sin embargo son dos
las más utilizadas. Ambas están basadas en la distribución del rango “Studentizado”: Q
= (xmax-xmin)/sx.
yi 0 y j 0
Qt , gle
1 1
(CMD / 2) ( )
ni n j
Ejemplo 2.-
95.8 94.8
Q3,15 0.149
45
95.8 81.3
Q3,15 2.16
45
94.8 81.3
Q3,15 2.01
45
yijk = + i + j + k(ij)
Sin embargo, cuando existen dos factores, existe la posibilidad de que éstos
provoquen un efecto conjunto sobre la variable respuesta. Por ejemplo es posible que el
factor 1 haga aumentar el valor de la variable respuesta, pero que al incorporar el factor
2 este efecto se potencie, o, a la inversa se inhiba. En este caso se habla de la existencia
de interacción entre los factores. La variabilidad proveniente de la interacción ()
puede ser aislada y docimada en forma independiente. En este caso el modelo se escribe:
En esta figura se muestra la variable respuesta (y) frente a dos factores. El factor 1
(A) con los niveles a1 y a2, y el factor 2 (B) con los niveles b1 y b2. En los gráficos
superiores no existe interacción, pues la respuesta es paralela. En el caso de la izquierda
existe efecto de ambos factores A y B sobre y, en el de la derecha sólo del segundo
factor (B). En los gráficos inferiores si existe interacción. En el gráfico de la derecha,
existe un aumento de y a causa de cada factor, pero este aumento se potencia en
presencia del segundo nivel del factor 2 (B). En el gráfico de la izquierda existe
interacción que podríamos llamar “paradojal”: en el nivel a1 el factor 2 disminuye y,
pero ocurre lo contrario en el nivel a2 (en este último caso lo más probable es que el test
no arroje significación ni en el factor 1, ni en el factor 2, pero sí efecto de interacción.
A B C
W 3 7 2
4 8 3
128
5 9 1
4 8 3
3 7 3
Z 2 4 1
3 3 2
2 4 2
1 3 2
2 2 1
Valores promedio:
A B C
W 3.8 7.8 2.4
Z 2.0 3.2 1.6
F de V SC Gl CM F P
Localidad 66.1 2 33.0 53.6 << 0.001
Especie 43.2 1 43.2 70.1 << 0.001
Interacción 19.4 2 9.7 15.7 << 0.001
Error 14.8 24 0.62
Total 143.5 29
Del análisis se desprende que existen diferencias entre las especies, existen
diferencias entre las localidades y este efecto no es parejo en cada especie (existe
interacción).
C Z {6} x
B1 T1 T3 T2
B2 T3 T2 T1
B3 T2 T1 T3
130
Diseño de medidas repetidas A veces es necesario que los tratamientos los reciba
el mismo individuo u otra unidad de análisis dependiente de la anterior. Por ejemplo 4
individuos (I) expuestos a tres estímulos (T):
T1 T2 T3
I1
I2
I3
I4
Observamos que es el mismo individuo el que recibe los tres tratamientos. En este
tipo de diseño es necesario excluir a los individuos de respuesta extraña (out-group)
pues violan un supuesto de este diseño: la simetría compuesta. Esta última junto a la
homocedasticidad constituyen el supuesto de esfericidad.
T1 T2 T3
N1 N2 N1 N2 N1 N2
Observamos que siempre el nivel encajado debe ser de tipo aleatorio (modelo II) y
que no se puede hacer una tabla de doble entrada porque los niveles N1 y N2 son sólo
referenciales, por ejemplo, N1 puede ser el 5to piso en T1 y ser el 3er piso de T2. Si el
primer factor es de tipo aleatorio, se habla de un diseño anidado puro. Si el primer factor
es de tipo fijo (modelo I), entonces las unidades experimentales son los niveles del
factor encajado y las réplicas constituyen sub-muestras.
Estos son dos diseños especiales que a veces es necesario usar y se pueden
representar en las siguientes tablas.
131
El cuadrado latino considera un doble bloque (B y b), con sus respectivos niveles:
b1 b2 b3
B1 T1 T2 T3
B2 T2 T3 T1
B3 T3 T1 T2
B1 T1 t1 T3 t1 T2 t1
t2 t2 t2
B2 T3 t1 T2 t1 T1 t1
t2 t2 t2
B3 T2 t1 T1 t1 T3 t1
t2 t2 t2
N ( N 1) 1 n j
R0 j R0 k
Q , ,t
n( nt )( nt 1)
12
12
t2 R02 j 3b(t 1)
bt (t 1) j
R0 j R0 k
Q , ,t
b(t )(t 1)
12
Otras alternativas Existen algunas alternativas no paramétricas para una y dos vías
cuando la hipótesis H1 incorpora una tendencia u ordenación (i.e: H 1: t1 <t2 < t3 ). En
este caso se usa para el caso de una vía la prueba de Jonckheere y para dos vías la
prueba de Page. Cuando se tiene un diseño más complejo se realiza un ANOVA sobre
rangos.
133
Ejercicios de análisis de la varianza
A B C
1.11 2.20 0.50
1.23 1.90 0.94
0.90 2.00 0.78
0.95 1.70 0.38
1.00 1.54 0.50
1.10 1.88 0.50
1.20 1.90 0.68
1.30 2.05 0.62
1.10 1.70 0.40
¿Qué se puede decir respecto a la duración de los cantos de las distintas especies?
R: Son diferentes; F2,24 = 122.6; p << 0.05.
RESUMEN
Grupos Cuenta Suma Promedio Varianza
Lago 1 6 192.5 32.08 10.27
Lago 2 6 241.4 40.23 6.40
Lago 3 6 264.5 44.08 9.49
Lago 4 6 246.6 41.10 13.44
Lago 5 6 349.8 58.30 9.22
ANÁLISIS DE VARIANZA
Origen de las variaciones SC gl CM F P FC
Entre grupos 2193.44 4 548.36 56.15 3.95E-12 2.759
Dentro de los grupos 244.13 25 9.77
Total 2437.57 29
A B C
2 6 1
3 7 2
2 8 2
4 7 3
5 8 6
Que puede decir acerca del comportamiento de “x” en las tres situaciones?
R: Existen diferencias; F2,12 = 14,6; p < 0.05. La variable x responde igual en las
situaciones A y C, pero es mayor en la situación B.
135
X.1.- Correlación
COV [ X , Y ]
V [ X ] V [Y ]
r
( x x )( y y )
i i
x yi i nx y
( x x ) ( y y)
i
2
i
2
( x nx )( yi2 ny 2 )
i
2 2
r n2
t n 2
1 r2
X.2.- Regresión
Por ejemplo si a una relación potencial del tipo Y = aXb le aplicamos logaritmo,
se obtiene logY = loga +blogX, y llamando w = logY, z = logX y c = loga, se obtiene la
recta w = c + bz. En el caso de una exponencial Y = C(e bX), tomando logaritmo natural
se obtiene lnY = lnC + bX y llamando w = lnY y c = lnC, se obtiene la recta w = c + bX.
El problema básico consiste en buscar una recta que minimice las desviaciones
desde cada punto a dicha recta. Si suponemos que esta recta tiene una pendiente B 1 y un
intercepto Bo, entonces tendremos para cada xi un y’i = B1xi+Bo que estima el valor real
de yi (ver figura). A la diferencia entre yi e y’i: ei = yi-y’i la llamamos residuo.
Observamos que la raíz de la suma sobre i del residuo elevado al cuadrado: D =
( y y ) tiene la estructura de una distancia y entonces interesa la pregunta: ¿ para
i
'
i
2
B1
x y / n xy
i i
x /n x
2
i
2
139
Y además: B0 y B1 x
S yx2 1 x ei2
V [ B1 ] y V [ B0 ] S yx ( n donde S yx2
2
)
(x i x)2 ( xi x ) 2 n2
B*
tn2
V [ B* ]
e 2
i
( yi yi' ) 2 ( yi y y yi' ) 2 ( yi y ) 2 ( yi' y ) 2 , lo que ordenado de otra
forma queda:
(y i
y ) 2 ( yi yi' ) 2 ( yi' y ) 2
Fuente de SC Gl CM F1,n-2 P
variación
Modelo ( yi' y ) 2 B12 ( xi2 nx 2 ) 1 SC/gl CMmodelo/CMresiduo
(Regresión)
Residuo (por diferencia) n-2 SC/gl
= Syx2
Total ( y i
y ) 2 yi2 ny 2 n-1
SCregresió n
R2
SCTotal
Ejemplo 1.-
X 1 2 3 4 5 6 7 8 9 10
Y 2 5 6 7 9 13 15 15 19 20
X Y X2 Y2 XY
1 2 1 4 2
2 5 4 25 10
3 6 9 36 18
4 7 16 49 21
5 9 25 81 45
6 13 36 169 78
7 15 49 225 105
8 15 64 225 120
9 19 81 361 171
10 20 100 400 200
Total 55 111 385 1575 770
Promedio 5.5 11.1 38.5 157.5 77.0
77.0 5.5 11 .1
B1 1.93 y B0 11 .1 1.93 5.5 0.485
38.5 5.5 2
Fuente de SC Gl CM F1,8 P
142
variación
Modelo 1.93 (385 10 5.5 ) 307.30
2 2
1 307.3 69.1 << 0.01
(Regresión)
Residuo = 342.9-307.3 = 35.6 10-2= 8 Syx2= 4.45
Total 1575 10 11 .12 342.9 10-1= 9
Por otra parte debemos observar que a partir del valor de F = 69.1 se puede
deducir el valor que habría tenido la “t” de Student si la hubiésemos usado para probar la
misma hipótesis. Esta es simplemente: t = √69.1 = 8.3, y conduce exactamente al mismo
valor de probabilidad de error I (p).
X.4.- Predicciones
1 ( xk x ) 2
IC1- : y k t n2 S yx 1
'
n xi2 ( xi ) 2 / n
Predicción del valor y para xk En este caso el intervalo de confianza está dado
por:
1 ( xk x ) 2
IC1- : y k t n2 S yx
'
n xi2 ( xi ) 2 / n
Ejemplo 2.-
143
1 (15 5.5) 2
29.435 1.86 2.1 29.435 10.94
10 385 (55) 2 / 10
in
6 d i2
rs 1 i 1
n n
3
Factor A
A1 A2 A3
Y X Y X Y X
En este caso es un ANCOVA de una vía o factor, con tres tratamientos. La variable
respuesta es Y y el co-variado es X.
yij i 1 ( xij x ) ij
Talla al 36 38 42 44 45 48 50 51 52 53 54 55 56 58
nacer
(cm)
Estatura 1.58 1.64 1.70 1.65 1.65 1.70 1.72 1.76 1.72 1.82 1.80 1.86 1.90 1.88
final
(m)
2. Se piensa que los grados de conciencia (GC: del 1 al 10) después de un TEC están relacionados con
la edad del paciente accidentado. Se realiza un estudio y se obtiene:
Edad 26 34 45 48 57 62 70 72 76 78 80 87
GC 10 8 10 9 7 10 5 4 4 3 1 2
R: Correlación; r = -0.86; t10 = -5.33; p < 0.05; R =-0.89; t 10 = -6.26; p < 0.05.
Efectivamente, están asociados negativamente, a mayor edad, menor grado de
conciencia después de un TEC.
147
n
f donde n es el tamaño muestral y N el tamaño poblacional.
N
149
Por ejemplo cuando se realiza un muestreo aleatorio simple y se estima un
promedio poblacional ( Y ), entonces el promedio muestral y es un estimador insesgado
s2 N n s2
de Y , pero su varianza es V [ y] ( ) (1 f ) de manera que ahora el error
n N n
s2
estándar es Es (1 f ) . Naturalmente los intervalos de confianza varían en forma
n
semejante.
pq pq
V [ p] (1 f ) y entonces, Es (1 f )
n 1 n
El cálculo del tamaño muestral corresponde a una estimación previa del tamaño
necesario que debe tener una muestra para cumplir ciertos requisitos. Conviene notar
que es sólo una estimación previa y no una fórmula exacta y que en general, requiere de
un conocimiento previo de algunas características de la muestra, por ejemplo la
varianza.
Las fórmulas para el cálculo del tamaño muestral son para usarse a priori, es decir
antes de realizar el experimento. Después de realizado éste, si se logró rechazar la
hipótesis de nulidad, la pregunta del tamaño muestral es irrelevante pues la bondad de la
muestra queda medida a través de la probabilidad de error de tipo I (p).
Entonces, por ejemplo si se desea buscar el tamaño muestral con una precisión d y
una confianza C = 1- para estimar una proporción P, es obvio que d = z /2(PQ/n), es
decir, despejando n, el tamaño muestral adecuado es:
Z 2 / 2 PQ
n
d2
Tamaño muestral para comparar una proporción con otra prefijada (una muestra)
El tamaño muestral adecuado para realizar una dócima de este tipo se puede
calcular definiendo previamente la precisión (d), el nivel de significación () y el error
de tipo II () o la potencia de la dócima (K = 1-). Si uno fija 2 cualesquiera de éstos
parámetros a priori se puede obtener el tercero mediante la relación:
p0 q0 ( Z * Z ) 2
n 2
, donde * es /2 para pruebas de 2 colas y para una cola.
d
Tamaño muestral para comparar un promedio con otro prefijado (una muestra)
En forma análoga al caso anterior el tamaño muestral adecuado para realizar una
dócima de este tipo se puede calcular definiendo previamente la precisión (d), el nivel de
significación () y el error de tipo II () o la potencia de la dócima (K = 1-). Si uno fija
2 cualesquiera de éstos parámetros a priori se puede obtener el tercero mediante la
relación:
s 2 (Z* Z ) 2
n 2
, donde * es /2 para pruebas de 2 colas y para una cola..
d
2sc2 (Z * Z ) 2
n , donde * es /2 para pruebas de 2 colas y para una cola. En
d 2
El tamaño muestral adecuado para realizar una dócima de este tipo se puede
calcular definiendo previamente la precisión (d), el nivel de significación () y el error
de tipo II () o la potencia de la dócima (K = 1-). Si uno fija 2 cualesquiera de éstos
parámetros a priori se puede obtener el tercero mediante la relación:
sd2 (Z* Z ) 2
n 2
, donde * es /2 para pruebas de 2 colas y para una cola..
d
Tamaño muestral para el análisis de varianza Al igual que en el caso de dos
muestras, es posible relacionar el tamaño muestral, la potencia y la precisión. Sin
embargo, en el ANOVA en general es preferible usar una función auxiliar que se
relaciona en forma creciente con la potencia K (a mayor, mayor K). Esta función se
define como:
nd 2
2ts 2
(t 1)(CME CMD )
p
t CMD
152
XII.- ESTADISTICAS VITALES
Las tablas de vida son instrumentos que permiten resumir las características de
una población de manera fácil y además permiten extrapolar parámetros de utilidad para
predecir el comportamiento poblacional. Estas son de dos tipos: i) de seguimiento de
cohortes (horizontal) o ii) de estructura de edades en un momento dado (transversal o
vertical).
N
lx: proporción de sobrevivientes al inicio de la edad x; l x N
x
d (l x l x 1 )
qx: probabilidad de morir entre la edad x y x+1; q x N
x
lx
. A veces es útil
x
(l x l x 1 )
Lx: cantidad de tiempo vivido (por todos los individuos) entre x y x+1; Lx
2
T
ex: esperanza de vida a la edad x: ex l
x
x lx
153
Parámetros derivados:
Ro: Tasa reproductiva neta o básica de una población. Esta representa la contribución en
número de crías que deja una hembra de una generación a la siguiente;
R0 l x m x
0
e0: Esperanza de vida al nacer. Esta representa la edad que se espera que viva un
individuo de acuerdo a los parámetros poblacionales (régimen demográfico) imperantes;
e0 = e0.
G: Tiempo generacional. Este corresponde al tiempo promedio que dura una generación;
yl mx x
G x
En este caso y representa la edad media en el intervalo.
R0
Ejemplo 1.-
E Y Nx lx dx qx Lx Tx ex mx lxmx Vx Xlx
mx
0 0. 1000 1 0 0 1 4.1 4.1 0 0 0 0
154
5 9 9
1 1. 1000 1 10 0.0 0.9 3.1 3.1 0 0 0 0
5 1 9 9 9
2 2. 990 0.9 160 0.1 0.9 2.1 2.2 13266 13133 2335 3283
5 9 6 1 9 1 7 3
3 3. 830 0.8 320 0.3 0.6 1.2 1.5 9877 8197 1203 2869
5 3 9 7 9 4 7 2
4 4. 510 0.5 150 0.2 0.4 0.6 1.2 2346 1196 4685 5384
5 1 9 4 1 1
5 5. 360 0.3 360 1.0 0.1 0.1 0.5 1656 596 1656 3278
5 6 0 8 8
6 6. 0 0 0 0 0
5
Ro = 23123 G= 3.035
Es decir esta población de insectos es capaz de dejar 23123 nuevos insectos por cada
hembra, cada 3.035 días. Además cada uno de éstos insectos tiene una esperanza de vida
al nacer de 4.19 días.
t
(Oi Ei ) 2
2
t 1
1 Ei
Ejemplo 2.-
(7 4.23) 2 ( 4 6.75) 2
1
2
2.93 y como el valor crítico es 3.84 y 2.93 < 3.84, no es
4.23 6.75
posible rechazar H0.
Ejercicios de estadísticas vitales
Insecto A
Edad (días) NX Mx
156
0 100 0
1 79 1000
2 28 500
3 8 100
4 4 2
5 1 0
Insecto B
Edad (días) Nx Mx
0 100 0
1 79 100
2 65 500
3 60 500
4 50 2
5 2 0
Insecto C
Edad (días) Nx Mx
0 100 0
1 80 0
2 60 5000
3 40 10
4 20 0
5 1 0
XIII.1.- Bases
P
log( )
1 P
P 1
log( ) X P
1 P 1 e ( X )
ˆ 2
W ( )
S
( m2 2 p )
R2 donde χm2 es el valor del χ2 del modelo, L(0) es el máximo valor del logito
2 L(0)
considerando sólo la constante y p es el número de parámetros.
158
Ejemplo 1.-
I 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1
X 1 2 3 4 5 6 8 12 13 14 11 12 13 14 15 16 17 18 19 20
1
P
1 e 7.27 0.61 X
1
P( I 1 / X 5) 0.0017
1 e 7.27 0.615
XIV.1.- Bases
En una serie temporal (Xt) o espacial (Xs) se tiene un conjunto discreto {t} (o {s})
que indica el tiempo en que se mide la variable y la variable {Xt}. Esta última depende
de dos factores: de la misma variable {X t-1, Xt-2…..} (Autoregresión) y de fluctuaciones
o movimientos aleatorios {at, at-1, at-2,……}. Así en términos generales se puede expresar
una serie de tiempo como:
p q
X t at i ( X t i ) i ( at i )
1 1
Así, en este tipo de modelo interesa estimar los coeficientes φ i y θi, junto a los
valores de p y q (orden).
Dada una serie de tiempo Xt con n elementos, es posible formar los (n – k) pares
{Xt, Xt-k} y definir autocorrelación, temporal o espacial según el caso, como la
correlación entre estos pares:
COV [ X t , X t k ]
k
V [ X t ]V [ X t k ]
(X t
X )( X t k X )
rk i 1
i n
(X
i 1
t
X)
X t 1 ( X t 1 ) at
En una serie de este tipo es posible demostrar que la FAC muestra un decaimiento
exponencial (directo o alternado según el signo de φ1), que en la FACP sólo la primera
autocorrelación parcial es diferente de 0, y además φ 1 = r1. Así estudiando la FAC y
FACP es posible calcular los parámetros del modelo.
más lento y en la FACP sólo los dos primeros coeficientes son distintos de 0.
1 12
Además r1 r
y 2 2 1
1 2 2
X t at 1 ( a t 1 ) , además r1 1 2
1
Por ejemplo, en un MA1:
1
162
En el gráfico observamos que es evidente que los grupos A y B son diferentes, sin
embargo, el rango de X1 en A y en B y el rango de X2 en A y en B son prácticamente
iguales. Es decir la evidente diferenciación de los grupos no es explicada ni por X 1 ni
por X2 en forma aislada, sino por la variación conjunta de ambas, en este caso
probablemente por una combinación lineal de X1 y X2 (aX1+bX2). En ciencias
encontramos muchos conjuntos de variables que intervienen en esta forma, lo que da
origen a los fenómenos que coloquialmente llamamos multifactoriales.
Cuando sospechamos que existe una relación de este tipo donde probablemente
existe interacción entre las variables medidas, estamos en el terreno del análisis
multivariado.
164
XV.2.- MANOVA
En este caso los paréntesis [] indican que se trata de matrices, los exponentes “T”
y “-1” corresponden a la matriz traspuesta y la matriz inversa respectivamente, y [∑]
corresponde a la matriz varianza-covarianza. La expresión (DM):
DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] tiene la estructura de una distancia y se conoce como
distancia de Mahalanobis. El valor de T2 es finalmente un escalar que es posible docimar
mediante una distribución F:
(n1 n2 p 1)T 2
Fp ,n1 n 2 p 1
( p (n1 n2 2))
y1 0 1 x1
y 2 0 1 x2
.
.
y n 0 1 xn
ˆ ] [ X T X ]1 [ X ]T [Y ]
[
ˆ ] [ X ]T [Y ]
[ X T X ] [
ˆ ] [ X T X ]1 [ X ]T [Y ]
[
La tabla de ANOVA:
SC mod elo
Del mismo modo que en la regresión simple, R2
SCT
rM R2
Cada uno de los elementos de esta matriz corresponde a una correlación simple
entre dos variables en ausencia de las demás. Sin embargo al igual que el caso de los
coeficientes de regresión, surge la pregunta si cambiarían las correlaciones cuando se
consideran las demás variables.
b jh b jy
rj .h y en particular rj . y
b jj bhh b jj byy
Ejemplo 1.-
Y X1 X2 X3
2 1 2 1
4 2 3 2
6 3 4 1
8 4 5 2
10 4 6 1
12 5 7 2
14 6 8 1
171
16 7 9 2
19 8 10 1
20 9 11 2
22 10 12 1
24 11 14 2
25 12 15 1
28 13 16 2
30 14 17 1
32 15 18 2
34 16 19 1
36 17 19 2
37 18 20 1
40 19 21 2
44 20 22 1
Este análisis tiene por objetivo descomponer la correlación entre un predictor (Xk)
y una variable dependiente (Y) en los efectos directos sobre ella y los efectos indirectos.
O sea, los provocados a través o por mediación de algún otro predictor ({Xi}).
Si los predictores son independientes entre sí, entonces los coeficientes de vía
corresponden a las correlaciones simples entre los predictores e Y: b r . si iy
rUy2 1 R 2
b 2
si
2 bsi bsj rij ruy2 1
i j
1
P( I j ) ( j i xi )
1 e i
173
En este caso, se obtienen k funciones que solo difieren en la constante α, una para
cada estado.
Tabla de Clasificación
Predicho (+) Predicho(-) Total
Observado(+) A b A+b
Observado(-) C d C+d
Total a+c b+d N = a+b+c+d
Esta tabla es exactamente igual a las tablas usadas en diagnóstico médico, por lo
que pueden ser descritas con las medidas habituales de Sensibilidad, Especificidad,
Valores predictivos y Certeza, en este caso no de un examen, sino de la función logística.
Además es posible realizar un análisis de concordancia.
Análisis de concordancia
(a c)( a b) (b d )(c d )
n n (a c)( a b) (b d )(c d )
Cz
n n2
174
De esta manera, existe un rango de certeza restringido entre el valor de azar C =
Cz y la certeza máxima C = 1, que podría ser atribuible a la función. Entonces tiene
sentido el estadígrafo:
C Cz
1 Cz
z
C z (1 C z )
n
Ejemplo 2.-
Tabla de Clasificación
Predicho (+) Predicho(-) Total
Observado(+) 16 2 18
Observado(-) 5 4 9
Total 21 6 27
Entonces C = 20/27 = 0.74. Los valores esperados por azar en la diagonal serían:
21x(18/27) = 14 y 6x(9/27) = 2, por lo que al azar se podría tener una concordancia de
0.74 0.5926
Cz =(14+2)/27 = 0.5926. Entonces:
1 0.5926
0.361
XVII.1.- Fundamento
i ,k
sus dos componentes clásicos, la suma de cuadrados dentro de grupo (W, de “within”) y
la suma de cuadrados entre grupos (B, de “between”), de manera que T = B + W, se
obtiene:
W ( Lik Li ) 2 y B ni ( Li L ) 2 n1n2 ( L1 L2 ) 2
i ,k i n1 n2
D B /W
Este es un resultado muy útil pues por su estructura la matriz de coeficientes ([B]
o {βi}) es muy similar a la distancia de Mahalanobis, por lo tanto a T 2 de Hottelling y,
entonces se puede docimar a través de una F (ver MANOVA):
DM [ X 1 X 2 ]T []1 [ X 1 X 2 ] [d ]T []
pq
través de {n 1 }ln(1 j)
2
j i
que se distribuye siguiendo a χ2p+q-2j.
i 2
XVII.2.- Clasificación
Ejemplo 1.-
X1 X2 X3
A 4 1 1
A 5 2 2
A 4 1 3
A 4 2 4
A 5 1 5
B 2 2 3
B 3 1 4
B 3 2 5
B 4 1 6
B 2 2 7
Este mismo problema se puede abordar con regresión logística múltiple. En este
caso se obtiene:
1
P ( I A) con un χ23 = 13.83, p = 0.0031 y una certeza del
1 e ( 5.7 10.1 X 1 0.7 X 2 7.6 X 3 )
100%.
179
XVIII.1.- Fundamentos
y k vk 1 X 1 vk 2 .......vkp ; k 1,2,... p
Xi X
Realizando la estandarización habitual Z i si
la relación anterior se puede
escribir matricialmente:
[ ] [V ]T [ Z ] ,
donde la matriz [ψ] corresponde a la matriz de coeficientes {ψ k= yki
estandarizados}, [V] es la matriz de coeficientes {vki} y [Z] el vector de variables
estandarizadas.
[V [ ]]
0 [ I ] v k 0
v k
Es decir, los coeficientes buscados {vk} son los vectores propios asociados a cada
valor propio {λi} de la matriz de correlación entre las variables ([ ]). Además la traza
180
de [ ] = ∑λi = p, y entonces la proporción de la varianza que explica cada componente
ψk es λk/p. Así un componente con un valor propio menor que 1 es con toda seguridad
irrelevante.
1 / 1 . 0
[F ] 0 . 0 [V ]T [ Z ] [ L]1 / 2 [V ]T [ Z ] [ Fs ] [ Z ]
0 0 1 / p
1 1 1 1
[ FL ]
n
( Z i Z )( f i f ) T n Z i f i n Z i [ L1 / 2V T Z i ]T n VL1 / 2
Además, como V V T L ,
[ FL ] VL1 / 2
[ Z ] [ FL ][ F ]
Esta expresión nos muestra que cada variable se puede expresar como
combinación lineal de los componentes y los coeficientes o factor loadings muestran el
peso de la variable en dicho componente.
181
Con esta estandarización además ∑FLk2 representa la proporción de la variabilidad
de Zk relacionada con los factores, por lo que se denomina comunalidad, y entonces la
fracción no explicada 1- ∑FLk2 es la especificidad de la variable.
1
{( n 1)
6
( 2 p 5)} ln que se distribuye como χ2p(p+1)/2.
Además después del análisis importa saber cuantos componentes son relevantes
para dar cuenta de la variabilidad total. Esto tiene una solución muy práctica y usada:
usar todos los componentes cuyo valor propio es mayor que 1. Otra solución es
considerar “q” componentes y someter a prueba si la correlación residual es o no
diferente de 0: H0: residual 0 vs H1: residual 0 . En este caso se usa el estadígrafo:
residual
1 2 C
{( n 1) ( 2 p 5) q} ln C donde q p j p q
6 3
1
j (
pq
)
Ejemplo 1.-
Usando la misma tabla del capítulo anterior, podríamos estar interesados en cuales
son las combinaciones de variables que dan cuenta de la variabilidad de las poblaciones
A y B (no en discriminar). En este caso un análisis de componentes principales muestra:
CP1 = 0.55X1-0.667X2+0.50X3
CP2 = -0.65X1+0.035X2+0.76X3
CP3 = 0.52X1+0.74X2+0.41X3
Esto indica que sólo el primer componente es relevante (λ >1). Los factor loadings
son -0.84; 0.69 y 0.63 para X 1, X2 y X3 respectivamente, por lo que CP1 está
fundamentalmente asociado a X1. Además podrían usarse los valores de los dos primeros
componentes en cada caso para graficar ambas poblaciones, ordenándolas.
2
1
1
2 2
1
var5
0
1 1
-1
1
-2
-2 -1 0 1 2
var4
U k a k 1 X 1 .........a kp X p
Vk bk 1Y1 ...........bkqYq
tales que la correlación entre Uk y Vk sea máxima.
[ A] [C ]
[C ]
T
[ B ]
[( B 1C T A 1C I )V ] [O ]
ai [ A]1 [C ]bi
Así mediante este método se obtienen pares de funciones lineales que dan cuenta
de la correlación entre las variables. Esto permite visualizar como se correlacionan las
configuraciones o combinaciones de variables. Por ejemplo si se tiene un par U 1 =
0.4X1+0.1X2+0.8X3 y V1=0.3Y1+0.6Y2+0.04Y3 con un λ1=0.6; esto indica que el par
U1,V1 determina el 60% de la asociación y que en U 1 son determinantes las variables X1
y X3 y en V1 predomina Y2. Esto sugiere una relación entre éstas.
184
1 r
2k {n ( p q 1)} ln(1 i ) donde r es el menor entre p y q, y k varia desde 0 a r.
2 i 1 k
Ejemplo 1.-
B1 B2 ….. Bq
Sp1 n11 n12 …. n1q
Sp2 n21 n22 …. n2q
…. … …. …. ….
Spp np1 np2 …. npq
2
I
nOO
185
Ejemplo 2.-
K L M
A 1 2 4
B 4 3 5
C 5 6 7
D 6 4 3
Reciprocal averaging
Este método permite una variación sobre el análisis anterior. Al igual que en el
caso anterior, se tiene una matriz de datos donde las filas se ordenan según una variable
(X) o sus niveles, las columnas se ordenan según otra variable o sus niveles (Y) y las
celdas de la matriz son ocupadas por las frecuencias de presentación de las
combinaciones o bien cualquier característica de interés, por ejemplo la biomasa de las
especies.
B1 B2 ….. Bq
Sp1 n11 n12 …. n1q
Sp2 n21 n22 …. n2q
…. … …. …. ….
Spp np1 np2 …. npq
Se pueden buscar las raíces o dimensiones que maximizan la asociación entre los
pares {Bk,Spk}. Esto se puede hacer por el método de “reciprocal averaging”. En este
método se calculan iterativamente los promedios ponderados (weighted average)
186
renormalizados de filas y columnas y hasta lograr la estabilización. El vector estable
corresponde a la primera dimensión y tiene asociado un eigenvalue (λ k ).Se puede
demostrar que al igual que la correlación canónica, conduce a pares de funciones
lineales con su valor propio asociado λk, que corresponde a λk=Rk2. Cada par de
funciones es ortogonal al anterior. Esto se logra porque una vez obtenido el primer par
de funciones, se continúa con el análisis estableciendo la correlación con la función
anterior y trabajando con los residuales.
187
XX.1.- Fundamentos
Las medidas de similitud y distancia entre dos unidades (j y k), cada una
caracterizada por los valores de las variables medidas {X i}, pueden ser de diferentes
tipos dependiendo de la naturaleza de las variables: medidas de distancia, medidas de
correlación y medidas de asociación.
Medidas de distancia
X ij X ik
MCD i 1
También en este último caso es posible usar alguna distancia que incorpore la
variabilidad como la distancia de Mahalanobis o usar una distancia en coordenadas
polares como la distancia de Nei. Sin embargo, éstas se utilizan menos, o tienen uso mas
restringido.
Medidas de correlación
Así como entre dos unidades se puede establecer una distancia, también se puede
medir la similitud entre ellas usando el coeficiente de correlación. En el caso que las
variables sean cuantitativas continuas esta indicado el coeficiente de correlación de
Pearson. Si en cambio algunas variables no son continuas o son simplemente ordinales,
se puede usar el coeficiente de correlación de Spearman. En este caso la máxima
similitud es 1.
Medidas de asociación
UNIDAD 1
1 0
UNIDAD 2 1 A B
0 C D
ad
Apareamiento simple (simple matching): SM
abcd
189
a
Coeficiente de Jaccard: J
abcd
ad
Coeficiente de Roger y Tanimoto: RT
a 2b 2c d
2a
Coeficiente de Dice: CD
2a b c
2( a d )
Coeficiente de Sokal y Sneath: SS
2(a d ) b c
(a d ) (b c )
Coeficiente de Hamann: H
abcd
Los métodos de agrupación parten desde la matriz [D] que contiene las distancias
o similitudes entre las unidades a agrupar. Cuando contiene similitudes es preferible
convertirlas a distancia para facilitar el uso del algoritmo. Por ejemplo si el máximo de
similitud es S = 1, se puede usar como distancia D = 1-S.
Ejemplo 1.-
190
Supongamos que se estudiaron 5 especies obteniendo la siguiente matriz de
distancias:
A B C D E
A 0 1 0.5 3 2
B 0 0.4 3 2
C 0 1 4
D 0 2
E 0
A BC D E
A 0 0.5 3 2
BC 0 1 2
D 0 2
E 0
ABC D E
ABC 0 1 2
D 0 2
E 0
ABCD E
ABCD 0 2
E 0
A BC D E
A 0 0.75 3 2
BC 0 2 3
D 0 2
E 0
Y a continuación:
ABC D E
ABC 0 2.33 2.67
D 0 2
E 0
Notamos que para calcular las distancias desde una especie a un grupo o cluster
tenemos que volver a la matriz inicial y promediar las distancias. Ahora la distancia
menor es D(E-(ABC)) = 2. Y llegamos a la matriz:
192
ABCE D
ABCE 0 2.25
D 0
Hair JF, Anderson RE, Tatham RL & Black WC (1999) Análisis Multivariante . Prentice
Hall, Madrid.
Hollander M & Wolf DA (1972) Nonparametric Statistical Methods. John Wiley &
Sons, New York.
Sackett DL, Strauss SS, Richardson WS, Rosenberg W & Haynes RB (2001) Medicina
Basada En La Evidencia. Harcourt, Madrid.
Siegel S & Castellan NJ (1988) Nonparametric Statistics For The Behavioral Sciences.
McGraw-Hill, New Jork.
Snedecor GW & Cochran WG (1980) Statistical Methods. The Iowa University Press,
Iowa.
Sokal RR & Rohlf FJ (1995) Biometry: The Principles And Practice Of Statistics In
Biology Research. WH Freeman, New Jork.
194
Steel RGD & Torrie JH (1980) Bioestadística: Principios Y Procedimientos. McGraw-
Hill Latinoamericana SA, Bogotá.
Frecuencia relativa hi ni / n
i j
Frecuencia acumulada N j ni
i 1
i j
x
Promedio x i
c L ( n / 2 N L 1 )
Mediana Me y ' L1 nL
c L ( np / 100 N L 1 )
Percentil de orden p Pp y ' L 1 nL
xi2
Varianza s x 2
2
n
ni yi2
Varianza en una serie agrupada s 2 y 2 hi yi2 y 2
n
Desviación estándar s s2
Coeficiente de Variación CV s / x
III.- PROBABILIDADES
casosfavorables
Probabilidad P( A)
casosposibles
Probabilidad de que ocurra al menos un evento: P( Ai)= 1 –P( AiC), lo que se
interpreta como P(alguno) = 1 – P (ninguno)
P( A B)
Probabilidad condicional P( A / B)
P( B)
Probabilidad total P( A) i P( A / Bi ) P( Bi )
P( A / Bi ) P( Bi )
Teorema de Bayes P( Bi / A)
j P( A / B j ) P( B j )
p
Chance u “odds” O
1 p
a
Sensibilidad S P( / E )
ab
d
Especificidad Sp P ( / noE )
cd
a
Valor predictivo positivo VPP P ( E / )
ac
d
Valor predictivo negativo VPN P ( noE / )
bd
ad
Certeza diagnóstica P (C )
n
197
S
Razón de verosimilitud (+) LR P( / E ) / P( / noE ) P( / E ) /(1 P( / noE )) 1 Sp
1 1 1 1
IC1 [log LR Z / 2 ]
a d ab cd
Chance a posteriori Op LR Oo
a
Tasa de evento en el control CER P (evento / control )
ac
b
Tasa de evento en el grupo experimental EER P(evento / ex)
bd
1 1 1 1
Riesgo relativo RR EER / CER IC1 [log RR Z / 2
a b ac bd
]
a / c ad
Razón de disparidades de la chance (“Odds ratio”) OR
b / d bc
1 1 1 1
IC1 [log OR Z / 2 ]
a b c d
n k n k
Distribución binomial P(X k) p (1 p)
k
E[X] = np, V[X] = npq.
N NpNp
Distribución Hiergeométrica
(XP k) kn k
N
n
E[X] = np, V[X] = npq(N-n)/(N-1).
k
Distribución de Poisson P( X k ) e
k!
E[X] = V[X] =
Distribución exponencial f ( x ) e x
E[X] = 1/ y V[X] = 1/2
199
x 2
DISTRIBUCIÓN NORMAL f ( x) (1/ 2 ) e (1 / 2 )[
]
E[X] = μ y V[X] = σ2
V.- ESTIMACIÓN
Estimadores en Medicina
Números necesarios : NNT y NNH Ambos están definidos como los valores inversos de
ARR y ARA respectivamente, por lo que en estos casos, se calculan los límites de
confianza para ARR y ARA y se calcula su inverso.
1 1 1 1
Para log RR: IC1 [log RR Z / 2
a b ac bd
]
1 1 1 1
Para log OR: IC1 [log OR Z / 2 ]
a b c d
1 1 1 1
Para log LR: IC1 [log LR Z / 2
a d ab cd
]
200
Z 2 / 2 PQ
Tamaño muestral para estimar una proporción n
d2
t12 / 2 s 2 Z 2 / 2 s 2
Tamaño muestral para estimar un promedio n
d2 d2
VALOR DE VERDAD de
Ho
V (H1F) F (H1V)
DECISIÓN Rechazo Ho ERROR I () K = 1-
Acepto Ho C = 1- ERROR II ()
x 0
t n 1
Dócima para un promedio s
n
( pˆ 1 pˆ 2 ) P0
Z pˆ n pˆ 2 n2
Dos proporciones 1 1 donde p0 1 1
p0 q0 ( ) n1 n2
n1 n2
Muestras independientes
x1 x 2 0
t n n 2 (n1 1) s12 (n2 1) s 22
donde sc
2
1 2
1 1
sc2 ( ) n1 n2 2
n1 n2
201
x1 x2 0
t gl
s12 s 22 pero los grados de libertad “gl” los estimamos mediante
( )
n1 n2
2
s12 s22
n n
gl 12 2 2
s12 s22
n1 n2
n1 1 n2 1
d
Muestras dependientes (pareadas) t n 1
sd / n
s M2
Dócima de Homocedasticidad F( n 1),( n 2 1)
1
s m2
( o e) 2
La distribución 2 para tablas de contingencia ( r 1)( c 1)
2
i, j e
N ! N ! N ! N !
Prueba exacta de Fisher PF x P ( X x ); dondeP( X x) 1, 0 2,0 0 ,1 0 ,1
(o e) 2
La distribución 2 para bondad de ajuste n2 p 1 e
n ( p p)
en donde p i ni p1 / n
i i
La distribución χ2 para proporciones 2 1
n 1
pq
202
no
(B C )2 ( B C 1) 2
Dócima de McNemar 12 o 2
(B C ) (B C)
1
FV SC Gl CM=SC/gl F P
T (entre) (Y 2
i0 / n) Y / nt
2
00 t-1 F =
i
CME/CMD
(dentro o yij Yi 0 / n t(n-1)
2 2
ij i
error)
TOTAL yij2 Y002 / nt
ij
nt-1
Transformaciones
L
Contrastes ortogonales t gle CMD c 2 / n
j
i i
yi 0 ycontrol
Prueba de Dunnet t d
2CMD / n
203
L2
Prueba de Scheffé Ft 1, gle (t 1) CMD c 2 / n
i i
yi 0 y j 0
Qt , gle
Prueba de Tukey (CMD / 2) (
1 1
)
ni n j
T1 T2 T3
N1 N2 N1 N2 N1 N2
Cuadrado latino
b1 B2 B3
B1 T1 T2 T3
B2 T2 T3 T1
B3 T3 T1 T2
204
R0 j R0 k
Q , ,t
Comparaciones múltiples de Nemenyi (post- K-W) n(nt )(nt 1)
12
12
Prueba de Friedman t
2
R02 j 3b(t 1)
bt (t 1) j
R0 j R0 k
Q , ,t
Comparaciones múltiples post-Friedman b(t )(t 1)
12
( x x )( y y ) x y nx y
Coeficiente de correlación r
i i i i
( x x ) ( y y)
i
2
i
2
( x nx )( yi2 ny 2 )
i
2 2
r n2
Prueba de Hipótesis t n 2
1 r2
xi y i / n x y
Regresión: Pendiente e Intercepto B1 B0 y B1 x
xi2 / n x 2
S yx2 1 x ei2
V [ B1 ] y V [ B0 ] S yx2 ( ) donde S yx2
(x i x)2 n ( xi x ) 2 n2
205
B*
Pruebas de Hipótesis tn2
V [ B* ]
ANOVA de la regresión
Fuente de SC Gl CM F1,n-2 P
variación
Modelo ( yi' y ) 2 B12 ( xi2 nx 2 ) 1 SC/gl CMmodelo/CMresiduo
(Regresión)
Residuo (por diferencia) n-2 SC/gl
= Syx2
Total ( y i
y ) 2 yi2 ny 2 n-1
SCregresió n
Coeficiente de determinación (R2) R2
SCTotal
ei2
Error típico de la estima S yx S yx2
n2
1 ( xk x ) 2
IC1- : y t n2 S yx 1
'
n xi2 ( xi ) 2 / n
k
1 ( xk x ) 2
IC1- : y k t n2 S yx
'
n xi2 ( xi ) 2 / n
in
6 d i2
Correlación no-paramétrico de Spearman (rs) r 1 i 1
n n
s 3
ANCOVA
Factor A
A1 A2 A3
Y X Y X Y X
206
11 12
t n1 n 2 4 SCresiduo1 SCresiduo 2
1 1 donde
2
S yxc
2
S yxc ( ) n1 n2 4
x12i x22i
N
lx: proporción de sobrevivientes al inicio de la edad x; l x N
x
d (l x l x 1 )
qx: probabilidad de morir entre la edad x y x+1; q x N
x
lx
. A veces es útil
x
(l x l x 1 )
Lx: cantidad de tiempo vivido (por todos los individuos) entre x y x+1; Lx
2
T
ex: esperanza de vida a la edad x: ex l
x
l x mx
Vx: valor reproductivo a la edad x Vx x lx
yl m x x
G: Tiempo generacional. G x
R0
t
(Oi Ei ) 2
Prueba de Mantel-Haenszel o Logrank.
2
t 1
1 Ei
P 1
Modelo: log( ) X P
1 P 1 e ( X )
ˆ 2
Estadígrafo de Wald (W) que se distribuye como χ2 con un grado de libertad W ( )
S
( m2 2 p )
Seudo coeficiente de determinación: R
2
2 L(0)
px
1 p x e ( x ) ( x x*)
La razón de chances (odds ratio) OR e .
p x* e ( x*)
1 p x*
Modelo ARIMA X t at i ( X t i ) i ( at i )
1 1
i n k
(X t
X )( X t k X )
Autocorrelación rk
i 1
i n
(X
i 1
t
X)
AR1 X t 1 ( X t 1 ) at
208
1 12
Además r1 r
y 2 2 1
1 2 2
X t at 1 ( X t 1 ) , además r1 1 2
1
MA1:
1
T2 de Hotelling:
(n1 n2 p 1)T 2
Dócima Fp ,n1 n 2 p 1 ( p (n1 n2 2))
209
XVI.- REGRESION MULTIPLE
La tabla de ANOVA:
SC mod elo
R2
SCT
b jh b jy
Correlaciones parciales rj .h y en particular rj . y
b jj bhh b jj byy
s bi
Coeficiente de regresión parcial estandarizado o coeficiente de vía bsi s
xi
y
211
bs1 r12 bs 2 r13bs 3 r1 y
bs1 r12 bs 2 r1 y
Descomposición de la correlación y r12 bs1 bs 2 r23bs 3 r2 y
r12 bs1 bs 2 r2 y
r13bs1 r23bs 2 bs 3 r3 y
i j
1
Regresión logística múltiple, Modelo P( I j ) ( j i xi )
1 e i
Análisis de concordancia
(a c)( a b) (b d )(c d )
Certeza azarosa C n n (a c)( a b) (b d )(c d )
z
n n2
C C
Concordancia 1 C
z
z
Prueba de Hipótesis C z (1 C z )
n
Discriminación D B / W
pq
Prueba de Hipótesis {n 1 }ln(1 j)
2
j i
i 2
XVIII.- ANALISIS DE COMPONENTES PRINCIPALES
212
[V [ ]]
Maximización de la varianza total 0 [ I ] vk
v k
L os coeficientes buscados {vk} son los vectores propios asociados a cada valor propio
{λi} de la matriz de correlación entre las variables ([ ]). Además la traza de [ ] = ∑λi
= p, y entonces la proporción de la varianza que explica cada componente ψk es λk/p.
Variables [ Z ] [ FL ][ F ]
Comunalidad ∑FLk2
Especificidad 1- ∑FLk2
1
{( n 1)
6
( 2 p 5)} ln que se distribuye como χ2p(p+1)/2.
residual
1 2 C
{( n 1) ( 2 p 5) q} ln C donde q p j pq
6 3
1
j (
pq
)
[ A] [C ]
Matriz de Correlación [C ]T [ B]
Los valores propios obtenidos (λk) corresponden a Rk2, es decir representan la parte de la
determinación que le corresponde al par {U k,Vk} . Además los coeficientes {bi} de la
213
función V corresponden a los vectores propios de la ecuación característica y los
coeficientes {ai} de la función U están dados por: ai [ A]1[C ]bi
1 r
2k {n ( p q 1)} ln(1 i ) Este estadígrafo sigue a χ2(p-k)(q-k).
2 i 1 k
Distancia de Manhattan DM X ij X ik
i 1
ad
Apareamiento simple (simple matching): SM
abcd
a
Coeficiente de Jaccard: J
abcd
ad
Coeficiente de Roger y Tanimoto: RT
a 2b 2c d
2a
Coeficiente de Dice: CD
2a b c
2( a d )
Coeficiente de Sokal y Sneath: SS
2(a d ) b c
(a d ) (b c )
Coeficiente de Hamann: H
abcd
214
ANEXO II.- TABLAS SIMPLIFICADAS
Área desde z a ∞; Valores críticos para 1 cola (°) (α = 0.05) y dos colas (°°) (α = 0.05)
Z Area
0 0.5000
0.1 0.4602
0.2 0.4207
0.3 0.3821
0.4 0.3446
0.5 0.3085
0.6 0.2743
0.7 0.2420
0.8 0.2119
0.9 0.1841
1.0 0.1587
1.1 0.1357
1.2 0.1151
1.3 0.0968
1.4 0.0808
1.5 0.0668
1.6 0.0548
1.64 (°) 0.0500
1.7 0.0446
1.8 0.0359
1.9 0.0287
1.96 (°°) 0.0250
2.0 0.0228
2.5 0.0062
3.0 0.0013
215
B.- DISTRIBUCION t DE STUDENT
T
Gr. libertad 2 3 4 5 8 10
5 3.64 4.60 5.22 5.67 6.58 6.99
10 3.15 3.88 4.33 4.65 5.30 5.60
15 3.01 3.67 4.08 4.37 4.94 5.20
20 2.95 3.58 3.96 4.23 4.77 5.01
∞ 2.77 3.31 3.63 3.86 4.29 4.47
219
F.- DISTRIBUCION de WILCOXON (Rangos signados)
N Valor crítico
4 10
5 14
6 19
7 24
8 30
9 37
10 44
15 89
220
G.- DISTRIBUCION DE WILCOXON-MANN-WHITNEY (Suma de Rangos)
n2=2 3 4 5 10
n1 = 3 10 15
4 12 17 24
5 13 20 27 36
6 15 23 30 40
7 16 24 33 43
8 18 27 36 47
9 20 29 39 50
10 22 32 42 54 127