Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CTEDRA DE BIOFSICA
FACULTAD DE ODONTOLOGA
AO 2008
PROLOGO
La estadstica es la matemtica de la experimentacin. Los experimentos son la base del
progreso de las ciencias naturales, a las cuales pertenecen las disciplinas vinculadas al
arte de curar. Este libro est dedicado especialmente a los profesionales (o futuros
profesionales) de las ciencias de la salud que necesiten cubrir su formacin bsica en
esta disciplina, pero tambin aporta lo suficiente como para capacitar con lo esencial al
investigador que desee complementar sus conocimientos especficos con la base
metodolgica mnima de estadstica aplicada. El objetivo de mnima es dar a conocer
los fundamentos de la estadstica que permitan orientar al lector en el amplio abanico de
tcnicas disponibles y permitirle consultar (llegado el caso) a la bibliografa especfica o
pedir el asesoramiento de docentes e investigadores vinculados a la prctica de la
estadstica.
Los experimentos se llevan a cabo con el objeto de contestar alguna pregunta o
preguntas en las cuales est interesado el investigador, pero es raro que las respuestas a
esos interrogantes se puedan conocer antes de efectuarse un anlisis estadstico
adecuado. Resulta que los resultados de los experimentos en ciencias naturales (fsica,
qumica y biologa entre otras) normalmente son afectados por muchos factores ajenos a
los propios de inters, y en mayor o menor grado esos factores son desconocidos por el
investigador. Cada uno de esos mltiples factores suele influir los resultados en modo
reducido pero absolutamente impredecible y constituyen una fuente potencial y
continua de errores en la interpretacin de los resultados. La situacin sera difcil de
controlar si no existiese una herramienta que auxilie en el filtrado del ruido y la
potenciacin de las reales seales buscadas por el investigador.
La estadstica es la herramienta o la disciplina que se ocupa de describir en forma
racional y objetiva los sistemas sometidos al azar y que permite la toma de decisiones
con riesgo calculado en ambientes de incertidumbre. Los objetivos del anlisis
estadstico son (1) reducir la complejidad de los datos obtenidos que normalmente
escaparan a la capacidad de comprensin del investigador y presentarlos como datos
elaborados en un formato accesible y objetivo y (2) estimar el significado y la
importancia de esos datos elaborados indicando adecuadamente la participacin del azar
involucrado en los experimentos y permitiendo por ende tomar decisiones
independiente del mismo y fundamentadas sobre el comportamiento de los sistemas en
estudio.
La estadstica no es buena ni mala, es simplemente una herramienta que mal usada
puede servir para engaar, vender, ocultar o dominar mediante la desinformacin y
usada por inexpertos puede llevar a conclusiones tan falsas como complicadas. Bien
usada es una panacea que permite tomar decisiones fundamentadas y objetivas,
definiendo el progreso de todas las ciencias naturales. La estadstica es uno de los
factores ms importantes que ayudan al progreso en ciruga, en farmacologa o en
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 2 -175
diagnstico por imgenes. Si la medicina progresa con la velocidad con la cual lo hace,
lo es en gran parte gracias a que cada da, en cada experimento, desde un hospital, desde
el ignoto laboratorio de la Universidad o desde el centro de investigacin y desarrollo
de las grandes compaas farmacuticas, se emplea estadstica para todo tipo de
investigacin.
Para el desarrollo de los tpicos, se trat de respetar la rigurosidad del tratamiento
brindando todos los medios para que el lector pueda entender cada tcnica y resolver
por analoga cualquiera de los modelos aqu presentados, ya sea en forma manual o para
validar los resultados que le brinden programas estadsticos de computacin. Sin
embargo este libro, aunque bien intencionado, es forzosamente incompleto. Slo se
pretende presentar lo clsico y fundamental, pero debe recordarse que la estadstica es
dinmica y continuamente se desarrollan nuevas tcnicas y ensayos. Adems, cuando
requiera resolver temas especficos que no estn aqu cubiertos, recurra a la bibliografa
de nivel intermedio que recomendamos, y cuando fuese posible recurra al
asesoramiento y la gua de investigadores con experiencia.
Se dio un nfasis particular a la inclusin de ejemplos numricos resueltos paso a paso
para cada ensayo o tema bajo estudio. El lector podr reemplazar sus propios datos en
cada modelo y obtener los resultados correspondientes en forma autosuficiente.
Pgina 3 -175
Pgina 4 -175
x
i =1
Media Poblacional
n
x Promedio muestral (=
x
i =1
2 Varianza poblacional
n
s2 Varianza muestral ( =
x
i =1
2
i
( x i ) 2 / n
i =1
)
n 1
N(, ) Distribucin normal (promedio, desvo standard)
DS Desviacin Standard muestral (=s)
Probabilidad
Pgina 5 -175
INDICE GENERAL
PROLOGO............................................................................................................................ 2
COMO LEER ESTE MANUAL ............................................................................................. 4
TABLA DE SIMBOLOS Y ABREVIATURAS FRECUENTES............................................. 5
INDICE GENERAL ............................................................................................................... 6
CAPITULO 1: ESTADISTICA DESCRIPTIVA..................................................................... 9
1.1. ESTADSTICA BUENA Y ESTADISTICA MALA................................................10
1.2. DETERMINISMO Y AZAR..................................................................................11
1.3. NOCIONES ELEMENTALES DEL CALCULO DE PROBABILIDADES ............11
1.4. PROBABILIDADES COMPUESTAS: LEY DE LA SUMA Y DEL PRODUCTO DE
PROBABILIDADES ............................................................................................12
1.5. PROBABILIDAD CONDICIONAL .......................................................................13
1.6. DEFINICIN DE ESTADSTICA Y VARIABLES ESTADSTICAS ....................14
1.7. ESTADSTICA APLICADA A UNA MEDIDA INDIVIDUAL.................................14
1.8. ESTADSTICA APLICADA A UN GRAN NMERO DE MEDIDAS U
OBSERVACIONES INDIVIDUALES ..................................................................16
1.9. REPRESENTACIN ANALTICA Y GRFICA DE DATOS ESTADSTICOS
OBTENIDOS A PARTIR DE UN CONJUNTO DE OBSERVACIONES
INDIVIDUALES ...................................................................................................17
1.10. DISTRIBUCIONES ESTADISTICAS ..................................................................21
1.11. PARMETROS ESTADSTICOS .......................................................................22
1.12. DISTRIBUCIN NORMAL O DE GAUSS ..........................................................25
1.13. PRECISION Y EXACTITUD DE UNA SERIE DE MEDIDAS REPETIDAS Y LA
CORRECTA EXPRESIN DE LOS RESULTADOS EXPERIMENTALES........28
1.14. VALORES NORMALES EN MEDICINA.............................................................29
CAPITULO 2: GENERALIDADES DE LA ESTADISTICA INFERENCIAL ...................... 30
2.1. ESTADSTICA INFERENCIAL ...........................................................................31
2.2. ENSAYOS O TEST ESTADSTICOS ..............................................................32
2.3. LAS HIPOTESIS ESTADISTICAS......................................................................33
2.4. ERRORES DE TIPO I Y DE TIPO II EN LA TOMA DE DECISIONES ..............34
2.5. TEST DE UNA COLA Y DE DOS COLAS..........................................................36
2.6. CMO ELEGIR LA H1 CORRECTA ................................................................37
2.7. ACEPTACION Y RECHAZO DE HIPOTESIS Y EL PROGRESO DE LAS
CIENCIAS EXPERIMENTALES .........................................................................37
2.8. ENSAYOS APAREADOS Y ENSAYOS AGRUPADOS.....................................38
2.9. EL MUESTREO Y EL DISEO DE LAS PRUEBAS A CIEGO, DOBLE CIEGO Y
TRIPLE CIEGO...................................................................................................38
2.10. ARQUITECTURA GENERAL DE LAS PRUEBAS DE INFERENCIA................41
2.11. DISEOS SIMETRICOS, ASIMETRICOS Y MANEJO DE LOS DATOS
FALTANTES .......................................................................................................42
CAPITULO 3: TEST PARAMETRICOS............................................................................. 44
3.1. POBLACIONES NORMALES : LA DISTRIBUCION ZETA................................45
3.2. COMPARACIN DE DOS GRUPOS NORMALES: TEST t-STUDENT............49
3.3. PRUEBA DE ASOCIACIN Y CORRELACIN LINEAL ENTRE VARIABLES
CUANTITATIVAS ...............................................................................................52
3.4. CORRELACIN LINEAL MLTIPLE Y CORRELACIN NO LINEAL ..............54
3.5. LA DISTRIBUCIN BINOMIAL Y LA DISTRIBUCIN DE POISSON...............55
3.6. ANOVA: FUNDAMENTOS DEL FRACCIONAMIENTO DE LA VARIANZA ......59
3.7. ANOVA DE UNA VA..........................................................................................66
3.8. ANOVA DE DOS VAS .......................................................................................68
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 6 -175
Pgina 7 -175
Pgina 8 -175
9-175
Pgina 9 -175
10-175
Pgina 10 -175
11-175
Esta definicin es aplicable a los juegos de azar en los cuales se conocen de antemano las
posibilidades que pueden presentarse, y a todos aquellos casos en los cuales el sistema se conoce a
priori.
Ejemplo: qu probabilidad tenemos de extraer al azar una bolilla roja de un bolillero que
contiene cinco bolillas rojas, tres verdes, y dos amarillas?
5
p=
5
=
5+3+2
= 0,5
10
Cuando desconocemos de antemano si todas las posibilidades tienen la misma esperanza de ocurrir,
no podemos utilizar para el clculo de probabilidad la definicin terica. Lo que haremos ser
observar un buen nmero de casos en las mismas condiciones, y con los datos obtenidos de esta
observacin, calcular la frecuencia relativa. La frecuencia relativa (o probabilidad emprica) se
acerca al verdadero valor de probabilidad terica de un suceso cuando el nmero de observaciones o
de experiencias tiende a infinito.
Pgina 11 -175
12-175
FR =
cfav
nobs
p=
lim
nobs
( FR ) ;
0 p 1
La probabilidad es un nmero abstracto, que puede variar entre cero y uno: el uno representa la
certeza absoluta de ocurrencia de un evento; y el cero la seguridad de que no ocurrir. La
probabilidad de que s ocurra un evento, ms la probabilidad de que no ocurra es siempre igual a
uno. Por ejemplo, la probabilidad de que salga el nmero cinco al arrojar un dado es un sexto, y la
probabilidad de que no salga el cinco es de cinco sextos. Para qu sirve determinar la probabilidad
de un suceso que ya ocurri? Sirve para estimar la probabilidad de que ese hecho ocurra
nuevamente en la poblacin de la cual fue extrada la muestra en estudio.
Probabilidades compuestas
Son las probabilidades asociadas a la ocurrencia combinada (por unin o interseccin) de dos o mas
eventos, por ejemplo la probabilidad de ocurrencia de un evento entre dos sucesos (Tiramos dos
dados y exactamente uno sale 3) o la probabilidad de ocurrencia simultnea de dos eventos (Tiramos
dos dados y ambos salen 3).
1.4. PROBABILIDADES COMPUESTAS: LEY DE LA SUMA Y DEL PRODUCTO DE
PROBABILIDADES
La probabilidad que ocurra uno de entre varios sucesos mutuamente excluyentes es igual a la
suma de sus probabilidades individuales.
EJEMPLO: Tirando un dado, la probabilidad que salga un 5 es EXCLUYENTE de
que haya salido otro nmero (como el 6, por ejemplo); por lo tanto, la probabilidad
que salga 5 6 es la suma de ambas probabilidades (=1/6 + 1/6 = 1/3)
Pgina 12 -175
13-175
En el siguiente punto se vern las leyes generales vinculadas a las probabilidades compuestas (por
unin o por interseccin de eventos de cualquier clase)
1.5. PROBABILIDAD CONDICIONAL
Es la probabilidad que ocurra un suceso habiendo ocurrido otro: Sea A: hoy est nublado y B:
hoy llueve, entonces p(B| A) = p (llueva si est nublado) = p(A y B)/p(A), es decir la
probabilidad que est nublado y que llueva al mismo tiempo, dividido a la probabilidad de estar
nublado. Esto se lee como la probabilidad condicional que ocurra B si ya ocurri A. Por
ejemplo si p(A y B)=0.1 y p(A)=0.4 entonces p(B|A)=0.1/0.4=0.25
PROBABILIDAD CONDICIONAL
es la probabilidad de un suceso habiendo ocurrido otro
U
A
B
p(A)
p(B|A)=p(A y B)/p(A)
p(A o B)=p(A)+p(B)-p(A y B)
p(U)=1
p(A)
p(B)
p(A y B)=p(A).p(B|A)
=p(B).p(A|B)
Al resolver problemas de probabilidades compuestas hay que tener en cuenta si se reponen (o no)
las extracciones previas de un conjunto porque eso modifica las probabilidades de las extracciones
consecuentes. Tcnicamente hay que pensar si el primer resultado condiciona o no al segundo, es
decir si hay que usar probabilidades condicionales (en caso de duda siempre hay que usarlas).
Ejemplo: En una bolsa hay 3 bolillas negras y dos blancas
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 13 -175
14-175
Objetivo de su estudio:
La estadstica tiene por objeto extraer informacin confiable de datos obtenidos de variables
aleatorias. Una variable es aleatoria si flucta en forma impredecible o depende de factores fuera de
control por parte del observador. Por ejemplo: el resultado del Quini6, el clima dentro de un mes, las
mediciones fsicas, qumicas y biolgicas de cualquier tipo y con cualquier instrumento, la duracin
de una pila, la aparicin de una enfermedad, etc.
VARIABLES ESTADSTICAS
Son magnitudes sujetas al azar, pasibles de ser medidas y luego controladas por medio de tcnicas
estadsticas. Se clasifican de la siguiente manera:
Medicin es la comparacin de una magnitud contra otra que se toma como patrn. En toda
medicin fsica, qumica y biolgica, se cometen errores. Los errores pueden ser SISTEMTICOS
(dependen de fallas del instrumento de medida o del observador que hace esas medidas) o
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 14 -175
15-175
Valor Verdadero o Terico (VT): es el valor exacto de una medida, generalmente desconocido.
Como el valor verdadero (en general) es un nmero real y posee infinitos decimales, siempre se lo
indica como un nmero racional con una dada cantidad de cifras significativas, considerndose que
el ltimo dgito es aproximado (por ejemplo, la estatura real de una persona es 1,72453673 metros, el
ltimo 3 es aproximado)
Cifras significativas: es el nmero total de dgitos empleados para expresar un resultado de una
medida, nunca debe superar a lo que permita la sensibilidad del instrumento de medida (por ejemplo,
si la estatura de una persona es 1,72453673 metros, se estn empleando 9 cifras significativas)
Importancia de la expresin de las medidas individuales:
no es lo mismo 2.31 que 2.310, 2.31000 o 2.3100000000 metros.
En esta sucesin, matemticamente todos expresan el mismo nmero racional 231/100, pero si se
trata de medidas, la sensibilidad del instrumento de medida ha aumentado ya que se supone que slo
el ltimo dgito es aproximado (por redondeo). No es lo mismo medir un objeto muy pequeo con
una regla milimetrada que con un microscopio con una lente con escala al diezmilsimo de
milmetro. Los resultados de una medicin que son transformados luego por operaciones
matemticas, no deben ser expresados con ms decimales que la sensibilidad permitida por el
instrumento de medida en la obtencin de ese dato.
Sensibilidad (de un instrumento de medida): La sensibilidad es directamente proporcional al nmero
de decimales (o cifras significativas) con el cual se exprese el resultado de la medida. Es la mnima
diferencia que el instrumento puede detectar. Por ejemplo, una regla milimetrada (cuya sensibilidad
es 1 mm) no permite diferenciar entre las longitudes de 2 elementos que se diferencian entre s en 0,1
mm; se requiere para ello un instrumento con mayor sensibilidad.
Valor Medido (VM): es lo que se obtiene midiendo (intentando obtener el VT)
Error Absoluto (EA): es la diferencia entre el valor verdadero y el valor medido, en valor absoluto
(es decir con signo positivo). La frmula es EA= | VT-VM |, no importa el orden de los trminos.
Error Relativo (ER): es el cociente entre el EA y el VT. La frmula es ER = EA/VT.
Error Porcentual (EP): es el ER multiplicado por 100 y expresado como porcentaje
Exactitud (de una medida): es inversamente proporcional al error absoluto. Una medida es ms
exacta cuanto ms cercano es el valor medido al valor verdadero.
Ejemplo de aplicacin de errores de medicin individuales:
Pgina 15 -175
16-175
VM = 1,7420 m (lo que se midi al dcimo de milmetro, que es la sensibilidad del instrumento)
EA = | VT-VM | = 0,0186 m
ER = EA / VT = 0,0108 (no tiene unidades y no se ponen ms decimales que los que la
sensibilidad indicada por el instrumento de medida, aqu dcimo de
milmetro)
EP = ER . 100 = 1,08 % .
Error relativo de aproximacin (ERA)
Es igual a la unidad dividida al valor medido expresado con todas sus cifras significativas (sin usar
la coma decimal) Por ejemplo, si se mide una masa en una balanza analtica y se obtiene un valor
de 23,6491 g, el ERA = 1/236491
Regla general de propagacin de errores
Cuando se efectan operaciones matemticas con valores medidos, vale la siguiente regla general
para la mayora de los casos: El ERA del resultado de una operacin numrica (no el
obtenido por una medicin directa) tiene que ser mayor o igual al mximo ERA de
los datos usados.
Ejemplo: Se desea medir el volumen de un recipiente cilndrico de 6,55 cm de altura y 5,3 cm2 de
base. El producto de esas medidas da 34,715 cm3, cuantos decimales conservamos? El ERA de la
altura es 1/655, el ERA de la base es 1/53. El mayor de estos ERA es 1/53, por lo tanto el volumen
no puede tener un ERA menor que ese. Si conservaramos (digamos) un decimal en el resultado, su
ERA sera 1/347 pero ese valor es menor que el que se necesita, por eso quitamos una cifra
significativa (el decimal 7) con lo cual el volumen (que se redondea) queda 35 cm3 y que tiene un
ERA de 1/35 el que efectivamente es mayor que 1/53.
1.8. ESTADSTICA APLICADA A UN
OBSERVACIONES INDIVIDUALES
GRAN
NMERO
DE
MEDIDAS
Pgina 16 -175
17-175
Los datos obtenidos se ordenan y se agrupan formando un cuadro o tabla de valores, o bien se
representan mediante un grfico.
Si la variable es discreta lo que se construye es una tabla de
frecuencias no agrupadas. Se ordenan las observaciones en orden creciente y en una columna
contigua se explicita el nmero de veces que apareci cada una de las observaciones (frecuencia
absoluta, Fi), en otra columna contigua se calcula la frecuencia relativa de cada observacin (fi =
Fi/n), donde n es el nmero total de observaciones). Obviamente:
Fi = n
y
fi = 1
A partir de esta tabla puede construirse un histograma de barras que consiste en graficar en
ordenadas la Fi o fi de cada observacin individual y en abscisas la observacin correspondiente.
Veamos un ejemplo: sea X: calificacin (nota) obtenida por alumnos de Biofsica de la Facultad de
Odontologa en la primera evaluacin parcial.
Tabla de frecuencias no agrupadas
X
0
1
2
3
4
5
6
7
8
9
10
Fi
0
4
11
15
6
3
20
8
5
2
1
fi
0
0.053
0.147
0.2
0.08
0.04
0.267
0.107
0.067
0.027
0.013
Histogramas de barras
0.30
fi
20
Fi
0.15
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
Pgina 17 -175
18-175
Si la variable es continua y se tiene un gran nmero de observaciones es muy poco probable que se
repita un mismo valor muchas veces por lo que los datos se agrupan formando lo que se llama tabla
de frecuencias agrupadas. Esta tabla consiste en agrupar las observaciones en intervalos de clase.
Para construir esta tabla y a partir de ella graficar los valores en un histograma debemos hallar los
intervalos de clase. Estos deben ser contiguos (el lmite superior de cada uno de ellos debe coincidir
con el lmite inferior del siguiente) y excluyentes, es decir, que ninguna observacin pertenezca a
dos intervalos simultneamente (caiga en un lmite). Para construir los intervalos de clase vamos a
adoptar un criterio que tiene en cuenta las dos caractersticas antes mencionadas y el nmero de
observaciones individuales (n) realizadas.
1) se ordenan los datos en orden creciente y se calcula el rango (w) de la muestra, que es la
diferencia entre los valores extremos.
w = xmx x mn
2) se calcula el nmero de intervalos de clase (k) a travs de la siguiente expresin:
k = 1 + 3,3 log n
k debe ser un nmero entero, por lo que el resultado en caso de no ser entero se trunca o redondea.
3) se calcula la longitud de cada intervalo de clase (h) dividiendo el rango por el nmero de
intervalos de clase antes hallado:
h = w/k
h debe tener el mismo nmero de cifras decimales que los datos (obtenido con redondeo o truncado
del resultado aritmtico obtenido)
4) se verifica que todas las observaciones esten includas en los intervalos de clase, es decir que se
cumpla que:
xmn + k.h > xmx
Si esto no se cumple se incrementa h en una unidad de cifra decimal (si el muestreo de datos
contiene cifras decimales) o entera (en caso que las observaciones sean nmeros enteros) sin cambiar
k.
5) se construyen los intervalos de clase aparentes tomando como lmite inferior del primer intervalo
la observacin menor (xmn) y, sumando sucesivamente el tamao del intervalo, se obtienen los
lmites inferiores de los intervalos aparentes sucesivos. Los lmites superiores de los mismos se
obtienen sumando al lmite inferior de cada intervalo h menos una unidad de cifra decimal o entera
(segn corresponda dependiendo del muestreo de datos). Los intervalos aparentes asi construidos no
son contiguos y excluyentes.
6) a partir de los intervalos aparentes se construyen los intervalos reales (estos s son contiguos y
excluyentes). Para obtener los intervalos reales, al lmite inferior de cada intervalo aparente se le
resta la mitad de unidad de cifra decimal o entera (dependiendo del muestreo de datos) y al lmite
superior de cada intervalo aparente se le suma la mitad de unidad de cifra decimal o entera. De esta
forma los intervalos reales tienen todos longitud h, son contiguos (el lmite superior de un intervalo
coincide con el lmite inferior del siguiente) y son excluyentes ya que los lmites contienen una cifra
significativa ms que el muestreo de datos por lo que nos aseguramos que ninguna de las
observaciones caiga en un lmite.
Pgina 18 -175
19-175
7) se halla la frecuencia absoluta (Fi) y relativa (fi = Fi/n) de cada intervalo de clase. La frecuencia
absoluta de un intervalo de clase es el nmero de observaciones incluidas en ese intervalo de clase.
8) se calcula la marca de clase ( i) que es el punto medio del intervalo de clase :
i
9) se calcula la frecuencia acumulada absoluta (Fi(a) ) y relativa (fi(a)) hasta el lmite superior de cada
intervalo sumando sucesivamente las frecuencias absolutas o relativas de los sucesivos intervalos.
Entonces, la tabla de frecuencias agrupadas consistira en un arreglo como el siguiente:
Intervalos aparentes
Intervalos reales
Fi
fi
Fi(a)
fi(a)
marca de clase
Supongamos X:talla (en metros) de los alumnos de la facultad de Odontologa. Extraemos de esta
poblacin una muestra de tamao 100, y obtenemos las tallas (no listadas aqu) de los 100 alumnos
tomados al azar. Una vez ordenadas las mediciones observamos que xmin = 1,50 m y xmax = 1,92 m.
-Hallamos el rango:
w = 1,92-1,50 = 0,42 m
k = 1 +3,3.log100 =7,6 k = 8
Pgina 19 -175
20-175
-Construimos los intervalos aparentes y luego los reales. Contamos las observaciones incluidas en
cada intervalo (Fi), calculamos la frecuencia relativa (fi), la frecuencia acumulada absoluta y relativa
(Fi(a) y fi(a)) y la marca de clase ( i ). Obtenemos la tabla de frecuencias agrupadas:
Intervalos aparentes
1,50 - 1,55
1,56 - 1,61
1,62 - 1,67
1,68 - 1,73
1,74 - 1,79
1,80 - 1,85
1,86 - 1,91
1,92 - 1,97
Intervalos reales
Fi
fi
Fi(a)
fi(a)
1,495 - 1,555
1,555 - 1,615
1,615 - 1,675
1,675 - 1,735
1,735 - 1,795
1,795 - 1,855
1,855 - 1,915
1,915 - 1,975
2
6
11
33
28
12
7
1
0,02
0,06
0,11
0,33
0,28
0,12
0,07
0,01
2
8
19
52
80
92
99
100
0.02
0,08
0,19
0,52
0,80
0,92
0,99
1,00
1,525
1,585
1,645
1,705
1,765
1,825
1,885
1,945
100
Fi(a)
30
75
20
50
10
25
1,435
intervalos de clase
2,035
1.495
intervalos de clase
Cuando el nmero de observaciones tiende a infinito, la longitud de los intervalos de clase tiende a
cero (su tamao es extremadamente pequeo, es decir infinitesimal) y el polgono de frecuencias
relativas es una lnea casi continua que se llama funcin distribucin en probabilidades de la
variable.
Pgina 20 -175
21-175
distribucin uniforme
distribucin triangular
distribucin de Poisson
Las distribuciones estadsticas pueden clasificarse tambin en uni o multimodales (de acuerdo al
nmero de picos que presenten), en simtricas o asimtricas (de acuerdo a la distribucin de los
datos alrededor del pico), etc.
Tipos de Distribuciones:
Unimodal
Bimodal
Simtrica
Asimtrica
Pgina 21 -175
22-175
Como ejemplo, mostramos la distribucin de una variable discreta bimodal (X: calificacin (nota)
obtenida por alumnos de biofsica de la facultad de odontologa en la primera evaluacin.)
Como se observa en el histograma existen 2 valores (modas) de la variable que se repiten un gran
nmero de veces (el 6 y el 3).
0.30
Fi
0.15
0 1 2 3 4 5 6 7 8 9 10
Polgono de frecuencias de calificaciones - Primera Evaluacin Biofsica
1.11. PARMETROS ESTADSTICOS
Son nmeros que describe colectivamente a una muestra (o poblacin). Hay dos clases:
PARAMETROS CENTRALES y PARAMETROS DE DISPERSIN. Los primeros condensan
muchos nmeros en uno slo. El ms importante es el PROMEDIO o media aritmtica, se usa para
expresar en forma compacta el comportamiento de todo el conjunto de nmeros (los individuos u
observaciones individuales). Pero, como se trata de variables aleatorias, el promedio no es
exactamente el valor de todos los individuos de esa coleccin. Por esa razn existen los parmetros
de dispersin, que miden (en un solo nmero) el grado de confianza que se puede tener en el
promedio como representante de su grupo.
- Varianza
- Desviacin standard
- Error standard
Pgina 22 -175
23-175
PARMETROS CENTRALES:
1) Media aritmtica o promedio: dada una serie de valores (x) de una muestra referente a una
variable, se busca un valor nico representativo de los mismos. Se calcula :
n
x=
x
i =1
Cuando nos encontramos frente a una distribucin simtrica como lo es la distribucin normal, la
media es el valor central y el ms frecuente , y por lo tanto el ms adecuado para caracterizar a todos
los dems valores de la serie. La media aritmtica es un estimador de la media poblacional ().
Propiedades de la media :
a) La sumatoria de las desviaciones de los valores respecto de la media es igual a cero .
b) La sumatoria de las desviaciones elevadas al cuadrado da un valor mnimo cuando dichas
desviaciones se tomaron con respecto a la media .
2) Mediana: dada una serie de valores, una vez que ordenamos a stos en forma creciente, llamamos
mediana al valor central (si el tamao de la muestra es impar) ,o al promedio de los valores
centrales(cuando el tamao de la muestra es par). Es la observacin de la variable que deja mitad de
las observaciones hacia un lado y mitad de las observaciones hacia el otro lado.
La mediana es el mejor parmetro de posicin en cualquier tipo de distribucin ya que no es
influenciado por las colas (valores extremos de una distribucin) como lo es la media.
3) Modo o Moda: aquel valor que se repite con mayor frecuencia.
PARMETROS DE DISPERSIN:
A) De las observaciones individuales alrededor de la media:
1) Rango
n
1 n
1 n 2
2
(
)
(
X
X
X
X i )2 / n
i
i
n 1 i =1
n 1 i =1
i =1
Pgina 23 -175
24-175
Como generalmente es imposible estudiar a toda una poblacin, nunca podremos conocer la media
poblacional. A lo sumo se puede estimar un valor que tienda a ella.
Experimentalmente pudo comprobarse que tomando distintas muestras de una misma poblacin, las
medias de esas muestras tenan una distribucin normal, es decir, configuraban una curva de Gauss.
El experimento es el siguiente: se repite m veces la obtencin de n observaciones individuales.
Para cada una de las m muestras se calcula un promedio y por ltimo se promedian esos
promedios. La media de la distribucin de las medias muestrales (o sea el promedio de m
promedios) se considera asintoticamente igual a la media poblacional:
= lim
m , n
; donde x =
1 n
xi
n i =1
donde m es igual al nmero de muestras consignadas y x cada uno de los promedios considerados.
Aqu el trmino asintoticamente se refiere a que se trata de una medida insesgada (sin error
sistemtico) y que se acerca montonamente a su valor lmite a medida que m y n tiendan a infinito.
El error standard es la desviacin standard de la distribucin de medias muestrales alrededor de la
media poblacional (). Cuanto menor sea el error standard ms confiable es la media, es decir que la
media muestral estima mejor a la media poblacional. El clculo se efecta por computadora o
calculadora cientfica.
ES =
DS
n
El error standard depende fuertemente del tamao de la muestra, y siempre que se calcula el error
standard hay que indicar el tamao de la muestra. Cuanto mayor sea el n y en consecuencia menor el
valor de ES la media de esa muestra ser mejor estimador de la media poblacional ().
Existe una forma de inferir cul sera el error standard de la media poblacional, a partir de los valores
de la media y del desvo standard de una nica muestra representativa:
1) se calcula la media de una nica muestra
2) se calcula el DS de dicha muestra.
DS =
n
1 n
1 n 2
(
)
(
X
X
X
X i )2 / n
i
i
n 1 i =1
n 1 i =1
i =1
Pgina 24 -175
25-175
DS
n
Intervalo de confianza: La expresin x ES nos dice dentro de qu lmites fluctan las medias
del 68% de las muestras de tamao n. Este es el intervalo de confianza en el que est contenida la
media de la poblacin o valor verdadero, con un 68% de probabilidad. Como la frmula del ES lo
indica, a medida que crece n, el intervalo se hace mas angosto, es decir crece la confianza que
tenemos en que su valor central sea el promedio poblacional. En el lmite (n ) el ES se hace cero
y el nico punto del intervalo ( x ) es EL PROMEDIO POBLACIONAL ( ).
x DS
Si repetimos el muestreo, el
68,27% de los promedios de n
observaciones individuales
estar dentro de este intervalo
x ES
DS
Pgina 25 -175
26-175
Es una distribucin simtrica, con un eje de simetra vertical que pasa por el promedio. Se conoce
como punto de inflexin de una curva y=f(x) al valor de x para el cual cambia el sentido de la
curvatura de f(x) (La cuchara para abajo o concavidad se vuelve cuchara para arriba o
convexidad). La desviacin standard es grficamente la distancia entre el promedio y el punto de
inflexin de la curva de Gauss.
En una distribucin normal (curva de Gauss), acotar el desvo standard a la media , ser trazar dos
verticales , una restando 1 DS a la media, y otra sumando 1 DS a la media. Quedar subtendida
entre ambas verticales un rea que es igual al 68,27 % del rea total .En el grfico ser as:
El rea total bajo la curva representa al nmero total de observaciones de la muestra, o sea el
100 %.
Si acotamos a ambos lados de la media un desvo standard, el rea subtendida entre ambas cotas es
el 68,27 % y esto significa que se obtienen dos valores entre los cuales hay un 68,27 % de los
datos de la muestra . Entonces se puede estimar que hay un 68,27 % de probabilidades de que
aparezca un valor de la poblacin en ese intervalo: un 34,13 % a la derecha de la media, y un 34, 13
% a la izquierda.
Anlogamente, si sumamos y restamos a la media 2 DS , el rea subtendida entre ambas cotas es del
95,4 % del total, o sea un 47,72 % a la derecha y un 47,72 % a la izquierda. Esto significa que
sumando y restando 2 DS a la media obtenemos dos valores entre los que hay un 95,44 % de
probabilidad de que aparezca un valor de la poblacin en ese intervalo, y tan solo 4,56 % de
probabilidad de que aparezca un valor de la poblacin fuera de ese intervalo.
Por ltimo, si sumamos y restamos a la media 3 DS, el rea subtendida por ambas cotas es de 99,74
% del rea total, o sea un 49,87 % a cada lado de la media. Esto significa que sumando y restando 3
DS a la media, obtenemos 2 valores entre los cuales hay un 99,74 % de probabilidad de que aparezca
un valor de la poblacin en ese intervalo, y tan solo un 0,26 % de probabilidad de que algn valor
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 26 -175
27-175
caiga fuera de ese intervalo. Entonces son pocas las probabilidades de que un valor tan alejado de la
media pertenezca a la misma poblacin.
En el APNDICE I, la Tabla II posee los valores precalculados de las reas bajo la curva de Gauss.
En el Captulo 3 trataremos en detalle el uso prctico de la distribucin normal y esta tabla.
Caractersticas de la curva de Gauss
De la misma manera que una recta determina su origen e inclinacin por las constantes b y a de su
ecuacin lineal:
y=a.x+b
la curva de Gauss tiene sus caractersticas dadas por los parmetros , . Recordemos que la
estimacin de la media poblacional ( ) es el promedio de promedios (o el nico promedio si se
calcul uno slo) y la estimacin del desvo standard poblacional ( ) es DS. La ecuacin que
calcula la frecuencia (u ordenada y) de la distribucin normal en funcin de una observacin
individual (o absisa x) es la siguiente
x
12
1
y=
e
2
Por ejemplo, a una distribucin con un DS (o sea ) grande , le corresponder una curva de Gauss
en forma aplastada, mientras que a una distribucin con DS pequeo le corresponder una curva de
Gauss con un pico acentuado:
Pgina 27 -175
28-175
En general, aunque un instrumento de medida est bien calibrado (es decir cuando el sistema
formado por el aparato y el observador que lo opera no cometen errores sistemticos), nunca una
serie de medidas van a dar EXACTAMENTE los mismos valores, ya que todo proceso de medicin
queda afectado por errores aleatorios provocados por una infinidad de variables fuera del control del
observador (pequeas fluctuaciones de temperatura, presin, tiempo, humedad ambiente, etc.)
Se ha tratado en detalle el concepto de sensibilidad y exactitud en las medidas individuales. Como ya
se ha mencionado, la inmensa mayora de las mediciones corresponden a variables distribuidas
normalmente. Entonces, aprovechando los conocimientos adquiridos en el estudio de las muestras
estadsticas, se pueden formular los conceptos de precisin y exactitud correspondientes a una serie
repetida de mediciones y que reflejan la exactitud y precisin del mtodo de medida utilizado.
Al repetir varias veces una misma medida (buscando estimar un nico valor verdadero), se obtiene
un conjunto de valores parecidos. Si se construye un polgono de frecuencias con estos valores. Se
ver que se agrupan simtricamente alrededor de su promedio, siguiendo una distribucin normal.
EXACTITUD DE UN METODO DE MEDIDA:
Es inversamente proporcional al promedio del error absoluto cometido, es decir la diferencia en
valor absoluto entre el PROMEDIO de las mediciones efectuadas y el VALOR VERDADERO (o
terico). Si no se cometieron errores sistemticos, el promedio de las distintas mediciones debera
ser prcticamente igual al valor verdadero para esa magnitud.
PRECISION DE UN METODO DE MEDIDA:
Es inversamente proporcional a la desviacin standard de las mediciones efectuadas; es decir, cuanto
ms dispersos sean los datos alrededor de su media, ms impreciso ser el mtodo de medida.
EXPRESION DE RESULTADOS:
X 3 DS: De repetirse nuevamente la medida, existe un 99,7 % de probabilidad de que est
includa en este intervalo
X 3 ES: Existe un 99,7 % de probabilidad de que el valor verdadero que se intenta conocer est
comprendido en este intervalo. Cuanto ms chico es este intervalo, ms confiable es el resultado de
la medida.
Ejercicio:
Si comparamos dos instrumentos de medida , uno puede ser ms preciso pero menos exacto que otro.
Como ejemplo, tomemos dos termmetros. Uno est descalibrado y siempre marca 3 grados ms que
lo que corresponde (tpico caso de error sistemtico) y su desviacin standard (tpica o habitual) es
de 0.0l C. El segundo est mejor calibrado y marca slo un grado ms (menor error sistemtico)
pero su desviacin standard tpico es de 0.05 C.
Pgina 28 -175
29-175
Pgina 29 -175
30-175
Pgina 30 -175
2.1.
31-175
ESTADSTICA INFERENCIAL
PORQUE RIESGO? Porque cuando hay incertidumbre en un sistema, las conclusiones que
se adopten sern pasibles de ser equivocadas. Por ejemplo; sacamos la conclusin (falsa)
que el frmaco A es ms activo que el frmaco B para reducir los sntomas de una
patologa, en realidad tuvimos mala suerte en nuestro ensayo y las diferencias observadas se
debieron exclusivamente al azar. Por supuesto para que este razonamiento sea vlido
debemos descartar primero que no hayan existido errores sistemticos involucrados en esas
determinaciones.
PORQUE RIESGO CALCULADO? Porque no slo nos interesa saber que nos podemos
equivocar al tomar decisiones, adems nos interesa MEDIR ese riesgo. Por eso, la
conclusin tomada como ejemplo debera ser: el frmaco A es ms activo que el frmaco B
para reducir los sntomas de una patologa .y la probabilidad de equivocarnos al tomar esa
decisin es de 1:20 (o sea p=0.05). Esto significa que estamos dispuestos de correr un riesgo
de equivocarnos al tomar esa decisin de una vez por cada veinte ensayos similares al
presente.
Hay varios tipos de preguntas que se intentan responder mediante la estadstica inferencial, pero las
ms frecuentes suelen ser:
1) LAS MUESTRAS SE COMPORTAN COMO ESENCIALMENTE IGUALES (a pesar de
las diferencias aleatorias que se observaron)? Aqu la igualdad puede referirse tanto a
medidas de tendencia central (p.ej.: promedios) como a medidas de dispersin (p.ej:
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 31 -175
32-175
varianzas), tanto para dos como para ms muestras. A esta clase pertenecen pruebas de
inferencia como el test t-Student y el ANOVA (anlisis de varianza) (ver Captulo 3)
2) EXISTE ASOCIACION O VINCULACION ENTRE VARIABLES DE UNA MUESTRA?
Aqu se trata de vincular causalmente dos magnitudes de una muestra, cualitativa y
cuantitativamente, tal vez para efectuar predicciones ulteriores por interpolacin o
extrapolacin. A este grupo de preguntas pertenece el estudio de la relacin funcional que
liga a las variables (p.ej.: buscar la recta o la parbola o en general la funcin que mejor
describe o se ajusta a un conjunto de puntos). A esta clase pertenecen pruebas de inferencia
como el test de contingencia X2 (ji-cuadrado) y el ensayo de correlacin.
3) LA VARIABLE EN CUESTION SIGUE UNA DISTRIBUCIN ESTADSTICA
PARTICULAR (p.ej: la normal)? En este caso se intenta verificar en base a parmetros
descriptivos la funcin de distribucin general de dicha variable. A esta clase pertenecen
pruebas de inferencia como test de asociacin X2 (ji-cuadrado) y el ensayo de normalidad
de Kolmogorov-Smirnov (ver Captulo 4)
4) DEL CONJUNTO DE VARIABLES ESTADISTICAS BAJO ESTUDIO, CUALES SON
LAS QUE SE VINCULAN MUTUAMENTE CON MAYOR INTENSIDAD? En este caso
se busca comparar un conjunto de variables de una muestra para buscar similitudes y separar
diferencias entre ellas. A esta clase pertenecen pruebas de inferencia como bsqueda de
cliques o clustering y anlisis de correlacin mltiple. (Estos son temas avanzados,
consultar la bibliografa sugerida, p.ejemplo el libro de SOKAL)
5) EXISTE REGULARIDAD O PATRON DE COMPORTAMIENTO EN LA SERIE
TEMPORAL DE ESTA VARIABLE? Aqu se intenta detectar si en una serie de datos
secuenciales existe alguna regularidad interna o se trata slo de fluctuaciones azarosas. A
esta clase pertenecen pruebas de inferencia como el test de rachas o el anlisis de
autocorrelacin. (ver Captulo 4 para el primero, y el libro de FISHMAN para el segundo
tema)
2.2.
Son tcnicas matemticas que permiten contestar preguntas de comparacin o de vinculacin sobre
dos o ms muestras. Adems las respuestas vienen valorizadas con el riesgo que se comete al tomar
justamente esa decisin y no otra (medido como probabilidad).
Hay dos grandes categoras de ensayos estadsticos:
Paramtricos
No Paramtricos
Dentro de cada categora se hallan innumerables tipos diversos de ensayos. No existen ensayos
universales que sirvan para cualquier caso que se presente. Se requiere estudiar y ganar
experiencia de uso para aplicar estadstica vlida. Decidir cuando se debe usar una u otra clase
depende del tipo de datos a analizar y requiere de cierto entrenamiento estadstico hallar la clase y
tipo de prueba mas adecuada para un problema en particular. Cuando desee hacer un ensayo de
inferencia, asesrese con docentes o investigadores con experiencia en estadstica. Por otra parte,
existen programas de computacin que le permiten efectuar todos los cmputos sin errores e incluso
graficar sus resultados. Lamentablemente tambin estos programas requieren cierto entrenamiento
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 32 -175
33-175
para su uso. Presentamos un cuadro que sintetiza las principales diferencias entre ensayos
Paramtricos y No Paramtricos:
TEST
PARAMETRICOS
TEST NO
PARAMETRICOS
POTENCIA
RELATIVA (*)
100%
95%-65%
APLICABILIDAD
SOBRE DATOS
CUANTITATIVOS
Slo Escala de Intervalo o
Escala de Proporcin
CUALI/CUANTITATIVOS
Escala Nominal, Ordinal,
Intervalo o de Proporcin
Obs. independientes
Poblaciones normales (z)
Varianzas proporcionales
Efectos aditivos de
causas deterministas
sobre los promedios
Poblaciones de cualquier
clase y datos de cualquier
tipo
PREREQUISITOS
EJEMPLOS
(*) La potencia relativa es inversamente proporcional al tamao muestral requerido en cada tipo
de test para poder arribar a conclusiones estadsticas equivalentes.
2.3.
Supongamos que tenemos dos grupos (A y B) de diez pacientes elegidos al azar, al grupo A se le
suministra un dentfrico con Flor y a B un dentfrico sin Flor. El experimento se prolonga durante
dos aos, al cabo de los cuales se mide la cantidad de caries en los veinte pacientes. Supongamos
que los datos medidos fueron:
DATOS REALES
Cantidad de caries en A : 0, 2, 3, 1, 3, 2, 1, 0, 5, 3 cuyo promedio es = 20/10 = 2
Cantidad de caries en B : 1, 2, 4, 5, 4, 3, 6, 2, 1, 2 cuyo promedio es = 30/10 = 3
Observemos la fluctuacin (dispersin) de los datos alrededor del promedio, si esa dispersin no
existiese y los resultados hubiesen sido:
DATOS IMAGINARIOS
Cantidad de caries en A : 2, 2, 2, 2, 2, 2, 2, 2, 2, 2 cuyo promedio es = 20/10 = 2
Cantidad de caries en B : 3, 3, 3, 3, 3, 3, 3, 3, 3, 3 cuyo promedio es = 30/10 = 3
En este caso imaginario, no hubisemos requerido estadstica para decidir que B tiene ms caries que
A (o sea 3 > 2), no hay azar y slo hay efectos causales que provocaron esos resultados. Pero, en el
mundo real de las ciencias naturales o experimentales, la probabilidad de obtener resultados sin
dispersin sobre variables derivadas de sistemas biolgicos es astronmicamente pequea. Lo
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 33 -175
34-175
habitual es encontrar muestras como la primera y es all donde hace falta alguna tcnica que nos
permita decidir si el Fluor (la nica diferencia sistemtica entre los tratamientos de A y B) previene o
no las caries.
Por eso se han desarrollado mtodos que permiten tomar decisiones de riesgo calculado como que el
promedio de caries en A es menor (o al menos distinto) que el promedio en B. Por eso, en nuestro
ejemplo se puede sintetizar con una respuesta (valorizada) a la pregunta DOS ES MENOR (O
DISTINTO) A TRES?
En estadstica, al contrario que en la aritmtica, 2 puede ser igual a 3 si de promedios se trata.
El motivo es que la diferencia entre ambos nmeros se debe exclusivamente a la casualidad, pero en
el fondo se trata de promedios equivalentes de una misma muestra o poblacin. Por eso si un
frmaco preventivo de caries como el Flor da un promedio de respuesta 2 y los controles
(individuos no tratados) da un promedio 3, son posibles dos casos mutuamente excluyentes:
a. H0 (HIPOTESIS NULA)
Los promedios son iguales, las diferencias se deben slo al azar O sea 2=3.
b. H1 (HIPOTESIS ALTERNATIVA)
Los promedios son distintos, existe una causa que provoca la diferencia O sea 2 3 o tal vez
2 < 3 (Ver ensayos de una o dos colas, presentado mas adelante).
2.4.
Como se ha dicho, los ensayos estadsticos se disean para responder a una de estas dos alternativas
mutuamente excluyentes:
a. ACEPTAR H0 (HIPOTESIS NULA) (es decir, rechazar H1), equivale a concluir que las
discrepancias observadas entre las muestras en estudio se deben exclusivamente al azar y no
existe una causa sistemtica para esas discrepancias.
b. RECHAZAR H0 (HIPOTESIS NULA) (es decir, aceptar H1), equivale a concluir que las
discrepancias observadas entre las muestras en estudio no se deben exclusivamente al azar y si
existe una causa sistemtica para esas discrepancias.
Pero, cuando se toma una decisin (en un ambiente de riesgo generado por el azar) siempre hay
riesgo de equivocarse. Se llama ERROR DE TIPO I o nivel de significacin (simbolizado como
alfa = ) a la probabilidad de equivocarse cuando se rechaza una H0 siendo que es realmente
verdadera.
Obviamente existe otra forma de equivocarse. Se llama ERROR DE TIPO II (simbolizado como
beta = ) a la probabilidad de equivocarse cuando se acepta una H0 siendo que es realmente falsa. Al
valor complementario de este valor (1-) se lo conoce como POTENCIA DEL ENSAYO de
inferencia, ya que es proporcional a la capacidad de detectar diferencias entre muestras (cuando
existe un motivo real para las mismas). La POTENCIA DEL ENSAYO es (por definicin) la
probabilidad de rechazar una H0 siendo que es realmente falsa, o sea la probabilidad de detectar
diferencias reales entre las muestras. Otro factor determinante para la potencia de los ensayos es el
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 34 -175
35-175
Entonces, para la medicina, porqu no se fija = 0 o en algn valor muy pequeo como = 10-30 ?
Ciertamente ese sera lo ideal para la hiptesis conservadora, pero como dijimos, alfa y beta estn
enlazados y si se elige un alfa demasiado pequeo beta crece demasiado (tiende a uno) y el
complemento de beta (o sea la potencia del ensayo) tiende a cero. Que un ensayo de inferencia tenga
potencia cercana a cero significa que ser prcticamente incapaz de revelar diferencias reales entre
muestras, o sea que pierde su utilidad prctica. Por ese motivo, se debe buscar un lmite superior de
alfa que sea suficientemente bajo como para ser conservador pero sin daar la potencia del ensayo.
ESTANDAR DE SEGURIDAD EN CIENCIAS NATURALES: siempre se mantiene a alfa (o sea
el nivel de significacin o error del tipo I) menor o igual a 0.05, nunca mayor a ese valor lmite
superior.
Pgina 35 -175
36-175
Las decisiones de riesgo que permite tomar la estadstica caern en cuatro categoras
LA REALIDAD
ACEPTAR H0
H0 ES
VERDADERA
H0 ES FALSA
CORRECTA
ERROR TIPO II
(=beta)
LA DECISION
(basada en un
CORRECTA
ensayo
ERROR TIPO I (regin de la
inferencial) RECHAZAR H0
potencia del
(=alfa)
ensayo)
2.5.
En general, los ensayos de significacin estadsticos buscan diferencias entre parmetros estadsticos
o entre atributos de comparacin de dos o ms muestras. Como ejemplo, los ensayos paramtricos,
es decir los test aplicados a variables que se distribuyen normalmente alrededor de su promedio
(como la propia distribucin normal -Gauss- o la distribucin de t de muestras pequeas), se
pueden formular en dos formas de H1 , como Test de una cola o como Test de dos colas. Estos
nombres provienen de considerar que los datos que se desviaron del promedio pueden estar en una o
en las dos colas de la curva normal:
1-Alfa
1-Alfa
Alfa
Alfa/2
Alfa/2
El nivel de significacin (alfa) (o sea el error de tipo I vinculado a la hiptesis nula) equivale al rea
de una cola de la campana de Gauss o de ambas, segn el caso y representa la regin de rechazo de
la H0. Su complemento (=1-alfa) es la regin de aceptacin de la hiptesis nula.
Supongamos que comparamos ( x DS ) dos muestras:
Entonces podemos formular:
( H1
( H1
2 1
y 3 2
Pgina 36 -175
2.6.
37-175
El test de una cola es ms preciso que el de dos colas, y debe ser aplicado siempre que A PRIORI
exista la sospecha de una causa sistemtica que gener esa diferencia. Por ejemplo si medimos el
umbral de dolor de un grupo (una muestra) de pacientes medicados con un analgsico o probable
analgsico respecto del observado en un grupo control (no medicado o medicado con un placebo), es
razonable que el umbral de dolor sea mayor en los medicados que viceversa. En este caso se puede
aplicar el test de una cola. Pero, si antes de comenzar con el ensayo estadstico no hay motivo para
pensar que un dato ser mayor a otro (no hay razn suficiente), se debe emplear siempre el Test de
dos colas.
Vamos a aclarar qu queremos decir con la frase no hay razn suficiente. Si se dispone de
antemano de algn indicio del sentido que debera tener una diferencia entre el grupo de ensayo y el
grupo control, entonces habr razn suficiente para disear un ensayo de una cola (por ejemplo si
probamos un hipotensor, la presin de los tratados debera ser con razn suficiente menor que la de
los pacientes control) Pero, si no hubiese indicio a priori de cual debera ser la (supuesta)
discrepancia entre los grupos bajo estudio, siempre se debe optar por una prueba de dos colas.
Resumiendo todo lo dicho acerca de la significacin y del tamao de las muestras, debern
recordarse estos cinco puntos:
El nivel de significacin () mide el error de tipo I (rechazar H0 siendo verdadera)
El valor beta () mide el error de tipo II (aceptar H0 siendo falsa)
La potencia de una prueba consiste en rechazar acertadamente una H0 siendo falsa (=1- )
La potencia de una prueba est relacionada con su naturaleza y con la H1, las pruebas de
una cola son ms potentes que las pruebas de dos colas.
5. En trminos generales, la potencia de una prueba se incrementa al aumentar el tamao de
las nuestras involucradas.
1.
2.
3.
4.
L muy importante!!
Las hiptesis estadsticas H y H y el nivel de significacin de un ensayo de estadstica
L
inferencial SIEMPRE deben ser fijadas de antemano, es decir antes de efectuar el
0
anlisis propiamente dicho. Bajo ningn concepto se debe cambiar una hiptesis
estadstica o fijar el nivel de significacin una vez conocidos los valores numricos del
ensayo. Las reglas del juego no se modifican sobre la marcha, se imponen antes de
comenzarlo. Caso contrario el anlisis estadstico se convierte de objetivo en subjetivo.
La aceptacin y rechazo de hiptesis traducidas al formato estadstico (recordemos que las hiptesis
generalmente no son estadsticas pero que se formulan luego en formato estadstico para proceder
al anlisis inferencial) siempre se produce a travs de un ensayo estadstico de inferencia
(paramtrico o no paramtrico, segn corresponda). Para decidir que clase y tipo de ensayo conviene
usar, es recomendable el asesoramiento de docentes o cientficos con experiencia en estadstica. Los
ensayos de inferencia estadstica son el mtodo mediante los cuales se ayuda muchas veces a
descubrir nuevos frmacos, se mejoran los materiales de implante dental, se ayuda a prevenir las
caries o se determina que una tcnica quirrgica es mejor que otra. Tambin servir para que el
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 37 -175
38-175
profesional de la salud juzgue con criterio propio si una propaganda de un visitador es engaosa o
no.
Como se indic previamente, la mejor manera de prevenirse para el consumo de estadstica mendaz
es capacitarse por medio de la lectura crtica de trabajos de investigacin serios de su especialidad.
Actualmente, el progreso de la medicina se basa en la utilizacin de tests de inferencia
estadsticos, no existe otra metodologa que la suplante y es un real fundamento del progreso de
toda ciencia experimental. Si no existiese, la medicina sera tema del curanderismo y la
adivinacin, no la ciencia que conocemos. Por eso es fundamental para la formacin del futuro
profesional de la salud aprehender sus fundamentos. No importa tanto la tcnica numrica que
llegado el caso se encuentra en la bibliografa especfica, lo que si importa y mucho son los
conceptos que le permitirn plantear dudas fundamentadas en su prctica profesional y acudir a las
diferentes formas de informacin como el libro, Internet o el especialista llegado el caso.
2.8.
Cuando se comparan dos grupos y siempre que sea naturalmente posible, se debe trabajar sobre las
diferencias (aparear los datos), y de esa forma el ensayo ser ms eficiente. (Ej: antes y despus de
un tratamiento en cada paciente) Del apareamiento surge que mediante el mismo cada observacin
de un grupo sirve como control para esa misma observacin en el otro grupo hacindolo as mas
eficiente (requiere menos observaciones). Por ejemplo, si medimos la respuesta a un tratamiento
antes de comenzarlo y al finalizarlo sobre un grupo de pacientes, medir las diferencias apareadas
significa eliminar efectos sistemticos no controlados dependientes del genotipo y del ambiente de
desarrollo de cada paciente (obviamente variables que no estn bajo nuestro control) y que
determinan que cada paciente responda al tratamiento en forma mas o menos personal, aunque si el
efecto sistemtico y causal del tratamiento existe, este se ver reflejado en mayor o menor grado en
cada uno de los pacientes y por ende en las diferencias registradas.
Por otra parte si se mide el efecto de dos tratamientos distintos en dos grupos separados de pacientes
seleccionados al azar, no existe motivo suficiente para aparear los pacientes del primer grupo con los
del segundo o sea no se puede ni debe aparear datos en este caso. Por el contrario, debe quedar claro
que se puede dejar de aparear datos apareables y simplemente agruparlos dentro de cada grupo al
azar, aunque por razones de eficiencia obviamente esto no ser recomendable.
Se puede demostrar que si un ensayo de inferencia permite aparear datos (por ejemplo, el test
paramtrico t-Student para medir diferencias de promedios entre dos grupos), la potencia del ensayo
(1-) apareado siempre ser mayor o igual a la potencia del ensayo agrupado. Por ese motivo hay
que aparear siempre que sea factible.
2.9. EL MUESTREO Y EL DISEO DE LAS PRUEBAS A CIEGO, DOBLE CIEGO Y
TRIPLE CIEGO
Una de las condiciones ms importantes para que una prueba de inferencia tenga valor es que las
observaciones individuales sean extradas al azar de su poblacin de origen (poblacin sobre la que
se desean hacer inferencias). Esto se aplica tanto a ensayos paramtricos como a los no paramtricos
y su incumplimiento atenta contra la validez fundamental del ensayo. Debe tenerse en cuenta que su
Pgina 38 -175
39-175
Pgina 39 -175
40-175
mismo espera. Por ejemplo, si un paciente sabe que se est haciendo un estudio sobre el poder
analgsico de una droga y sabe que l esta ingiriendo esa droga y no un placebo (especie
farmacutica con igual aspecto y caracteres organolpticos que el tratamiento pero sin su principio
activo), entonces es posible que espontneamente sienta menos dolor (an como mecanismo
inconsciente). Este efecto alterar totalmente los resultados y falsea las conclusiones. Otro tema a
considerar pasa cuando el observador que registra los datos de los pacientes conoce de antemano si
los pacientes han sido tratados o son controles con placebos. En ese caso, es imposible que el
observador (que conoce cul es la respuesta deseada) no posea algn tipo de prejuicio sobre lo que
est midiendo, conciente o inconsciente. Como hay que eliminar estos sesgos (en estadstica se llama
as a cualquier tendencia sistemtica que desva el valor de las mediciones) se han diseado mtodos
que quitan esa fuente de problemas. En grado creciente de utilidad, los diseos se clasifican en:
Ensayo DOBLE CIEGO: Ni el individuo ni el observador que registra las mediciones saben
a que categora pertenece cada uno y por ende no estn prejuiciados a-priori.
Pgina 40 -175
41-175
Las mltiples pruebas de inferencia responden todas a un patrn comn, lo que simplifica
enormemente su estudio sistemtico. Cualquiera sea la clase de prueba de inferencia, ya sea
paramtrica o no-paramtrica, existen reglas generales que permiten racionalizar su lgica y de esa
manera ganar experiencia para capturar la esencia de cualquiera de ellas. En general los ensayos se
efectan por medios informticos lo que simplifica todo el proceso y evita los errores
computacionales.
COMPUTO DE LA PROBABILIDAD
ASOCIADA AL ESTADISTICO DE
ENSAYO
ACEPTAR O RECHAZAR H0
Si el p obtenido alcanza o
supera al definido, se acepta
Ho, si el p fuese menor que el
, se rechaza H0
Vamos a dar un ejemplo de interpretacin prctica de este cuadro. Supongamos que tenemos diez
pacientes diabticos y a cinco les suministramos u hipoglucemiante, a la hora las medidas de
glucemia fueron (en g/l) 1,32 - 1,22 - 1,05 - 1,53 y 1.16. El resto control arroj los resultados
1,55 - 1,69 - 2,13 - 1,62 y 1,81. Ingresamos los datos en dos columnas paralelas y fijamos la
H0:tratados=control vs. H1:tratados<control (de 1 cola!). Adems fijamos nuestro nivel de
significacin en 0,01. Ahora computamos el estadstico de prueba t-Student (agrupado) (ver
Captulo 3) y nos d el valor t=5,76 con 8 grados de libertad y una probabilidad asociada de
Pgina 41 -175
42-175
0,00032. Como ese valor de probabilidad es menor que el nivel de significacin, se rechaza H0 y se
acepta H1.
2.11. DISEOS
FALTANTES
SIMETRICOS,
ASIMETRICOS
MANEJO
DE
LOS
DATOS
Cuando se quiere comprobar el efecto de dos o mas intervenciones sobre una poblacin, se puede
optar por seleccionar muestras de igual tamao para cada caso o dejar ese nmero librado al azar.
Desde el punto de vista de la potencia de los ensayos de inferencia, la opcin no admite dudas. La
primer variante debe ser siempre la preferida y se la conoce como diseo experimental simtrico. El
motivo de su mayor eficiencia es que al asignar el mismo tamao a cada clase o categora, todas las
opciones reciben a priori el mismo peso estadstico y se optimiza la flexibilidad del ensayo frente a
todas las alternativas. Por ejemplo, si un grupo A posee una respuesta dbil frente a otro grupo B
con una respuesta mucho ms manifiesta y si la influencia del azar es proporcionalmente importante
frente a la influencia causal medida, elegir un tamao muestral ms pequeo para A que el elegido
para B debilitar sensiblemente la potencia del ensayo.
Si se piensa en trminos econmicos, cada observacin individual cuesta dinero adems de otros
recursos escasos como tiempo de trabajo y recursos humanos. Por eso, la mejor manera de distribuir
el presupuesto para el ensayo es asignar recursos equivalentes para cada alternativa considerada.
Esto es, todo experimento debe ser diseado en forma simtrica a menos que exista una buena
razn para no hacerlo.
Sin embargo, a veces no se puede evitar que el diseo termine siendo asimtrico, an a pesar del
investigador. Muchas veces es imposible pensar en simetrizar un diseo a priori, por ejemplo si se
estuviese efectuando un estudio sobre una enfermedad muy poco frecuente, es improbable que se
pueda obtener suficientes recursos como para que el diseo quede simtrico. Otras veces los
pacientes fallecen, se pierden o desaparecen de un ensayo. Hay factores imprevistos, las
observaciones de destruyen o se agotan los recursos para obtenerlos. Entonces aparecen huecos o
datos faltantes en diseos que de otra manera seran absolutamente simtricos. El tema es cmo
completar esos huecos y cundo decidir que es imprescindible hacerlo.
En primer lugar, si se producen huecos en un diseo simtrico lo primero que debe considerarse es
reponer el dato faltante. A veces es posible hacerlo, a veces no. Esta es la mejor opcin, con un
poco de esfuerzo adicional se consigue otro paciente y se repite su tratamiento o se adquiere por la
va habitual una nueva observacin. Si eso no fuese posible, considere la alternativa de seguir
adelante con el diseo asimtrico. Pero, si decide que la simetra debe ser recuperada a toda costa,
existe una tcnica que le permite simular uno o mas (nunca ms del 5% del total) de los datos
faltantes.
El mtodo es simple, el nmero o dato reemplazante debe provenir de una fuente (artificial en este
caso) que tenga la misma estructura que la natural u original. Por eso, si el resto de los datos
colegas, es decir aquellos que acompaan al faltante, posee una cierta estructura detectable, esa
misma estructura debe ser empleada para generar al dato que falta. Por ejemplo, si dentro de un
grupo o tratamiento debiesen existir 15 observaciones pero se perdieron 2, lo que hay que hacer es
investigar la clase de distribucin que cumplen los 13 datos colegas. Supongamos que esos datos
responden a una distribucin normal definida por una media y la varianza N(,2) lo que
corresponde es generar dos nuevos nmeros que respondan a esa misma distribucin.
Pgina 42 -175
43-175
Para generar una secuencia de nmeros aleatorios con distribucin uniforme, basta usar un
programa generador de nmeros seudoaleatorios por computadora o recurrir a la TABLA I del
APENDICE.
Aqu seudoaleatorio es un tecnicismo estadstico que se aplica a la generacin determinista de
secuencias caticas, pero a los fines prcticos, cuando mencionemos esta palabra se deber
entender como equivalente a la palabra aleatorio.
Para generar una secuencia de nmeros distribuidos normalmente con media y varianza 2, se procede de la
siguiente manera:
Otra situacin que suele repetirse y en la cual resulta de inters completar datos faltantes aparece en
cuadros de frecuencia. Por ejemplo, en una matriz numrica (tabla rectangular de valores) donde
cada celda contiene la frecuencia registrada para esa fila y esa columna y cuando lo que se busca
comprobar es que esas frecuencias estn distribudas en forma uniforme, se calculan celdas faltantes
de la misma forma que se procede para calcular frecuencias esperadas en la prueba no paramtrica
de contingencia chi-cuadrado (2) (ver Captulo 4). El mtodo es simple, para cada fila y cada
columna se suman los valores (esto se conoce como sumas marginales). Obviamente la suma de las
sumas dan el total general. Entonces, si falta el dato de frecuencia de una columna cuya suma es m
y la fila cuya suma es n, y adems el total general es k, la frecuencia faltante (usando la hiptesis de
independencia) ser = (m.n)/k.
En otros casos podra ocurrir que hiciese falta obtener nmeros aleatorios distribuidos segn
cualquier otra funcin estadstica. En esos casos se recomienda recurrir al libro que trata en
profundidad este tema (FISHMAN, 1978).
Pgina 43 -175
Pag 44-175
Pgina 44 -175
3.1.
Pag 45-175
Vamos a comenzar con un anlisis general de una tcnica de transformacin de variables en el formato
de la distribucin normal (Ver Captulo 1) Porqu es importante transformar datos provenientes de
mediciones sobre sistemas biolgicos en datos compatibles con la distribucin normal? Porque esa
distribucin es la ms importante de las ciencias experimentales y porque permite sacar fcilmente
conclusiones acerca del comportamiento general de una muestra que de otra forma no sera posible o
llevara un esfuerzo considerable.
Se conoce como distribucin z a la distribucin normalizada (media cero, desviacin standard 1) de
cualquier variable que cumpla con las hiptesis de la distribucin normal o Gaussiana. Cuando una
muestra de la cual se intuye de antemano que proviene de una poblacin que sigue la distribucin
normal y ya se han calculado su media y la desviacin standard, se normaliza la misma a travs de la
siguiente transformacin de datos que pasan los valores x iniciales a valores z:
z=
x X
DS
z indica la desviacin del valor x respecto de la media , medida en unidades de DS, o sea, indica a
cuntas DS est el valor x del promedio.
Ejemplo: la cantidad de PABA (cido p-amino benzoico) excretada por la orina en una muestra de
1000 hombres cuyas edades estn comprendidas entre 50 y 55 aos fue de 151,0 15,0 g / 24 Hs
( x = 151,0 g / 24 Hs ; DS = 15,0 g / 24 Hs ). Considerando que esa tasa de excrecin se encuentra
distribuida normalmente, cuntos hombres de la muestra dada presentan una tasa de excrecin de
PABA ubicada entre 119,5 g / 24 Hs y 155,5 g / 24 Hs ?
Antes de comenzar valga la acotacin que si aqu no se aplica la transformacin normal (z) arriba
detallada, no sera posible responder a esta pregunta. La nica forma viable de lograr esa respuesta es
suponer que la tasa de excrecin de ese metabolito por orina sigue una distribucin Gaussiana. Una vez
asumida esta hiptesis (que por otra parte resulta verificablemente verdadera) pasamos a resolver este
interrogante.
1) Se calculan los valores de z para cada uno de los extremos del intervalo teniendo en cuenta que la
variable es continua:
Entonces :
z1 = (119,5 151) / 15 = -2,1 y
z2 = (155,5-151)/ 15 = 0,3
lo que indica que el valor 119,5 est a 2,1 DS por debajo del promedio, y el valor 155,5 est a 0,3 DS
por encima del promedio.
2 ) Luego se buscan las probabilidades respectivas para z1 y para z2 en la tabla correspondiente. Para
obtenerlos, acudimos al APENDICE - TABLA II: DISTRIBUCION NORMAL (z) donde se encuentra
la probabilidad de que un valor z dado est entre cero y un lmite a tabulado. Grficamente:
Pgina 45 -175
Pag 46-175
Para z1 = -2,1
la probabilidad tabulada de z entre 0 y +2,1 que es 0,4821, pero la curva normal es simtrica,
por eso el rea entre 0 y +2,1 es igual al rea entre -2,1 y 0. Se concluye que el 48,21 % de los
individuos de la poblacin excretan PABA por orina entre 119,5 y 151,0 g / 24 Hs ).
Para z2 = 0,3
Con frecuencia en medicina se plantea la siguiente pregunta: cundo un valor dado representa
solamente una variacin normal con respecto al promedio y cundo ese valor se considera
patolgico?
Entre los valores considerados normales hay un valor promedio y el resto de los valores se distribuyen
alrededor del promedio segn un valor de DS. Un valor alejado del promedio, es necesariamente
patolgico o puede ser un valor normal con poca probabilidad de ocurrencia? Si bien no puede darse
una respuesta absoluta, la estadstica permite calcular cul es la probabilidad de que un valor pertenezca
a la poblacin de los valores normales; si esa probabilidad es muy baja se asumir que el valor es
patolgico.
Como ya hemos indicado (en el mbito biolgico), se han fijado convencionalmente los siguientes
niveles de significacin :
Pgina 46 -175
Pag 47-175
probabilidad < 0,01 (1 % de probabilidad de que la desviacin est dentro del rango
normal y se haya debido al azar) NIVEL MUY SIGNIFICATIVO - (**)
probabilidad < 0,001 (0,1 % de probabilidad de que la desviacin est dentro del
rango normal y se haya debido al azar) NIVEL ALTAMENTE SIGNIFICATIVO (***)
Para saber donde estn los lmites de significacin de z, consultamos la tabla y vemos que:
a) ENSAYO DE DOS COLAS
z = 1,96
z = 2,58
z = 3,29
(p tabulada de 0.4750 x 2 = 0,95 = 95%, o sea entre las 2 colas suman 5%)
(p tabulada de 0.4951 x 2 = 0,99 = 99%, o sea entre las 2 colas suman 1%)
(p extrada de otra tabla mas extensa = 99,9%, o sea entre las 2 colas suman 0,1%)
Interpretacin para el ensayo de dos colas:
H0: la desviacin (z) observada es igual a cero
H1: la desviacin (z) observada es distinta a cero
Si un z experimental se encuentra dentro del intervalo [-1,96, +1,96] el desvo registrado
no es significativo y se acepta H0. Si el valor de z est dentro del intervalo [-2,58, -1,96)
o dentro del intervalo [+2,58, +1,96) el desvo registrado es significativo y se rechaza H0
al nivel 5%. Si el valor de z est dentro del intervalo [-3,29, -2,58) o dentro del intervalo
[+3,29, +2,58) el desvo registrado es muy significativo y se rechaza H0 al nivel 1%. Si el
valor de z est dentro del intervalo (-, -3,29) o dentro del intervalo (+, +3,29) el
desvo registrado es altamente significativo y se rechaza H0 al nivel 0,1%.
z = 1,65
z = 2,33
z = 3.08
Pgina 47 -175
Pag 48-175
(por ejemplo, para glucemia glucosa circulante en sangre - se toma una muestra de sangre venosa
en un tubo conteniendo un agente glucosttico como flor durante las primeras horas de la maana y
en condiciones de ayuno de 8 horas)
Aceptando esa convencin y volviendo al ejemplo de la excrecin urinaria de PABA de los 1000
pacientes, cules son los valores normales de este indicador? Obviamente, si miramos los valores
lmites de z con dos colas, el intervalo de confianza 95% se establece si z est dentro del intervalo [1,96, +1,96]. Slo nos resta traducir esos lmites en trminos de excrecin:
Lmite Inferior 95% = x 1,96 DS = 151,0 1,96 . 15,0 = 121,6 g / 24 Hs (ensayo de 2 colas)
Lmite Superior 95% = x + 1,96 DS = 151,0 + 1,96 . 15,0 = 180,4 g / 24 Hs (ensayo de 2 colas)
O sea el intervalo de confianza 95% y rango de la normalidad es [121,6 a 180,4] g / 24 Hs . Por lo
tanto si una persona posee una tasa de excrecin de PABA de 117,0 g / 24 Hs se lo considera
ANORMAL (patolgico, al nivel 5% de dos colas) y si tuviese una excrecin de 194,0 g / 24 Hs
dem. Obsrvese que (por ahora) decimos que es ANORMAL y no aclaramos HIPOEXCRETOR o
HIPEREXCRETOR respectivamente, ya que slo hemos efectuado un ensayo de dos colas. Sin
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 48 -175
Pag 49-175
si un ensayo de 1 cola es
significativo (rechazo de H0) al nivel
1%
Obviamente en estos cuadros se puede cambiar el valor 1% del cuadro de la izquierda por cualquier
otro (5%) pero se deber ajustar convenientemente el valor del cuadro de la derecha.
3.2. COMPARACIN DE DOS GRUPOS NORMALES: TEST t-STUDENT
x1 x2
ES
Pgina 49 -175
Pag 50-175
t brinda la desviacin del valor promedio x1 con respecto al valor promedio x2 , medida en unidades
de ES (error standard). Los valores tpicos de esta distribucin estn tabulados, en el APENDICE
TABLA III se presenta un extracto de esta tabla. En esta tabla de t-Student se encuentran las
probabilidades que tiene el valor dado de pertenecer a la distribucin t, segn el valor de t
calculado, y los grados de libertad. Los grados de libertad, trmino vinculado a los valores que se
pueden elegir libremente una vez fijadas ciertas restricciones sobre los parmetros, toman valores
vinculados a los tamaos de las muestras, como ser = n-1 o =n1+n2-2. Entonces se buscan en la
primera columna esos grados de libertad y en el cuerpo de la tabla, se busca el valor t (que fuera
calculado previamente) y para ese grado de libertad. Las probabilidades de que ese valor x pertenezca a
la poblacin se encontrarn en la parte superior, horizontalmente y encabezando la columna de t o
interpolando.
Bsicamente existen dos variantes para la prueba de inferencia t-Student, el TEST AGRUPADO y el
TEST APAREADO. Estas variantes se refieren al tema de apareamiento de datos que ya ha sido
discutido en un punto previo del captulo anterior. Slo nos limitaremos a recordar dos hechos: el test
apareado que trabaja sobre las diferencias entre dos grupos, es ms potente que el agrupado pero slo se
puede efectuar si hay justificacin para proceder a ese apareamiento. Vamos a ver ejemplos de ambas
variantes.
a) TEST t-STUDENT AGRUPADO
Tenemos dos muestras A y B cuyos promedios se desean comparar. En este caso (no hay
razones para aparear), los tamaos de dos muestras A y B (que llamaremos nA y nB) pueden
incluso llegar a ser diferentes. Lo primero que se hace es calcular el parmetro de dispersin que
es el error standard de la diferencia:
1) Para asegurar una mejor estimacin del significado de la diferencia entre las medias, se
calcula un ES combinado a partir de los DS (desvo standard) de ambas muestras:
DS comb =
( x
X A )2 + ( x B X B )2
( n A 1 ). DS A 2 + ( n B 1 ). DS B 2
=
( n A + nB 2 )
n A + nB 2
ESdif = DS .
nA + nB
nA . nB
XA XB
XA XB
=
ES dif
DS comb
n A .n B
n A + nB
Pgina 50 -175
Pag 51-175
Grados de libertad: son (n-1) para cada muestra, pues estn dados por el nmero de diferencias
independientes (x-X) utilizadas para determinar el DS. Si se consideran las 2 muestras, los
grados de libertad sern:
= nA + nB - 2
d
n
( d d )2
n1
Pgina 51 -175
ES =
Pag 52-175
DS
n
t=
d
ES
Clculo de los grados de libertad: teniendo en cuenta que trabajamos con una sola muestra, los
grados de libertad son:
=n-1
Para interpretar el resultado, consultamos como antes la tabla t-Student. En la fila
correspondiente al nmero de grados de libertad, buscamos en la tabla el valor ms prximo al
t calculado, y leemos la probabilidad que le corresponde. Luego interpretamos
estadsticamente este valor de probabilidad comparado con el nivel exigido de antemano de
0,05, 0,01 o 0,001 para concluir si se cumple la hiptesis de nulidad H0 (diferencia nula) o si el
tratamiento ha sido efectivo.
3.3. PRUEBA DE ASOCIACIN Y CORRELACIN LINEAL ENTRE VARIABLES
CUANTITATIVAS
Nos enfrentamos en investigaciones cientficas con el problema de medir el grado de relacin existente
entre dos variables de una misma poblacin. Esto se define como una clase de anlisis de asociacin
cuantitativo entre las variables. Este ANLISIS DE ASOCIACIN recibe el nombre de ANALISIS
DE CORRELACIN cuando se desconoce la relacin funcional entre las mismas y como ANALISIS
DE REGRESIN si ya se conoce la relacin funcional (recta, parbola, polinomio, exponencial, etc.)
entre las variables. Generalmente se comienza con el Anlisis de Correlacin y una vez demostrada se
pasa al Anlisis de Regresin con un modelo lineal (recta) o no lineal (otra)
Por ejemplo, queremos investigar si existe una relacin entre el nivel de colesterol y la frecuencia de
crisis cardiovasculares de un grupo de pacientes. Si esta relacin existe y puede expresarse
matemticamente mediante la ecuacin de una recta, se dir: la correlacin es lineal. Cabe aclarar
que es el nico tipo de correlacin que estudiaremos en este trabajo.
Grfico:
En principio, para visualizar la relacin entre los dos grupos de valores, se le asigna cada grupo un eje
de un par de ejes coordenados. A cada par de datos, formado por un dato de cada grupo que se
correspondan entre s, le asignamos un punto en el diagrama.
y
G
E
*
C
*
*
*
A
F
*
*
D
*
B
x
Se obtiene as un conjunto de puntos del plano, que pueden estar alineados o no. Aunque todos los
puntos no queden sobre una misma recta, supongamos que observamos por su ubicacin una tendencia
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 52 -175
Pag 53-175
lineal. Nos preguntamos: existir una recta que corresponda a la correlacin lineal entre ambas
variables? De existir esta recta, pasara por todos los puntos si stos no hubiesen sufrido desviaciones
por azar.
Para determinar si existe correlacin lineal entre los dos grupos de datos de la muestra calculamos el as
llamado coeficiente de correlacin del producto-momento de Pearson ( r ) con la frmula:
1
( x x )( y y )
r= n
DS x DS y
n2
1 r 2
Se busca en la tabla de distribucin de t-Student (APENDICE-TABLA III) para (=n-2) grados de
libertad, qu probabilidad hay de que esa correlacin fuera hallada por azar.
Prueba de nivel
Determinados los niveles de significacin de 0,05, 0,01 y 0,001 (prueba de dos colas), segn el
criterio del profesional como exigencia impuesta al problema, resulta:
- si la probabilidad es ms alta que el nivel impuesto, se concluye que la correlacin no es
significativa, o sea, la asociacin fue por azar.
- si en cambio, la probabilidad hallada fuera menor que el nivel marcado, la correlacin es
significativa, es decir, hay un grado de asociacin lineal entre las dos variables estudiadas.
REGRESIN LINEAL
Si la correlacin lineal entre ambas variables fue aceptada, nos veremos en el problema de hallar la
ecuacin de la recta que las vincula (pendiente y ordenada al origen). La solucin grfica aproximada
se obtiene trazando la recta que mejor se ajuste a la distribucin de los puntos experimentales. Los
clculos de los parmetros a y b de la recta son:
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 53 -175
a=
n. ( x. y ) x. y
n. x ( x)
2
b=
Pag 54-175
y a.x
n
Muchas veces surgen situaciones en las cuales se desea verificar la regresin lineal entre un conjunto
de variables independientes (x1, x2, x3, , xn) y una variable dependiente (y). Por ejemplo si se
sospecha que el nivel de colesterol (x1), la presin arterial (x2) y la temperatura corporal (x3) definen
linealmente el grado de obstruccin venosa (y), se podra plantear el siguiente modelo de correlacin
mltiple:
y = a 0 + a1 x1 + a 2 x 2 + a 3 x 3
donde a0 es el trmino independiente y a1, a2 y a3 son los coeficientes lineales, todos a determinarse si
se dan como dato un conjunto de grupos de valores (x1, x2, x3, y) . Otras veces, surge la necesidad de
buscar los coeficientes polinmicos que mejor se ajustan a un conjunto de puntos experimentales (x,
y). Por ejemplo, si tuvisemos algn fundamento para pensar que la inflamacin de un rgano (y)
depende de una ecuacin de tercer grado (polinomio cbico) con respecto al nmero de leucocitos
circulantes (x), podramos plantear el siguiente modelo de correlacin no lineal:
y = a 0 + a1 x + a 2 x 2 + a 3 x 3
donde ahora a0, a1, a2 y a3 son respectivamente el trmino independiente, el trmino lineal, el trmino
cuadrtico y el trmino cbico a determinar si se da como dato un conjunto de pares de valores (x, y).
Si observamos las ecuaciones de los dos modelos planteados, surgen similitudes que nos hacen pensar
en que ambos modelos se resuelven por la misma va computacional. En efecto, apelamos a un
procedimiento muy empleado en estadstica que es el cambio de variables. Si a la variable lineal, en el
segundo caso, la llamamos x x1, al cuadrado x2 x2 y al cubo x3 x3 vemos que precalculando
el cuadrado y el cubo de cada x experimental, obtenemos el mismo caso del primer modelo.
Correlacin lineal mltiple y regresin no lineal son problemas isomorfos y poseen una misma
solucin.
El mtodo de resolucin general se conoce como mtodo de mnimos cuadrados (del cual la regresin
lineal es slo el caso particular para polinomios de grado uno), ya que busca minimizar los cuadrados
de las distancias entre los puntos experimentales y los de la funcin que se calcula. Como caso
particular vamos a resolver el modelo arriba planteado, aunque es fcil generalizarlo a cualquier grado
de polinomio o cantidad de variables independientes.
1) Se comienza con el primer modelo (el de regresin lineal mltiple) y si hiciese falta se hace el cambio de variables para
llegar a l. Vamos a considerar m=3 el nmero de variables independientes y n el nmero de repeticiones o puntos
utilizados. Como primer paso se debe calcular la matriz (cuadro rectangular de valores) de covarianzas:
Pgina 54 -175
SS 11
SS 21
SS
31
SS 12
SS 22
SS 32
Pag 55-175
SS 13
xi x j ; SS = x 2 ( xi ) 2
SS 23 ; donde SS ij = x i x j
i
ii
n
n
SS 33
observar que la matriz es simtrica (respecto de la diagonal principal), o sea p.ej: SS31=SS13 y los elementos de la diagonal
principal, p. ej: SS22 son las varianzas de cada variable.
2) Se calcula el vector independiente (columna de valores) de trminos independientes:
SS 1 y
xi y
SS 2 y ; donde SS iy = x i y
n
SS
3y
3) Se obtiene el vector solucin de los tres coeficientes (a1 a2 a3) por inversin matricial (una operacin numrica
efectuada sobre matrices, normalmente realizada por medio de un programa de computacin) y producto de la matriz
inversa con el vector independiente (tambin efectuado por computadora)
a1 SS 11
a 2 = SS 21
a SS
3 31
SS 12
SS 22
SS 32
SS 13
SS 23
SS 33
SS 1 y
SS 2 y
SS
3y
4) Habiendo resuelto los valores de (a1 a2 a3) obtenemos el valor del trmino independiente
a 0 = y m bi x i ; donde y =
y
n
y xi =
Vy =
SS r
; donde SS r = SS yy m a i SS iy
; SS yy = y 2
( y ) 2
n
; ( g . de l.) = n m 1
t=
ai
Vbi
; con ( g. de l.) = n m 1
y si alguno de estos coeficientes resultase N.S. (no significativo al nivel p=0,05) se lo debe eliminar del modelo. Por eso,
suponiendo que a1, a2 son significativamente diferentes a cero pero a3 no lo fuese, el sistema quedara reducido a
y = a 0 + a1 x1 + a 2 x 2
o segn el caso a
y = a 0 + a1 x + a 2 x 2
En caso de requerir la inversin matricial (y el producto matricial de esa matriz por un vector) puede emplear un
programa matemtico especfico o una planilla de clculos como Excel, Lotus, etc. Si no supiese operar con esos
programas, simplemente consulte a quien pueda asistirlo.
Pgina 55 -175
Pag 56-175
( p + q) = 1
( p + q ) 2 = p 2 + 2 pq + q 2 = 1
( p + q ) 3 = p 3 + 3 p 2 q + 3 pq 2 + q 3 = 1
n
n
n
( p + q ) n = p n q 0 + p n 1 q 1 + p n 2 q 2 +
0
1
2
n
n
n
+ p n n q n = p n i q i = 1
i =0 i
n
En la ltima expresin aparecen los coeficientes binomiales que dependen de la funcin factorial, a saber:
n
n!
=
; donde n! = 1.2.3.....(n 1).n y por definicin 0! = 1
i i! (n i )!
Como en cada potencia del binomio la suma de todos sus trminos sigue dando uno, es lgico pensar
que cada uno de esos trminos representa un valor de probabilidad y su conjunto (es decir esa
expansin del binomio) una distribucin estadstica de frecuencias. Esto es as y a esa distribucin se la
conoce como binomial. Veremos que esa distribucin (al igual que la normal) es simtrica y su forma
tiende a la clsica campana de Gauss a medida que n. Vamos a interpretar lo que significa cada
trmino en una de esas expansiones. Por motivos de simplicidad, elegimos la expansin cbica
Pgina 56 -175
Pag 57-175
Cul es la probabilidad de en una muestra de 215 personas elegidas al azar 2 estn enfermas de MI?
Notar la relevancia de la aplicacin de este tipo de anlisis en reas como la epidemiologa. En
particular notar su relevancia por ejemplo para determinar la aparicin de enfermedades asociadas
a periodos definidos del ao o epidemias localizadas como el SARS o pandemias como el HIV. A
partir de este tipo de evaluaciones es que los gobiernos deben tomar medidas precautorias
decidiendo la generacin de campaas de prevencin para asistir a las poblaciones sujetas al riesgo.
Aplicando los conceptos discutidos, vemos que:
y cul es la probabilidad de en una muestra de 2150 personas elegidas al azar 2 estn enfermas de
MI?
2150 2 2148 2149.2150 2 2148
p q
p (2,2150) =
=
.p q
= 23005 (0.0025) 2 (0.9975) 2148 0.067
1.2
2148
Obsrvese que esta ltima probabilidad nos sorprende por su bajo valor, el motivo es que en una
poblacin de ese tamao sera raro encontrar tan pocos (slo dos) enfermos de MI. Otro tipo de
preguntas referidas a la distribucin binomial requieren el cmputo de la distribucin binomial
acumulada. Estas probabilidades estn registradas en la TABLA VII del APENDICE. Por ejemplo:
Cul es la probabilidad de en una muestra de 2150 personas elegidas al azar al menos 2 estn
enfermas de MI?
Podemos deducir que para contestar esta pregunta deberamos calcular la probabilidad de aparicin de
2, 3, 4, .., 2150 enfermos en esa muestra y sumarlas porque todos esos casos son mutuamente
excluyentes (recordemos la ley de la suma de probabilidades que ya ha sido vista). O sea:
2150
2150 i 2150 i
p q
p ( 2,2150) =
0,97
i = 2 2150 i
Este tipo de cuentas puede ser engorrosa de resolver y normalmente requiere la consulta a la TABLA
VII del APENDICE o de una computadora con un programa estadstico adecuado como las planillas de
clculo fciles de acceder como Excel o Lotus. Sin embargo, si se piensa un poco, muchas veces se
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 57 -175
Pag 58-175
pueden economizar los cmputos. Por ejemplo con esta ltima pregunta, la respuesta es ms fcil de
computar si se formula el caso complementario.
La probabilidad de hallar dos o ms enfermos de MI en 2150 personas es igual a uno menos la
probabilidad de hallar 0 o 1 enfermos.
Evidentemente esta versin requiere (manualmente) solo 2 cmputos, es decir:
2150 2150 2150 2149
q
pq
p ( 2,2150) = 1
0,97
2150
2149
aunque con el programa se obtiene el resultado en fraccin de segundos. La distribucin binomial
tiende a la distribucin normal como caso lmite cuando p0 (o sea q1) y n.
Ntese a esta altura la importancia de una correcta formulacin de la pregunta ya que ello no solo
contribuye a la obtencin de la respuesta adecuada sino que nos permite aun simplificar la
propuesta matemtica de abordaje.
z 2 z z 3 z
e , e ,...
2!
3!
Pgina 58 -175
decesos
quirrgicos
0
1
2
3
4
5
6
Pag 59-175
En total tenemos 122 decesos, o sea el promedio (z) de muertes por hospital y por ao es 0,61. En este
caso, el valor de e-z 0,543 y el valor computado (terico) de 0, 1, 2, 3, 4, 5 y 6 bitos es en trminos
de probabilidades 0,543, 0,331, 0,101, 0,021, 0,003 , 0,0004 y 0,00004. Traducido en decesos
(por 200 aos de actividad) los valores computados (tericos) son 109, 66, 20, 4, 0,6, 0,08 y 0,0008.
Podemos comparar estos datos con los realmente registrados y vemos que la coincidencia es muy
buena. Mas adelante se ver un mtodo no paramtrico (prueba x2-Chi cuadrado de bondad de ajuste)
que permitir verificar objetivamente la H0: ajuste bueno versus H1: ajuste malo con un test de dos
colas.
Tambin para esta distribucin puede ser de inters conocer la probabilidad de la distribucin
acumulada. Nuevamente acceder a programas como Lotus o Excel resuelve ese problema con una
simple funcin. Por ejemplo
Cul es la probabilidad que haya 3 o ms decesos quirrgicos por ao en los servicios de transplante
cardaco?
p ( 3, z = 0.61) =
i =3
z i z
e 0,024
i!
Este cmputo se efecta en forma simple e inmediata usando esas planillas de clculo.
3.6. ANOVA: FUNDAMENTOS DEL FRACCIONAMIENTO DE LA VARIANZA
ANOVA es una sigla universalmente adoptada y que significa anlisis de varianza. Se refiere a una
familia de tcnicas estadsticas paramtricas destinada a la comparacin simultnea de dos o ms
promedios muestrales, extrayendo toda la informacin estadstica disponible de esas muestras siempre
que se cumplan un mnimo de condiciones que vamos a detallar.
Los ANOVA no son un ensayo estadstico ms. Estamos frente a la metodologa estadstica ms
sofisticada disponible en el arsenal de la estadstica inferencial paramtrica. Representan una familia
muy potente de deteccin de diferencias muestrales, un muy eficiente filtro estadstico del ruido
aleatorio y que permite recuperar y amplificar seales causales dbiles pero reales. Con casi 80
aos desde su creacin por el padre de la estadstica moderna R. A. Fisher, ha sido sucesivamente
perfeccionada por generaciones de estadsticos.
Pgina 59 -175
Pag 60-175
Las condiciones mnimas exigidas por el ANOVA para que se puedan comparar (por ensayos de una y
dos colas) a un conjunto de muestras experimentales son las siguientes:
1) Las muestras provienen de poblaciones normalmente distribuidas. Existen ensayos
especficos que responden a esta cuestin con precisin (prueba Kolmogorov-Smirnov, test
Lilliefors y prueba W de Shapiro-Wilks amn del Chi-cuadrado de bondad de ajuste)
2) Las muestras poseen homogeneidad de varianza residual debida al error (aleatorio). Existe
un test paramtrico (test de Bartlett) que permite controlar esta condicin en caso de dudas.
3) Los efectos causales son aditivos, o sea que si hay causas que desplazan a los promedios de
las muestras, estos se suman y restan algebraicamente (esta condicin se cumple siempre
que no exista el fenmeno de interaccin que generalmente el propio ANOVA se encarga
de controlar)
En general ninguna de estas condiciones (salvo la primera) es demasiado restrictiva ya que la casi
totalidad de los fenmenos normalmente distribuidos en ciencias naturales cumplen el papel de
buenas y permiten la aplicacin del ANOVA. Por otra parte, cuando aparece alguna anomala que
atenta contra la validez del ANOVA, aparecen otras al unsono.
Porqu el ANOVA es tan eficiente en la comparacin de varias muestras simultneas? Queda claro
que para dos muestras existe una sola comparacin posible y esta la efecta un test t-Student con toda
eficiencia. Pero si tuvisemos tres muestras hay tres comparaciones internas posibles, por eso o se
efecta un ANOVA que las hace todas en un solo ensayo o se hacen 3 test t-Student. La situacin se
complica si comparamos ms muestras simultneas, por ejemplo diez muestras comparadas todas
contra todas:
10
aqu se deberan efectuar = 45 test t-Student o un nico ANOVA
2
La eleccin es clara. Y la situacin se complica cada vez ms a medida que crece el nmero de
muestras (y el nmero combinatorio) y esa es la razn principal de la eficiencia de un ANOVA. Otra
razn se ver ms adelante y consiste en que permite detectar y separar la accin de varios factores o
causas independientes (y aditivas) sobre una misma muestra lo que no permite el test t-Student.
Finalmente el ANOVA permite detectar desviaciones de la aditividad (interacciones) entre los factores
en estudio, nada de esto se detecta con el t-Student. Resumiendo, el test t-Student se reserva
exclusivamente a la comparacin de dos grupos y nunca se replica para comparar un conjunto mayor de
muestras, sencillamente se emplea un ANOVA.
El lenguaje ANOVA
Vamos a ilustrar ahora el lenguaje particular del ANOVA (anlisis de varianza). Primero repasemos el
concepto de varianza, una de las medidas de dispersin de los datos alrededor de su promedio.
s
(x x)
=
n 1
1
( x 2 ( x ) 2 / n)
n 1
Esta es la frmula del estimador de la varianza poblacional (2) para muestras pequeas (n<30),
sencillamente llamada varianza muestral. Si observamos la frmula desarrollada de la derecha vemos
que la varianza se comienza obteniendo de la diferencia entre la suma de cuadrados y la suma al
cuadrado dividida por el tamao muestral. Finalmente la varianza muestral ser esa diferencia dividida
Pgina 60 -175
Pag 61-175
al tamao muestral menos uno, lo que coincide con los grados de libertad de ese parmetro de
dispersin. En el lenguaje ANOVA, estos trminos reciben otros nombres:
SC = x 2 ( x) 2 / n
G.de L. = n 1
MC = SC / G.de L.
Hecha la advertencia, vamos a efectuar una aproximacin ms emprica que rigurosa al tema. Ante
todo, como se discutir ms adelante, ANOVA es el fraccionamiento de variabilidad total y grados de
libertad totales en partes linealmente aditivas (o sea que sumadas dan el total). Supongamos que
comenzamos con una nica observacin de una variable x (=a). Obviamente, la media de esa muestra
tan elemental ser a, su varianza cero y los g. de l. tambin nulos.
Data : (a ) ; n = 1 ; x = a ; s 2 = 0;
g .de l. = n 1 = 0
Esto nos sugiere que si dispusisemos de una muestra de cualquier tamao (n) en la cual todos los
valores fuesen idnticos, la dispersin sera nula y no habra materia fraccionable, es decir la varianza
total no sera distribuible (y los g. de l.) en trminos aditivos menores (obviamente una varianza nunca
ser negativa). Supongamos que tenemos ahora dos valores distintos de x
Data : (a1 a 2 );
g .de l. = 1;
(a1 + a 2 )
;
2
(a1 + a 2 ) 2 / 2 = (a1 a 2 ) 2 / 2
x=
SC = x 2 ( x) 2 / n = a1 + a 2
2
Por lo expuesto, la suma de cuadrados con un solo grado de libertad corresponde a una nica
comparacin entre a1 y a2.
Pgina 61 -175
Pag 62-175
Data : (a1 a 2 a 3 );
g.de l. = 2;
x=
SC = x 2 ( x) 2 / n = a1 + a 2 + a 3
2
(a1 + a 2 + a 3 )
;
3
(a1 + a 2 + a 3 ) 2 / 3 =
2 2
2
2
(a1 + a 2 + a 3 a1 a 2 a1 a 3 a 2 a 3 )
3
Ahora esta suma de cuadrados est basada en 2 grados de libertad o comparaciones. Como se ha visto, la
comparacin entre dos valores, digamos 1 y 2 es (a1a2)2/2, por lo tanto podemos deducir el valor de la
comparacin restante como (a1+a2-2a3)2/6, dado que la suma de ambos trminos reconstituye la SC. Si en vez de
elegir 1 y 2 para la comparacin original se elige cualquier otra de las tres posibles, las comparaciones restantes
son
SC1 = (a1 a 2 ) 2 / 2
SC 2 = (a1 + a 2 2a 3 ) 2 / 6
SC1 = (a1 a 3 ) 2 / 2
SC 2 = (a1 2a 2 + a 3 ) 2 / 6
SC1 = (a 2 a 3 ) 2 / 2
SC 2 = (2a1 + a 2 + a 3 ) 2 / 6
Slo nos resta interpretar que es lo que efecta en cada caso la segunda comparacin. Se puede deducir que se
trata de una comparacin entre el valor no considerado por la primera y el promedio de los dos primeros valores
comparados. Resulta interesante saber que no son estas tres las nicas formas de particionar la SC, se pueden
inventar otras menos obvias y menos tiles. Lo interesante es que vamos entendiendo paulatina e intuitivamente lo
que es el anlisis de varianza, un fraccionamiento de SC en tantas comparaciones como lo permitan los grados de
libertad involucrados. Queda claro que las sumas de cuadrados son aditivas al igual que los grados de libertad (o
comparaciones) particionados.
Ahora analizaremos el caso de cuatro valores diferentes para x. No es difcil verificar que as como existen tres
comparaciones posibles con dos grados de libertad, con tres grados de libertad hay doce comparaciones posibles de
la clase vista hasta ahora:
SC1 = (a1 a 2 ) 2 / 2
SC 2 = (a1 + a 2 2a 3 ) 2 / 6 ;
SC 3 = (a1 + a 2 + a 3 3a 4 ) / 12
SC 2 = (a1 + a 2 2a 4 ) / 6 ;
SC 3 = (a1 + a 2 3a 3 + a 4 ) / 12
SC1 = (a1 a 3 ) / 2
SC 2 = (a1 2a 2 + a 3 ) / 6 ;
SC 3 = (a1 + a 2 + a 3 3a 4 ) / 12
SC1 = (a1 a 3 ) 2 / 2
SC 2 = (a1 + a 3 2a 4 ) 2 / 6 ;
SC 3 = ( a1 3a 2 + a 3 + a 4 ) / 12
SC 2 = ( a1 2a 2 + a 3 ) / 6 ;
SC 3 = ( a1 + a 2 3a 3 + a 4 ) / 12
SC1 = (a1 a 4 ) / 2
SC 2 = ( a1 2a 3 + a 4 ) / 6 ;
SC 3 = ( a1 3a 2 + a 3 + a 4 ) / 12
SC1 = (a 2 a 3 ) 2 / 2
SC 2 = ( 2a1 + a 2 + a 3 ) 2 / 6 ;
SC 3 = ( a1 + a 2 + a 3 3a 4 ) / 12
SC 2 = ( a 2 + a 3 2a 4 ) / 6 ;
SC 3 = (3a1 + a 2 + a 3 + a 4 ) / 12
SC1 = (a 2 a 4 ) / 2
SC 2 = (2a1 + a 2 + a 4 ) / 6 ;
SC 3 = (a1 + a 2 3a 3 + a 4 ) / 12
SC1 = (a 2 a 4 ) 2 / 2
SC 2 = (a 2 2a 3 + a 4 ) 2 / 6 ;
SC 3 = (3a1 + a 2 + a 3 + a 4 ) / 12
SC 2 = (2a1 + a 3 + a 4 ) / 6 ;
SC 3 = (a1 3a 2 + a 3 + a 4 ) / 12
SC 2 = (2a 2 + a 3 + a 4 ) / 6 ;
SC 3 = (3a1 + a 2 + a 3 + a 4 ) / 12
SC1 = (a1 a 2 ) / 2
2
SC1 = (a1 a 4 ) / 2
2
SC1 = (a 2 a 3 ) / 2
2
SC1 = (a 3 a 4 ) / 2
2
SC1 = (a 3 a 4 ) / 2
2
Aqu la lgica indica que en cada comparacin del tipo 1 se confrontan dos valores, en la del tipo 2 se
confrontan un tercer valor con el promedio de los dos primeros y en la del tipo 3 se confronta el valor
restante contra el promedio de los tres primeros que se han usado. Lo interesante es que esta no es la
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 62 -175
Pag 63-175
nica forma de particionar la SC, se pueden hacer otras comparaciones, como ser usar las dos primeras
para comparar dos pares diferentes y en la restante el promedio de las dos primeras contra el promedio
de las dos segundas, a saber:
SC1 = (a1 a 2 ) 2 / 2
; SC 2 = (a 3 a 4 ) 2 / 2
SC 3 = (a1 + a 2 a 3 a 4 ) 2 / 4
SC1 = (a1 a 3 ) 2 / 2
; SC 2 = (a 2 a 4 ) 2 / 2
SC 3 = (a1 + a 3 a 2 a 4 ) 2 / 4
SC1 = (a1 a 4 ) 2 / 2
; SC 2 = (a 2 a 3 ) 2 / 2
SC 3 = (a1 + a 4 a 2 a 3 ) 2 / 4
Hay una forma adicional de particionar con tres grados de libertad y es usando todos los valores en cada
comparacin
SC1 = (a1 + a 2 a 3 a 4 ) / 4
SC 2 = (a1 a 2 + a 3 a 4 ) / 4 ; SC 3 = (a1 a 2 a 3 + a 4 ) / 4
A pesar de no ser la mas intuitiva, esta forma de particin es una de las ms usadas por el ANOVA.
Adems se puede demostrar que cada una de estas particiones sumadas da la SC total.
Vamos a extraer conclusiones generales acerca de todo lo visto. Primero, la variabilidad total
representada por la SC total puede ser fragmentada o particionada en un conjunto de contrastes
o comparaciones entre los valores de la muestra. Segundo, el nmero de comparaciones es como
mnimo igual a los grados de libertad existentes. Tercero, las comparaciones son ortogonales (o
independientes) entre s. Cuarto, se pueden armar comparaciones de distinto tipo, lo que
permite por ejemplo contrastar los valores de un subconjunto de la muestra contra otro
subconjunto de la misma muestra. En conjunto, estos cuatro atributos son el fundamento del
anlisis de varianza. El ANOVA ser diseado de tal forma que los contrastes que se armen
permitan verificar la significacin o no (frente al azar) de cualquier factor causal (y una regla
simple que permita armar esos subgrupos internos de valores en la muestra).
En qu consiste un ANOVA?
Esencialmente consiste en fraccionar (analizar= disgregar o repartir en fragmentos linealmente
aditivos) la suma general de cuadrados (SC total del ensayo) en una suma de SC parciales atribubles
a los distintos factores en estudio y verificar si esas SC parciales son estadsticamente significativas.
En caso de serlo, los factores que las causaron existen realmente (aceptar H1) y esas fluctuaciones no
se debieron al azar (rechazar H0) Junto con la fragmentacin de la SC total, se reparten
proporcionalmente los grados de libertad.
La idea es que si en un grupo inicialmente homogneo se gesta un cambio en los valores de un
subgrupo, la varianza del conjunto aumenta. Por ejemplo, supongamos que tenemos un grupo de 20
pacientes con un cierto valor de colesterolemia normalmente distribuido. Obviamente, ese grupo ser
unimodal con una moda (= promedio) cercana al valor medio poblacional de ese parmetro y una
dispersin (varianza) cercana a los valores poblacionales. Ahora supongamos que elegimos al azar la
mitad de pacientes y les suministramos un frmaco que baja el tenor de colesterol en sangre. Despus
de un tiempo prudencial repetimos las medias de colesterol a los 20 pacientes (ahora se trata de 10
pacientes tratados y 10 pacientes control) y obtenemos nuevamente la media y la varianza del conjunto.
Si el frmaco actu, el promedio del conjunto debe haber disminuido (en realidad baj en los 10
tratados y en el resto no se modific, pero como conjunto hubo un descenso) y la varianza del conjunto
aument. Es ms, la distribucin del conjunto pas de unimodal a bimodal. Estrictamente hablando,
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 63 -175
Pag 64-175
como los grados de libertad (20-1=19) del conjunto no variaron, al aumentar la varianza (MC) lo que
aument es la suma de cuadrados corregida (SC). Entonces podremos fraccionar (o analizar) la suma de
cuadrados (SC Total) del conjunto de veinte pacientes en dos componentes aditivos:
SC total = SC factor + SC error experimental
Donde la SC Factor es la dispersin debida al grupo tratado y SC error experimental la dispersin del
grupo control (o del conjunto antes del tratamiento) y que recibe ese nombre particular en el lenguaje
ANOVA. Cada vez que en ANOVA se mencione error experimental se estar haciendo referencia al
efecto puro del azar. Si se dividen esas sumas de cuadrados por los respectivos grados de libertad,
obtenemos las varianzas (MC) del factor y del azar o error experimental
MC total = SC Total / 19
MC factor = SC Factor / 1
MC error = ( SC Total- SC Factor)/(19-1)= SC error experimental / 18
Observemos que en total hay 19 grados de libertad (=20-1). Para el factor hay un solo grado de libertad,
dado que su presencia divide al conjunto de pacientes en dos clases, los tratados y los controles (=2-1).
Para el error experimental, tanto la SC como los grados de libertad se llevan el resto disponible del total
inicial, o sea se obtienen por diferencia.
El ANOVA fracciona la variabilidad total (SC total) y los grados de libertad totales en tantas
partes como factores haya bajo estudio, dejando como residuo de esa fragmentacin una
variabilidad residual (SC error experimental). Dividiendo esas SC por los g. de l. se obtienen
las varianzas (MC) respectivas.
Las SC y los g. de l. son siempre aditivos ( las MC no lo son, no tiene sentido sumarlas!).
Cuanto mayor sea la varianza debida a algn factor (MC factor), menor ser la varianza
residual (MC error experimental) por lo cual el cociente de varianzas (MC factor / MC error
experimental) crece ( ) si el efecto del factor es significativo y disminuye ( 0) si el efecto
no fuese significativo.
El ltimo punto enunciado forma la base de las pruebas de inferencia que se efectan en un ANOVA.
El cociente de medias cuadradas (varianzas) se conoce como el estadstico de ensayo (o indicador) F
de Snedecor (la F en honor de R.A. Fisher). Se han tabulado los valores crticos de probabilidad de F
para los cuales una MC factor se vuelve significativamente mayor a la MC error experimental. Esto
lgicamente sirve para aceptar o rechazar en un test de una cola a la H0: MC factor = MC error
experimental.
Pgina 64 -175
Pag 65-175
una planilla de clculo tipo Excel o Lotus. Sin embargo, estas tablas permitirn al lector buscar la
significacin de cualquier cociente de medias cuadradas (o varianzas) que aparezcan en los ANOVA en
los dos niveles de significacin mas frecuentes.
Si se observan esas tablas, se ve que poseen doble entrada en funcin de los grados de libertad del
numerador y denominador del cociente F. En la interseccin de la fila con la columna que corresponda
se hallar el valor critico de F que si fuese alcanzado o superado por el F obtenido, resultar en el
rechazo de la H0 de igualdad de las medias cuadradas (varianzas) al nivel (5% o 1%) que corresponda a
la tabla empleada.
Ejemplo de uso de las Tablas F-Snedecor
Supongamos que en un ANOVA se contrasta una MC tratamiento = 545.5 (g. de l.=3) contra una MC
error experimental = 100.9 (g. de l.=20). El valor F obtenido = 545.5/100.9 = 5.41. Consultando en la
TABLA IV (nivel 5%) el valor crtico de F(3,20)= 3.10 y en la TABLA V (nivel 5%) el valor crtico de
F(3,20)=4.94. Dado que 5.41 supera a ambas, podemos rechazar la H0 de igualdad de ambas MC y
concluir que el tratamiento manifiesta un efecto muy significativo frente a los controles al nivel de
significacin p=0.01. Esto es lo mismo que concluir que los datos de tratamiento provienen de una
poblacin con distinta media poblacional () que los datos controles.
El cuadro ANOVA
Finalmente estamos en condiciones de presentar la estructura general del cuadro ANOVA. Segn
hemos dicho, en este cuadro se resumen los principales datos, resultados y conclusiones de este ensayo.
Veamos un ejemplo genrico.
CUADRO ANOVA
FUENTE DE VARIACION
Factor N 1 en estudio
Factor N 2 en estudio
Error experimental
Total
SC
445.0
21.0
1229.3
1695.3
g. de l.
3
2
115
120
MC
148.3
10.5
10.7
-.-
F
13.9
0.98
-.-.-
SIGNIFICACION
** (p<0.01) (rechazar H0)
No significativo (aceptar H0)
-.-.-
Se puede verificar la aditividad de la suma de cuadrados y de los grados de libertad. Cada factor se
contrasta independientemente contra la MC error experimental. Los ensayos F-Snedecor y su
interpretacin son muy simples de entender, el Factor N 1 resulta muy significativo porque se superan
holgadamente los lmites F(3,60,p=0.01)=4.13 y F(3,120,p=0.01)=3.95. Queda claro que el valor crtico
que se necesita F(3,115,p=0.01) se halla en el intervalo (4.13 , 3.95), pero el valor obtenido 13.9 supera
holgadamente ese valor.
Pgina 65 -175
Pag 66-175
Supongamos que en el cuadro ANOVA superior suponemos que el Factor N 1 en estudio responde a
un modelo terico I de ANOVA y el Factor N 2 al modelo II. Entonces, las medias cuadradas
correspondientes al ensayo son estimadores de:
FUENTE DE VARIACION
MC
Factor N 1 en estudio
148.3
Factor N 2 en estudio
10.5
Error experimental
10.7
Estimador
de:
2 + 3 k2 Modelo I : k2 es el componente aditivo
fijo a la varianza poblacional, se
multiplica por el nmero de niveles del
otro factor (nmero de datos fusionados
para ese factor)
2 + 4 22 Modelo II : 22 es el componente
aditivo fijo a la varianza poblacional, se
multiplica por el nmero de niveles del
otro factor (nmero de datos fusionados
para ese factor)
2
Ahora queda claro que para el primer factor el estadstico de Snedecor mide F= (2 + 3 k2)/ 2. A partir
de su significacin podemos extraer el valor estimado de k2. De igual manera se procede con la segunda
media cuadrada en el modelo II. Estos dos modelos son los bsicos y los ms importantes en ANOVA,
aunque hoy da existen hasta cinco modelos tericos diferentes.
Ejemplo ANOVA de una va (diseo asimtrico): Supongamos que se prueban 8 frmacos (1,2,3,,8)
con supuesta actividad hipocalcemiante inico oral (ingeridos reducen el nivel de calcio inico en
sangre) sobre ocho grupos de pacientes elegidos al azar. Se trata de un ensayo triple ciego en el cual
uno de esos frmacos es un placebo (inactivo) que servir como control de la actividad farmacolgica.
Los resultados de calcemia inica (en mEq/l) post-tratamiento fueron los siguientes:
TRATAMIENTO
GRUPO 1
GRUPO 2
GRUPO 3
GRUPO 4
GRUPO 5
GRUPO 6
GRUPO 7
GRUPO 8
SUMA
2.0
3.5
3.3
3.2
2.6
3.1
2.6
2.5
2.8
2.8
3.6
3.3
2.6
2.9
2.2
2.4
3.3
3.2
2.6
3.2
2.9
3.1
2.2
3.0
3.2
3.5
3.1
2.9
2.0
2.5
2.5
1.5
CALCEMIA
4.4 3.6 1.9
2.3 2.4 2.0
3.2 3.3 2.9
3.3 2.5 2.6
2.0 2.1
1.2 1.2
SUMA ni promedios
28.4 10
2.8
21.3
8
2.7
31.8 10
3.2
23.8
8
3.0
14.2
6
2.4
11.6
4
2.9
11.9
6
2.0
9.4
4
2.4
152.4 56 SC=439.40
Pgina 66 -175
Pag 67-175
El objetivo perseguido es someter estos datos a un ANOVA y detectar diferencias significativas entre
los tres grupos al nivel 5%. Una vez concluido el anlisis estadstico se dar a conocer cual de los ocho
es el grupo control.
Calculamos:
C(correccin)=Suma(x)2/n = (152.4)2/56=414.75
SCTotal = Suma2(x)-C=2.02+2.82++1.52-C=439.40-414.75=24.65
SCTratamientos = Suma (SUMAS2/n)i-C=(28.4)2/10+(21.3)2/8++(9.4)2/4-C=422.23-414.75=7.48
SC Error experimental = SC Total SC Tratamientos = 24.65-7.48=17.17
g.de l. Totales= 56-1=55
g.de l. Tratamientos=8-1=7
g. de l. Error Experimental = g.de l. Totales - g.de l. Tratamientos=55-7=48
y volcamos al cuadro ANOVA completando los cmputos de F y consultando la tabla 5%::
CUADRO ANOVA
FUENTE DE VARIACION
Tratamientos
Error experimental
Total
SC
7.48
17.17
24.65
g. de l.
7
48
55
MC
1.07
0.36
-.-
F
2.97
-.-.-
SIGNIFICACION
* (p<0.05) (rechazar H0)
-.-.-
O sea que hay una diferencia significativa al nivel 5% entre esos frmacos. Solo resta conocer entre qu
tratamientos se verifica esa diferencia. Esta clase de anlisis se conoce como post-hoc y est destinado
a buscar los responsables de la diferencia registrada. Un ensayo tpico de esta categora es el test de
Tukey o la prueba de secuencia de Keuls. Para efectuar la primera armamos un cuadro que ordena los 8
promedios de mayor a menor y calcula sus diferencias sucesivas
ANALISIS POST-HOC
CUADRO DE DIFERENCIAS DE PROMEDIOS GRUPALES
GRUPO
N
3
4
6
1
2
5
8
7
p
(prom)
3.2
3.0
2.9
2.8
2.7
2.4
2.4
2.0
p-2.0
p-2.4
p-2.7
p-2.8
p-2.9
p-3.0
1.2
1.0
0.9
0.8
0.7
0.4
0.4
0.8
0.6
0.5
0.4
0.3
0.5
0.3
0.2
0.1
0.4
0.2
0.1
0.3
0.1
0.2
Ahora calculamos el valor DSM (Diferencia de Significacin Mnima) que nos marca el nivel mnimo
de significacin del cuadro de diferencias, aquellas que lo superen son significativas, caso contrario
esas diferencias se deben al azar. Para ello necesitamos estimar el error standard. Conocemos la
varianza global debida al azar MC error experimental = 0.36. Entonces DS=(0.36)0.5=0.6 y ES=
0.6/(48)0.50.09 (valores estimados).
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 67 -175
Pag 68-175
DSM t0.05, =48 (ES) 1.41= 2.02 x (0.09) x 1.41 = 0.26 0.3
Con lo cual todas las diferencias iguales o superiores a 0.3 son significativas, el resto no lo es.
Observando la tabla vemos que el anlisis post-hoc arroja:
1. El promedio del grupo 7 es significativamente menor al del todo el resto
2. Los promedios de los grupos 5 y 8 son significativamente menores al de los grupos 2, 1, 6,
4 y 3 y no difieren entre s.
3. El promedio del grupo 2 es significativamente menor al de los grupos 4 y 3.
4. El promedio del grupo 1 es significativamente menor al del grupo 3.
5. El promedio del grupo 6 es significativamente menor al del grupo 3.
6. Ninguna otra comparacin es significativa
Conclusiones finales
Como ltimo paso de este ensayo triple ciego se nos informa que el grupo control era el nmero 3,
por lo cual deducimos que todos los hipocalcemiantes probados fueron efectivos, con excepcin
del usado en el grupo 4 cuyos resultados no difieren de los valores del control. Evidentemente el
que tuvo resultados ms marcados fue el hipocalcemiante del grupo 7.
Por ltimo una advertencia, el mtodo de Tukey aqu empleado es aproximado cuando el nmero de
grupos comparados es mayor a dos, para aquellos que requieran una prueba post-hoc ms precisa se
recomienda prueba de secuencia de Keuls (ver SNEDECOR, 1964) o recurrir a un programa estadstico
adecuado como el Statistica v.6.0 de StatSoft. Sin embargo, vale advertir que el empleo de esta
clase de herramienta de alta potencia requiere un cierto entrenamiento previo, tanto estadstico en
general como en el empleo de las mltiples opciones que ofrece este software y otros equivalentes. De
todas maneras el uso cauto de la tcnica manual aqu descripta servir en la mayora de los anlisis que
se efecten, basta incrementar el margen de seguridad usando DSM un 50% mayor al calculado, lo que
disminuye el error de Tipo I y incrementa el error de Tipo II, bajando la potencia del ensayo.
32
38
39
109
GIMENEZ
26
37
31
94
108
159
149
416
suma
El investigador desea saber si los tres frmacos actan en forma similar y si los pacientes responden
de la misma manera a los medicamentos.
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 68 -175
Pag 69-175
Calculamos:
C=(23+44++31)2/ 12= 4162/12=14421
SC Total = 232+442++312-C=3440
SC Farmacos = (1082+1592+1492)/4-C=366
SC Pacientes=(1012+1122+1092+942)/3-C=66
SC Error experimental= SS Total (SS Tratamientos + SS Pacientes)=3008
g.de l. Totales= 12-1=11
g.de l. Farmacos=3-1=2
g.de l Pacientes=4-1=3
g. de l. Error Experimental = g.de l. Totales (g.de l. Farmacos+ g.de l. Pacientes) =11-5=6
y volcamos al cuadro ANOVA completando los cmputos de F y consultando la tabla 5%::
CUADRO ANOVA
FUENTE DE VARIACION
Frmacos
Pacientes
Error experimental
Total
SC
366
66
3008
3440
g. de l.
2
3
6
11
MC
183
22
501
-.-
F
0.36
0.04
-.-.-
SIGNIFICACION
N.S. (aceptar H0)
N.S. (aceptar H0)
-.-.-
En este caso, no se detectan diferencias significativas ni entre los frmacos ni entre los pacientes. En
caso de haberse detectado alguna diferencia, hubisemos aplicado el anlisis post-hoc como en el
ANOVA de una va.
3.9. ANOVA FACTORIAL
Este es uno de los ensayos ms sofisticados de la familia ANOVA ya que es capaz de extraer toda la
informacin extrable de una muestra sometida a varios tratamientos independientes (ortogonales). Esta
clase de ANOVA posee como condicin ineludible que el diseo sea simtrico. Lgicamente, si por
alguna causa se hubiese perdido esa simetra, se debern completar los datos faltantes segn lo
detallado en el apartado correspondiente .
En forma sinttica, el ANOVA factorial se caracteriza por:
Pgina 69 -175
Pag 70-175
Un resultado interesante del ANOVA factorial es que se obtiene una cuantificacin precisa de las
interacciones entre factores. Esas interacciones pueden ser de primer orden si intervienen dos factores,
segundo orden si intervienen tres, etc. Cada interaccin representa una desviacin de la aditividad del
ensayo y por ende son efectos generalmente no deseados. Su presencia anula la eventual significacin
(rechazo de H0 de inexistencia o inefectividad) que pudiesen tener los efectos principales. Sin embargo,
a veces el investigador persigue precisamente demostrar la existencia de esas interacciones. Una
interaccin entre dos factores se interpreta de la siguiente manera: supongamos que un factor A tiende a
aumentar la media poblacional y un factor B no la modifica. Entonces una interaccin significativa A x
B implica que A aumenta el promedio en algunos niveles de B y lo mantiene constante o disminuye en
otros niveles de B. Esto es claramente un efecto paradjico que merece ser investigado y que muchas
veces se constituye en una conclusin ms interesante para el observador que un simple resultado lineal
y aditivo segn lo esperado.
El lector no debe memorizar procedimientos complejos como el que se expone a continuacin. En una lectura
general del presente Captulo puede pasar por alto los detalles computacionales del siguiente ejemplo, slo
debe intentar entender la lgica general del ANOVA.
Pgina 70 -175
Pag 71-175
Ejemplo ANOVA FACTORIAL COMPLETO 2x3x4: Un investigador desea probar la accin de dos
frmacos (Levotonina y Metoformazina) (en distintas dosis) sobre una patologa especfica, tanto en
hombres como en mujeres. Para cada factor y nivel, elige dos pacientes al azar (repeticiones) y
registra los resultados de una variable vinculada a esa patologa. El diseo del ANOVA factorial
completo y los resultados obtenidos son:
Tratamientos o Factores
L mg / da
(Levotonina)
M mg / da
(Metoformazina)
0
25
50
0
25
50
0
10
25
50
0
15
25
50
Sexo
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
TOTAL
Repeticiones
(variable dependiente
medida)
Paciente
Paciente 1
2
111
97
152
145
109
99
127
122
85
121
167
124
130
100
155
153
103
121
124
134
112
96
176
127
122
113
138
108
134
141
140
121
134
119
146
139
119
103
80
129
136
116
142
139
146
103
162
127
3150
2897
Total
208
297
208
249
206
291
230
308
224
258
208
303
235
246
275
261
253
285
222
209
252
281
249
289
6047
Pgina 71 -175
Pag 72-175
0
505
457
497
1459
L (Levotonina)
5
10
538
481
482
536
511
538
1531
1555
15
431
533
538
1502
Total
1955
2008
2084
6047
S (Sexo)
Masc
895
959
916
2770
Fem
1060
1049
1168
3277
Total
1955
2008
2084
6047
0
622
837
1459
L (Levotonina)
5
10
662
763
869
792
1531
1555
15
723
779
1502
Total
2770
3277
6047
Pgina 72 -175
Pag 73-175
CUADRO ANOVA
FUENTE DE VARIACION
Repeticiones (entre Pacientes)
L (Levotonina)
M (Metoformazina)
S (Sexo)
LM (interaccin)
LS (interaccin)
MS (interaccin)
LMS (interaccin)
Error experimental
SC
1334
427
526
5355
2543
2399
821
685
6319
g. de l.
1
3
2
1
6
3
2
6
23
MC
1334
142
263
5355
424
800
410
114
275
F
4.85
0.51
0.86
19.47
1.54
2.91
1.49
0.41
-.-
SIGNIFICACION
* (p<0.05) (rechazar H0)
N.S. (aceptar H0)
N.S. (aceptar H0)
** (p<0.01) (rechazar H0)
N.S. (aceptar H0)
N.S. (aceptar H0)
N.S. (aceptar H0)
N.S. (aceptar H0)
-.-
Las conclusiones son: Hay una diferencia entre los pacientes 1 y 2, es como si el ordenamiento tuviese
algn significado que el experimentador deber evaluar. No existen diferencias significativas entre las
interacciones, lo que brinda validez a las comparaciones de los efectos principales. Respecto a los
mismos, no hay diferencias entre las dosis suministradas de Levotonina. Lo mismo ocurre con la
Metoformazina, pero como una de esas dosis era 0 y serva de control podremos afirmar que a la luz del
presente ensayo ambas drogas carecieron de efecto farmacolgico significativo. El nico factor
significativo result ser el sexo. Inspeccionando las tablas resume podremos afirmar que la respuesta es
muy significativamente menor en los hombres que en las mujeres.
29
22
15
30
20
22
9
32
14
20
1
26
21
24
6
25
6
12
19
37
Si se grafican los datos se observa que las regresiones no estn lejos de ser paralelas (igual pendiente)
pero con distinta ordenada al origen. Luego pasamos al cuadro de covarianza para efectuar las
verificaciones cuantitativas.
Pgina 73 -175
Pag 74-175
38
36
34
VINBLASTINA
HIDROXIUREA
32
DENSITOMETRIA
30
28
26
24
22
20
18
16
14
12
0
10
15
20
25
30
CUADRO ANCOVA
b=
xy
Fuente de
variacin
Recta V
Recta H
Dentro
b
coeficientes
de regresin
coeficiente
de regresin
comn
(x Suma de
Rectas V y
H)
Medias
ajustadas
Total
(pool V y H)
4
4
294
204
xy
134
117
88
94
SC =
y ( xy) 2 / x 2
MC
26.93
26.90
53.83
8.98
8.97
8.97
1.66
1.66
55.49
7.93
x Diferencia 1
372.56
372.56
428.05
x2
(pendiente o
coeficiente de
regresin)
0.456
3
0.574
3
x Suma 6
x Diferencia 1
498
658
251
51
182
432
0.504
Pgina 74 -175
HOMOGENEIDAD DE
VARIANZA
(las dos muestras provienen de
poblaciones normales con 2
comunes)
IGUALDAD DE INCLINACION
(pendiente)
IGUALDAD DE ELEVACION
(ordenadas al origen)
Pag 75-175
Para la diferencia de 2
F(3,3) = 8.98/8.97 1 N.S.
(aceptar H0 de igualdad)
Para la diferencia de b (coeficientes de regresin)
F(1,6) = 1.66/8.97 <1 N.S.
(aceptar H0 de igualdad)
Para la diferencia de medias ajustadas
F(1,7) = 352.56/7,93 = 47.0 ** (p<0.01)
(rechazar H0 de igualdad)
Aqu observamos que los cmputos son algo ms engorrosos que en el ANOVA, pero siguiendo
cuidadosamente este modelo el lector podr efectuar sus ANCOVA con toda facilidad.
Pgina 75 -175
Pag 76-175
Placa N
(al azar)
I
II
III
IV
Total
TEST
(Dilucin)
0.25
1
68
90
74
91
72
91
75
88
289
360
Lp=
-S1-S2
+T1+T2
-42
-41
-38
-34
-155
L1=
-S1+S2
-T1+T2
38
33
34
30
135
L1=
+S1-S2
-T1+T2
6
1
4
-4
7
Calculamos:
R (potencia relativa del desconocido) = (Zs/Zt) antilog (Lp.logD/L1)
=(200/1) antilog( -155. log 4 / 135)=200 x 0.2036= 40.7
O sea que la mejor estimacin (promedio) para la potencia del desconocido es de 40.7 UI/ml. Ahora
pasamos al cmputo del intervalo de confianza 95% (o lmites fiduciarios 95%) de esta estimacin.
Primero calculamos la varianza poblacional usando las tres ltimas columnas:
SC Lp =( (-42)2+(-41)2+(-38)2+(-34)2)/3= 38.75
SC L1 =( 382+332+342+302)/3= 32.75
SC L1 =( 62+12+42+(-4)2)/3= 56.75
s2=(38.75+32.75+56.75)/(3+3+3)=3.562
Luego calculamos valores auxiliares usando t-Student (p=0.05, con 9 g. de l.) = 2.26 (ver TABLA III)
N t2 s2 = 16 x (2.26)2 x 3.562 = 291.6
y por ltimo el intervalo de confianza 95% de la potencia relativa
log D L L Nt 2 s 2 ( L 2 + L 2 Nt 2 s 2 )
ZS
p 1
p
10
1
R L , RU =
anti log
2
2
2
ZT
L1 Nt s
} = 30.3, 52.0
por lo tanto la potencia biolgica del desconocido es de 40.7 y su intervalo de confianza 95% es
(30.3 , 52.0). Esto completa la primer parte del ensayo. Ahora pasamos a la validacin:
Calculamos:
SC Preparaciones= Lp2 /N = (-155)2/16=1501.56
SC Regresin= L12 /N = 1352/16=1139.06
SC Paralelismo= L12 /N = 72/16=3.06
SC Entre dosis= SC Preparaciones+ SC Regresin+ SC Paralelismo
SC Total= x 2 ( x) 2 / n (para los 16 datos) = 2700.44 (g. de l.=15)
MC Error =3.562 (fue calculada previamente)
SC Error = MC Error x (g.de l.=9)=32.06
SC Entre placas= SC Total (SC Entre dosis+SC Error) = 8.23
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 76 -175
Pag 77-175
CUADRO ANOVA
FUENTE DE VARIACION
SC
g. de
MC
l.
1
1501,56
SIGNIFICACION
422
** (p<0.01)
(rechazar H0)
** (p<0.01)
(rechazar H0)
N.S.
(aceptar H0)
Preparaciones
1501.56
Regresin
1139.06
1139.06
320
3.07
3.07
<1
2.643.69
881.23
247
Entre placas
24.69
8.23
2.31
32.06
3.56
2700.44
15
Paralelismo
Entre dosis
TOTAL
x Suma
x Suma
** (p<0.01)
(rechazar H0)
N.S.
(aceptar H0)
Ahora podremos interpretar este ensayo. Primero, no es conveniente que ninguna de las tres primeras
MC sean significativas, aqu parecen indicar un problema de linealidad de respuesta (lo que
lgicamente no se prueba explcitamente en un ensayo de 4 puntos, ya que por dos puntos siempre pasa
una recta ptima). Por suerte no hay falla de paralelismo y esa es la condicin fundamental de validez
de esta clase de ensayo. Es lgico que entre dosis haya habido diferencias, reflejo de lo ocurrido con los
dos primeros contrastes. A su vez, no hay diferencias entre las rplicas (es decir las placas repetidas al
azar) lo cual es conveniente y esperado. Esta es toda la informacin extrable de esta clase de prueba de
docimasia biolgica.
Pgina 77 -175
Pag 78-175
Para controlar al sistema de medicin se requiere repetir las mediciones y vamos a presentar los
fundamentos del mtodo de control seis sigma. Supongamos que un laboratorio desea controlar el
funcionamiento de un aparato autoanalizador qumico (bien calibrado en cuanto a exactitud) que entre
otras mediciones calcula glucemia (glucosa sangunea). Supongamos que, despus de efectuar 1000
mediciones sobre pacientes clnicamente sanos (se descartan a los diabticos) se obtuvieron los
siguientes datos descriptivos:
promedio ()
DS ()
n
82 mg%
7 mg%
1000
En este caso, el tamao muestral justifica considerar a los valores de los parmetros como los
poblacionales. Sobre estos datos podramos efectuar verificaciones empleando la variable normalizada
z (TABLA II del APENDICE). Por ejemplo, el intervalo de confianza 2 (82 14 mg%) contiene al
95,5% de los datos y el intervalo de confianza 3 (82 21 mg%) contiene al 99,7% de los datos. En
control de calidad a los intervalos 2 y 3 se los conoce como bandas 4 y 6 porque cada intervalo
ocupa 2 y 3 desvos en cada direccin. Con esa definicin, definimos los siguientes lmites del cuadro
de control de calidad:
LIMITES DE CONTROL 6
Lmite de accin superior
+3
Lmite de advertencia superior
+2
Lmite de advertencia inferior
-2
Lmite de accin inferior
-3
103 mg%
96 mg%
68 mg%
61 mg%
Debe quedar claro que si descontamos que la exactitud del mtodo es aceptable, cualquier valor de
glucemia fuera del rango 68-96 mg% es sospechosamente anormal (al nivel p=0.045 de dos colas) y
cualquier valor de glucemia fuera del rango 61-103 mg% definitivamente anormal (al nivel 0=0.003 de
dos colas). Esta es la base del Cuadro de Control de Calidad seis sigma. Slo nos resta crear esa tabla y
emplearla, graficando un punto por cada valor muestral. En la siguiente figura aparece el Cuadro:
GLUCEMIA (mg%)
103
96
82
68
61
LIMITE DE ACCION
LIMITE DE ADVERTENCIA
N DE ENSAYO
LIMITE DE ADVERTENCIA
LIMITE DE ACCION
Pgina 78 -175
Pag 79-175
Ahora se grafican sucesivamente los valores de glucemia de pacientes de la misma poblacin, es decir
se descartan los que clnicamente posean antecedentes o sntomas patolgicos. Por supuesto que no se
descartan datos de pacientes que sean patolgicos pero sin antecedentes. El criterio de aceptacin pasa
por descartar pacientes con diagnstico cierto de diabetes (en este caso no hay patologa especfica de
hipoglucemia) y simplemente aceptar todo el resto. O sea, si usamos pacientes para controlar al sistema
de medida, nos tenemos que asegurar que pertenezcan a una poblacin homognea y normal. Para cada
medida, existen criterios adecuados para este fin. Por ejemplo, para la glucemia sabemos que hay dos
clases de hiperglicmicos: Diabetes Tipo I (o juvenil) y Diabetes Tipo II (del adulto). La Diabetes Tipo
I se manifiesta desde temprana edad, la Tipo II rara vez antes de los 50 aos. Por lo tanto, si se
seleccionan datos de personas clnicamente sanas entre 15 y 30 aos de edad, obtenemos exactamente
lo que buscamos, una poblacin homognea que nos servir en nuestro control.
Ahora vamos a la interpretacin del Cuadro de Control. Si los datos oscilan en las bandas internas
(entre los lmites de advertencia) podemos estar tranquilos que el equipo est trabajando bajo control
(exactitud y precisin medias de salida normales). Cuando un dato supera el lmite de advertencia, y la
frecuencia de esas desviaciones sea razonable (no superior al 20% de los datos, en promedio el 5% de
los datos) no nos debe preocupar a menos que alcance o supere el lmite de accin. An superado este
lmite, si el sobrepaso es espordico (<5%) podr ser ignorado. Lo principal a controlar son dos
aspectos:
1. Cambios de exactitud: esta clase de sesgo o tendencia se detecta al analizar si hay cambios
persistentes en los promedios obtenidos. Esto indica una descalibracin del sistema de medida.
2. Cambios de precisin: se observan fluctuaciones (en ambos sentidos) superiores a las
habituales, indicando un malfuncionamiento (inestabilidad) del sistema de medida.
Por ejemplo, vemos los siguientes patrones de comportamiento y su correspondiente interpretacin:
GLUCEMIA (mg%)
103
96
LIMITE DE ACCION
LIMITE DE ADVERTENCIA
82
68
61
LIMITE DE ADVERTENCIA
LIMITE DE ACCION
Pgina 79 -175
GLUCEMIA (mg%)
103
96
Pag 80-175
LIMITE DE ACCION
LIMITE DE ADVERTENCIA
82
68
61
LIMITE DE ADVERTENCIA
LIMITE DE ACCION
GLUCEMIA (mg%)
103
96
LIMITE DE ACCION
LIMITE DE ADVERTENCIA
82
68
61
LIMITE DE ADVERTENCIA
LIMITE DE ACCION
Pgina 80 -175
Pag 81-175
(d=s n + h2)
(d=s n - h1)
10
20
30
40
50
Numero total de
defectuosos encontrados
h1
h2
10
20
30
40
50
60
70
80
90
100
110
Tamao acumulativo de la
muestra (=n)
Podemos describir este cuadro de la siguiente manera: posee dos lneas, la superior es llamada la lnea
de rechazo, la inferior de aceptacin. El muestreo comienza desde Y (N defectuosos hallados)=0 y X
(N de piezas inspeccionadas, o sea tamao acumulativo de la muestra o n)=0. Se inspecciona la primer
ampolla. Supongamos que se califica VB, entonces graficamos el primer punto del cuadro en la
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 81 -175
Pag 82-175
coordenada (X, Y) = (1, 0). Supongamos que el segundo objeto inspeccionado se rechaza, entonces el
segundo punto se ubicar en (X, Y) = (2, 1). Se contina as hasta alcanzar una de las rectas lmites.
Supongamos que despus de 65 inspecciones y slo 3 rechazos se alcanza la recta inferior en (X, Y) =
(65, 3). Entonces se suspende el proceso de inspeccin y se acepta a todo el lote de 1500 ampollas. Por
el contrario, si con (X, Y) = (43, 32) se hubiese alcanzado el lmite de rechazo, se rechaza a todo el lote.
Por supuesto, los nmero aqu usados slo sirven como ejemplo didctico. Dems est por decir que la
seleccin de muestras a inspeccionar dentro de todo el lote debe ser lo ms aleatoria posible, de manera
que la probabilidad de pasar a integrar el control sea a priori igual para todos los objetos.
Observemos los parmetros que definen el Cuadro de Inspeccin, se trata de dos lneas paralelas, cuyas
ordenadas al origen son respectivamente h2 y h1 y cuya pendiente es s. Como en toda funcin lineal,
estos dos parmetros alcanzan para definir estas rectas. La frmula de las rectas para las lneas de
rechazo y aceptacin estn indicadas a la derecha de cada una. Lo que se necesita ahora es un criterio
para definir esos parmetros de la mejor manera posible.
En el mtodo de muestreo secuencial se hall que bastaban cuatro valores o parmetros para definir un
plan de muestreo como el descripto, a saber
La calidad aceptable, expresada como mxima fraccin
de defectuosos permitida (BUENA CALIDAD)
La probabilidad de rechazar un lote de calidad aceptable
(Riesgo del Productor)
La calidad inaceptable, expresada como mnima
fraccin de defectuosos tolerada (MALA CALIDAD)
La probabilidad de aceptar un lote de calidad
inaceptable (Riesgo del consumidor)
p1
p2
En base a la definicin de lotes buenos y malos, junto a los errores de Tipo I y II enunciados,
obtenemos los parmetros del plan secuencial de muestreo:
g 1 = log(
h1 =
p2
)
p1
1 p1
)
g 2 = log(
1 p2
b
g1 + g 2
h2 =
a
g1 + g 2
1
a = log(
)
s=
1
b = log(
)
g2
g1 + g 2
O sea, calculando tres valores auxiliares (en la primer lnea) obtenemos los tres parmetros que nos
permiten obtener el plan secuencial buscado y que va a cumplir con lo requerido.
Pgina 82 -175
Pag 83-175
Resulta ser:
g1=0.699
g2=0.017
a=b=0.954
entonces :
h1=h2= 1.32
s=0.024
-1
20
40
60
80
100
PROBABILIDAD DE ACEPTACION
1
1-
h2 / (h1 + h2)
Pgina 83 -175
Pag 84-175
Si graficamos con los datos de nuestro ejemplo, obtenemos la siguiente Caracterstica Operativa:
100
80
CARACTERISTICA OPERATIVA
DEL PLAN DE INSPECCION
60
40
20
0
0
10
PORCENTAJE DE DEFECTUOSOS
EN LOS LOTES ENTREGADOS
Adems al investigador le interesa conocer la CMS (Calidad Media de Salida) y la Curva de Nmeros
Muestrales Medios (NMM) (Cantidad media de inspeccin antes de llegar a una decisin), la que se
obtiene a partir de los siguientes datos:
FRACCION DE
DEFECTUOSOS DEL
LOTE
FRACCION
REMANENTE POSTINSPECCION
DE DEFECTUOSOS
(CMS)
NUMEROS
MUESTRALES
MEDIOS (NMM)
p1
p2
p1(1-)
sh2 / (h1+h2)
p2
h1/s
(h1-(h1+h2)) / (s-p1)
h1h2 / (s(1-s))
(h2-(h1+h2)) / (p2-s)
h2/(1-s)
Pgina 84 -175
Pag 85-175
1,2
1,0
0,8
0,6
0,4
0,2
0,0
0
10
PORCENTAJE DE DEFECTUOSOS
EN LOS LOTES ENTREGADOS
Obsrvese que la CMS tiene como mximo al valor 1.19% de salida para s=2.38 % de entrada, o sea
que es imposible que salgan lotes con peor calidad. Respecto al nmero medio a inspeccionar antes de
llegar a una decisin ser:
80
70
60
50
40
30
20
10
0
0
10
PORCENTAJE DE DEFECTUOSOS
EN LOS LOTES ENTREGADOS
Pgina 85 -175
Pag 86-175
Se puede observar que en base a los cuatro parmetros iniciales, se obtuvo toda la informacin. Otra
aplicacin interesante del mismo concepto lo ofrece el anlisis secuencial para diferencia de pares. Se
comienza en el casillero (0, 0) de un cuadriculado (X, Y). En este caso, la idea es comparar el efecto de
dos frmacos (A, B) tomando dos pacientes y dndole al azar uno a cada uno. Luego se comparan los
resultados y se decide cul de los dos tuvo mejor. Si fuese A se avanza un casillero a la derecha ( X =
+1), si fuese B un casillero para arriba ( Y = +1). Si hubiese empate, no se avanza. Luego se contina
hasta llegar a un lmite prefijado. Hay tres lmites: Superior (B es mejor), Central (Empate) e Inferior
(A es mejor). La ubicacin de esos lmites depende del nivel de significacin que se desee fijar. Como
se trata de tomar decisiones dicotmicas, el mismo sistema puede servir para decidir estas dos opciones
(o ninguna en caso de lmite de empate) respecto a un nico sistema.
25
Si queremos tomar una decisin ms objetiva acerca de la calificacin de un alumno en un examen oral,
le formulamos una serie de preguntas en un cuadro de anlisis secuencial. Desde (0, 0), cada vez que
contesta BIEN avanzamos un casillero hacia arriba, si contesta MAL un casillero a la derecha
(podemos permutar las direcciones) y si no podemos decidir acerca de la respuesta formulamos otra
pregunta. Cuando se alcancen los lmites, el alumno saldr APROBADO (sale arriba), SIN
DECIDIR o que pase con otro docente (sale por el centro) y DESAPROBADO (sale a la derecha).
A continuacin presentamos un Cuadro de Anlisis Secuencial de Pares adaptado de la bibliografa
(DOCUMENTA GEIGY, 1965, Folia Mdica Geigy N 3)
H0: Y = X
0.05
10
15
20
H1: Y > X
0.05
H1: X > Y
0.05
0
10
15
20
25
Pgina 86 -175
Pag 87-175
Pgina 87 -175
4.1.
Pag 88-175
Entramos ahora en un mundo diferente de las pruebas de inferencia estadstica. Un mundo que
ofrece pruebas rpidas, simples, menos restrictivas en sus requerimientos y un poco menos potentes.
Por supuesto que estamos hablando en trminos generales, una prueba no paramtrica correctamente
aplicada ser ms potente que una paramtrica en la cual no se han tomado todos los recaudos del
caso. En ingls diramos que la estadstica no-paramtrica ofrece las soluciones QUICK & DIRTY
al investigador, es decir las sucias y rpidas en alusin a ser soluciones muchas veces usadas
como de aproximacin inicial para ganar informacin acerca del comportamiento global del sistema,
o soluciones de screening (paneo).
Pero muchas veces, el mtodo no paramtrico resuelve problemas que son inabordables por otra va.
La cuestin es simple de entender si releemos las diferencias entre ambas categoras de ensayo.
TEST
PARAMETRICOS
TEST NO
PARAMETRICOS
POTENCIA
RELATIVA
100%
95%-65%
APLICABILIDAD
SOBRE DATOS
CUANTITATIVOS
Slo Escala de Intervalo o
Escala de Proporcion
PREREQUISITOS
CUALI/CUANTITATIVOS
Escala Nominal, Ordinal,
Intervalo o de
Proporcin
Poblaciones de cualquier
clase y datos de
cualquier tipo
EJEMPLOS
Obs. independientes
Poblaciones normales (z)
Varianzas proporcionales
Efectos aditivos de
causas deterministas
sobre los promedios
Pgina 88 -175
Pag 89-175
Vamos a presentar los modelos y ensayos ms importantes de esta categora con la esperanza que el
lector pueda apreciar su utilidad y llegue a emplearlos en su propio entorno.
4.2.
PACIENTES NO
CURADOS
A=35
B=25
C=12
D=48
PACIENTES
TRATADOS
PACIENTES NO
TRATADOS
Aqu nos interesa saber si el tratamiento ha sido efectivo frente al grupo no tratado (controles con
placebo) y para verificarlo planteamos la H0: independencia Tratamiento vs. Resultados, o sea que
tratados y no tratados responden igual lo que equivale a que las filas y las columnas son
independientes. Si esa H0 fuese cierta, deberamos esperar proporciones iguales de curados y no
curados en ambos casos, o sea que las frecuencias esperadas de cada celda deberan ser 30 en los
cuatro casos.
La pregunta es, cmo medimos las discrepancias entre las frecuencias observadas en la tabla
superior y las esperadas segn la H0 de independencia? Para responder a esta cuestin se desarroll
un test no paramtrico (ji-cuadrado) y una distribucin correspondiente que se presenta en la
TABLA VI del APENDICE. Se computa un indicador o estadstico de prueba conocido como 2 (jicuadrado):
k
2 =
i =1
(Oi E i ) 2
Ei
Pgina 89 -175
Pag 90-175
N (| AD BC | N / 2) 2
C1 C 2 F1 F 2
; g .de l. = 1
donde N es el total general, C1 y C2 son los totales de columnas y F1 y F2 los totales de filas. A
este valor siempre se le asocian grados de libertad calculados como el nmero de filas menos uno de
la tabla de contingencia multiplicado por el nmero de columnas menos uno de la misma tabla y que
en nuestro caso por ser una tabla 2x2 resulta:
( g. de l.) = ( F 1)(C 1) = 1
Ahora consultamos la TABLA VI del APENDICE y vemos que para 1 grado de libertad el valor
lmite de ji-cuadrado para un nivel de significacin =0.001 es de 10.83. Nuestro 2 supera ese valor
por lo cual rechazamos la H0 al nivel p=0.001 y concluimos que el tratamiento ha sido eficaz en la
curacin de los pacientes. Este cmputo se generaliza rpidamente para tablas de contingencia de
cualquier dimensin, lo nico que se deber ajustar el es nmero de grados de libertad.
Vamos a describir cmo se calculan las frecuencias esperadas en una tabla de contingencia 2x3 de
acuerdo a la H0 de independencia. Si las dimensiones de la tabla fuesen mayores, se repite este
procedimiento.
FRECUENCIAS OBSERVADAS (Oi)
TABLA 2x3
FILA 1
FILA 2
SUMA
SUMA
F1=a+b+c
F2=d+e+f
T=a+b+c+d+e+f
TABLA 2x3
FILA 1
FILA 2
SUMA
SUMA
F1
F2
T
Por ejemplo, si F1=32, C1=17 y T=54, entonces la frecuencia esperada para la celda a sera 10.1
Observar que las sumas marginales no varan, lo que sirve para controlar los cmputos. Finalmente
se obtienen los g. de l. = (F-1)(C-1)=(2-1)(3-1)=2
Pgina 90 -175
Pag 91-175
150159
23
160169
44
170179
65
180189
38
190199
21
200209
9
Podramos probar la H0: Distribucin Normal N(,) en base a la estadstica descriptiva previa.
Entonces podremos calcular las frecuencias esperadas en cada celda del histograma (usando la
distribucin z TABLA II del APENDICE). Una vez calculadas las frecuencias de celda
correspondientes a la distribucin normal, calculamos el valor 2 de la misma manera que lo
efectuado con una tabla de contingencia (en este caso de una fila y 7 columnas). Para tablas como
sta que poseen una sola fila, los grados de libertad se calculan como el nmero de celdas menos
uno (g. de l. = k-1 = 7-1 = 6). Si ese 2 supera al valor lmite de 12.59 (g.de l.=6, p=0.05),
rechazamos la H0 de normalidad al nivel p=0.05. Caso contrario concluimos que las alturas se
distribuyen normalmente.
Por supuesto que este mismo mtodo de medida de bondad de ajuste se puede aplicar a cualquier
distribucin esperada: Poisson, Uniforme (es decir sin moda) o la que quisiramos considerar. Se
trata en sntesis de un ensayo muy poderoso. La prueba 2 es una de las mas empleadas en ciencias
experimentales y la volveremos a ver en numerosas aplicaciones.
Limitacin de frecuencias esperadas pequeas
Cuando k=2 (o sea g. de l.=1) cada frecuencia esperada deber ser de al menos 5. Cuando los
g. de l. > 1, es decir cuando k>2, la prueba 2 no debe usarse si ms del 20% de las frecuencias
esperadas es menor que 5 o si cualquier frecuencia esperada fuese menor a 1.
Para evitar esta limitacin se recomienda agrupar aquellas celdas (sumando las frecuencias
observadas) cuyas frecuencias esperadas fuesen pequeas hasta eliminar las condiciones que atenten
contra la restriccin de frecuencias pequeas.
4.3. PRUEBA DE McNEMAR PARA LA SIGNIFICACIN DE CAMBIOS
Esta prueba es particularmente apropiada para los diseos de antes y despus, es decir donde cada
persona, objeto unidad de medida es su propio control. Por lo tanto se puede usar para medir la
eficacia de un tratamiento (en una tabla de contingencia), como lo veremos en este ejemplo donde
las frecuencias se expresan algebraicamente:
PRUEBA DE SIGNIFICACION DE LOS
CAMBIOS REGISTRADOS
POSITIVO
ANTES
NEGATIVO
DESPUES
NEGATIVO
A
C
POSITIVO
B
D
Para esta prueba, slo nos interesa el valor A+D que es el nmero de individuos que cambiaron. Se
calcula un ji-cuadrado de McNemar con la siguiente frmula:
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 91 -175
2 =
Pag 92-175
(| A D | 1) 2
; ( g. de l.) = 1
(A + D
Esta frmula incluye una correccin por continuidad de Yates al ji-cuadrado clsico. Obsrvese que
a la diferencia de A y D en valor absoluto le restamos uno antes de elevar al cuadrado. Veamos un
ejemplo numrico:
EFECTO DE UN FARMACO
APLICADO A UNA
POBLACION DE PACIENTES
DURANTE UN MES
ENFERMOS AL DIA 0
SANOS AL DIA 0
2 =
SANOS A
LOS 30
DIAS
ENFERMOS A
LOS 30 DIAS
14
3
4
4
(| A D | 1) 2 (| 14 4 | 1) 2 81
=
= = 4.5
(A + D
14 + 4
18
Consultando la TABLA VI vemos que para g. de l. = 1 ese valor supera el primer lmite pero no al
segundo. Como es este caso se requiere un test de una cola y la tabla contiene los valores de
probabilidad de dos colas, en vez de interpretar que el ji-cuadrado es significativo al nivel p=0.05
concluimos que se rechaza H0 y acepta H1, los cambios registrados en este caso son significativos
al nivel p=0.025, el tratamiento es eficaz en su accin de cambio de estado enfermo a sano.
Mayores precisiones sobre esta y dems pruebas no paramtricas pueden consultarse en la
bibliografa (SIEGEL, 1990).
4.4. PRUEBA DE LOS SIGNOS
Supongamos que se quieren comparar N pares (en cualquier orden) de dos series (A y B) de
resultados que ni siquiera necesitan ser cuantitativos, simplemente necesita existir una cierta
relacin de orden (mayor, igual o menor) en cada comparacin. Si la comparacin del par i-simo
resultase en que Ai > Bi se le asigna el signo (+). Si la comparacin fuese opuesta, se le asigna al
par el signo (-). En caso de empate, se desecha el par. En este caso, la prueba de los signos medir
la significacin de las diferencias globales entre ambas series y para determinarlo usa la distribucin
binomial.
Vamos a ilustrar el cmputo con un ejemplo. Un investigador prueba dos antibiticos Alfamicina y
Betamicina sobre 20 placas de cultivo de antibiograma (10 por cada antibitico) y asigna un valor
de escala (de 0=ausente a 5=maximo) al halo de inhibicin de colonias a cada placa. Los resultados
y los signos de comparacin son:
Pgina 92 -175
N PAR
ALFA
COMPARADO
1
0
2
2
3
3
4
4
5
3
6
4
7
1
8
5
9
4
10
3
Pag 93-175
BETA
SIGNO
2
1
2
4
2
2
3
2
3
1
+
+
0
+
+
+
+
+
De los 10 pares comparados, uno da empate y se descarta por lo cual N=9. Ahora elegimos como
valor x a la menor de las frecuencias de cualquier signo. Como hay 7 (+) y 2 (-) asignamos x=2.
Ahora consultamos la TABLA VII del APENDICE y en la fila 9 columna 2 leemos que la
probabilidad (H0: p=q=) de obtener un x igual o menor al registrado es de 0.090. Como esa
probabilidad es >0.05, aceptamos H0 de igualdad de efecto entre ambos antibiticos. Sin
embargo, el p obtenido se acerca lo suficiente a 0.05 que uno debera seguir ensayando con
muestras mayores para volver a decidir. Este es el procedimiento habitual recomendado cuando los
resultados son limtrofes.
Puede observarse que esta prueba se efectu comparando valores de escala y esto indica la utilidad
de esta clase de ensayos. Adems apreciamos que la tabla maneja valores de N hasta 25. Para valores
de N>25, usar
z=
( x 0.5) 0.5 N
0.5 N
que est distribuida normalmente con promedio cero y varianza uno N(0,1) (Usar el signo + si
x<0.5N, y en caso opuesto. La significacin de z se consulta como siempre en la TABLA II del
APENDICE.
4.5. PRUEBA DE LOS RANGOS DE WILCOXON
Si aparte de comparar las dos series como se hizo en la prueba de los signos se aporta un dato
cuantitativo acerca del valor de cada diferencia, se dispone de una prueba ms eficiente, la prueba
de los rangos sealados y pares igualados de Wilcoxon.
Vamos a seguirlo con un ejemplo. Supongamos que en un ejemplo similar al de los antibiticos
usados en la prueba de los signos, el investigador no se limita a comparar los valores de escala sino
que calcula para cada par de placas comparadas la diferencia de los dimetros de los halos de
inhibicin. Los resultados podran ser:
Pgina 93 -175
Pag 94-175
Rango de
Dimetro del halo de
Rango
de
d
i
N PAR
signo
inhibicin
Diferencia
COMPARADO
menos
(en 0.1mm)
(asignar valores de 1 a N, a
di
frecuente
las diferencias, de menor a
(el
mayor, con signo)
ALFA
BETA
menos!)
1
82
63
19
7
2
69
42
27
8
3
73
74
-1
-1
+1
4
43
37
6
4
5
58
51
7
5
6
56
43
13
6
7
76
80
-4
-3
+3
N=8
65
82
3
2
Valor de suma de rangos T
4
Nota: si hubiese empate de rangos, se les asigna a cada uno de ellos el promedio de los rangos que
les hubiese correspondido. O sea, supongamos que los pares 4, 5, 6 hubiesen dado igual diferencia
(di=6), entonces se les habra asignado a cada uno el rango 5 (=promedio de 4,5 y 6).
Consultando la TABLA VIII del APENDICE, vemos que para N=8 el valor T=4 alcanza (en
general se controla que alcance o rebase) el valor tabulado de p=0.05 para una prueba de dos colas,
por lo cual se rechaza H0 de igualdad entre ambos antibiticos al nivel p=0.05.
Cuando N es mayor que 25 no se puede usar la TABLA VIII. En ese caso, el valor de suma de
rangos T est distribuido normalmente N(, ) pudiendo computarse:
N ( N + 1)
4
N ( N + 1)(2 N + 1)
24
Por lo tanto
z=
N ( N + 1)
4
N ( N (+1)(2 N + 1)
24
T
est distribuida normalmente con media 0 y Desvo Standard 1. Para ver lo excelente que es esta
aproximacin y practicar este cmputo, lo aplicaremos al caso de los dos antibiticos:
z=
N ( N + 1)
(8)(9)
4
4
4
=
= 1.96
N ( N (+1)(2 N + 1)
(8)(9)(17)
24
24
T
Pgina 94 -175
Pag 95-175
La TABLA II nos informa que un valor tan extremo de z posee un p= 1 - 2(0.4744)=0.05 para una
prueba de dos colas, el mismo valor arrojado por medio de la tabla T de Wilcoxon.
4.6. PRUEBA U DE MANN-WHITNEY
Si se comparan dos grupos independientes y se ha logrado al menos una medida ordinal, se puede
emplear la prueba U de Mann-Whitney. Es una de las pruebas no paramtricas ms poderosas y la
alternativa ms til ftrente al test t-Student si no estn dadas las condiciones para la misma.
Supongamos que un investigador desea comparar los puntajes asignados al estado de salud
bucodental por un odontlogo a dos grupos de pacientes, uno de 3 pacientes y otro de 4 pacientes.
Definimos como n1 al nmero de casos del grupo ms pequeo (=3) y n2 al nmero de casos del
grupo mayor (=4). Los puntajes asignados varan de 0: estado psimo a 15: estado ptimo, y los
resultados obtenidos fueron:
PUNTAJES ASIGNADOS
(ordenados de menor a mayor)
9
11
15
6
8
10
13
PACIENTES A
PACIENTES B
Ahora generamos una lista ordenada de menor a mayor con todos los datos anotando el grupo al que
pertenece
6
B
8
B
9
A
10
B
11
A
13
B
15
A
Ahora se obtiene el indicador o estadstico de prueba U: es la suma del nmero de A que preceden a
cada B de esa lista. Al primer B no lo precede ninguna A (0), al segundo B tampoco (0), al tercero
lo precede un A (1) y al cuarto (y ltimo) B lo preceden 2 A (2). Por lo tanto
U=0+0+1+2=3
La distribucin de U respecto a la H0 de igualdad es conocida y est tabulada en las TABLAS IX y
X del APENDICE, segn el tamao de la muestra mayor (n2). En nuestro caso n1=3, n2=4 y U=3.
En la TABLA IX vemos que la p(U3) p=0.200 razn por la cual se acepta H0 de igualdad de
puntajes. Los valores de p de la TABLA IX son de una cola, para usarlos en ensayos de dos colas
hay que duplicar esos valores.
Supongamos que hubisemos contado la suma de precedencias de B a valores A. La suma hubiese
dado U=2+3+4=9 valor que excede a la TABLA IX. Ese valor se vuelve a normalizar con la
transformacin
U = n1n2 - U=12 - 9 = 3
Para muestras grandes con valores de n2 > 20, se reemplaza la consulta de tablas por la siguiente
transformacin:
Pgina 95 -175
z=
Pag 96-175
n1 n 2
2
(n1 )(n 2 )(n1 + n 2 + 1)
12
que lleva el estadstico U a una distribucin normal N(0,1). La prueba U puede a veces ser ms
potente que su par paramtrico la prueba t-Student, lo que representa un logro muy importante para
este ensayo no paramtrico.
4.7. PRUEBA DE UNA Y DOS MUESTRAS DE KOLMOGOROV-SMIRNOV
La prueba de dos muestras puede confirmar que esas dos muestras independientes han sido
extradas de la misma poblacin o por el contrario que difieren significativamente. La prueba est
basada en la distribucin de frecuencias acumuladas de las dos muestras.
Supongamos que el investigador ha relevado el numero de pacientes curados a lo largo de 55 meses
de tratamiento (cuando se curaron todos) con dos frmacos A y B. Cada grupo tena 10 pacientes. El
investigador registr los meses que requiri cada paciente en remitir sus sntomas y luego construy
esta tabla comparativa de frecuencias acumuladas de casos registrados en cada categora:
TRATAM A
TRATAM B
discrepancia
2 = 4D 2 H ;
donde H =
n1 n 2
; con g . de l. = 2
n1 + n 2
Pgina 96 -175
Pag 97-175
generando un valor ji-cuadrado que medir la significacin de la mxima discrepancia (D) en las
frecuencias acumuladas. Tambin podemos consultar la parte final de la TABLA XI que tiene
tabulados los valores de la mxima discrepancia permitida para varios niveles de significacin.
4.8. PRUEBA DE LAS RACHAS DE WALD-WOLFOWITZ
Esta prueba es aplicable cuando deseamos probar una hiptesis de nulidad que supone dos muestras
extradas de la misma poblacin frente a a una hiptesis alternativa que plantea la diferencia de
ambas.
Tambin puede ser aplicada a una nica muestra en la cual se quiera verificar si las rachas
generadas a a lo largo del tiempo de algn suceso dicotmico (o binario) como + y -, verdadero y
falso, sano y enfermo, etc. estn distribuidas al azar o si se encuentran agrupadas por alguna causa.
Esta prueba tiene como base que la variable medida sea al menos de escala ordinal y su distribucin
continua. Como ejemplo, un docente quiere controlar si dos grupos o comisiones de alumnos han
respondido de igual forma cierto examen. Supongamos que elige al azar 12 exmenes al azar de
cada comisin (calificados de 00-100) y los resultados obtenidos (en cualquier orden) son:
COMISION
A
COMISION
B
86
69
72
65
100
65
92
45
94
91
41
50
55
40
22
58
16
07
09
16
26
36
20
15
Ahora ordenamos todos los datos de menor a mayor registrando la clase de pertenencia
07
B
50
A
09
B
55
B
15
B
58
B
16
B
65
A
16
B
65
A
20
B
69
A
22
B
72
A
26
B
86
A
36
B
91
A
40
B
92
A
41
A
94
A
45
A
100
A
Observar que esta sucesin ordenada tiene 4 rachas de longitud 10, 3, 2 y 9 (suma = 24). O sea
definimos r=4. Consultamos en la TABLA XII del APENDICE y vemos en la primer tabla (de
valores menores a) que para n1=12 y n2=12 un r lmite de 7 es significativo al nivel p=0.05 (ensayo
de dos colas). Como el r obtenido es menor que ese lmite se concluye que la calificacin de ambas
comisiones difiere significativamente al nivel p=0.05.
Cuando las muestras son grandes (n>20) no puede usarse la TABLA XII, pero se puede usar una
transformacin normal:
| r (
z=
2n1 n 2
+ 1) | 0.5
n1 + n 2
2n1 n 2 (2n1 n 2 n1 n 2 )
(n1 + n 2 ) 2 (n1 + n 2 1)
En este caso, se obtiene un z (corregido por continuidad) distribuido normalmente N(0,1) que se
prueba (una o dos colas) como se ha indicado previamente. Por ejemplo, si en un ensayo con n1=8 y
n2=21 se detectaron 8 rachas, resulta z = 2.92, para z 2.92, H0 tiene una p=0.0018. Como este
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 97 -175
Pag 98-175
para z 2.98, H0 tiene una p=0.0028. Como este valor es menor a =0.01, se decide rechazar H0 de
igualdad de comportamiento, las muestras provienen de poblaciones diferentes, es decir la
distribucin de llegada de los hombres difiere de la distribucin de llegada de mujeres.
Desempates de valores de distintos grupos
Los empates dentro de un mismo grupo no representan problema para esta prueba. Un problema
potencial con esta prueba aparece si hay empates entre valores de distintos grupos. En ese caso las
rachas se pueden descomponer de forma mltiple. Supongamos una serie empatada de 3 valores AA-B, pero este podra generar rachas adicionales si se la ordena A-B-A o B-A-A. La solucin es
tantear todas las combinaciones posibles de desempate y ver si coinciden las conclusiones. Si no
coincidiesen las decisiones entonces se tendr un problema difcil. Si no queda otra alternativa
disponible y se est obligado a decidir, el investigador podr promediar las p obtenidas de los
ensayos y basarse en ese promedio para decidir acerca de H0. Sin embargo, si el nmero de empates
fuese grande, se hace inviable la aplicacin de esta prueba.
4.9. PRUEBA DE MOSES DE LAS REACCIONES EXTREMAS
Bajo ciertas circunstancias, es posible esperar respuestas diametralmente opuestas en dos grupos,
por ejemplo un grupo control y un grupo experimental. Supongamos que a un grupo de nN=9
pacientes neurticos y a otro grupo de nC=9 pacientes sanos se los somete a un corto pero intenso
ejercicio aerbico y al finalizar se les pide que califiquen subjetivamente su estado de cansancio en
una escala de 0 (min.) a 25 (mx.). Se espera que los neurticos reaccionen subestimando o
sobrestimando su grado de cansancio frente a los normales de comportamiento mas equilibrado, o
sea que incrementen la variabilidad de sus respuestas. Antes de comenzar el anlisis el
experimentador elige un nmero entero h (pequeo) de descarte de rangos extremos del control, si
no hay otro motivo se elige h=1. Los resultados fueron los siguientes:
NEUROTICOS
CONTROL
25
12
5
16
14
6
19
13
0
13
17
3
15
10
8
10
Pgina 98 -175
8
11
Pag 99-175
10
10
11
12
13
13
14
15
16
17
19
25
De la sucesin de rangos NCN se descartan los h valores (en nuestro caso = 1) extremos de los
controles, o sea aqu se eliminan las 2 casillas grisadas que ocupaban la posicin 2 y 15. El rango
extremo residual de los controles lo forman las casillas recuadradas y su distancia es sh=12-4+1=9.
El mnimo valor que puede tener esa distancia es (nC-2h)=9-2=7. Computamos ahora el valor g que
es el exceso de sh sobre el valor mnimo, o sea g=sh- nC-2h=9-7=2.
Ahora se determina la probabilidad de ocurrencia conforme a H0 de igualdad de sh 9, cuando
nN=9, nC=9 y g=2
i + n C 2h 2 n N + 2h + 1 i
nN i
i
i =0
p ( s h n C 2h + g ) =
nC + n N
nC
5 12 6 11 7 10
+ +
0 9 1 8 2 7
=
0.077
18
9
Como este valor es superior a =0.05, se acepta H0 de igualdad de criterio para ambos grupos,
aunque los neurticos estn cerca de diferenciarse significativamente por sus reacciones extremas.
En caso de empates de rangos de valores entre grupos se procede como se indic en el apartado
anterior.
Pgina 99 -175
Pag 100-175
En la TABLA XIII del APENDICE estn tabuladas las condiciones de significacin de esta prueba.
Consultamos las casillas correspondientes a N=15 para una prueba de una cola ya que suponemos
que la enseanza reduce el nmero de incorrecciones (y nunca debera aumentarlo!) o sea en
nuestro caso la media de la diferencia debe ser positiva. Tenemos entonces que
H 0 : 1 = 0 ; H 1 : 1 > 0 (una cola)
En la tabla vemos que para una cola y p=0.047 la condicin es:
min[1 / 2( d 1 + d 12 ) ; 1 / 2( d 2 + d 11 )] > 0
min o mnimo significa que hay que elegir el menor valor de los dos considerados para comparar si
es mayor a cero. En nuestro caso resulta min[ (-1+3), (-1+2)]= (1)=0.5>0. Por lo tanto se
cumple la condicin y podemos concluir que la instruccin ha mejorado significativamente el
nmero de errores al nivel 0.05.
4.11. PRUEBA Q DE COCHRAN
La prueba de McNemar para dos muestras relacionadas puede extenderse para k muestras
vinculadas. Esta generalizacin que concreta la prueba Q de Cochran permite decidir si tres o mas
conjuntos apareados de frecuencias difieren significativamente entre s.
Supongamos que el investigador est interesado en saber si un entrevistador amistoso puede
influenciar las respuestas de los pacientes a un cuestionario. Para ello se efectan tres tipos de
entrevistas (1=muy amistosas 2=simplemente cortes 3=seco y cortante) . En das separados se
consulta (tres veces, una por da) a 18 pacientes por su grado de satisfaccin por la atencin
recibida. En cada caso se usa una pregunta diferente pero con igual interpretacin. Los resultados
son los siguientes donde 1=Satisfactorio, 0=No satisfactorio:
PACIENTE
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Li
L i2
0
2
1
0
1
2
2
1
1
0
3
3
2
2
2
3
2
2
Li =29
0
4
1
0
1
4
4
1
1
0
9
9
4
4
4
9
4
4
L2i =63
Pag 101-175
En nuestro cuadro, llamamos Li a las sumas por paciente y Gi a las sumas por muestra. Ahora
computamos el indicador o estadstico de prueba Q de Cochran como sigue, considerando que en
este caso k= 3 (el nmero de muestras) y N=18 (tamao de la muestra de valores apareados):
k
Q=
(k 1)[k G 2j ( G j ) 2 ]
j =1
j =1
i =1
i =1
k Li L2i
y usamos Q como un 2 (ji-cuadrado) con = k-1 grados de libertad. En nuestro caso, obtenemos
Q=16.7 con 2 grados de libertad. Consultando la TABLA VI vemos que supera al valor lmite 13.82
con p=0.001, con lo cual concluimos rechazando H0 de igualdad y aceptando H1 de diferencia
significativa entre los sistemas de entrevista al nivel p=0.001.
4.12. ANOVA DE DOS VAS POR RANGOS DE FRIEDMAN
Cuando los datos de k muestras igualadas (de igual tamao) estn por lo menos en una escala
ordinal, el ANOVA de Friedman es til para probar la hiptesis de nulidad de que las k muestras
provienen de una misma poblacin. Es interesante comparar la utilidad del test de Friedman con el
ANOVA paramtrico de dos vas, aqu no hacen falta datos normalmente distribuidos y de categora
escala de proporcin (proporcionalidad absoluta), bastan datos de cualquier distribucin conocida o
desconocida que pertenezcan a escalas ordinales (relacin mayor/menor).
Supongamos que el investigador est interesado en conocer si tres grupos de ratas cepas distintas
responden igual frente a la irradiacin con cuatro equipos de rayos X a igual intensidad de
radiacin.. En cada cepa y tratamiento irradiamos 4 ratas y le asignamos un store de dao
(0=ausente 1=leve 2=moderado 3=intenso) despus del tratamiento. En cada cepa y tratamiento
sumamos los scores de las cuatro ratas y obtenemos el siguiente cuadro:
RATAS
CEPA ALFA
CEPA BETA
CEPA GAMMA
El primer paso en esta prueba es asignar una clasificacin por rango de 1 a 4 en cada fila, asignando
1 al dato menor y 4 al dato mayor:
RATAS
CEPA ALFA
CEPA BETA
CEPA GAMMA
Suma de rangos
por columna (Rj)
10
Pag 102-175
R2 =
k
12
R 2j 3N (k + 1)
Nk (k + 1) j =1
Esta es una prueba extraordinariamente til para decidir si k muestras independientes provienen de
poblaciones diferentes. La metodologa es bastante similar al ANOVA de Friedman. Veamos un
ejemplo:
Un investigador administra tres tratamientos a un conjunto de pacientes. Al cabo de un tiempo
efecta una evaluacin de acuerdo a una escala de score (0-200). Quiere saber si hay diferencia
entre los tres tratamientos. Los datos obtenidos de scores registrados fueron:
GRUPO
GRUPO
FENOTIAZINA BENZODIAZEPAM
96
82
128
124
83
132
61
135
101
109
GRUPO
HALOPIDOL
115
149
166
147
GRUPO
HALOPIDOL
7
13
14
12
R3=46
Pag 103-175
k R2
12
j
H=
3( N + 1)
N ( N + 1) j =1 n j
En el cual k = nmero de grupos (aqu 3), nj = nmero de datos en el grupo j, N es la suma de todos
los nj (en nuestro caso 14) y como antes Rj la suma de rangos por grupo. Como era de esperar, este
H se distribuye como un un 2 (ji-cuadrado) con = k-1 grados de libertad para tamaos muestrales
suficientemente grandes. En nuestro caso H = 6.4 con 2 g. de l., nuevamente consultamos la
TABLA VI y vemos que ese valor supera al lmite 0.05 pero no al lmite 0.01. Por lo tanto
concluimos que los tres grupos provienen de poblaciones diferentes, rechazando la Ho de
igualdad al nivel p=0.05.
Para valores muestrales pequeos y hasta 3 grupos (con tamaos n1, n2 y n3) en la TABLA XIV del
APENDICE se presentan los valores lmites de H para los niveles de significacin indicados.
Observaciones empatadas
Cuando en esta prueba aparecen valores iguales, se les asigna a los mismos el promedio de los
rangos que les hubiesen correspondido, como ya se ha hecho en otros ensayos. Ya que el valor de H
es influido en cierto grado por los empates, se corrige el H calculado:
H corregido =
1
N2 N
donde T = t t (t es el nmero de observaciones empatadas en algn valor)
y T = suma de todos los T obtenidos de los empates.
2
Sin embargo, esta correccin no es muy significativa, por ejemplo si hubiese a lo sumo un 25% de
empates, el efecto de la correccin no supera al 10% de la probabilidad asociada al H.
4.14. COEFICIENTE DE CONTINGENCIA C
Este valor es una medida del grado de asociacin o relacin entre dos conjuntos de atributos. Es
especialmente til cuando solamente tenemos informacin clasificatoria (escala nominal) acerca de
uno o de ambos conjuntos de atributos. Esto es, puede usarse cuando la informacin acerca de los
atributos consiste en una serie no ordenada de frecuencias.
Para calcular este coeficiente ni siquiera se necesita ordenar las categoras de ninguna manera
particular. El coeficiente toma el mismo valor si se reordenan filas y columnas de los conjuntos
considerados.
En general, los datos se presentan en un cuadro rectangular (o cuadrado) de valores en los cuales se
quiere ver qu asociacin hay entre las Filas con las Columnas. Como ejemplo, el investigador
quiere conocer que grado de asociacin hay entre grupo socio-econmico de pacientes y su
concurrencia a cuatro bocas de atencin (consultorios) diferentes. Los resultados en nmero de
pacientes por grupo y consultorio fueron:
Pag 104-175
GRUPO
CONCURRENCIA A CONSULTORIOS
SOCIOHOSPITAL HOSPITAL HOSPITAL HOSPITAL
ECONOMICO
I
II
III
IV
A1
23
40
16
2
A2-B-C
11
75
107
14
D-F
1
31
60
10
TOTAL
35
146
183
26
TOTAL
81
207
102
N=390
Se comienza calculando el valor 2 (ji-cuadrado) con = k-1 grados de libertad (ji-cuadrado) de esta
tabla de contingencia de 3x4 bajo la H0 de independencia (ver distribucin ji-cuadrado), con = (R1)(C-1)= 2.3 = 6 grados de libertad, lo que en nuestro caso da 2 = 69.2, valor que supera
holgadamente al lmite tabulado de p=0.001, por lo cual se rechaza la H0 de independencia (filas x
columnas) al nivel p=0.001, o sea la concurrencia a las distintas bocas de atencin est
significativamente determinada por el grupo socio-econmico al cual pertenece cada paciente.
Ahora computamos el coeficiente de contingencia (C):
C=
2
69.2
=
= 0.39
2
390 + 69.2
N+
Obviamente este coeficiente debe variar entre cero y uno como el coeficiente de correlacin lineal.
Sin embargo, esta suposicin es terica, puede llegar a cero si no hay correlacin pero no puede (en
la prctica) llegar a uno en correlacin ideal (el ji-cuadrado debera ser ). Otra limitacin de C es
que requiere el cmputo previo del ji-cuadrado, o sea slo se puede calcular C si menos del 20%
de las celdas tiene frecuencias esperadas menores a cinco y ninguna menor a uno. Por ltimo,
no es directamente comparable con otras medidas de correlacin como el clsico r de Pearson (la
clsica correlacin momento-producto), rS de Spearman o el r de Kendall. A pesar de esas
limitaciones este valor es extremadamente til debido a su aplicabilidad casi universal.
4.15. COEFICIENTE DE CORRELACION DE RANGOS DE SPEARMAN (rS)
SCORES
OPTIMISMO CURACION
82
42
98
46
87
39
40
37
116
65
113
88
7
8
9
10
11
12
111
83
85
126
106
117
Pag 105-175
86
56
62
92
54
81
Clasificando cada columna por rangos (1 a 12) , calculando las diferencias de rango, sus cuadrados y
la suma de esos cuadrados:
PACIENTE
N
1
2
3
4
5
6
7
8
9
10
11
12
SCORES
OPTIMISMO CURACION
2
3
6
4
5
2
1
1
10
8
9
11
8
10
3
6
4
7
12
12
7
5
11
9
di
di2
-1
2
3
0
2
-2
-2
-3
-3
0
2
2
SUMA
1
4
9
0
4
4
4
9
9
0
4
4
52
rS = 1
6 d i2
i =1
2
N N
= 1
6(52)
= 0.82
12 2 12
N 2
1 rS2
parmetro que est distribuido como t-Student con = N 2 grados de libertad. Por lo tanto,
consultando la TABLA III del APENDICE se puede verificar en un test de una cola la significacin
del coeficiente de Spearman.
Pag 106-175
S
=
2 N ( N 1)
(2)
= 0.33
2 ( 4)(3)
Ahora consultamos la TABLA XVI para controlar si el valor = 0.33 (en valor absoluto) supera a
los lmites tabulados. Vemos que para = N-1 = 3 grados de libertad no hay tabulacin disponible,
por lo cual deducimos que no podemos rechazar la H0 de igualdad de criterio al nivel p=0.05.
Por supuesto, si con 8 g. de l. hubisemos obtenido un tau=0.705, rechazaramos la H0 de igualdad
de criterio al nivel p=0.05 (pero no al nivel p=0.01).
Pag 107-175
Respecto a las repeticiones, se asignan los rangos promedio de los que les hubiese correspondido a
los involucrados y se aplica una frmula corregida al valor de tau:
S
1
N ( N 1) T X
donde T X ,Y =
N ( N 1) TY
2(2 N + 5)
9 N ( N 1)
a
1
3
2
b
2
1
1
c
3
2
3
d
4
4
4
Al considerar las evaluaciones por pares efectuadas por cada variable, podemos clasificarlas en + (si
el rango mas bajo precede a uno mas alto) o en caso contrario. Resulta:
PAR
VARIABLE Z
VARIABLE X
VARIABLE Y
a,b
+
-
a,c
+
+
a,d
+
+
+
b,c
+
+
+
b,d
+
+
+
c,d
+
+
+
Ahora se puede construir un cuadro de contingencia 2x2 en el cual se incluyan las concordancias y
discrepancias de X e Y con Z:
Pag 108-175
Pares de Y
concordantes
con Z
Pares de Y
discrepantes
con Z
TOTAL
A=4
B=0
C=1
D=1
Pares de X
concordantes con Z
Pares de X
discrepantes con Z
TOTAL
AD BC
( A + B )(C + D)( A + C )( B + D)
INVESTIGADOR
QUE JUZG
X
Y
Z
Rj (suma de rangos)
a
1
1
6
8
b
6
5
3
14
POSTULANTE A LA BECA
c
d
e
3
2
5
6
4
2
2
5
4
11
11
11
f
4
3
1
8
Ahora calculamos (s) como la suma de cuadrados (SC) de los valores Rj:
s = R 2j ( R j ) 2 / N
donde N es el nmero de entes comparados (=6), en este caso resulta s=25.5 y con ese valor
calculamos el coeficiente de concordancia:
W=
1
12
s
k (N 3 N )
2
en nuestro caso k=3 (el nmero de juicios) y W=0.16. Para determinar la significacin de ese grado
de concordancia consultamos la TABLA XVIII del APENDICE y vemos que para k=3 y N=6 el
valor crtico al 5% de s est en 103.9. Como el valor obtenido es menor (25.5), se rechaza H0 de
Pag 109-175
concordancia de criterios entre los tres investigadores al nivel p=0.05, o sea los jueces no han
tenido criterios concordantes.
2 =
1
12
s
; = N 1 g.de l.
kN ( N + 1)
y consultar la tabla ji-cuadrado tal como ya se ha indicado en otros apartados. Cuando ocurren
empates se corrige el W de manera similar a lo efectuado en el caso del coeficiente de correlacin
de rangos de Spearman (rS) :
s
W=
1 k 2 (N 3 N ) k
12
T
(t
; donde T =
t)
12
Pag 110-175
5.1.
Pag 111-175
DEFINICION DE LA EPIDEMIOLOGIA
Pag 112-175
Pag 113-175
La definicin ms conocida de salud pblica, seala que es sta una rama de la medicina cuyo
inters fundamental es la preocupacin por los fenmenos de salud en una perspectiva colectiva,
vale decir, de aquellas situaciones que, por diferentes circunstancias, pueden adoptar patrones
masivos en su desarrollo.
En 1920, Winslow defini la salud pblica en los siguientes trminos: "la salud pblica es la ciencia
y el arte de prevenir las enfermedades, prolongar la vida y fomentar la salud y la eficiencia fsica
mediante esfuerzos organizados de la comunidad para sanear el medio ambiente, controlar las
infecciones de la comunidad y educar al individuo en cuanto a los principios de la higiene personal;
organizar servicios mdicos y de enfermera para el diagnstico precoz y el tratamiento preventivo
de las enfermedades, as como desarrollar la maquinaria social que le asegure a cada individuo de la
comunidad un nivel de vida adecuado para el mantenimiento de la salud". Posteriormente, Winslow
cambi el trmino "salud fsica" por el de "salud fsica y mental".
La definicin de salud propuesta por la Organizacin Mundial de la Salud (OMS: 1946), que seala
que "salud no es solamente la ausencia de enfermedad, sino el estado de completo bienestar
fsico, mental y social del individuo", determina que una buena parte del quehacer de la salud
pblica se expanda hacia reas nuevas y emergentes en las sociedades contemporneas.
Significa, en buenas cuentas, la manifestacin explcita de que la medicina debe preocuparse tanto
de enfermos como sanos. Siguiendo a Milton Terris, quien propone en 1990 una adaptacin
contempornea a la definicin de Winslow, la salud pblica queda definida como:
"La ciencia y el arte de prevenir las dolencias y las discapacidades, prolongar la vida y fomentar la
salud y la eficiencia fsica y mental, mediante esfuerzos organizados de la comunidad para sanear el
medio ambiente, controlar las enfermedades infecciosas y no infecciosas, as como las lesiones;
educar al individuo en los principios de la higiene personal, organizar los servicios para el
diagnstico y tratamiento de las enfermedades y para la rehabilitacin, as como desarrollar la
maquinaria social que le asegura a cada miembro de la comunidad un nivel de vida adecuado para el
mantenimiento de la salud".
La salud pblica as considerada se constituye a partir del reconocimiento de la existencia de
procesos y problemas colectivos de enfermedad. Esto implicaba que organizaciones, grupos o
instituciones deban hacerse cargo de los mismos, pues stos no podan ser resueltos en el nivel de
los individuos. Como especialidad no clnica de la medicina, esta disciplina enfoca el tema de la
salud en un contexto colectivo, buscando mediante la aplicacin de diversos enfoques de
intervencin, influir positivamente para evitar a ocurrencia de enfermedad. Por el carcter "no
clnico" de la salud pblica, pudiera pensarse que la accin mdica es susceptible de ser
fragmentada en un ambiente individual, de orden clnico, y otro de carcter colectivo, con menos
protagonismo tcnico, representado por la salud pblica. Sin embargo, hoy es universalmente
aceptado que la salud de los individuos transcurre en un eje vital continuo, en el que se producen
momentos de interaccin individual entre ste y su medio as como complejas relaciones colectivas
sustentadas por una intrincada malla de interacciones sociales que los individuos desarrollan en sus
comunidades. Luego, es lgico percibir al individuo como integrante de un colectivo, sin que por
ello pierda su carcter de persona individual. Por tanto desde la perspectiva del cuidado de la salud
de los individuos, conviene enfatizar que slo existe un tipo de medicina, en la que est presente el
quehacer de disciplinas con alcances diversos y complementarios, que se despliegan de acuerdo a la
naturaleza y desarrollo de los acontecimientos de salud.
Sin embargo el trmino "salud pblica" est, a juicio de otros autores, cargado de significados
ambiguos e imprecisiones diversas. En su historia han sido prominentes cinco connotaciones.
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pag 114-175
La primera equipara el adjetivo "pblica" con la accin gubernamental, esto es, con el sector
pblico o estatal. Un segundo significado es an ms amplio al incluir no tan slo la participacin
del estado sino la de la comunidad organizada. El tercer uso identifica a la salud pblica con los
llamados "servicios no personales de salud", es decir, aquellos que se aplican al medio ambiente
(por ejemplo, el saneamiento ambiental) o a la colectividad (por ejemplo la educacin masiva en
salud) y que por lo tanto no son apropiables por un slo individuo en forma especfica, como podra
ser una consulta mdica o la aplicacin de un procedimiento diagnstico. El cuarto uso es una
ampliacin del tercero en tanto se le aaden una serie de servicios personales de naturaleza
preventiva dirigidos a grupos vulnerables (por ejemplo, los programas de atencin maternoinfantiles). Por ltimo, a menudo se utiliza la expresin "problema de salud pblica", sobre todo en
el lenguaje no tcnico, para referirse a padecimientos de alta frecuencia o peligrosidad en la
poblacin. Tambin existen asociaciones entre estos diferentes significados. Por ejemplo, en
algunos pases industrializados ha habido una tendencia a que el sector privado de salud preste la
mayor parte de los servicios teraputicos personales, mientras que el sector pblico o estatal ha
asumido la responsabilidad por los servicios preventivos y no personales, tan necesarios para la
comunidad. Ello ha reforzado la idea de la salud pblica como un subsistema separado de servicios
proporcionados por el estado y paralelos a la corriente principal de la medicina curativa de alta
tecnologa. Recientemente ha surgido un punto de vista ms integral sobre el concepto de salud
pblica. Este sostiene que el adjetivo "pblica" no denota un conjunto de servicios en particular, ni
una forma de propiedad, ni un tipo de problemas, sino; Un nivel especfico de anlisis, a saber un
nivel poblacional. A diferencia de la medicina clnica, la cual opera en un nivel individual, y de la
investigacin biomdica, que analiza el nivel subindividual, la esencia de la salud pblica consiste
en que adopta una perspectiva basada en grupos humanos o poblaciones. Esta perspectiva
poblacional inspira sus dos aplicaciones, como campo del conocimiento y como mbito para la
accin.
La salud pblica requiere para su adecuado desarrollo de la colaboracin activa de un conjunto de
disciplinas, sin las cuales, la explicacin e intervencin sobre los problemas de salud sera
materialmente imposible, adems de incompleta. Desde sus inicios como materia de estudio y
durante el transcurso de este siglo, la salud pblica se ha visto como una ciencia social a la que
concurren un conjunto de disciplinas. Es el aporte conjunto de stas el que finalmente determina un
nivel de comprensin ms integral de los procesos de Salud-enfermedad. Como eje central de estos
aportes se encuentran las disciplinas mdico biolgicas y particularmente la epidemiologa, que
tiene un rol central para la comprensin de una gran parte de los fenmenos de Salud. Entre stas
disciplinas pueden sealarse algunas ligadas directamente al mbito biomdico, a las que se han
sumado necesariamente otras provenientes de otras reas del conocimiento, particularmente las del
campo de las ciencias sociales, postergadas inexplicablemente por largo tiempo.
Un obstculo importante para lograr la integracin de estas diferentes disciplinas ha sido la
tendencia a identificar cada nivel de anlisis con alguna de estas disciplinas. Por ejemplo, existe la
confusin de que las ciencias bsicas son slo aplicables a los niveles individuales y subindividual,
mientras que el poblacional es patrimonio absoluto de las ciencias sociales. Todas las poblaciones
humanas se organizan en sociedades, de ah que las Ciencias Sociales sean indispensables para una
cabal comprensin de la salud de las poblaciones, es decir, de la salud pblica. En este mbito, las
Ciencias Sociales han ejercido notable influencia en el estudio de algunos determinantes psicosociales de salud que comenzaron siendo explorados en forma muy reduccionista en el ambiente
epidemiolgico. A modo de ejemplo, en estos ltimos aos la contribucin de estas disciplinas en el
estudio de determinantes socioeconmicos y desigualdades en salud han abierto un mundo nuevo en
la comprensin de interacciones entre factores biolgicos y sociales. Sin embargo, tambin existe
una dimensin biolgica de las poblaciones humanas, expresada en sus caractersticas genticas, la
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pag 115-175
inmunidad grupal y la interaccin de la poblacin humana con otras poblaciones, como por ejemplo
la interaccin microbiolgica (dimensin que da origen a la seroepidemiologa, bioepidemiologa y
a la epidemiologa gentica).
En una segunda etapa, se elaboran hiptesis explicatorias sobre la base de los paradigmas
imperantes (nivel analtico)
Con la nueva evidencia la epidemiologa elabora nuevas hiptesis que seguirn el mismo
anlisis descrito, alimentando el conocimiento y abriendo un nuevo ciclo de investigacin.
La secuencia descrita es indistinguible de aquella utilizada por el mtodo cientfico y en este sentido
es posible afirmar que el mtodo epidemiolgico es una aplicacin particular del mtodo cientfico.
La particularidad del mtodo epidemiolgico est representada por el carcter propio de su
estrategia y del cuerpo de conocimientos que produce.
Pag 116-175
diseos de investigacin epidemiolgica los que se corresponden con las etapas descritas para el
mtodo epidemiolgico. Es as como la observacin de los fenmenos naturales es rigurosa y
sistemticamente registrada, consolidada y resumida mediante tcnicas incluidas en el gran captulo
de la epidemiologa descriptiva. Para ello utiliza procedimientos propios y otros derivados de
disciplinas relacionadas como la bioestadstica, la clnica, las ciencias sociales y la informtica.
La observacin de los fenmenos y la consecuente formulacin de hiptesis descansan en el juicio
crtico y creativo del investigador y se apoyan en los llamados estudios de prevalencia y de
incidencia. La verificacin de la(s) hiptesis ocupan la atencin de la epidemiologa analtica la que
cuenta con los diseos de casos y controles, de cohorte y experimentales. Cada uno de ellos genera
evidencia objetivable por indicadores de naturaleza matemtica validados por procedimientos
estadsticos de complejidad variable. El conjunto indito de estos modelos o diseos y la
produccin de conocimientos que ha originado su aplicacin, han dado identidad y estatura
cientfica a la epidemiologa.
Empleado
Desempleado
Buscando empleo
Una persona empleada que desea aumentar su ingreso con un segundo empleo, podra estar en
condiciones de responder a ms de una opcin en las categoras propuestas arriba.
Unidades de anlisis
La unidad de anlisis corresponde a la entidad mayor o representativa de lo que va a ser objeto
especfico de estudio en una medicin y se refiere al qu o quin es objeto de inters en una
investigacin. Por ejemplo: Debe estar claramente definida en un protocolo de investigacin y el
investigador debe obtener la informacin a partir de la unidad que haya sido definida como tal, aun
cuando, para acceder a ella, haya debido recorrer pasos intermedios. Las unidades de anlisis pueden
corresponder a las siguientes categoras o entidades:
Personas
Grupos humanos
Pag 117-175
Poblaciones completas
Pag 118-175
Prevalencia
Incidencia
Medidas de Riesgo:
Riesgo
Chance u odds
Riesgo: probabilidad inminente de ocurrencia individual de un evento, por ejemplo, un dao. Note
que es un concepto "prospectivo" y condicionado, por ejemplo, a una determinada exposicin.
Factor de Riesgo: condicin, caracterstica o atributo que condiciona una mayor probabilidad de
experimentar un dao o problema de salud
Medidas relacionadas con el efecto:
Riesgo relativo
Riesgo absoluto
Como se ha mencionado en otros captulos, la definicin de "caso" es crucial. Se define como tal
aquel individuo portador de un dao, enfermedad o problema de salud o aquel que sufre el evento.
La definicin epidemiolgica de caso no siempre es equivalente a la definicin clnica (por ejemplo,
en el estudio de un brote epidmico, un caso puede ser definido por la constatacin de un
determinado cuadro clnico, ms el antecedente de un tipo de exposicin determinada o referido a un
periodo de tiempo).
As, un caso "sospechoso" de intoxicacin alimentaria podra corresponder a un cuadro diarreico
agudo determinado, en una persona con antecedente de exposicin a una situacin de riesgo. Es
importante tambin la distincin entre casos y eventos. En algunas circunstancias podremos estar
interesados simultneamente en la determinacin de ambas cosas. Es crucial recordar que ambos,
caso o eventos dan cuenta de la variable dependiente u outcome, lo que exige absoluta claridad en
relacin con lo que se mide y tambin en cmo se mide.
Pag 119-175
Variable dependiente
(outcome)
Casos
Eventos
+
+
+
+
+
La epidemiologa necesita evaluar el origen a partir del cual los casos se originan y el tiempo durante
el cual los datos fueron recogidos.
Pag 120-175
3. Razones: expresan la relacin entre dos sucesos. A diferencia de las tasas el numerador no
est incluido en el denominador y no hacen referencia a una poblacin expuesta. En ste
caso, la interpretacin del cociente no alude a una probabilidad o a un riesgo, como es el caso
de la tasa. Un ejemplo es la razn de masculinidad, que es el cociente entre la poblacin de
sexo masculino y la poblacin de sexo femenino en un lugar y periodo determinado
(amplificado por 100. En la Provincia de Buenos Aires, Argentina, el ao 2000 la razn de
masculinidad fue de 98,1%, es decir, "por cada 100 mujeres haba 98 hombres".
4. Proporciones: Expresan simplemente el peso (frecuencia) relativo que tiene un suceso
respecto a otro que lo incluye (el denominador incluye al numerador). Por ejemplo, Qu
proporcin de las muertes ocurridas en la Provincia de Buenos Aires, Argentina el ao 1999
fue causada por enfermedades cardiovasculares? Esto se calcula construyendo el cociente
entre el nmero de muertes ocurridas por causa cardiovascular (22.730) y el nmero total de
muertes ocurridas ese ao (81.984) amplificado por 100 (27.7% de las muertes de 1999
fueron causadas por enfermedades cardiovasculares). Las proporciones no se interpretan
como una probabilidad ni tampoco otorgan un riesgo puesto que no se calculan con la
poblacin expuesta al riesgo.
5. ndices: Surgen de la comparacin de dos tasas o dos razones. Por ejemplo, el cociente entre
la tasa de mortalidad general en varones respecto de las mujeres en 1999. Este indicador da
una idea de la existencia de mayor o menor riesgo de una condicin dependiendo si su valor
es mayo o menor de 1 (o de 100%). En este caso, se tiene para la Provincia de Buenos Aires:
Defunciones
Poblacin
Tasa x 1000
ndice
Hombres
44.424
7.434.317
5.97
1.20 (120%)
Mujeres
37.560
7.583.443
4.95
A continuacin se describen en un cuadro resumen algunos indicadores y su forma de clculo:
Indicadores de natalidad
Tasa bruta de natalidad
Tasa de Fecundidad General
Definicin / Clculo
N de recin nacidos vivos / Poblacin estimada
a mitad de periodo
N nacimientos/
N mujeres en edad frtil (15-49 aos)
Amplificacin
1.000 habitantes
1.000 mujeres
Indicadores de morbilidad
Definicin / Clculo
N enfermos por causa /
Tasa de morbilidad por causa
Poblacin total a mitad de periodo
N enfermos segn edad o sexo/
Tasa de morbilidad especfica
Pobl. total a mitad de periodo segn edad o
por edad, sexo
sexo
N de casos nuevos de enfermedad/
Tasa de incidencia
Poblacin expuesta
N casos (nuevos y antiguos)/
Tasa de prevalencia
Poblacin total expuesta
N casos enfermedad transmisible /
Tasa ataque primaria
Poblacin expuesta
N casos enfermedad transmisible aparecidos
Tasa de ataque secundario
despus de casos 1arios/
Poblacin expuesta
Pag 121-175
Amplificacin
1.000 habitantes
100.000 habitantes
Variable
Variable
100 expuestos
100 contactos
Pag 122-175
Numricamente es complejo evidenciar tan bajos rdenes de magnitud, y ms difcil an, intentar
establecer la importancia relativa de la pericarditis aguda como causa de muerte en relacin al total
de muertes cardiovasculares.
En este caso, la amplificacin por un mltiplo de 10, podra superar esta dificultad en la
interpretacin. El orden de magnitud de dicho mltiplo de 10 depender de cuan pequea es la cifra
obtenida. En este caso, por la baja frecuencia de sujetos considerados en el numerador, conviene
amplificar por un mltiplo de 10 del orden de 100.000, con lo cual las tasas obtenidas se transforman
en:
Tasa de mortalidad especfica por pericarditis =
0,037 muertes por 100.000 habitantes .
Tasa de mortalidad especfica por enfermedades. cardiovasculares =
109,3 muertes por 100.000 habitantes
Por convencin, en la amplificacin de tasas brutas, globales o generales se suele utilizar 1.000
como mltiplo amplificador. En estos casos, dado que se trata de tasas resmenes, los numeradores
suelen ser importantes en nmero. Ejemplo, tasa de mortalidad general (TMG) en la Provincia de
Buenos Aires de la Repblica Argentina, 1991:
TMG = 74.682 def. x 10
hbts.
La mortalidad infantil y aquellas vinculadas con ella (perinatal, neonatal, infantil tarda) suelen
amplificarse tambin por 1.000 recin nacidos vivos. En aquellos casos en los cuales se trate de
construir tasas especficas por algn atributo, sea sexo, edad, lugar de residencia, tipo de enfermedad
u otro, se suele amplificar por 100.000 la tasa pues los numeradores habitualmente son ser de menor
magnitud que el caso anterior.
Ejemplo: tasa de mortalidad por enfermedades del aparato circulatorio en la Pcia. de Bs. Aires
Argentina, 1999 (TM Cv): .
TM Cv. 1999= 22.730 defunc. x 100.000/15.017.760 personas = 151,3 muertes por 100.000 hbts.
Las tasas destinadas a medir hechos vinculados con el mbito obsttrico, (como mortalidad materna
o mortalidad por aborto), suelen amplificarse por 10.000. Las tasas de letalidad se amplifican por
convencin por 100 (10 ) puesto que el mximo dao que una enfermedad puede producir en
trminos de muerte es en el peor de los casos de 100%.
Probar causalidad e,
Identificar riesgo.
La preeminencia de cada uno de estos objetivos ha estado determinada por el modelo conceptual de
salud-enfermedad imperante. Es as como la causalidad encuentra su mayor protagonismo en las
relaciones mrbidas, entre agente y husped, formuladas en los modelos de las enfermedades
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pag 123-175
Diseo
Los estudios de cohorte tienen un diseo o formato fundamental. Se trata del seguimiento de
individuos caracterizados por estar libres del dao en estudio al inicio de la observacin. Entre estos
individuos se observa, a medida que pasa el tiempo, la aparicin de casos de enfermedad
(outcome) a lo largo del tiempo segn posean o no un atributo (variable independiente o
exposicin) que se cree asociado al desenlace (outcome) en estudio. Slo en contadas ocasiones la
constitucin de los grupos considera la exposicin como un suceso dicotmico (s/no o expuesto/noexpuesto). Por su estructura y complejidad el investigador aprovecha este diseo para evaluar con
mayor detalle el resultado de una exposicin, lo que supera las limitaciones de exposiciones
dicotmicas del tipo Expuesto/no expuesto.
Lo habitual es que el estudio permita la subdivisin de la cohorte expuesta segn diferentes niveles
de exposicin (ejemplo de exposicin: tabaquismo, el que puede ser categorizado en diferentes
niveles de consumo o tiempo de exposicin; exposicin laboral a elementos txicos, que pueden
categorizarse en magnitud y tiempo de exposicin) Para estos efectos los individuos son agrupados
de tal manera que los grupos tengan el mximo de caractersticas similares entre si y puedan ser
comparables y as difieran, idealmente, slo en la variable independiente en estudio.
Pag 124-175
Lo habitual en un estudio de cohorte es que el investigador sea contemporneo con el inicio del
seguimiento de los grupos, vale decir, asista a la agrupacin de los individuos sanos. En este caso se
acua el trmino de estudio concurrente. Por el contrario, si el investigador no participa en forma
contempornea de la formacin de las cohortes y sta se form en el pasado pero es susceptible de
ser seguida en el tiempo, se habla de un estudio no concurrente (Historical cohort studies)
Los elementos bsicos de un estudio de cohorte pueden resumirse en el siguiente listado:
Anlisis de datos
Interpretacin de resultados
Pag 125-175
3. Cohortes mltiples: en este caso se trata de generar mltiples grupos, de individuos sanos,
con diferentes grados de exposicin al factor de riesgo. En este caso se compara la incidencia
de enfermedad de cada grupo en relacin a una cohorte de control, de preferencia la de menor
o con nula exposicin al factor de riesgo. Son tiles en la evaluacin de relaciones de dosisrespuesta.
4. Estudio de casos y controles anidados (nested case & control studies): Los estudios de
cohorte permiten la identificacin de un pool de sujetos enfermos concluido el periodo de
observacin o seguimiento (follow-up). El investigador conoce detalladamente las
caractersticas ms relevantes de este grupo de personas en cuanto a eventuales exposiciones
y otras covariables. Aprovechando este hecho, es posible constituir un esquema de diseo de
casos y controles seleccionando aleatoriamente controles entre el grupo de sujetos no
afectados despus del periodo de seguimiento (Ver el esquema abajo). Tiene especial
aplicacin en aquellas situaciones en que los procedimientos diagnsticos para detectar casos
son de elevado costo, en particular en el estudio de enfermedades ocupacionales.
Este diseo hbrido contribuye al control de sesgos, particularmente los vinculados con
medicin, problema frecuente de los estudios de caso y controles.
Ensayar hiptesis de causalidad y de riesgo: los estudios de cohorte son, entre los diseos
observacionales, los que proveen la ms rigurosa informacin en favor de la causalidad y del
riesgo. Como ya se ha mencionado, la certeza absoluta del proceso causal slo es capaz de
proporcionarla el diseo experimental. Tienen la ventaja adicional de seguir el mismo sentido
de la lgica del pensamiento clnico (la exposicin precede al desenlace).
Medir la incidencia de una enfermedad o condicin: uno de los productos de mayor inters en
un estudio de cohorte es la obtencin de tasas de incidencia de la enfermedad o condicin en
estudio. La tasa de incidencia de una enfermedad corresponde al total de casos nuevos de
enfermedad que se presentan en un grupo de individuos en un perodo de tiempo
determinado. Dado que una condicin indispensable en estos diseos es que las cohortes
Pag 126-175
estn constituidas por individuos sanos, en la prctica un estudio de esta naturaleza permite
medir tres tipos de tasas de incidencia : tasa de incidencia de la enfermedad para la cohorte
expuesta al factor de riesgo, para la cohorte no expuesta y para ambos grupos en conjunto.
Permiten la cuantificacin del riesgo: la relacin entre tasa de incidencia de sujetos expuestos
con relacin a la de los no expuestos da origen al llamado riego relativo que permite
establecer la magnitud de riesgo asociado a la exposicin analizada.
Pueden requerir de un largo perodo de seguimiento de la(s) cohorte(s). Esto conspira contra
la integridad del estudio pues durante el seguimiento individuos pueden perderse y/o puede
alterarse su condicin de exposicin (el sujeto que no fumaba al inicio del seguimiento,
comenz a hacerlo posteriormente).
Son generalmente estudios de mayor complejidad (en cuanto a diseo, costo y anlisis)
comparados con otros estudios analticos.
Pueden ser afectados por otras exposiciones, eventualmente no consideradas en el diseo que
puedan influir en un mayor o menor riesgo de presentacin del desenlace u outcome.
Volveremos ms adelante a detallar estos aspectos, pero vale la pena destacar de antemano los
conceptos claves en el estudio de las cohortes:
1. Las cohortes pueden tener una estructura cerrada (igual tiempo de seguimiento) o abiertas o
dinmicas (diferente tiempo de seguimiento)
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pag 127-175
Un estudio de cohorte permite obtener informacin sobre incidencia y a partir de sta, indicadores de
riesgos absoluto y relativo.
Tipos de cohorte
Se denomina cohorte cerrada a aquella cuyos miembros son reclutados en el mismo periodo de
tiempo y a la cual no ingresan personas durante el periodo de seguimiento. En consecuencia, en esta
modalidad el total de miembros de la cohorte tiene perodos de seguimiento que comienzan al mismo
tiempo.
Cohorte abierta o dinmica es aquella en la cual sus integrantes pueden ingresar a seguimiento en
diferente momento durante el periodo que este dure. Por tanto, los miembros de esta cohorte pueden
tener tiempos de exposicin heterogneos.
Incidencia
El seguimiento de individuos sanos por un perodo determinado de tiempo permite medir el nmero
de casos de una enfermedad que aparecen en dicho perodo. Esta cifra constituye la tasa de
incidencia de la enfermedad en estudio que puede ser medida para la cohorte expuesta (TI exp), la
no expuesta (TI noexp) y para ambas en conjunto (TI).
La incidencia acumulada se calcula considerando todos los sujetos que presentaron el outcome en
estudio independientemente del momento en el cual lo presentaron (cumulative risk). Su clculo
aplica cuando se trate de una cohorte cerrada.
Para el caso particular de un diseo de cohorte en que se permita eliminar o ingresar individuos a las
cohortes despus de haber iniciado el seguimiento (cohortes abiertas) seguimiento), se prefiere el
trmino densidad de incidencia. (incidence rate)
La densidad de incidencia suma todos los tiempos con que efectivamente contribuyeron los
individuos estudiados. El indicador se construye dividiendo el total de enfermos encontrados a lo
largo del estudio por el total del tiempo de seguimiento (tiempo -persona) y amplificando segn
corresponda.
Riesgo
El clculo de incidencia de la enfermedad en expuestos y no expuestos permite evaluar riesgo
asociado a la condicin de exposicin. La relacin matemtica que se establezca entre estas dos
medidas permite el clculo de a lo menos seis expresiones de riesgo:
Riesgo Relativo (en la literatura anglosajona el trmino Risk Ratio corresponde al clculo
utilizando incidencia acumulada)
Pag 128-175
Riesgo Atribuible,
Para explicar el sentido de cada una de estas medidas se puede recurrir a la tabla tetracrica, de
doble entrada y que nosotros hemos llamado tabla de contingencia 2x2, en este caso, utilizando
incidencia acumulada como medida de riesgo:
EXPUESTOS
NO EXPUESTOS
ENFERMOS
SANOS
A
C
A+C
B
D
B+D
A+B
C+D
A+B+C+D
Observe que en este diseo el sentido de lectura de esta tabla de 2 x 2 es horizontal (filas), a
diferencia del diseo de casos y controles, que en este caso sera vertical (columnas).
Se debe notar que a diferencia de los estudios de caso y controles, el investigador fija el total de
ambas filas, (A + B) y (C + D) respectivamente)
Pag 129-175
Ejemplo: Un estudio de cohorte diseado para estudiar en 200 sujetos el riesgo de desarrollo de
cncer del pulmn segn el hbito de fumar de ellos, arroj los siguientes resultados despus del
seguimiento:
EXPOSICIN +
EXPOSICIN -
CNCER
20
5
25
SANOS
80
95
175
100
100
200
Pag 130-175
Riesgo Atribuible Poblacional Porcentual (RAP%) =((25/200) - (5/100))/ (25/200)= 0,60 (60%)
Si se utiliza en el seguimiento de los individuos el concepto de tiempo-persona, se puede calcular
densidad de incidencia para los grupos expuestos y no expuestos respectivamente. La estructura de la
tabla de contingencia adopta una forma diferente a la del caso de incidencia acumulada.
EXPOSICIN +
EXPOSICIN -
CASOS
A
B
T1
T2
6
12
35
53
AOS-PERSONA DE
SEGUIMIENTO
10,000
10,000
10,000
Si se utiliza una poblacin de referencia, por ejemplo, proveniente de la poblacin general, de la cual
se conoce las tasas de incidencia, es posible estimar el nmero esperado de muertes en la poblacin
estudiada.
Pag 131-175
GRUPOS DE
EDAD
30 A 39
40 A 49
50 A 59
TOTAL
MUERTES
AOS-PERSONA DE
OBSERVADAS
SEGUIMIENTO
(B)
(A)
6
10,000
12
10,000
35
10,000
53
TASA MORTALIDAD
POBLACIN
REF ( 10 )
(C)
0,5
1,0
2,5
MUERTES
ESPERADAS
(C X B)/1000
5
10
25
40
VARIABLE DEPENDIENTE
PRESENTE
A
C
C1 (A+C)
AUSENTE
B
D
C2 (B+D)
TOTAL
F1 (A+B)
F2 (C+D)
N
Pag 132-175
Casos
6
4
10
Controles
3
7
10
9
11
20
Pag 133-175
CASOS
6
4
10
CONTROLES
5
15
20
11
19
30
CASOS-CONTROLES
E-N (CASO EXPUESTO; CONTROL NO EXPUESTO)
E-N
N-N (CASO Y CONTROL NO EXPUESTOS)
N-N
E-E (CASO Y CONTROL EXPUESTOS)
E-N
E-N
E-N
N-N
N-E
Pag 134-175
2 =
N (| AD BC | N / 2) 2
C1 C 2 F1 F 2
Pag 135-175
; g .de l. = 1
Teniendo como punto de corte 5,991 para este valor, con un 95% de confianza. Vale decir, si el valor
de ji-cuadrado calculado excede este valor, se est en condiciones de poder rechazar la hiptesis de
nulidad H0 (falta de asociacin) en favor de H1 (asociacin), con 95% de confianza. Habitualmente
en todo caso, la hiptesis de asociacin suele haber sido comprobada previamente al desarrollo del
protocolo. El paso siguiente es el clculo del odds ratio. El odds ratio tiene la caracterstica de
cuantificar la magnitud de riesgo y a continuacin se lo explica en detalle.
Odds1 = A/C1 (enfermos expuestos en relacin con el total de enfermos) / C/C1 (enfermos
no expuestos en relacin con el total de enfermos) = (A/(A+C))/(C/(A+C))
Equivalentemente la "chance" de no tener la enfermedad, segn se est o no expuesto al factor
(Odds2) corresponde a :
a.d
b.c
Pag 136-175
INTERVALO DE CONFIANZA
INFERIOR
SUPERIOR
TIPO DE
ASOCIACIN
MAYOR DE 1
>1
>1
NO EVIDENCIA DE
ASOCIACIN
SIGNIFICATIVA,
RIESGO
MAYOR DE 1
<1
>1
NO SIGNIFICATIVA
MENOR DE 1
< DE 1
< DE 1
SIGNIFICATIVA,
PROTECCIN
MENOR DE 1
< DE 1
> DE 1
NO SIGNIFICATIVA
Para el clculo del intervalo de confianza se recurre a diferentes mtodos. Uno de los ms utilizado
es el Woolf que utiliza la siguiente frmula
IC OR = Exp (Ln OR z. Ln (ES))
donde z =parmetro de distrib. normal y Ln(ES)= RaizCuadrada(1/a+1/b+1/c+1/d) y Exp(x) es ex
Pag 137-175
Pag 138-175
Pag 139-175
Queda entendido que estos ndices reflejan el volumen de atencin y no la calidad de la misma. La
medicin de la calidad de atencin es sujeta hoy da a un profundo debate en el cual se buscan
definir parmetros que reflejen no slo el mejoramiento de salud del pblico cliente del organismo o
servicio hospitalario sino adems reflejar el grado de satisfaccin que tienen los pacientes sobre la
atencin mdica recibida.
Pag 140-175
(2)
(3)
(4)
(5)
(6)
(7)
PACIENTES
EXPUESTOS
A
SOBREVIDA
PROBABILIDAD
DE MORIR EN
EL AO
TASA DE
SOBREVIDA
(%)
q0
q1
q2
q3
-.-
p0
p1
p2
p3
-.-
r0
r1
r2
r3
r10
AOS
COMPLETOS
DE
SOBREVIDA
MUERTO
VIVO
TOTAL
VIVOS (AL
COMIENZO
DEL AO)
0
1
2
3
10 O MAS
m0
m1
m2
m3
m10
v0
v1
v2
v3
v10
t0
t1
t2
t3
t10
ULTIMO REGISTRO
COLUMNAS:
(2) y (3) Salen del control efectuado
(4) t10 = m10 + v10; luego continuar hacia arriba t9=t10+m9+v9, t8=t9+m8+v8,
(5) qi = ti vi/2; para todas las filas salvo la final
(6) pi = mi / vi; para todas las filas salvo la final
(7) r=100 y luego para todas las filas ri = ri-1(1- pi-1)
4. Por ltimo se grafican los datos de la TABLA DE SOBREVIDA (Columna 7 vs. Columna 1)
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pag 141-175
Pag 142-175
62349
35050
71571
89126
95113
74088
40469
83722
91254
43511
65564
27478
79712
24090
42082
16379
44526
25775
25752
15140
19713
67331
65178
03091
34733
39153
93365
07763
39411
68076
69459
54526
82928
73146
18292
17986
22356
31131
06089
69486
24537
93208
30196
15630
80468
80583
00209
05409
95836
65358
70361
90404
20830
22530
70469
41047
99457
01911
91785
87149
26792
72570
60767
80210
89509
78466
42194
55248
34361
72176
03395
49043
79253
52228
18103
17635
24330
12317
33869
55169
09697
14939
84120
94332
79954
82447
09865
77772
83868
72002
31405
45906
50103
61672
20582
72249
41692
61885
48917
88378
04037
40581
50796
48129
84299
36192
93050
96822
48624
12193
40221
48734
82002
48248
03785
14918
34652
07973
91465
49314
53437
41577
52925
54898
39761
60571
04631
75467
61220
99132
40995
49184
86013
18721
28775
55006
39295
98072
67387
45276
10694
81776
91942
66575
91816
77800
24028
86558
78545
14969
25734
03405
84750
49201
64623
09801
01178
43994
05329
82780
92087
06316
01760
14182
35686
02955
81916
96205
10971
30941
12872
40170
27937
90472
14622
89848
53665
45416
44682
04126
48579
87202
71964
39304
25498
06028
88638
52261
19819
95452
13827
47121
30781
55799
63937
58697
38449
62134
72749
81638
31973
46438
87244
13347
36566
06303
91579
73348
65030
42709
94202
01907
80114
26128
33717
62287
72146
78490
49067
59943
56164
05764
64735
27904
12027
79157
22400
31010
49953
46547
98375
94490
66975
74674
61303
24558
49833
28652
94617
46699
99241
09258
36166
13317
76243
46574
11873
13862
08312
11071
79670
57196
72778
27886
44430
10342
32209
09949
82321
94664
89543
67663
23096
28666
91294
75030
07990
01791
72998
35163
23428
12288
19472
22514
05494
29541
59245
14634
51054
32882
32501
83638
31690
22940
23904
89422
23642
36602
31842
41340
87474
61715
62943
54245
61185
82509
07426
57696
08074
20128
11842
67341
25592
89810
53721
86963
80314
91221
48521
01518
50307
58910
95386
90740
40699
07510
93948
15857
02687
20849
32545
85738
84645
83117
04710
90717
69444
89659
74920
38989
46856
09370
80535
25954
91322
86079
58194
93233
99629
56057
13769
28207
82798
78978
58573
00190
23798
85306
99719
95970
27157
55425
57995
36036
81452
83208
32454
68222
74274
48873
79446
34611
39055
53901
00784
92987
39605
43890
34643
58347
61357
39981
36956
06157
40269
38752
74691
84861
89500
11880
55424
40836
63624
57514
43395
94518
30812
04961
93977
28249
45205
38563
55439
42403
38743
56651
71499
66660
35483
09262
91460
80220
78443
84563
25041
92462
35750
47545
79956
57862
98566
67337
70736
88618
19203
72062
47556
65419
54619
86103
18556
55272
77489
24853
02800
55052
55249
70831
59783
23198
47614
79100
73237
47537
70639
80044
34014
14970
88822
43757
60015
17037
23129
47227
52064
15502
63006
22617
60684
94628
36243
20667
26922
98736
93492
56944
29630
23633
22731
72197
74196
18387
98168
72376
34526
11016
82927
32839
49551
10422
47992
92682
42724
04266
55226
83321
50480
31717
06183
87063
36844
74759
35929
84547
14437
95655
19689
30727
37418
57439
37905
27553
38385
80532
33802
Pag 143-175
P(0 z a)
a
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
0.00
0.0000
0.0398
0.0793
0.1179
0.1554
0.1915
0.2257
0.2580
0.2881
0.3159
0.3413
0.3643
0.3849
0.4032
0.4192
0.4332
0.4452
0.4554
0.4641
0.4713
0.4772
0.4821
0.4861
0.4893
0.4918
0.4938
0.4953
0.4965
0.4974
0.4981
0.4987
0.01
0.0040
0.0438
0.0832
0.1217
0.1591
0.1950
0.2291
0.2611
0.2910
0.3186
0.3438
0.3665
0.3869
0.4049
0.4207
0.4345
0.4463
0.4564
0.4649
0.4719
0.4778
0.4826
0.4864
0.4896
0.4920
0.4940
0.4955
0.4966
0.4975
0.4982
0.4987
0.02
0.0080
0.0478
0.0871
0.1255
0.1628
0.1985
0.2324
0.2642
0.2939
0.3212
0.3461
0.3686
0.3888
0.4066
0.4222
0.4357
0.4474
0.4573
0.4656
0.4726
0.4783
0.4830
0.4868
0.4898
0.4922
0.4941
0.4956
0.4967
0.4976
0.4982
0.4987
0.03
0.0120
0.0517
0.0910
0.1293
0.1664
0.2019
0.2357
0.2673
0.2967
0.3238
0.3485
0.3708
0.3907
0.4082
0.4236
0.4370
0.4484
0.4582
0.4664
0.4732
0.4788
0.4834
0.4871
0.4901
0.4925
0.4943
0.4957
0.4968
0.4977
0.4983
0.4988
0.04
0.0160
0.0557
0.0948
0.1331
0.1700
0.2054
0.2389
0.2704
0.2995
0.3264
0.3508
0.3729
0.3925
0.4099
0.4251
0.4382
0.4495
0.4591
0.4671
0.4738
0.4793
0.4838
0.4875
0.4904
0.4927
0.4945
0.4959
0.4969
0.4977
0.4984
0.4988
0.05
0.0199
0.0596
0.0987
0.1368
0.1736
0.2088
0.2422
0.2734
0.3023
0.3289
0.3531
0.3749
0.3944
0.4115
0.4265
0.4394
0.4505
0.4599
0.4678
0.4744
0.4798
0.4842
0.4878
0.4906
0.4929
0.4946
0.4960
0.4970
0.4978
0.4984
0.4989
0.06
0.0239
0.0636
0.1026
0.1406
0.1772
0.2123
0.2454
0.2764
0.3051
0.3315
0.3554
0.3770
0.3962
0.4131
0.4279
0.4406
0.4515
0.4608
0.4686
0.4750
0.4803
0.4846
0.4881
0.4909
0.4931
0.4948
0.4961
0.4971
0.4979
0.4985
0.4989
0.07
0.0279
0.0675
0.1064
0.1443
0.1808
0.2157
0.2486
0.2794
0.3078
0.3340
0.3577
0.3790
0.3980
0.4147
0.4292
0.4418
0.4525
0.4616
0.4693
0.4756
0.4808
0.4850
0.4884
0.4911
0.4932
0.4949
0.4962
0.4972
0.4979
0.4985
0.4989
0.08
0.0319
0.0714
0.1103
0.1480
0.1844
0.2190
0.2517
0.2823
0.3106
0.3365
0.3599
0.3810
0.3997
0.4162
0.4306
0.4429
0.4535
0.4625
0.4699
0.4761
0.4812
0.4854
0.4887
0.4913
0.4934
0.4951
0.4963
0.4973
0.4980
0.4986
0.4990
0.09
0.0359
0.0753
0.1141
0.1517
0.1879
0.2224
0.2549
0.2852
0.3133
0.3389
0.3621
0.3830
0.4015
0.4177
0.4319
0.4441
0.4545
0.4633
0.4706
0.4767
0.4817
0.4857
0.4890
0.4916
0.4936
0.4952
0.4964
0.4974
0.4981
0.4986
0.4990
Pag 144-175
0.05
12.71
4.30
3.18
2.78
2.57
2.45
2.37
2.31
2.26
2.23
2.20
2.18
2.16
2.14
2.13
2.12
2.11
2.10
2.09
2.09
2.08
2.07
2.07
2.06
2.06
2.06
2.05
2.05
2.05
2.04
2.00
1.98
1.96
0.01
63.66
9.93
5.84
4.60
4.03
3.71
3.50
3.36
3.25
3.17
3.11
3.06
3.01
2.98
2.95
2.92
2.90
2.88
2.86
2.85
2.83
2.82
2.82
2.80
2.79
2.78
2.77
2.76
2.76
2.75
2.66
2.62
2.58
0.001
636.62
31.60
12.92
8.61
6.87
5.96
5.41
5.04
4.78
4.59
4.44
4.32
4.22
4.14
4.07
4.02
3.97
3.92
3.88
3.85
3.82
3.79
3.77
3.75
3.73
3.71
3.69
3.67
3.66
3.65
3.46
3.37
3.29
Pag 145-175
10
12
15
20
24
30
40
60
120
2
1
2
3
4
5
161,4
18,51
10,13
7,71
6,61
199,5
19,00
9,55
6,94
5,79
215,7
19,16
9,28
6,59
5,41
224,6
19,25
9,12
6,39
5,19
230,2
19,30
9,01
6,26
5,05
234,0
19,33
8,94
6,16
4,95
236,8
19,35
8,89
6,09
4,88
238,9
19,37
8,85
6,04
4,82
240,5
19,38
8,81
6,00
4,77
241,9
19,40
8,79
5,96
4,74
243,9
19,41
8,74
5,91
4,68
245,9
19,43
8,70
5,86
4,62
248,0
19,45
8,66
5,80
4,56
249,1
19,45
8,64
5,77
4,53
250,1
19,46
8,62
5,75
4,50
251,1
19,47
8,59
5,72
4,46
252,2
19,48
8,57
5,69
4,43
253,3
19,49
8,55
5,66
4,40
254,3
19,50
8,53
5,63
4,37
6
7
8
9
10
5,99
5,59
5,32
5,12
4,96
5,14
4,74
4,46
4,26
4,10
4,76
4,35
4,07
3,86
3,71
4,53
4,12
3,84
3,63
3,48
4,39
3,97
3,69
3,48
3,33
4,28
3,87
3,58
3,37
3,22
4,21
3,79
3,50
3,29
3,14
4,15
3,73
3,44
3,23
3,07
4,10
3,68
3,39
3,18
3,02
4,06
3,64
3,35
3,14
2,98
4,00
3,57
3,28
3,07
2,91
3,94
3,51
3,22
3,01
2,85
3,87
3,44
3,15
2,94
2,77
3,84
3,41
3,12
2,90
2,74
3,81
3,38
3,08
2,86
2,70
3,77
3,34
3,04
2,83
2,66
3,74
3,30
3,01
2,79
2,62
3,70
3,27
2,97
2,75
2,58
3,67
3,23
2,93
2,71
2,54
11
12
13
14
15
4,84
4,75
4,67
4,60
4,54
3,98
3,89
3,81
3,74
3,68
3,59
3,49
3,41
3,34
3,29
3,36
3,26
3,18
3,11
3,06
3,20
3,11
3,03
2,96
2,90
3,09
3,00
2,92
2,85
2,79
3,01
2,91
2,83
2,76
2,71
2,95
2,85
2,77
2,70
2,64
2,90
2,80
2,71
2,65
2,59
2,85
2,75
2,67
2,60
2,54
2,79
2,69
2,60
2,53
2,48
2,72
2,62
2,53
2,46
2,40
2,65
2,54
2,46
2,39
2,33
2,61
2,51
2,42
2,35
2,29
2,57
2,47
2,38
2,31
2,25
2,53
2,43
2,34
2,27
2,20
2,49
2,38
2,30
2,22
2,16
2,45
2,34
2,25
2,18
2,11
2,41
2,30
2,21
2,13
2,07
16
17
18
19
20
4,49
4,45
4,41
4,38
4,35
3,63
3,59
3,55
3,52
3,49
3,24
3,20
3,16
3,13
3,10
3,01
2,96
2,93
2,90
2,87
2,85
2,81
2,77
2,74
2,71
2,74
2,70
2,66
2,63
2,60
2,66
2,61
2,58
2,54
2,51
2,59
2,55
2,51
2,48
2,45
2,54
2,49
2,46
2,42
2,39
2,49
2,45
2,41
2,38
2,35
2,42
2,38
2,34
2,31
2,28
2,35
2,31
2,27
2,23
2,20
2,28
2,23
2,19
2,16
2,12
2,24
2,19
2,15
2,11
2,08
2,19
2,15
2,11
2,07
2,04
2,15
2,10
2,06
2,03
1,99
2,11
2,06
2,02
1,98
1,95
2,06
2,01
1,97
1,93
1,90
2,01
1,96
1,92
1,88
1,84
21
22
23
24
25
4,32
4,30
4,28
4,26
4,24
3,47
3,44
3,42
3,40
3,39
3,07
3,05
3,03
3,01
2,99
2,84
2,82
2,80
2,78
2,76
2,68
2,66
2,64
2,62
2,60
2,57
2,55
2,53
2,51
2,49
2,49
2,46
2,44
2,42
2,40
2,42
2,40
2,37
2,36
2,34
2,37
2,34
2,32
2,30
2,28
2,32
2,30
2,27
2,25
2,24
2,25
2,23
2,20
2,18
2,16
2,18
2,15
2,13
2,11
2,09
2,10
2,07
2,05
2,03
2,01
2,05
2,03
2,01
1,98
1,96
2,01
1,98
1,96
1,94
1,92
1,96
1,94
1,91
1,89
1,87
1,92
1,89
1,86
1,84
1,82
1,87
1,84
1,81
1,79
1,77
1,81
1,78
1,76
1,73
1,71
26
27
28
29
30
4,23
4,21
4,20
4,18
4,17
3,37
3,35
3,34
3,33
3,32
2,98
2,96
2,95
2,93
2,92
2,74
2,73
2,71
2,70
2,69
2,59
2,57
2,56
2,55
2,53
2,47
2,46
2,45
2,43
2,42
2,39
2,37
2,36
2,35
2,33
2,32
2,31
2,29
2,28
2,27
2,27
2,25
2,24
2,22
2,21
2,22
2,20
2,19
2,18
2,16
2,15
2,13
2,12
2,10
2,09
2,07
2,06
2,04
2,03
2,01
1,99
1,97
1,96
1,94
1,93
1,95
1,93
1,91
1,90
1,89
1,90
1,88
1,87
1,85
1,84
1,85
1,84
1,82
1,81
1,79
1,80
1,79
1,77
1,75
1,74
1,75
1,73
1,71
1,70
1,68
1,69
1,67
1,65
1,64
1,62
40
60
120
4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,58
4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,47
3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,35
1,51
1,39
1,26
1,03
2,4
2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,40 1,32 1,22
Tabla extrada y adaptada de Bioestadstica aplicada a Bioqumica y Farmacia, de J.C. Azzimonti Renzo
Pag 146-175
10
12
15
20
24
30
40
60
120
5404
99,16
29,46
16,69
12,06
5624
99,25
28,71
15,98
11,39
5764
99,30
28,24
15,52
10,97
5859
99,33
27,91
15,21
10,67
5928
99,36
27,67
14,98
10,46
5981
99,38
27,49
14,80
10,29
6022
99,39
27,34
14,66
10,16
6056
99,40
27,23
14,55
10,05
6107
99,42
27,05
14,37
9,89
6157
99,43
26,87
14,20
9,72
6209
99,45
26,69
14,02
9,55
6234
99,46
26,60
13,93
9,47
6260
99,47
26,50
13,84
9,38
6286
99,48
26,41
13,75
9,29
6313
99,48
26,32
13,65
9,20
6340
99,49
26,22
13,56
9,11
6366
99,50
26,13
13,46
9,02
10,92
9,55
8,65
8,02
7,56
9,78
8,45
7,59
6,99
6,55
9,15
7,85
7,01
6,42
5,99
8,75
7,46
6,63
6,06
5,64
8,47
7,19
6,37
5,80
5,39
8,26
6,99
6,18
5,61
5,20
8,10
6,84
6,03
5,47
5,06
7,98
6,72
5,91
5,35
4,94
7,87
6,62
5,81
5,26
4,85
7,72
6,47
5,67
5,11
4,71
7,56
6,31
5,52
4,96
4,56
7,40
6,16
5,36
4,81
4,41
7,31
6,07
5,28
4,73
4,33
7,23
5,99
5,20
4,65
4,25
7,14
5,91
5,12
4,57
4,17
7,06
5,82
5,03
4,48
4,08
6,97
5,74
4,95
4,40
4,00
6,88
5,65
4,86
4,31
3,91
9,65
9,33
9,07
8,86
8,68
7,21
6,93
6,70
6,51
6,36
6,22
5,95
5,74
5,56
5,42
5,67
5,41
5,21
5,04
4,89
5,32
5,06
4,86
4,69
4,56
5,07
4,82
4,62
4,46
4,32
4,89
4,64
4,44
4,28
4,14
4,74
4,50
4,30
4,14
4,00
4,63
4,39
4,19
4,03
3,89
4,54
4,30
4,10
3,94
3,80
4,40
4,16
3,96
3,80
3,67
4,25
4,01
3,82
3,66
3,52
4,10
3,86
3,66
3,51
3,37
4,02
3,78
3,59
3,43
3,29
3,94
3,70
3,51
3,35
3,21
3,86
3,62
3,43
3,27
3,13
3,78
3,54
3,34
3,18
3,05
3,69
3,45
3,25
3,09
2,96
3,60
3,36
3,17
3,01
2,87
16
17
18
19
20
8,53
8,40
8,29
8,18
8,10
6,23
6,11
6,01
5,93
5,85
5,29
5,19
5,09
5,01
4,94
4,77
4,67
4,58
4,50
4,43
4,44
4,34
4,25
4,17
4,10
4,20
4,10
4,01
3,94
3,87
4,03
3,93
3,84
3,77
3,70
3,89
3,79
3,71
3,63
3,56
3,78
3,68
3,60
3,52
3,46
3,69
3,59
3,51
3,43
3,37
3,55
3,46
3,37
3,30
3,23
3,41
3,31
3,23
3,15
3,09
3,26
3,16
3,08
3,00
2,94
3,18
3,08
3,00
2,92
2,86
3,10
3,00
2,92
2,84
2,78
3,02
2,92
2,84
2,76
2,69
2,93
2,83
2,75
2,67
2,61
2,84
2,75
2,66
2,58
2,52
2,75
2,65
2,57
2,49
2,42
21
22
23
24
25
8,02
7,95
7,88
7,82
7,77
5,78
5,72
5,66
5,61
5,57
4,87
4,82
4,76
4,72
4,68
4,37
4,31
4,26
4,22
4,18
4,04
3,99
3,94
3,90
3,85
3,81
3,76
3,71
3,67
3,63
3,64
3,59
3,54
3,50
3,46
3,51
3,45
3,41
3,36
3,32
3,40
3,35
3,30
3,26
3,22
3,31
3,26
3,21
3,17
3,13
3,17
3,12
3,07
3,03
2,99
3,03
2,98
2,93
2,89
2,85
2,88
2,83
2,78
2,74
2,70
2,80
2,75
2,70
2,66
2,62
2,72
2,67
2,62
2,58
2,54
2,64
2,58
2,54
2,49
2,45
2,55
2,50
2,45
2,40
2,36
2,46
2,40
2,35
2,31
2,27
2,36
2,31
2,26
2,21
2,17
26
27
28
29
30
7,72
7,68
7,64
7,60
7,56
5,53
5,49
5,45
5,42
5,39
4,64
4,60
4,57
4,54
4,51
4,14
4,11
4,07
4,04
4,02
3,82
3,78
3,75
3,73
3,70
3,59
3,56
3,53
3,50
3,47
3,42
3,39
3,36
3,33
3,30
3,29
3,26
3,23
3,20
3,17
3,18
3,15
3,12
3,09
3,07
3,09
3,06
3,03
3,00
2,98
2,96
2,93
2,90
2,87
2,84
2,81
2,78
2,75
2,73
2,70
2,66
2,63
2,60
2,57
2,55
2,58
2,55
2,52
2,49
2,47
2,50
2,47
2,44
2,41
2,39
2,42
2,38
2,35
2,33
2,30
2,33
2,29
2,26
2,23
2,21
2,23
2,20
2,17
2,14
2,11
2,13
2,10
2,07
2,04
2,01
40
60
120
7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,92
7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,35 2,20 2,12 2,03 1,94 1,84 1,73
6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,53
1,81
1,60
1,38
6,64 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,19 2,04 1,88 1,79 1,70 1,59 1,48 1,33
1,05
2
1
2
3
4
5
4052
98,50
34,12
21,20
16,26
4999
99,00
30,82
18,00
13,27
6
7
8
9
10
13,75
12,25
11,26
10,56
10,04
11
12
13
14
15
Tabla extrada y adaptada de Bioestadstica aplicada a Bioqumica y Farmacia, de J.C. Azzimonti Renzo
Pag 147-175
6.64
9.21
11.35
13.28
15.09
16.81
18.48
20.09
21.67
23.21
24.73
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59
50.89
10.83
13.82
16.27
18.47
20.52
22.46
24.32
26.13
27.88
29.59
31.26
32.91
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.32
46.80
48.27
49.73
51.18
52.62
54.05
55.48
56.89
58.30
59.70
Pag 148-175
(cont.)
g.de l.
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
52.19
53.49
54.78
56.06
57.34
58.62
59.89
61.16
62.43
63.69
64.95
66.21
67.46
68.71
69.96
71.20
72.44
73.68
74.92
76.15
77.39
78.62
79.84
81.07
82.29
83.52
84.73
85.95
87.17
88.38
89.59
90.80
92.01
93.22
94.42
61.10
62.49
63.87
65.25
66.62
67.99
69.35
70.71
72.06
73.41
74.75
76.09
77.42
78.75
80.08
81.40
82.72
84.03
85.35
86.66
87.97
89.27
90.57
91.88
93.17
94.47
95.75
97.03
98.34
99.62
100.88
102.15
103.46
104.72
105.97
Pag 149-175
(cont.)
g.de l.
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
95.63
96.83
98.03
99.23
100.42
101.62
102.82
104.01
105.20
106.39
107.58
108.77
109.96
111.15
112.33
113.51
114.70
115.88
117.06
118.24
119.41
120.59
121.77
122.94
124.12
125.29
126.46
127.63
128.80
129.97
131.14
132.31
133.47
134.64
135.81
107.26
108.54
109.79
111.06
112.31
113.56
114.84
116.08
117.35
118.60
119.85
121.11
122.36
123.60
124.84
126.09
127.33
128.57
129.80
131.04
132.28
133.51
134.74
135.96
137.19
138.45
139.66
140.90
142.12
143.32
144.55
145.78
146.99
148.21
149.48
Pag 150-175
x
n
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
10
11
12
13
14
15
996
980
945
887
806
709
605
500
402
315
240
180
132
95
67
47
32
22
998
989
967
927
867
788
696
598
500
407
324
252
192
143
105
76
54
999
994
981
954
910
849
773
685
593
500
412
332
262
202
154
115
997
989
971
941
895
834
760
676
588
500
416
339
271
212
998
994
982
962
928
881
820
748
668
584
500
419
345
999
996
989
975
952
916
868
808
738
661
581
500
998
994
985
968
942
905
857
798
729
655
999
996
990
970
961
933
895
846
788
999
998
994
987
974
953
924
885
NOTA: Los valores de probabilidad se obtienen dividiendo por 1000 los de cada celda.
Ejemplo: Si n = 23 y x = 7 la probabilidad binomial acumulada p(x7|N=23) es 47/1000 = 0,047
Para valores de N>25, usar z =
( x 0.5) 0.5 N
0.5 N
Tabla extrada y adaptada de Bioestadstica aplicada a Bioqumica y Farmacia, de J.C. Azzimonti Renzo
Pag 151-175
Niveles de significacin
de una cola
0,025
0,01
0,005
Niveles de significacin
de dos colas
N
0,05
0,02
0,01
10
11
11
12
14
10
13
17
13
10
14
21
16
13
15
25
20
16
16
30
24
20
17
35
28
23
18
40
33
28
19
46
38
32
20
52
43
38
21
59
49
43
22
66
56
49
23
73
62
55
24
81
69
61
25
89
77
68
Tabla extrada y adaptada de Bioestadstica aplicada a Bioqumica y Farmacia, de J.C. Azzimonti Renzo
Pag 152-175
n2 = 3
U
0
1
2
3
4
5
1
0,25
0,5
0,75
n1
2
0,1
0,2
0,4
0,6
n2 = 4
3
0,05
0,1
0,2
0,35
0,5
0,65
U
0
1
2
3
4
5
6
7
8
1
0,2
0,4
0,6
n1
2
0,067
0,133
0,267
0,4
0,6
n2 = 5
U
0
1
2
3
4
5
6
7
8
9
10
11
12
13
n1
1
2
3
4
5
0,167 0,047 0,018 0,008 0,004
0,333 0,095 0,036 0,016 0,008
0,5
0,19 0,071 0,032 0,016
0,667 0,286 0,125 0,055 0,028
0,429 0,196 0,095 0,048
0,571 0,286 0,143 0,075
0,393 0,206 0,111
0,5 0,278 0,155
0,607 0,365 0,21
0,452 0,274
0,548 0,345
0,421
0,5
0,579
3
0,028
0,057
0,114
0,2
0,314
0,429
0,571
4
0,014
0,029
0,057
0,1
0,171
0,243
0,343
0,443
0,557
n2 = 6
U
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
1
0,143
0,286
0,428
0,571
2
0,036
0,071
0,143
0,214
0,321
0,429
0,571
n1
3
0,012
0,024
0,048
0,083
0,131
0,19
0,274
0,357
0,452
0,548
4
0,005
0,01
0,019
0,033
0,057
0,086
0,129
0,176
0,238
0,305
0,381
0,457
0,545
5
0,002
0,004
0,009
0,015
0,026
0,041
0,063
0,089
0,123
0,165
0,214
0,268
0,331
0,396
0,465
0,535
6
0,001
0,002
0,004
0,008
0,013
0,021
0,032
0,047
0,066
0,09
0,12
0,155
0,197
0,242
0,294
0,35
0,409
0,469
0,531
U
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1
0,125
0,25
0,375
0,5
0,625
2
0,028
0,56
0,111
0,067
0,25
0,333
0,444
0,556
3
0,008
0,017
0,033
0,058
0,092
0,133
0,192
0,258
0,333
0,417
0,5
0,583
n1
4
0,003
0,006
0,012
0,021
0,036
0,055
0,082
0,115
0,158
0,206
0,264
0,324
0,394
0,464
0,538
5
0,001
0,003
0,005
0,009
0,015
0,024
0,037
0,053
0,074
0,201
0,134
0,172
0,216
0,265
0,319
0,378
0,438
0,5
0,562
6
0,001
0,001
0,002
0,004
0,007
0,011
0,17
0,026
0,037
0,051
0,069
0,09
0,117
0,147
0,183
0,223
0,267
0,314
0,365
0,418
0,473
0,527
7
0
0,001
0,001
0,002
0,003
0,006
0,009
0,013
0,019
0,027
0,036
0,049
0,064
0,082
0,104
0,13
0,159
0,191
0,228
0,267
0,31
0,355
0,402
0,451
0,5
0,549
Pag 153-175
n2 =7
Pag 154-175
n2 = 8
n1
U 1
2
3
4
5
6
7
8
t Normal
0
0 3,308 0,001
0 0,11 0,022 0,006 0,002 0,001 0
0 3,203 0,001
1 0,022 0,044 0,012 0,004 0,002 0,001 0
2 0,333 0,089 0,024 0,008 0,003 0,001 0,001 0 3,098 0,001
3 0,444 0,133 0,042 0,014 0,005 0,002 0,001 0 2,993 0,001
4 0,556 0,2 0,067 0,024 0,009 0,004 0,002 0 2,888 0,002
0,267 0,097 0,036 0,015 0,006 0,003 0 2,783 0,003
5
0,356 0,139 0,055 0,023 0,01 0,005 0 2,678 0,004
6
0,444 0,188 0,077 0,033 0,015 0,007 0 2,573 0,005
7
0,556 0,248 0,107 0,047 0,021 0,01 0,01 2,468 0,007
8
0,315 0,141 0,064 0,03 0,014 0,01 2,363 0,009
9
0,387 0,184 0,085 0,041 0,02 0,01 2,258 0,012
10
0,461 0,23 0,111 0,054 0,027 0,01 2,153 0,016
11
0,539 0,285 0,142 0,071 0,036 0,02 2,048 0,02
12
0,341 0,177 0,091 0,047 0,03 1,943 0,026
13
0,404 0,217 0,114 0,06 0,03 1,838 0,033
14
0,467 0,262 0,141 0,076 0,04 1,733 0,041
15
0,533 0,311 0,172 0,095 0,05 1,628 0,052
16
17
0,362 0,207 0,116 0,07 1,523 0,064
0,416 0,245 0,14 0,08 1,418 0,068
18
0,472 0,286 0,168 0,1 1,313 0,094
19
0,528 0,331 0,198 0,12 1,208 0,113
20
0,377 0,232 0,14 1,102 0,135
21
22
0,426 0,268 0,16 0,998 0,159
0,475 0,306 0,19 0,893 0,185
23
0,525 0,347 0,22 0,788 0,215
24
0,389 0,25 0,683 0,247
25
0,433 0,29 0,578 0,282
26
27
0,478 0,32 0,473 0,318
0,522 0,36 0,668 0,356
28
0,4 0,263 0,396
29
0,44 0,158 0,437
30
0,48 0,052 0,481
31
0,52
32
Tabla extrada y adaptada de Bioestadstica aplicada a Bioqumica y Farmacia, de J.C. Azzimonti Renzo
Pag 155-175
Valores crticos de U para una cola : = 0,025 y para dos colas: = 0,05
n1
10
11
12
13
14
15
16
17
18
19
20
0
2
4
7
10
12
15
17
20
23
26
28
31
34
37
39
42
45
48
0
3
5
8
11
14
17
20
23
26
29
33
36
39
42
45
48
52
55
0
3
6
9
13
16
19
23
26
30
33
37
40
44
47
51
55
58
62
1
4
7
11
14
18
22
26
29
33
37
41
45
49
53
57
61
65
69
1
4
8
12
16
20
24
28
33
37
41
45
50
54
59
63
67
72
76
1
5
9
13
17
22
26
31
36
40
45
50
55
59
64
67
74
78
83
1
5
10
14
19
24
29
34
39
44
49
54
59
64
70
75
80
85
90
1
6
11
15
21
26
31
37
42
47
53
59
64
70
75
81
86
92
98
2
6
11
17
22
28
34
39
45
51
57
63
67
75
81
87
93
99
105
2
7
12
18
24
30
36
42
48
55
61
67
74
80
86
93
99
106
112
2
7
13
19
25
32
38
45
52
58
65
72
78
85
92
99
106
113
119
2
8
13
20
27
34
41
48
55
62
69
76
83
90
98
105
112
119
127
n2
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Pag 156-175
Valores crticos de U para una cola : = 0,05 y para dos colas: = 0,10
n1
10
11
12
13
14
15
16
17
18
19
20
1
3
6
9
12
15
18
21
24
27
30
33
36
39
42
45
48
51
54
1
4
7
11
14
17
20
24
27
31
34
37
41
44
48
51
55
58
62
1
5
8
12
16
19
23
27
31
34
38
42
46
50
54
57
61
65
69
2
5
9
13
17
21
26
30
34
38
42
47
51
55
60
64
68
72
77
2
6
10
15
19
24
28
33
37
42
47
51
56
61
65
70
75
80
84
2
7
11
15
21
26
31
36
41
46
51
56
61
66
71
77
82
87
92
3
7
12
18
23
28
33
39
44
50
55
61
66
72
77
83
88
94
100
3
8
14
19
25
30
36
42
48
54
60
65
71
77
83
89
95
101
107
3
9
15
20
26
33
39
45
51
57
64
70
77
83
89
96
102
109
115
4
9
16
22
28
35
41
48
55
61
68
75
82
88
95
102
109
116
123
4
10
17
23
30
37
44
51
58
65
72
80
87
94
101
109
116
123
130
4
11
18
25
32
39
47
54
62
69
77
84
92
100
107
115
123
130
138
n2
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Tabla extrada y adaptada de Bioestadstica aplicada a Bioqumica y Farmacia, de J.C. Azzimonti Renzo
Pag 157-175
Una Cola
= 0.05 = 0.01
3
4
4
5
5
5
6
6
6
6
7
7
7
7
8
8
8
8
8
9
9
9
9
9
9
10
10
10
11
11
5
6
6
6
7
7
8
8
8
8
9
9
9
10
10
10
10
11
11
11
11
11
12
12
12
12
13
14
Dos Colas
= 0.05 = 0.01
4
5
5
6
6
6
7
7
7
7
8
8
8
8
9
9
9
9
9
10
10
10
10
10
11
11
11
12
13
5
6
6
7
7
8
8
8
9
9
9
10
10
10
10
11
11
11
11
12
12
12
12
13
13
13
14
14
Pag 158-175
Valores de D > D mx
para rechazar Ho
0,10
1.22 H
0,05
1,36 H
0,025
1,48 H
0,01
1,63 H
0,005
1,73 H
0,001
1,95 H
Tabla extrada y adaptada de Bioestadstica aplicada a Bioqumica y Farmacia, de J.C. Azzimonti Renzo
Pag 159-175
Nivel de significacin
para D
0.05
0.01
0.975
0.842
0.708
0.624
0.565
0.521
0.486
0.457
0.432
0.410
0.391
0.375
0.361
0.349
0.338
0.328
0.318
0.309
0.301
0.294
0.27
0.24
0.23
0.995
0.929
0.828
0.733
0.669
0.618
0.577
0.543
0.514
0.490
0.468
0.450
0.433
0.418
0.404
0.392
0.381
0.371
0.363
0.356
0.32
0.29
0.27
1.36 / N
1.63 / N
Pag 160-175
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
2
2
2
3
3
3
3
3
3
3
3
4
4
4
4
4
2
2
3
3
3
3
3
4
4
4
4
4
4
4
5
5
5
2
2
3
3
3
3
4
4
4
4
5
5
5
5
5
5
6
6
2
2
3
3
3
4
4
5
5
5
5
5
6
6
6
6
6
6
2
3
3
3
4
4
5
5
5
6
6
6
6
6
7
7
7
7
2
3
3
4
4
5
5
5
6
6
6
7
7
7
7
8
8
8
10 11 12 13 14 15 16 17 18
2
3
3
4
5
5
5
6
6
7
7
7
7
8
8
8
8
9
2
3
4
4
5
5
6
6
7
7
7
8
8
8
9
9
9
9
2
2
3
4
4
5
6
6
7
7
7
8
8
8
9
9
9
10
10
2
2
3
4
5
5
6
6
7
7
8
8
9
9
9
10
10
10
10
2
2
3
4
5
5
6
7
7
8
8
9
9
9
10
10
10
11
11
2
3
3
4
5
6
6
7
7
8
8
9
9
10
10
11
11
11
12
2
3
4
4
5
6
6
7
8
8
9
9
10
10
11
11
11
12
12
2
3
4
4
5
6
7
7
8
9
9
10
10
11
11
11
12
12
13
2
3
4
5
5
6
7
8
8
9
9
10
10
11
11
12
12
13
13
19
20
2
3
4
5
6
6
7
8
8
9
10
10
11
11
12
12
13
13
13
2
3
4
5
6
6
7
8
9
9
10
10
11
12
12
13
13
13
14
Pag 161-175
9
9
9
10
10
11
11
9
10
11
12
12
13
13
13
13
10
11
12
13
14
15
16
17
18
19
20
11
12
13
13
14
14
14
14
15
15
15
11
12
13
14
14
15
15
16
16
16
16
17
17
17
17
17
13
14
14
15
16
16
16
17
17
18
18
18
18
18
18
13
14
15
16
16
17
17
18
18
18
19
19
19
20
20
13
14
15
16
17
17
18
19
19
19
20
20
20
21
21
13
14
16
16
17
18
19
19
20
20
21
21
21
22
22
15
16
17
18
19
19
20
20
21
21
22
22
23
23
15
16
17
18
19
20
20
21
22
22
23
23
23
24
15
16
18
18
19
20
21
22
22
23
23
24
24
25
17
18
19
20
21
21
22
23
23
24
25
25
25
17
18
19
20
21
22
23
23
24
25
25
26
26
17
18
19
20
21
22
23
24
25
25
26
26
27
17
18
20
21
22
23
23
24
25
26
26
27
27
17
18
20
21
22
23
24
25
25
26
27
27
28
Tabla extrada y adaptada de Bioestadstica aplicada a Bioqumica y Farmacia, de J.C. Azzimonti Renzo
Pag 162-175
N
4
5
6
10
11
12
13
14
15
Nivel de
significacin de las
Dos colas: acptese 1 0 si ambas
pruebas
1 cola
2 colas
Una cola: acptese 1 < 0 si
Una cola: acptese 1 > 0 si
0.062
0.125
d4<0
d1>0
0.062
0.125
(d4+d5)<0
(d1+d2)>0
0.031
0.062
d6<0
d1>0
min[d2, (d1+d3)]>0
max[d5, (d4+d6)]<0
0.094
0.047
(d1+d2)>0
(d5+d6)<0
0.062
0.031
d1>0
d6<0
0.031
0.016
min[d3, (d1+d4)]>0
max[d5, (d4+d7)]<0
0.109
0.055
min[d2, (d1+d3)]>0
max[d6, (d5+d7)]<0
0.047
0.023
(d1+d2)>0
(d6+d7)<0
0.031
0.016
d1>0
d7<0
0.016
0.008
0.043
0.086
max[d5, (d4+d8)]<0
min[d3, (d1+d5)]>0
0.027
0.055
max[d6, (d5+d8)]<0
min[d3, (d1+d4)]>0
0.012
0.023
max[d7, (d6+d8)]<0
min[d2, (d1+d3)]>0
0.008
0.016
(d7+d8)<0
(d1+d2)>0
0.004
0.008
d8<0
d1>0
min[d4, (d1+d6)]>0
max[d6, (d4+d9)]<0
0.102
0.051
min[d3, (d1+d6)]>0
max[d7, (d5+d9)]<0
0.043
0.022
min[d2, (d1+d5)]>0
max[d8, (d6+d9)]<0
0.020
0.010
min[d2, (d1+d3)]>0
max[d8, (d7+d9)]<0
0.012
0.006
(d1+d2)>0
(d8+d9)<0
0.008
0.004
min[d5, (d1+d7)]>0
max[d6, (d4+d10)]<0
0.111
0.056
min[d4, (d1+d6)]>0
max[d7, (d5+d10)]<0
0.051
0,025
min[d3, (d1+d5)]>0
max[d8, (d6+d10)]<0
0.021
0.011
min[d2, (d1+d5)]>0
max[d9, (d6+d10)]<0
0.010
0.005
0.048
0.097
max[d7, (d4+d11)]<0
min[d5, (d1+d8)]>0
0.028
0.056
max[d7, (d5+d11)]<0
min[d5, (d1+d7)]>0
0.011
0.021
max[(d6+d11), (d8+d9)]<0
min[(d1+d6), (d3+d4)]>0
0.005
0.011
max[d9, (d7+d11)]<0
min[d3, (d1+d5)]>0
0.047
0.094
max[(d4+d12), (d6+d11)]<0
min[(d1+d9), (d2+d8)]>0
0.024
0.048
max[d8, (d5+d12)]<0
min[d5, (d1+d8)]>0
0.010
0.020
max[d9, (d6+d12)]<0
min[d4, (d1+d7)]>0
0.005
0.011
max[(d7+d12), (d9+d10)]<0
min[(d1+d6), (d8+d4)]>0
0.047
0.094
max[(d4+d13), (d6+d12)]<0
min[(d1+d10), (d2+d9)]>0
0.023
0.048
max[(d5+d13), (d6+d12)]<0
min[(d1+d9), (d2+d8)]>0
0.010
0.020
max[(d6+d12), (d9+d10)]<0
min[(d1+d8), (d4+d5)]>0
0.005
0.010
max[d10, (d7+d13)]<0
min[d4, (d1+d7)]>0
min[(d1+d11), (d2+d10)]>0
max[(d4+d14), (d5+d13)]<0
0.094
0.047
min[(d1+d10), (d2+d9)]>0
max[(d6+d11), (d6+d13)]<0
0.048
0.023
min[d5, (d1+d9)]>0
max[d10, (d5+d14)]<0
0.020
0.010
min[(d1+d8), (d4+d5)]>0
max[(d7+d14), (d10+d11)]<0
0.010
0.005
0.047
0.094
max[(d4+d15), (d6+d14)]<0
min[(d1+d12), (d2+d11)]>0
0.023
0.048
max[(d6+d15), (d6+d14)]<0
min[(d1+d11), (d2+d10)]>0
0.010
0.020
max[(d8+d15), (d10+d11)]<0
min[(d1+d10), (d5+d6)]>0
0.005
0.010
max[d11, (d7+d15)]<0
min[d5, (d1+d9)]>0
Pag 163-175
Tamao de
muestras
n2
n3
2,700
0,500
3,600
0,200
4,571
3,714
0,067
0,200
3,200
0,300
4,286
3,857
0,100
0,133
5,357
4,714
4,500
4,464
0,290
0,480
0,067
0,105
5,143
4,571
4,000
0,043
0,100
0,129
6,250
5,361
5,139
4,556
4,250
0,011
0,032
0,061
0,100
0,121
7,200
6,489
5,689
5,600
5,067
4,622
0,004
0,011
0,029
0,050
0,086
0,100
n2
n3
5,250
5,000
4,450
4,200
4,050
0,036
0,048
0,071
0,095
0,119
6,533
6,133
5,160
5,040
4,373
4,293
0,008
0,013
0,034
0,056
0,090
0,122
6,400
4,960
4,871
4,018
3,840
0,012
0,048
0,052
0,095
0,123
6,910
6,822
5,251
5,106
4,651
4,495
0,009
0,010
0,049
0,052
0,091
0,101
7,079
6,982
5,649
5,515
4,533
4,412
0,009
0,011
0,049
0,051
0,097
0,109
Tamao de
muestras
Tamao de
muestras
3,571
0,200
4,821
4,500
4,018
0,057
0,076
0,114
6,000
5,333
5,125
4,458
4,167
0,014
0,033
0,052
0,100
0,105
5,833
5,208
5,000
4,056
3,889
0,021
0,050
0,057
0,093
0,129
6,444
6,300
5,444
5,400
4,511
4,444
0,008
0,011
0,046
0,051
0,098
0,102
6,745
6,709
5,791
5,727
4,709
4,700
0,010
0,013
0,046
0,050
0,092
0,101
6,667
6,167
0,010
0,022
Pag 164-175
6,955
6,840
4,986
4,860
3,987
3,960
0,008
0,011
0,044
0,056
0,098
0,102
7,205
7,118
5,273
5,268
4,541
4,518
0,009
0,010
0,049
0,050
0,098
0,101
7,445
7,395
5,656
5,631
4,549
4,523
0,010
0,011
0,049
0,050
0,099
0,103
7,760
7,744
5,657
5,617
4,619
4,553
0,009
0,011
0,049
0,050
0,100
0,102
7,309
6,836
5,127
4,909
4,109
4,036
0,009
0,011
0,046
0,053
0,086
0,105
Tamao de
muestras
Pag 165-175
Tamao de
muestras
4,967
4,867
4,167
4,067
0,048
0,054
0,082
0,102
7,036
6,873
5,455
5,236
4,555
4,445
0,006
0,011
0,046
0,052
0,098
0,103
7,144
7,136
5,599
5,576
4,545
4,477
0,010
0,011
0,049
0,051
0,099
0,102
7,654
7,539
5,692
5,654
4,654
4,500
0,008
0,011
0,049
0,054
0,097
0,104
3,857
0,143
7,339
7,269
5,339
5,246
4,623
4,508
0,010
0,010
0,047
0,051
0,097
0,100
7,578
7,543
5,706
5,626
4,545
4,536
0,010
0,010
0,046
0,051
0,100
0,102
7,823
7,791
5,666
5,643
4,523
4,520
0,010
0,010
0,049
0,050
0,990
0,101
8,000
7,980
5,780
5,660
4,560
4,500
0,090
0,100
0,049
0,051
0,100
0,102
Tabla extrada y adaptada de Bioestadstica aplicada a Bioqumica y Farmacia, de J.C. Azzimonti Renzo
Pag 166-175
nivel de significacin
(una cola)
0.05
0.01
1.000
.900
1.000
.829
.943
.714
.893
.643
.833
.600
.783
.564
.746
.506
.712
.456
.645
.425
.601
.399
.564
.377
.834
.359
.508
.343
.485
.329
.465
.317
.448
.306
.432
Pag 167-175
TABLA XVI: Tabla de valores crticos del coeficiente de correlacin (tau) de Kendall
(prueba de una cola para || )
0,1
0,05
0,01
4
5
1,000
0,800
1,000
6
7
8
9
10
0,733
0,619
0,571
0,500
0,467
0,867
0,714
0,643
0,556
0,511
1,000
0,905
0,786
0,722
0,644
11
12
13
14
15
0,418
0,394
0,359
0,363
0,333
0,491
0,455
0,436
0,407
0,390
0,600
0,576
0,564
0,516
0,505
16
17
18
19
20
0,317
0,309
0,294
0,287
0,274
0,383
0,368
0,346
0,333
0,326
0,483
0,471
0,451
0,439
0,421
21
22
23
24
25
0,267
0,264
0,257
0,246
0,240
0,314
0,307
0,296
0,290
0,287
0,410
0,394
0,391
0,377
0,367
26
27
28
29
30
0,237
0,231
0,228
0,222
0,218
0,280
0,271
0,265
0,261
0,255
0,360
0,356
0,344
0,340
0,333
31
32
33
34
35
0,213
0,210
0,205
0,201
0,197
0,252
0,246
0,242
0,237
0,234
0,325
0,323
0,314
0,312
0,304
36
37
38
39
40
0,194
0,192
0,189
0,188
0,185
0,232
0,228
0,223
0,220
0,218
0,302
0,297
0,292
0,287
0,285
=1
Tabla extrada y adaptada de Bioestadstica aplicada a Bioqumica y Farmacia, de J.C. Azzimonti Renzo
Pag 168-175
=N2
24 0,05 0,388
0,01 0,496
0,05 0,950
0,01 0,990
25
0,05 0,381
0,01 0,487
0,05 0,778
0,01 0,959
26
0,05 0,374
0,01 0,478
0,05 0,811
0,01 0,917
27
0,05 0,367
0,01 0,470
0,05 0,754
0,01 0,874
28
0,05 0,361
0,01 0,463
0,05 0,707
0,01 0,834
29
0,05 0,355
0,01 0,456
0,05 0,666
0,01 0,798
30
0,05 0,349
0,01 0,449
0,05 0,632
0,01 0,765
35
0,05 0,325
0,01 0,418
0,05 0,602
0,01 0,735
40
0,05 0,304
0,01 0,393
10
0,05 0,576
0,01 0,708
45
0,05 0,288
0,01 0,372
11
0,05 0,553
0,01 0,684
50
0,05 0,273
0,01 0,354
12
0,05 0,532
0,01 0,661
60
0,05 0,250
0,01 0,325
13
0,05 0,514
0,01 0,641
70
0,05 0,232
0,01 0,302
14
0,05 0,497
0,01 0,623
80
0,05 0,217
0,01 0,283
15
0,05 0,482
0,01 0,606
90
0,05 0,205
0,01 0,267
=N2
16 0,05 0,468
0,01 0,590
Pag 169-175
=N2
100 0,05 0,195
0,01 0,254
17
0,05 0,456
0,01 0,575
125
0,05 0,174
0,01 0,228
18
0,05 0,444
0,01 0,561
150
0,05 0,159
0,01 0,208
19
0,05 0,433
0,01 0,549
200
0,05 0,138
0,01 0,181
20
0,05 0,423
0,01 0,537
300
0,05 0,113
0,01 0,148
21
0,05 0,413
0,01 0,526
400
0,05 0,098
0,01 0,128
22
0,05 0,404
0,01 0,515
500
0,05 0,088
0,01 0,115
23
0,05 0,396
0,01 0,505
Tabla extrada y adaptada de Bioestadstica aplicada a Bioqumica y Farmacia, de J.C. Azzimonti Renzo
Pag 170-175
k
3
3
4
5
6
8
10
15
20
3
4
5
6
8
10
15
20
48.1
60.0
89.8
119.7
66.8
85.1
131.0
177.0
4
5
6
7
Valores al nivel de significacin 0.05
64.4
103.9
157.3
49.5
88.4
143.3
217.0
62.6
112.3
182.4
276.2
75.7
136.1
221.4
335.2
101.7
183.7
299.0
453.1
127.8
231.2
376.7
571.0
192.9
349.8
570.5
864.9
258.0
468.5
764.4
1158.7
Valores al nivel de significacin 0.01
75.6
122.8
185.6
61.4
109.3
176.2
265.0
80.5
142.8
229.4
343.8
99.5
176.1
282.4
422.6
137.4
242.7
388.3
579.9
175.3
309.1
494.0
737.0
269.8
475.2
758.2
1129.5
364.2
641.2
1022.2
1521.9
Valores adicionales
para N=3
k
s
9
12
14
16
18
54.0
71.9
83.8
95.8
107.7
9
12
14
16
18
75.9
103.5
121.9
140.2
158.6
A
alfa 34
ANALISIS DE CASOS Y CONTROLES 131
ANLISIS DE COVARIANZA 73
anlisis de varianza 59
anlisis secuencial de pares 86
ANCOVA 73
ANOVA 59
ANOVA DE DOS VAS 69
ANOVA DE DOS VAS POR RANGOS 101
ANOVA de Friedman 101
ANOVA DE UNA VA 66
ANOVA DE UNA VA POR RANGOS 102
ANOVA FACTORIAL 70
asociacin entre las variables en estudio 134
ASOCIACIN Y CORRELACIN LINEAL 52
azar 11
B
Binomial Acumulada 150
C
Calidad Media de Salida 84
Cantidad media de inspeccin 84
casos y controles 131
Ch
chance 135
C
CIEGO, DOBLE CIEGO Y TRIPLE CIEGO 38
Cifras significativas 14
cociente de medias cuadradas 64
COEFICIENTE DE CONCORDANCIA 108
COEFICIENTE DE CONTINGENCIA C 103
coeficiente de correlacin 53
COEFICIENTE DE CORRELACION DE RANGOS 106
COEFICIENTE DE CORRELACION PARCIAL DE
RANGO 107
Cohorte abierta 127
cohorte cerrada 127
COHORTES 122
concordancia 170
Control de Calidad 81
CONTROL DE CALIDAD 77
CORRELACIN LINEAL MLTIPLE 54
CORRELACIN NO LINEAL 54
covarianza 53
CRITERIO ESTADISTICO 10
cuadro ANOVA 65
CUADRO DE CONTROL DE CALIDAD 6 78
Pag 171-175
D
desenlace 123
Desviacin standard 22
Desviacin Standard 5
determinismo 11
Diagnstico principal 139
Das-camas disponibles 139
Das-camas ocupadas 139
diferencias entre ensayos Paramtricos y No Paramtricos 33
DISEOS SIMETRICOS 42
DISTRIBUCIN 2 (JI-CUADRADO) 89
DISTRIBUCIN BINOMIAL 56
DISTRIBUCIN DE POISSON 56
Distribucion Normal 143
distribucin normal 25
DISTRIBUCION ZETA 45
distribuciones estadsticas 21
DOCIMASIA BIOLGICA 75
E
Egresos totales 139
ENSAYO DE RECTAS PARALELAS 75
ENSAYOS 32
ENSAYOS AGRUPADOS 38
ENSAYOS APAREADOS 38
ENSAYOS NO PARAMTRICOS 88
EPIDEMIOLOGIA 111
Error Absoluto 15
Error Relativo 15
Error standard 22
Error Standard 5
errores 14
ERRORES DE TIPO I Y DE TIPO II 34
estadstica 2, 4, 10
ESTADSTICA INFERENCIAL 31
estrategia epidemiologa 115
estudios de cohorte 123
EXACTITUD 28
F
factor causal 63
Factor de Riesgo 118
FRACCION DE DEFECTUOSOS DEL LOTE 83
frecuencia relativa 12
frecuencias esperadas 91
F-Snedecor 65, 145
G
Giro cama 139
GRADOS DE LIBERTAD 61
GRFICOS DE CONTROL DE CALIDAD 77
Pag 172-175
HIPOTESIS ALTERNATIVA 34
HIPOTESIS ESTADISTICAS 33
HIPOTESIS NULA 34
histograma de barras 19
Observacin individual 16
odds Ver Chance
ODDS RATIO Ver Razn de Chances
OR Ver Razn de Chances
ortogonales 63
outcomes Ver desenlace
I
Incidencia 127
Indicadores de morbilidad 121
Indicadores de natalidad 120
INDICADORES SANITARIOS 119
ndices 120
INDICES HOSPITALARIOS 139
interacciones Ver ANOVA factorial
Intervalo de confianza 25
J
ji cuadrado 147
ji-cuadrado 89
K
Kendall 167, 170
KENDALL 108
KENDALL () 106
Kolmogorov-Smirnov 157
KOLMOGOROV-SMIRNOV 96
Kruskal-Wallis 163
KRUSKAL-WALLIS 102
P
PARMETROS ESTADSTICOS 22
pareamientos 131
Pearson 168
plan secuencial de muestreo 82
Poblacin 16
POBLACIONES NORMALES 45
polgono de frecuencias 19
Porcentaje de ocupacin 139
POTENCIA DEL ENSAYO 34
potencia relativa 75
PRECISION 28
probabilidad 11
producto-momento 168
Proporciones 120
Prueba de bondad de ajuste 91
PRUEBA DE LAS RACHAS 97
PRUEBA DE LOS RANGOS 93
PRUEBA DE LOS SIGNOS 92
PRUEBA DE McNEMAR 91
PRUEBA DE MOSES 98
PRUEBA DE WALSH 99
PRUEBA Q DE COCHRAN 100
PRUEBA U DE MANN-WHITNEY 95
Q
Q de Cochran 100
LIMITES DE CONTROL 6 78
M
matriz 55
Media aritmtica 22
MEDIA CUADRADA 61
Mediana 22
MEDICIONES EN EPIDEMIOLOGIA 118
METODO DE LA EPIDEMIOLOGIA 115
Moda 22
Modelos tericos en ANOVA 66
Muestra 16
MUESTREO 38
MUESTREO SECUENCIAL 81
N
Nmero de camas disponibles 139
Nmero de camas totales 139
Numeros Aleatorios 142
R
r 53
rachas 98
Rango 22
RAZON DE CHANCES 135
razn de mortalidad estandarizada 130
razn de productos cruzados Ver Razn de Chances
Razones 120
REACCIONES EXTREMAS 98
RECHAZO DE HIPOTESIS 37
REGRESIN LINEAL 53
Reingresos. 139
Riesgo 118
Riesgo absoluto 118
Riesgo Atribuible 128, 129
Riesgo Atribuible Poblacional 128
Riesgo Atribuible Porcentual 128
RIESGO CALCULADO 31
Riesgo relativo 118
Riesgo Relativo 127, 128
Risk Ratio Ver Riesgo Relativo
U de Mann-Whitney 152
unidad de anlisis 116
unidad de muestreo 117
T
tabla de contingencia 2x2 89
tabla tetracrica Ver tabla de contingencia 2x2
TABLAS DE CONTINGENCIA 89
tasa de exposicin 134
tasa de incidencia 127
Tasa de morbilidad 121
Tasa de mortalidad especfica 122
Tasa de prevalencia 121
tasa resumen 119
Tasas 119
tau 167
tau de Kendall 106
TEST DE UNA COLA Y DE DOS COLAS 36
TEST t-STUDENT 49
t-Student 144
Pag 173-175
V
Valores normales 48
VALORES NORMALES 29
variables aleatorias 14
Varianza 5, 22
vector 55
W
Wald-Wolfowitz 160
WALD-WOLFOWITZ 97
Walsh 162
WILCOXON 93
Z
ZETA 45
Pag 174-175
BIBLIOGRAFIA
LIBROS INTRODUCTORIOS DE FACIL LECTURA Y COMPRENSION
DE
NIVEL
INTERMEDIO
QUE
REQUIEREN
CIERTA
EXPERIENCIA
ESTADISTICA PREVIA
1. SNEDECOR, G. W., Mtodos estadsticos, Ed. Continental (Mxico), 5 Ed, (1964)
2. SIEGEL, S., Estadstica no paramtrica, Ed. Trillas (Venezuela), 3ra Ed., (1990)
3. MATHER, K., Statistical Analysis in biology, Chapman & May, 5th Ed., (1972)
4. SOKAL, R. R. y ROHLF, F. J., Biometry, WH Freeman & Co, 2 Ed., (1981)
5. LEWIS, A. E., Bioestadstica, Ed. CECSA, (1969)
6. CONOVER, W. J., Practical Nonparametric Statistics, 3rd Ed., J. Wiley & Sons, (1999)
7. REMINGTON, R. y SCHORK, M., Estadstica Biomtrica y Sanitaria, Prentice Hall, (1974)
LIBROS AVANZADOS PARA CONSULTA O PERFECCIONAMIENTO
1. CRMER, H., Teora de probabilidad y aplicaciones, Ed. Aguilar, (1966)
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pag 175-175
Una fcil introduccin al lgebra lineal que no presume ningn conocimiento previo
2. KEMENY, J. G, MIRKIL, H.,SNELL, J, L.,THOMPSON, G. L. Estructuras matemticas finitas,
Manuales EUDEBA, (1967)