Manualestadísticaprácticav 1020

UNIVERSIDAD DE BUENOS AIRES
CTEDRA DE BIOFSICA
FACULTAD DE ODONTOLOGA
MANUAL DE ESTADSTICA PRCTICA

para estudiantes y profesionales de la salud
Prof. Dr. JUAN PEDRO HECHT
Edicin v.1.02 (Marzo 2008)
AO 2008
PROLOGO
La estadstica es la matemtica de la experimentacin. Los experimentos son la base del
progreso de las ciencias naturales, a las cuales pertenecen las disciplinas vinculadas al
arte de curar. Este libro est dedicado especialmente a los profesionales (o futuros
profesionales) de las ciencias de la salud que necesiten cubrir su formacin bsica en
esta disciplina, pero tambin aporta lo suficiente como para capacitar con lo esencial al
investigador que desee complementar sus conocimientos especficos con la base
metodolgica mnima de estadstica aplicada. El objetivo de mnima es dar a conocer
los fundamentos de la estadstica que permitan orientar al lector en el amplio abanico de
tcnicas disponibles y permitirle consultar (llegado el caso) a la bibliografa especfica o
pedir el asesoramiento de docentes e investigadores vinculados a la prctica de la
estadstica.
Los experimentos se llevan a cabo con el objeto de contestar alguna pregunta o
preguntas en las cuales est interesado el investigador, pero es raro que las respuestas a
esos interrogantes se puedan conocer antes de efectuarse un anlisis estadstico
adecuado. Resulta que los resultados de los experimentos en ciencias naturales (fsica,
qumica y biologa entre otras) normalmente son afectados por muchos factores ajenos a
los propios de inters, y en mayor o menor grado esos factores son desconocidos por el
investigador. Cada uno de esos mltiples factores suele influir los resultados en modo
reducido pero absolutamente impredecible y constituyen una fuente potencial y
continua de errores en la interpretacin de los resultados. La situacin sera difcil de
controlar si no existiese una herramienta que auxilie en el filtrado del ruido y la
potenciacin de las reales seales buscadas por el investigador.
La estadstica es la herramienta o la disciplina que se ocupa de describir en forma
racional y objetiva los sistemas sometidos al azar y que permite la toma de decisiones
con riesgo calculado en ambientes de incertidumbre. Los objetivos del anlisis
estadstico son (1) reducir la complejidad de los datos obtenidos que normalmente
escaparan a la capacidad de comprensin del investigador y presentarlos como datos
elaborados en un formato accesible y objetivo y (2) estimar el significado y la
importancia de esos datos elaborados indicando adecuadamente la participacin del azar
involucrado en los experimentos y permitiendo por ende tomar decisiones
independiente del mismo y fundamentadas sobre el comportamiento de los sistemas en
estudio.
La estadstica no es buena ni mala, es simplemente una herramienta que mal usada
puede servir para engaar, vender, ocultar o dominar mediante la desinformacin y
usada por inexpertos puede llevar a conclusiones tan falsas como complicadas. Bien
usada es una panacea que permite tomar decisiones fundamentadas y objetivas,
definiendo el progreso de todas las ciencias naturales. La estadstica es uno de los
factores ms importantes que ayudan al progreso en ciruga, en farmacologa o en
MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)
Pgina 2 -175
diagnstico por imgenes. Si la medicina progresa con la velocidad con la cual lo hace,
lo es en gran parte gracias a que cada da, en cada experimento, desde un hospital, desde
el ignoto laboratorio de la Universidad o desde el centro de investigacin y desarrollo
de las grandes compaas farmacuticas, se emplea estadstica para todo tipo de
investigacin.
Para el desarrollo de los tpicos, se trat de respetar la rigurosidad del tratamiento
brindando todos los medios para que el lector pueda entender cada tcnica y resolver
por analoga cualquiera de los modelos aqu presentados, ya sea en forma manual o para
validar los resultados que le brinden programas estadsticos de computacin. Sin
embargo este libro, aunque bien intencionado, es forzosamente incompleto. Slo se
pretende presentar lo clsico y fundamental, pero debe recordarse que la estadstica es
dinmica y continuamente se desarrollan nuevas tcnicas y ensayos. Adems, cuando
requiera resolver temas especficos que no estn aqu cubiertos, recurra a la bibliografa
de nivel intermedio que recomendamos, y cuando fuese posible recurra al
asesoramiento y la gua de investigadores con experiencia.
Se dio un nfasis particular a la inclusin de ejemplos numricos resueltos paso a paso
para cada ensayo o tema bajo estudio. El lector podr reemplazar sus propios datos en
cada modelo y obtener los resultados correspondientes en forma autosuficiente.
Pgina 3 -175
COMO LEER ESTE MANUAL

Este libro sirve a un doble propsito: iniciar al lector en el criterio estadstico y servir
como libro de consulta por los detalles de algn ensayo en particular, cuando se
presente esa necesidad. Mas all de lo que sucede con muchos libros de introduccin a
la estadstica, esta obra no quiere quedarse a mitad de camino sacrificando la
rigurosidad o los detalles en aras de una fcil (y a veces errada) comprensin
superficial.
Pero, la estadstica es una parte de la matemtica aplicada y por ende es una disciplina
que posee un formalismo a veces oscuro para el lector inadvertido y otras veces
exigente con algunos temas bsicos del lgebra lineal, la combinatoria y el anlisis
matemtico. Obviamente no podemos ni pretendemos ensear matemticas para lograr
nuestro propsito, pero agregamos las aclaraciones del caso cuando recurramos a
tcnicas matemticas no habituales para los estudiantes y graduados de las ciencias
vinculadas a la salud. Adems incluimos en la bibliografa libros de fcil lectura donde
el lector interesado podr adquirir lo que le falte por auto capacitacin.
Desde el punto de vista conceptual, este libro est claramente dividido en dos partes.
Los Captulos I, II y V son eminentemente formativos y los Captulos III y IV
informativos. Los primeros estn dedicados a la formacin de criterio estadstico y los
segundos a servir como base de consulta.
Adems, en el texto se han intercalado bloques formales que requieren ciertos conocimientos previos de
matemticas por parte del lector. Estos detalles pueden ser obviados en una primer lectura y ser consultados cuando
sea menester entrar en detalles. Estor bloques aparecen con letra chica, recuadrados y grisados como el presente
prrafo. No se preocupe por ellos si tiene dificultad en entenderlos, le sern tiles cuando decida profundizar el tema.
Por lo tanto, recomendamos especialmente a los alumnos de pregrado y posgrado de las

ciencias de la salud y que se recin se inician en estadstica, a no dejarse llevar por los
detalles computacionales sino ms bien intentar captar los fundamentos y la esencia del
criterio estadstico que se pretende ensear.
No hay posibilidad de comprensin de ninguna disciplina sin el consabido esfuerzo por
parte del alumno o cursante. Deseamos haber sido tiles para facilitarles el camino.
Pgina 4 -175
TABLA DE SIMBOLOS Y ABREVIATURAS FRECUENTES

Nota: En este libro nos tomamos la libertad literaria de usar determinados vocablos de la estadstica
como test y standard en su forma habitual y no traducida al espaol. Desde luego se trata de
una excepcin y en general estos trminos aparecern en itlicas y entre comillas.
x, y, z Variables estadsticas
N, n Tamao muestral (cantidad de observaciones individuales que contiene)
n
x
i =1
Sumatoria (suma) de las n observaciones individuales xi (donde 1 i n)
Media Poblacional
n
x Promedio muestral (=
x
i =1
2 Varianza poblacional
n
s2 Varianza muestral ( =
x
i =1
2
i
( x i ) 2 / n
i =1
)
n 1
N(, ) Distribucin normal (promedio, desvo standard)
DS Desviacin Standard muestral (=s)
ES Error Standard muestral (= s / n )

xx
)
z Variable normalizada N(0,1) (=
s
t Estadstico de ensayo de la prueba t-Student
F Estadstico de ensayo de la prueba F-Snedecor (Fisher)

2 Estadstico de ensayo de la prueba ji-cuadrado
g.de l. Grados de libertad asociados a un estadstico de ensayo
H0, H1 Hiptesis estadsticas nula y alternativa
p
Probabilidad
, Error de Tipo I (nivel de significacin), Error del Tipo II

ANOVA, ANCOVA Anlisis de varianza, anlisis de covarianza
SC (o SS), MC (o MS) Suma de cuadrados, Media cuadrada
ex, exp(x) Funcin exponencial base e=2,7182818284590452353602874713527+
log(x), ln(x) Funcin logaritmo decimal (base 10), Funcin logaritmo natural (base e)
Pgina 5 -175
INDICE GENERAL
PROLOGO............................................................................................................................ 2
COMO LEER ESTE MANUAL ............................................................................................. 4
TABLA DE SIMBOLOS Y ABREVIATURAS FRECUENTES............................................. 5
INDICE GENERAL ............................................................................................................... 6
CAPITULO 1: ESTADISTICA DESCRIPTIVA..................................................................... 9
1.1. ESTADSTICA BUENA Y ESTADISTICA MALA................................................10
1.2. DETERMINISMO Y AZAR..................................................................................11
1.3. NOCIONES ELEMENTALES DEL CALCULO DE PROBABILIDADES ............11
1.4. PROBABILIDADES COMPUESTAS: LEY DE LA SUMA Y DEL PRODUCTO DE
PROBABILIDADES ............................................................................................12
1.5. PROBABILIDAD CONDICIONAL .......................................................................13
1.6. DEFINICIN DE ESTADSTICA Y VARIABLES ESTADSTICAS ....................14
1.7. ESTADSTICA APLICADA A UNA MEDIDA INDIVIDUAL.................................14
1.8. ESTADSTICA APLICADA A UN GRAN NMERO DE MEDIDAS U
OBSERVACIONES INDIVIDUALES ..................................................................16
1.9. REPRESENTACIN ANALTICA Y GRFICA DE DATOS ESTADSTICOS
OBTENIDOS A PARTIR DE UN CONJUNTO DE OBSERVACIONES
INDIVIDUALES ...................................................................................................17
1.10. DISTRIBUCIONES ESTADISTICAS ..................................................................21
1.11. PARMETROS ESTADSTICOS .......................................................................22
1.12. DISTRIBUCIN NORMAL O DE GAUSS ..........................................................25
1.13. PRECISION Y EXACTITUD DE UNA SERIE DE MEDIDAS REPETIDAS Y LA
CORRECTA EXPRESIN DE LOS RESULTADOS EXPERIMENTALES........28
1.14. VALORES NORMALES EN MEDICINA.............................................................29
CAPITULO 2: GENERALIDADES DE LA ESTADISTICA INFERENCIAL ...................... 30
2.1. ESTADSTICA INFERENCIAL ...........................................................................31
2.2. ENSAYOS O TEST ESTADSTICOS ..............................................................32
2.3. LAS HIPOTESIS ESTADISTICAS......................................................................33
2.4. ERRORES DE TIPO I Y DE TIPO II EN LA TOMA DE DECISIONES ..............34
2.5. TEST DE UNA COLA Y DE DOS COLAS..........................................................36
2.6. CMO ELEGIR LA H1 CORRECTA ................................................................37
2.7. ACEPTACION Y RECHAZO DE HIPOTESIS Y EL PROGRESO DE LAS
CIENCIAS EXPERIMENTALES .........................................................................37
2.8. ENSAYOS APAREADOS Y ENSAYOS AGRUPADOS.....................................38
2.9. EL MUESTREO Y EL DISEO DE LAS PRUEBAS A CIEGO, DOBLE CIEGO Y
TRIPLE CIEGO...................................................................................................38
2.10. ARQUITECTURA GENERAL DE LAS PRUEBAS DE INFERENCIA................41
2.11. DISEOS SIMETRICOS, ASIMETRICOS Y MANEJO DE LOS DATOS
FALTANTES .......................................................................................................42
CAPITULO 3: TEST PARAMETRICOS............................................................................. 44
3.1. POBLACIONES NORMALES : LA DISTRIBUCION ZETA................................45
3.2. COMPARACIN DE DOS GRUPOS NORMALES: TEST t-STUDENT............49
3.3. PRUEBA DE ASOCIACIN Y CORRELACIN LINEAL ENTRE VARIABLES
CUANTITATIVAS ...............................................................................................52
3.4. CORRELACIN LINEAL MLTIPLE Y CORRELACIN NO LINEAL ..............54
3.5. LA DISTRIBUCIN BINOMIAL Y LA DISTRIBUCIN DE POISSON...............55
3.6. ANOVA: FUNDAMENTOS DEL FRACCIONAMIENTO DE LA VARIANZA ......59
3.7. ANOVA DE UNA VA..........................................................................................66
3.8. ANOVA DE DOS VAS .......................................................................................68
Pgina 6 -175
3.9. ANOVA FACTORIAL ..........................................................................................69

3.10. ANCOVA: EL ANLISIS DE COVARIANZA ......................................................73
3.11. ENSAYO DE RECTAS PARALELAS: PRUEBA DE DOCIMASIA BIOLGICA75
3.12. GRFICOS DE CONTROL DE CALIDAD (6).................................................77
3.13. MUESTREO SECUENCIAL ...............................................................................81
CAPITULO 4: TEST NO PARAMETRICOS ...................................................................... 87
4.1. GENERALIDADES ACERCA DE LOS ENSAYOS NO PARAMTRICOS........88
4.2. TABLAS DE CONTINGENCIA: LA DISTRIBUCIN 2 (JI-CUADRADO) ........89
4.3. PRUEBA DE McNEMAR PARA LA SIGNIFICACIN DE CAMBIOS................91
4.4. PRUEBA DE LOS SIGNOS................................................................................92
4.5. PRUEBA DE LOS RANGOS DE WILCOXON ...................................................93
4.6. PRUEBA U DE MANN-WHITNEY......................................................................95
4.7. PRUEBA DE UNA Y DOS MUESTRAS DE KOLMOGOROV-SMIRNOV .........96
4.8. PRUEBA DE LAS RACHAS DE WALD-WOLFOWITZ ......................................97
4.9. PRUEBA DE MOSES DE LAS REACCIONES EXTREMAS .............................98
4.10. PRUEBA DE WALSH .........................................................................................99
4.11. PRUEBA Q DE COCHRAN ..............................................................................100
4.12. ANOVA DE DOS VAS POR RANGOS DE FRIEDMAN .................................101
4.13. ANOVA DE UNA VA POR RANGOS DE KRUSKAL-WALLIS........................102
4.14. COEFICIENTE DE CONTINGENCIA C ...........................................................103
4.15. COEFICIENTE DE CORRELACION DE RANGOS DE SPEARMAN (rS) .......104
4.16. COEFICIENTE DE CORRELACION DE RANGOS DE KENDALL ().............106
4.17. COEFICIENTE DE CORRELACION PARCIAL DE RANGO DE KENDALL (rxy.z)
..........................................................................................................................107
4.18. COEFICIENTE DE CONCORDANCIA DE KENDALL (W) ..............................108
CAPITULO 5: NOCIONES DE EPIDEMIOLOGIA..........................................................110
5.1. DEFINICION DE LA EPIDEMIOLOGIA............................................................111
5.2. GENERALIDADES ACERCA DE LA EPIDEMIOLOGA..................................112
5.3. DEFINICION Y OBJETIVO DE LA SALUD PUBLICA......................................112
5.4. EL METODO DE LA EPIDEMIOLOGIA ...........................................................115
5.5. ESTRATEGIA EPIDEMIOLGICA...................................................................115
5.6. CONDICIONES BSICAS EN LA DEFINICIN, REGISTRO Y MEDICIN DE
VARIABLES ......................................................................................................116
5.7. LAS MEDICIONES EN EPIDEMIOLOGIA .......................................................118
5.8. PRINCIPALES INDICADORES SANITARIOS.................................................119
5.9. INTRODUCCION AL ESTUDIO DE COHORTES............................................122
5.10. MEDIDAS OBTENIDAS DE LOS ESTUDIOS DE COHORTES (Riesgos e
Incidencias).......................................................................................................127
5.11. ANALISIS DE CASOS Y CONTROLES (C&C)................................................131
5.12. CALCULO DE LA RAZON DE CHANCES u ODDS RATIO (OR) .................135
5.13. INDICES HOSPITALARIOS .............................................................................139
5.14. ANALISIS DE CURVAS DE SUPERVIVENCIA ...............................................140
APNDICE: TABLAS ESTADISTICAS ...........................................................................141
TABLA I: Numeros Aleatorios.....................................................................................142
TABLA II: Distribucion Normal (z)................................................................................143
TABLA III: Distribucion t-Student (test de dos colas) .................................................144
TABLA IV: Distribucin F-Snedecor (p=0.05) ............................................................145
TABLA V: Distribucin F-Snedecor (p=0.01) .............................................................146
TABLA VI: Distribucin 2-ji cuadrado (dos colas) .....................................................147
TABLA VII: Probabilidad Binomial Acumulada (para H0: p =q = 0,5) ........................150
TABLA VIII: Prueba de rangos sealados de Wilcoxon.............................................151
TABLA IX: Prueba U de Mann-Whitney (rango n2 3-8)...............................................152
TABLA X: Prueba U de Mann-Whitney (rango n2 9-20)..............................................155
TABLA XI: Prueba de dos muestras de Kolmogorov-Smirnov ...................................157
Pgina 7 -175
TABLA XII: Prueba de rachas de Wald-Wolfowitz ......................................................160

TABLA XIII: Prueba de Walsh .....................................................................................162
TABLA XIV: Prueba de Kruskal-Wallis (para muestras pequeas) ...........................163
TABLA XV: Valores crticos del coeficiente de correlacin de Spearman ..................166
TABLA XVI: Tabla de valores crticos del coeficiente de correlacin (tau) de Kendall167
TABLA XVII: Valores crticos para el coeficiente de correlacin (r) de Pearson ........168
TABLA XVIII: Valores crticos de s en el coeficiente de concordancia de Kendall.....170
BIBLIOGRAFIA ................................................................................................................174
Pgina 8 -175
MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

CAPITULO 1 Estadstica descriptiva
9-175
CAPITULO 1: ESTADISTICA DESCRIPTIVA
Pgina 9 -175

10-175
1.1. ESTADSTICA BUENA Y ESTADISTICA MALA
La estadstica no tiene valoracin tica asociada. No es buena ni es mala, simplemente depende de

cmo se la use. La estadstica es slo una herramienta, como lo es un martillo, muy til para clavar
un clavo y construir un mueble, usado sin experiencia puede resultar en un dedo golpeado y mal
usado puede servir para matar intencionalmente de un golpe a una persona. La estadstica es
igualmente flexible: bien usada sirve para el progreso de las ciencias experimentales (a las cuales
pertenece la medicina en todas sus fases), para el control de calidad de produccin industrial o para
desarrollar tecnologas novedosas. La estadstica usada sin experiencia ir a entorpecer el desarrollo
ya que dar informacin falsa La estadstica mal usada sirve para engaar a los inadvertidos, para
falsear la realidad y vender una imagen engaosa con fines polticos o simplemente para lucrar en
forma deshonesta.
Veremos que la estadstica inferencial se ocupa de demostrar que ciertas preguntas son ciertas y que
otras son falsas. Es una herramienta muy poderosa y gran parte de la misma se automatiza a travs
de software especfico en el cual se simplifica al mximo la obtencin de resultados, por una punta
entran datos y por la otra salen conclusiones. Muy poderoso y muy simple, pero slo en buenas
manos. Si se hace un abuso estadstico, podremos demostrar falsamente que lo blanco es negro, que
el SIDA se cura tomando agua tibia, que la desocupacin ha dejado de existir, que el nuevo
medicamento DENTOPLUS cura cualquier clase de patologa oral u otro absurdo. Por eso es
necesario que todo profesional vinculado al arte de curar posea una capacitacin mnima pero slida
en esta disciplina, simplemente para no ser vctima del consumo de estadstica mendaz y estar en
condiciones de entender y desarrollar investigaciones con rigurosidad.
Muchas veces se confunden los objetivos, no es necesario que un mdico, un odontlogo o un
bioqumico sean estadsticos. Eso es poco rentable y altamente improbable. Simplemente se requiere
que los profesionales vinculados al arte y ciencia de la salud posean un CRITERIO ESTADISTICO
mnimo. Ese criterio no consiste en conocer frmulas estadsticas ni recetas de mtodos
memorizadas. Eso sencillamente no sirve para nada. Lo que hay que lograr es:
El profesional debe tener un mnimo conceptual de conocimientos de estadstica descriptiva e

inferencial, sin formulas memorizadas. Para esto es que se desarroll este libro.
El profesional debe saber a dnde recurrir y a quien consultar si llegado al caso debiese poner
en prctica lo que conoce. Un asesoramiento oportuno por parte de docentes e investigadores
ms experimentados permitirn que el profesional se concentre en lo que ms sabe que es su
especialidad y deje los detalles de mtodos y clculos en manos y programas ms expertos.
El profesional debe saber interpretar resultados estadsticos, tanto propios como los ajenos,
digamos que en especial a los ajenos. Una buena fuente de cultura informtica surge de leer y
analizar regularmente trabajos de investigacin de revistas serias con referato de su
especialidad. Tambin el anlisis crtico de fuentes poco confiables como ser los peridicos y
los folletos de propaganda mdica sirven por oposicin a elaborar un criterio propio que
permita separar lo til de lo superfluo o simplemente daino.
El profesional debe saber formular la pregunta a ser analizada estadsticamente con suma
claridad. Es importante tener en cuenta que si la pregunta est mal formulada, el mtodo
estadstico no dejara de otorgar una respuesta, el problema es que esa respuesta NO SERA
VALIDA (al menos no lo ser para la pregunta que se deseaba formular, aunque sea valida
para la formulada).
En este captulo comenzaremos tratando algunos conceptos y fundamentos bsicos de la estadstica

para luego pasar a los temas ms especficos vinculados a esta disciplina.
Pgina 10 -175

11-175
1.2. DETERMINISMO Y AZAR

Qu es el determinismo?
El determinismo o CAUSALIDAD es el modelo conceptual que define que a todo efecto le

corresponde su causa. En las ciencias naturales (fsica, qumica, biologa), la mayora de las leyes
macroscpicas (involucran una gran cantidad de partculas) y que explican el comportamiento de
dichos sistemas son deterministas, es decir, se predice en forma exacta la dinmica de los mismos.
Aqu si se da una causa, se producen sus efectos (Ej: ley de la gravedad, Principio de Arqumedes,
etc.)
Qu es el azar o la aleatoriedad?
Cuando sobre un sistema actan causas desconocidas (CASUALIDAD) (generalmente mltiples) y

que afectan su evolucin, las predicciones se vuelven inseguras. Lo mismo sucede en los sistemas
naturales microscpicos (involucran un numero reducido de partculas), en los cuales conocer la
evolucin precisa es imposible (Ej: principio de incertidumbre, trayectoria de una molcula en un
gas ideal, etc.) Para lograr predicciones en esta clase de modelos, se recurre a dos ramas de la
matemtica: el clculo de probabilidades y la estadstica.
1.3. NOCIONES ELEMENTALES DEL CALCULO DE PROBABILIDADES
Definicion terica de probabilidad:
Probabilidad Terica de un suceso es la relacin entre el nmero de casos favorables y el nmero de
casos posibles (donde cada uno de ellos tiene la misma esperanza de ocurrir).
no de casos favorables
p=
no de casos posibles
Esta definicin es aplicable a los juegos de azar en los cuales se conocen de antemano las
posibilidades que pueden presentarse, y a todos aquellos casos en los cuales el sistema se conoce a
priori.
Ejemplo: qu probabilidad tenemos de extraer al azar una bolilla roja de un bolillero que
contiene cinco bolillas rojas, tres verdes, y dos amarillas?
5
p=
5
=
5+3+2
= 0,5
10
Definicin emprica de probabilidad:
Cuando desconocemos de antemano si todas las posibilidades tienen la misma esperanza de ocurrir,
no podemos utilizar para el clculo de probabilidad la definicin terica. Lo que haremos ser
observar un buen nmero de casos en las mismas condiciones, y con los datos obtenidos de esta
observacin, calcular la frecuencia relativa. La frecuencia relativa (o probabilidad emprica) se
acerca al verdadero valor de probabilidad terica de un suceso cuando el nmero de observaciones o
de experiencias tiende a infinito.
Pgina 11 -175

12-175
Ejemplo: qu probabilidad tiene un estudiante que ingresa a la facultad de Odontologa de finalizar

la carrera al cabo de 5 aos, con el actual plan de estudios?
Lo que haremos primero ser investigar cunto ha tardado en recibirse un nmero grande de
odontlogos que hayan hecho la carrera con el mismo plan . La relacin entre los que obtuvieron su
ttulo en 5 aos y el total de individuos nos dar la probabilidad buscada.
La probabilidad adquiere aqu un criterio experimental y se define a posteriori de la experiencia. La
definicin emprica de probabilidad es entonces:
Frecuencia relativa (FR) o probabilidad emprica, es la relacin entre el nmero de casos
favorables (cfav) y el nmero de observaciones o experiencias realizadas (nobs), La probabilidad
terica es su lmite cuando el nmero de observaciones tiende a infinito.
FR =
cfav
nobs
p=
lim
nobs
( FR ) ;
0 p 1
La probabilidad es un nmero abstracto, que puede variar entre cero y uno: el uno representa la
certeza absoluta de ocurrencia de un evento; y el cero la seguridad de que no ocurrir. La
probabilidad de que s ocurra un evento, ms la probabilidad de que no ocurra es siempre igual a
uno. Por ejemplo, la probabilidad de que salga el nmero cinco al arrojar un dado es un sexto, y la
probabilidad de que no salga el cinco es de cinco sextos. Para qu sirve determinar la probabilidad
de un suceso que ya ocurri? Sirve para estimar la probabilidad de que ese hecho ocurra
nuevamente en la poblacin de la cual fue extrada la muestra en estudio.
Probabilidades compuestas
Son las probabilidades asociadas a la ocurrencia combinada (por unin o interseccin) de dos o mas
eventos, por ejemplo la probabilidad de ocurrencia de un evento entre dos sucesos (Tiramos dos
dados y exactamente uno sale 3) o la probabilidad de ocurrencia simultnea de dos eventos (Tiramos
dos dados y ambos salen 3).
1.4. PROBABILIDADES COMPUESTAS: LEY DE LA SUMA Y DEL PRODUCTO DE
PROBABILIDADES
La probabilidad que ocurra uno de entre varios sucesos mutuamente excluyentes es igual a la
suma de sus probabilidades individuales.
EJEMPLO: Tirando un dado, la probabilidad que salga un 5 es EXCLUYENTE de
que haya salido otro nmero (como el 6, por ejemplo); por lo tanto, la probabilidad
que salga 5 6 es la suma de ambas probabilidades (=1/6 + 1/6 = 1/3)
La probabilidad que ocurran simultneamente dos o ms sucesos mutuamente independientes

es igual al producto de sus probabilidades individuales.
EJEMPLO: Tirando dos dados, la probabilidad que en uno salga un 5 es
INDEPENDIENTE de que haya salido otro nmero (como el 6) en el segundo; por lo
tanto, la probabilidad que salgan 5 y 6 simultneamente en ambos es el producto de
ambas probabilidades (= 1/6 x 1/6 = 1/36)
Pgina 12 -175

13-175
En el siguiente punto se vern las leyes generales vinculadas a las probabilidades compuestas (por
unin o por interseccin de eventos de cualquier clase)
1.5. PROBABILIDAD CONDICIONAL
Es la probabilidad que ocurra un suceso habiendo ocurrido otro: Sea A: hoy est nublado y B:
hoy llueve, entonces p(B| A) = p (llueva si est nublado) = p(A y B)/p(A), es decir la
probabilidad que est nublado y que llueva al mismo tiempo, dividido a la probabilidad de estar
nublado. Esto se lee como la probabilidad condicional que ocurra B si ya ocurri A. Por
ejemplo si p(A y B)=0.1 y p(A)=0.4 entonces p(B|A)=0.1/0.4=0.25
PROBABILIDAD CONDICIONAL
es la probabilidad de un suceso habiendo ocurrido otro
U
A
B
p(A)
p(B|A)=p(A y B)/p(A)
Si elegimos un punto al azar en A, p(B|A) es la probabilidad

(condicional) que ocurra B habiendo ocurrido A, p(A y B) la
probabilidad que ocurran ambos simultneamente y la p(A) la
probabilidad que ocurra A o sea el rea de casos posibles.
La probabilidad condicional de dos sucesos mutuamente independientes es igual a su

probabilidad absoluta: p(A|B)=p(A) (si A y B son independientes)
Las leyes de la suma y del producto para las probabilidades compuestas se generalizan
cuando se las aplica a sucesos de cualquier clase, sean excluyentes o no y sean
independientes o no.
EN GENERAL:
esta es la generalizacin de las leyes de la suma y del

producto para sucesos de cualquier clase
p(A o B)=p(A)+p(B)-p(A y B)
p(U)=1
p(A)
p(B)
p(A y B)=p(A).p(B|A)
=p(B).p(A|B)
MUESTREOS CON O SIN REPOSICIN
Al resolver problemas de probabilidades compuestas hay que tener en cuenta si se reponen (o no)
las extracciones previas de un conjunto porque eso modifica las probabilidades de las extracciones
consecuentes. Tcnicamente hay que pensar si el primer resultado condiciona o no al segundo, es
decir si hay que usar probabilidades condicionales (en caso de duda siempre hay que usarlas).
Ejemplo: En una bolsa hay 3 bolillas negras y dos blancas
Pgina 13 -175

14-175
a) Cual es la probabilidad de sacar dos bolillas negras? (Respuesta: p= (3/5)(2/4)=3/10 )

b) Cul es esa misma probabilidad si despus de sacar la primer bolilla se la repone en la bolsa?
(Respuesta: p= (3/5)(3/5)=9/25 )
1.6. DEFINICIN DE ESTADSTICA Y VARIABLES ESTADSTICAS
Definicin de la estadstica:
Es una herramienta matemtica que permite describir y tomar decisiones de riesgo calculado en
sistemas afectados por la incertidumbre
Conceptos descriptivos de la estadstica:
Es la rama de la matemtica que permite conocer el comportamiento de la naturaleza a travs de
la obtencin de datos afectados por el azar, separando causas legtimas de la simple casualidad
La estadstica es la reina del mtodo experimental, filtra la informacin til del ruido (aleatorio
y/o sistemtico) y permite transformar supersticin o adivinacin en ciencia slida
La estadstica de por s no prueba nada pero usada con criterio resulta ser una herramienta
valiosa al tomar decisiones
Objetivo de su estudio:
La estadstica tiene por objeto extraer informacin confiable de datos obtenidos de variables
aleatorias. Una variable es aleatoria si flucta en forma impredecible o depende de factores fuera de
control por parte del observador. Por ejemplo: el resultado del Quini6, el clima dentro de un mes, las
mediciones fsicas, qumicas y biolgicas de cualquier tipo y con cualquier instrumento, la duracin
de una pila, la aparicin de una enfermedad, etc.
VARIABLES ESTADSTICAS
Son magnitudes sujetas al azar, pasibles de ser medidas y luego controladas por medio de tcnicas
estadsticas. Se clasifican de la siguiente manera:
CUALITATIVAS: sexo, nacionalidad, etc.
SEMICUANTITATIVAS : (escalas) tipo grande, mediano, chico, etc.
CUANTITATIVAS: (numricas). Se pueden considerar dos casos:
DISCRETAS : (N enteros) nmero de piezas dentales, de caries, etc.

CONTINUAS : (N reales) masa, longitud, peso, temperatura , etc
1.7. ESTADSTICA APLICADA A UNA MEDIDA INDIVIDUAL
Medicin es la comparacin de una magnitud contra otra que se toma como patrn. En toda
medicin fsica, qumica y biolgica, se cometen errores. Los errores pueden ser SISTEMTICOS
(dependen de fallas del instrumento de medida o del observador que hace esas medidas) o
Pgina 14 -175

15-175
ALEATORIOS (siempre presentes). Los errores sistemticos se controlan calibrando (midiendo la

falla del sistema de medicin: observador + instrumento) y los aleatorios se controlan por medio de
la estadstica.
Definiciones bsicas de la teora de errores de medicin:
Valor Verdadero o Terico (VT): es el valor exacto de una medida, generalmente desconocido.
Como el valor verdadero (en general) es un nmero real y posee infinitos decimales, siempre se lo
indica como un nmero racional con una dada cantidad de cifras significativas, considerndose que
el ltimo dgito es aproximado (por ejemplo, la estatura real de una persona es 1,72453673 metros, el
ltimo 3 es aproximado)
Cifras significativas: es el nmero total de dgitos empleados para expresar un resultado de una
medida, nunca debe superar a lo que permita la sensibilidad del instrumento de medida (por ejemplo,
si la estatura de una persona es 1,72453673 metros, se estn empleando 9 cifras significativas)
Importancia de la expresin de las medidas individuales:
no es lo mismo 2.31 que 2.310, 2.31000 o 2.3100000000 metros.
En esta sucesin, matemticamente todos expresan el mismo nmero racional 231/100, pero si se
trata de medidas, la sensibilidad del instrumento de medida ha aumentado ya que se supone que slo
el ltimo dgito es aproximado (por redondeo). No es lo mismo medir un objeto muy pequeo con
una regla milimetrada que con un microscopio con una lente con escala al diezmilsimo de
milmetro. Los resultados de una medicin que son transformados luego por operaciones
matemticas, no deben ser expresados con ms decimales que la sensibilidad permitida por el
instrumento de medida en la obtencin de ese dato.
Sensibilidad (de un instrumento de medida): La sensibilidad es directamente proporcional al nmero
de decimales (o cifras significativas) con el cual se exprese el resultado de la medida. Es la mnima
diferencia que el instrumento puede detectar. Por ejemplo, una regla milimetrada (cuya sensibilidad
es 1 mm) no permite diferenciar entre las longitudes de 2 elementos que se diferencian entre s en 0,1
mm; se requiere para ello un instrumento con mayor sensibilidad.
Valor Medido (VM): es lo que se obtiene midiendo (intentando obtener el VT)
Error Absoluto (EA): es la diferencia entre el valor verdadero y el valor medido, en valor absoluto
(es decir con signo positivo). La frmula es EA= | VT-VM |, no importa el orden de los trminos.
Error Relativo (ER): es el cociente entre el EA y el VT. La frmula es ER = EA/VT.
Error Porcentual (EP): es el ER multiplicado por 100 y expresado como porcentaje
Exactitud (de una medida): es inversamente proporcional al error absoluto. Una medida es ms
exacta cuanto ms cercano es el valor medido al valor verdadero.
Ejemplo de aplicacin de errores de medicin individuales:
VT = 1,7234 m (altura de una persona, el ltimo dgito en negritas - es aproximado)

Este resultado se est expresando con 5 (CINCO) dgitos o cifras significativas
Pgina 15 -175

16-175
VM = 1,7420 m (lo que se midi al dcimo de milmetro, que es la sensibilidad del instrumento)
EA = | VT-VM | = 0,0186 m
ER = EA / VT = 0,0108 (no tiene unidades y no se ponen ms decimales que los que la
sensibilidad indicada por el instrumento de medida, aqu dcimo de
milmetro)
EP = ER . 100 = 1,08 % .
Error relativo de aproximacin (ERA)
Es igual a la unidad dividida al valor medido expresado con todas sus cifras significativas (sin usar
la coma decimal) Por ejemplo, si se mide una masa en una balanza analtica y se obtiene un valor
de 23,6491 g, el ERA = 1/236491
Regla general de propagacin de errores
Cuando se efectan operaciones matemticas con valores medidos, vale la siguiente regla general
para la mayora de los casos: El ERA del resultado de una operacin numrica (no el
obtenido por una medicin directa) tiene que ser mayor o igual al mximo ERA de
los datos usados.
Ejemplo: Se desea medir el volumen de un recipiente cilndrico de 6,55 cm de altura y 5,3 cm2 de
base. El producto de esas medidas da 34,715 cm3, cuantos decimales conservamos? El ERA de la
altura es 1/655, el ERA de la base es 1/53. El mayor de estos ERA es 1/53, por lo tanto el volumen
no puede tener un ERA menor que ese. Si conservaramos (digamos) un decimal en el resultado, su
ERA sera 1/347 pero ese valor es menor que el que se necesita, por eso quitamos una cifra
significativa (el decimal 7) con lo cual el volumen (que se redondea) queda 35 cm3 y que tiene un
ERA de 1/35 el que efectivamente es mayor que 1/53.
1.8. ESTADSTICA APLICADA A UN
OBSERVACIONES INDIVIDUALES
GRAN
NMERO
DE
MEDIDAS
Estas son las definiciones bsicas y ms importantes de la estadstica.

1. Poblacin:
Es el conjunto de todas las observaciones (o medidas) posibles correspondientes a individuos o
cosas que son investigadas . En estadstica la poblacin no son los individuos sino las mediciones
hechas sobre individuos o cosas. Ejemplo: El nmero de piezas dentales sanas de todos los
habitantes de la Repblica Argentina.
2. Muestra:
Como generalmente es imposible estudiar a toda una poblacin, recabar los datos de cada uno de
sus integrantes y procesarlos, se toma una muestra (subconjunto de tamao finito n) de esa
poblacin. De las conclusiones obtenidas a partir del estudio de la muestra, tratamos de inferir
una conclusin sobre la poblacin. En la obtencin de la muestra, sus integrantes se eligen al
azar (en forma aleatoria), de modo tal que cada individuo tenga igual posibilidad de ser elegido.
Y cuando mayor sea el tamao de la muestra, ms valederas sern las conclusiones acerca de la
poblacin total. Por ejemplo una muestra de la poblacin ya definida podr ser el nmero de
piezas dentales sanas de 1.500 habitantes de la Provincia de Buenos Aires.
3. Observacin individual:
Es cada uno de los valores medidos dentro de una muestra.
Pgina 16 -175

17-175
1.9. REPRESENTACIN ANALTICA Y GRFICA DE DATOS ESTADSTICOS

OBTENIDOS A PARTIR DE UN CONJUNTO DE OBSERVACIONES INDIVIDUALES
Los datos obtenidos se ordenan y se agrupan formando un cuadro o tabla de valores, o bien se
representan mediante un grfico.
Si la variable es discreta lo que se construye es una tabla de
frecuencias no agrupadas. Se ordenan las observaciones en orden creciente y en una columna
contigua se explicita el nmero de veces que apareci cada una de las observaciones (frecuencia
absoluta, Fi), en otra columna contigua se calcula la frecuencia relativa de cada observacin (fi =
Fi/n), donde n es el nmero total de observaciones). Obviamente:
Fi = n
y
fi = 1
A partir de esta tabla puede construirse un histograma de barras que consiste en graficar en
ordenadas la Fi o fi de cada observacin individual y en abscisas la observacin correspondiente.
Veamos un ejemplo: sea X: calificacin (nota) obtenida por alumnos de Biofsica de la Facultad de
Odontologa en la primera evaluacin parcial.
Tabla de frecuencias no agrupadas
X
0
1
2
3
4
5
6
7
8
9
10
Fi
0
4
11
15
6
3
20
8
5
2
1
fi
0
0.053
0.147
0.2
0.08
0.04
0.267
0.107
0.067
0.027
0.013
Histogramas de barras
0.30
fi
20
Fi
0.15
0 1 2 3 4 5 6 7 8 9 10
0 1 2 3 4 5 6 7 8 9 10
Pgina 17 -175

18-175
Si la variable es continua y se tiene un gran nmero de observaciones es muy poco probable que se
repita un mismo valor muchas veces por lo que los datos se agrupan formando lo que se llama tabla
de frecuencias agrupadas. Esta tabla consiste en agrupar las observaciones en intervalos de clase.
Para construir esta tabla y a partir de ella graficar los valores en un histograma debemos hallar los
intervalos de clase. Estos deben ser contiguos (el lmite superior de cada uno de ellos debe coincidir
con el lmite inferior del siguiente) y excluyentes, es decir, que ninguna observacin pertenezca a
dos intervalos simultneamente (caiga en un lmite). Para construir los intervalos de clase vamos a
adoptar un criterio que tiene en cuenta las dos caractersticas antes mencionadas y el nmero de
observaciones individuales (n) realizadas.
1) se ordenan los datos en orden creciente y se calcula el rango (w) de la muestra, que es la
diferencia entre los valores extremos.
w = xmx x mn
2) se calcula el nmero de intervalos de clase (k) a travs de la siguiente expresin:
k = 1 + 3,3 log n
k debe ser un nmero entero, por lo que el resultado en caso de no ser entero se trunca o redondea.
3) se calcula la longitud de cada intervalo de clase (h) dividiendo el rango por el nmero de
intervalos de clase antes hallado:
h = w/k
h debe tener el mismo nmero de cifras decimales que los datos (obtenido con redondeo o truncado
del resultado aritmtico obtenido)
4) se verifica que todas las observaciones esten includas en los intervalos de clase, es decir que se
cumpla que:
xmn + k.h > xmx
Si esto no se cumple se incrementa h en una unidad de cifra decimal (si el muestreo de datos
contiene cifras decimales) o entera (en caso que las observaciones sean nmeros enteros) sin cambiar
k.
5) se construyen los intervalos de clase aparentes tomando como lmite inferior del primer intervalo
la observacin menor (xmn) y, sumando sucesivamente el tamao del intervalo, se obtienen los
lmites inferiores de los intervalos aparentes sucesivos. Los lmites superiores de los mismos se
obtienen sumando al lmite inferior de cada intervalo h menos una unidad de cifra decimal o entera
(segn corresponda dependiendo del muestreo de datos). Los intervalos aparentes asi construidos no
son contiguos y excluyentes.
6) a partir de los intervalos aparentes se construyen los intervalos reales (estos s son contiguos y
excluyentes). Para obtener los intervalos reales, al lmite inferior de cada intervalo aparente se le
resta la mitad de unidad de cifra decimal o entera (dependiendo del muestreo de datos) y al lmite
superior de cada intervalo aparente se le suma la mitad de unidad de cifra decimal o entera. De esta
forma los intervalos reales tienen todos longitud h, son contiguos (el lmite superior de un intervalo
coincide con el lmite inferior del siguiente) y son excluyentes ya que los lmites contienen una cifra
significativa ms que el muestreo de datos por lo que nos aseguramos que ninguna de las
observaciones caiga en un lmite.
Pgina 18 -175

19-175
7) se halla la frecuencia absoluta (Fi) y relativa (fi = Fi/n) de cada intervalo de clase. La frecuencia
absoluta de un intervalo de clase es el nmero de observaciones incluidas en ese intervalo de clase.
8) se calcula la marca de clase ( i) que es el punto medio del intervalo de clase :
i
= limite inferior + h/2
9) se calcula la frecuencia acumulada absoluta (Fi(a) ) y relativa (fi(a)) hasta el lmite superior de cada
intervalo sumando sucesivamente las frecuencias absolutas o relativas de los sucesivos intervalos.
Entonces, la tabla de frecuencias agrupadas consistira en un arreglo como el siguiente:
Intervalos aparentes
Intervalos reales
Fi
fi
Fi(a)
fi(a)
marca de clase
A partir de la tabla de frecuencias agrupadas se grafica el histograma ordinario que consiste en

graficar en ordenadas Fi o fi de cada intervalo de clase y en absisas los intervalos de clase
correspondientes. Sobre el histograma ordinario se traza el polgono de frecuencias agregando dos
intervalos de clase mas (de Fi = 0) uno a la izquierda y otro derecha del histograma con sus
respectivas marcas de clase, y uniendo con trazos rectos las marcas de clase de los sucesivos
intervalos de clase.
Por otra parte puede construirse el polgono de frecuencias acumuladas graficando el ordenadas Fi(a)
o fi(a) y en absisas los intervalos de clase correspondientes.
Tanto en el histograma de barras (para variable discreta) como en el histograma ordinario (para
variable continua), si se representa en ordenadas las frecuencias relativas (fi) es posible visualizar la
distribucin en probabilidades de la variable.
Un ejemplo detallado de estudio estadstico grafico: la talla de un conjunto de alumnos
Supongamos X:talla (en metros) de los alumnos de la facultad de Odontologa. Extraemos de esta
poblacin una muestra de tamao 100, y obtenemos las tallas (no listadas aqu) de los 100 alumnos
tomados al azar. Una vez ordenadas las mediciones observamos que xmin = 1,50 m y xmax = 1,92 m.
-Hallamos el rango:
w = 1,92-1,50 = 0,42 m
-Calculamos el nmero de intervalos de clase:
k = 1 +3,3.log100 =7,6 k = 8
-Calculamos el tamao de los intervalos de clase: h = w/k = 0,42/8 = 0,0525 h =0,05

-Verificamos si todas las observaciones estn incluidas en los intervalos de clase a construir:
1,50 + 8.0,05 = 1,90 <1,92 la ltima observacin no est incluida en los intervalos,
entonces incrementamos el tamao del intervalo en una unidad de cifra decimal, o sea:
h= 0,06 m
Pgina 19 -175

20-175
-Construimos los intervalos aparentes y luego los reales. Contamos las observaciones incluidas en
cada intervalo (Fi), calculamos la frecuencia relativa (fi), la frecuencia acumulada absoluta y relativa
(Fi(a) y fi(a)) y la marca de clase ( i ). Obtenemos la tabla de frecuencias agrupadas:
Intervalos aparentes
1,50 - 1,55
1,56 - 1,61
1,62 - 1,67
1,68 - 1,73
1,74 - 1,79
1,80 - 1,85
1,86 - 1,91
1,92 - 1,97
Intervalos reales
Fi
fi
Fi(a)
fi(a)
1,495 - 1,555
1,555 - 1,615
1,615 - 1,675
1,675 - 1,735
1,735 - 1,795
1,795 - 1,855
1,855 - 1,915
1,915 - 1,975
2
6
11
33
28
12
7
1
0,02
0,06
0,11
0,33
0,28
0,12
0,07
0,01
2
8
19
52
80
92
99
100
0.02
0,08
0,19
0,52
0,80
0,92
0,99
1,00
1,525
1,585
1,645
1,705
1,765
1,825
1,885
1,945
-Graficamos el histograma ordinario, el polgono de frecuencias (panel izquierdo) y el polgono de

frecuencias acumuladas (panel derecho)
40
Fi
100
Fi(a)
30
75
20
50
10
25
1,435
intervalos de clase
2,035
1.495
intervalos de clase
Cuando el nmero de observaciones tiende a infinito, la longitud de los intervalos de clase tiende a
cero (su tamao es extremadamente pequeo, es decir infinitesimal) y el polgono de frecuencias
relativas es una lnea casi continua que se llama funcin distribucin en probabilidades de la
variable.
Pgina 20 -175

21-175
1.10. DISTRIBUCIONES ESTADISTICAS
Cuando se representan muestras muy grandes o poblaciones (n ), la grfica obtenida del

polgono de frecuencias define el comportamiento caracterstico de una variable aleatoria bajo
estudio y se la conoce como la DISTRIBUCIN ESTADSTICA de esa variable, tal como ha sido
citado anteriormente. Obviamente, cuando el nmero de observaciones tiende a infinito, el polgono
de frecuencias deja de ser una sucesin de segmentos y se transforma en una nica curva continua
(sin ngulos). Como el lmite (n ) lo impone, en la ordenada del grfico, la frecuencia relativa es
remplazada por la probabilidad,
Las distribuciones estadsticas reciben nombres especficos de acuerdo al perfil de sus grficas, es as
como se define a la distribucin uniforme, la distribucin triangular, la distribucin de Poisson o la
distribucin de Gauss o Normal). Esta ltima resulta ser LA MAS IMPORTANTE para todas las
ciencias naturales (Fsica, Qumica, Biologa) y por ende de la Medicina y la Odontologa.
distribucin uniforme
distribucin triangular
distribucin de Poisson
distribucin de Gauss (Normal)
Las distribuciones estadsticas pueden clasificarse tambin en uni o multimodales (de acuerdo al
nmero de picos que presenten), en simtricas o asimtricas (de acuerdo a la distribucin de los
datos alrededor del pico), etc.
Tipos de Distribuciones:
Unimodal
Bimodal
Simtrica
Asimtrica
Pgina 21 -175

22-175
Como ejemplo, mostramos la distribucin de una variable discreta bimodal (X: calificacin (nota)
obtenida por alumnos de biofsica de la facultad de odontologa en la primera evaluacin.)
Como se observa en el histograma existen 2 valores (modas) de la variable que se repiten un gran
nmero de veces (el 6 y el 3).
0.30
Fi
0.15
0 1 2 3 4 5 6 7 8 9 10
Polgono de frecuencias de calificaciones - Primera Evaluacin Biofsica
1.11. PARMETROS ESTADSTICOS
Son nmeros que describe colectivamente a una muestra (o poblacin). Hay dos clases:
PARAMETROS CENTRALES y PARAMETROS DE DISPERSIN. Los primeros condensan
muchos nmeros en uno slo. El ms importante es el PROMEDIO o media aritmtica, se usa para
expresar en forma compacta el comportamiento de todo el conjunto de nmeros (los individuos u
observaciones individuales). Pero, como se trata de variables aleatorias, el promedio no es
exactamente el valor de todos los individuos de esa coleccin. Por esa razn existen los parmetros
de dispersin, que miden (en un solo nmero) el grado de confianza que se puede tener en el
promedio como representante de su grupo.
De posicin o centrales (OBJETIVO: obtener valores representativos)

- Media aritmtica (promedio)
- Moda
- Mediana
De dispersin (OBJETIVO: asignar confianza a los parmetros centrales)
- Rango
- Varianza
- Desviacin standard
- Error standard
Pgina 22 -175

23-175
PARMETROS CENTRALES:
1) Media aritmtica o promedio: dada una serie de valores (x) de una muestra referente a una
variable, se busca un valor nico representativo de los mismos. Se calcula :
n
x=
x
i =1
Cuando nos encontramos frente a una distribucin simtrica como lo es la distribucin normal, la
media es el valor central y el ms frecuente , y por lo tanto el ms adecuado para caracterizar a todos
los dems valores de la serie. La media aritmtica es un estimador de la media poblacional ().
Propiedades de la media :
a) La sumatoria de las desviaciones de los valores respecto de la media es igual a cero .
b) La sumatoria de las desviaciones elevadas al cuadrado da un valor mnimo cuando dichas
desviaciones se tomaron con respecto a la media .
2) Mediana: dada una serie de valores, una vez que ordenamos a stos en forma creciente, llamamos
mediana al valor central (si el tamao de la muestra es impar) ,o al promedio de los valores
centrales(cuando el tamao de la muestra es par). Es la observacin de la variable que deja mitad de
las observaciones hacia un lado y mitad de las observaciones hacia el otro lado.
La mediana es el mejor parmetro de posicin en cualquier tipo de distribucin ya que no es
influenciado por las colas (valores extremos de una distribucin) como lo es la media.
3) Modo o Moda: aquel valor que se repite con mayor frecuencia.
PARMETROS DE DISPERSIN:
A) De las observaciones individuales alrededor de la media:
1) Rango
Es la diferencia entre el valor mximo y mnimo de una muestra (xMAX x MIN)

2) Desvo standard (DS s): para apreciar las variaciones en la distribucin de la muestra , es
necesario buscar un nuevo parmetro , ndice de la mayor o menor agrupacin de los valores
alrededor de la media . Este parmetro es el desvo standard . Y se calcula (por computadora o
calculadora cientfica) :
DS =
n
1 n
1 n 2
2
(
)
(
X
X
X
X i )2 / n
i
i
n 1 i =1
n 1 i =1
i =1
Pgina 23 -175

24-175
El desvo standard muestral (DS s) es un estimador de la desviacin standard poblacional ().

B) De las medias muestrales alrededor de la media poblacional
Error standard (ES):
Como generalmente es imposible estudiar a toda una poblacin, nunca podremos conocer la media
poblacional. A lo sumo se puede estimar un valor que tienda a ella.
Experimentalmente pudo comprobarse que tomando distintas muestras de una misma poblacin, las
medias de esas muestras tenan una distribucin normal, es decir, configuraban una curva de Gauss.
El experimento es el siguiente: se repite m veces la obtencin de n observaciones individuales.
Para cada una de las m muestras se calcula un promedio y por ltimo se promedian esos
promedios. La media de la distribucin de las medias muestrales (o sea el promedio de m
promedios) se considera asintoticamente igual a la media poblacional:
= lim
m , n
; donde x =
1 n
xi
n i =1
donde m es igual al nmero de muestras consignadas y x cada uno de los promedios considerados.
Aqu el trmino asintoticamente se refiere a que se trata de una medida insesgada (sin error
sistemtico) y que se acerca montonamente a su valor lmite a medida que m y n tiendan a infinito.
El error standard es la desviacin standard de la distribucin de medias muestrales alrededor de la
media poblacional (). Cuanto menor sea el error standard ms confiable es la media, es decir que la
media muestral estima mejor a la media poblacional. El clculo se efecta por computadora o
calculadora cientfica.
ES =
DS
n
El error standard depende fuertemente del tamao de la muestra, y siempre que se calcula el error
standard hay que indicar el tamao de la muestra. Cuanto mayor sea el n y en consecuencia menor el
valor de ES la media de esa muestra ser mejor estimador de la media poblacional ().
Existe una forma de inferir cul sera el error standard de la media poblacional, a partir de los valores
de la media y del desvo standard de una nica muestra representativa:
1) se calcula la media de una nica muestra
2) se calcula el DS de dicha muestra.
DS =
n
1 n
1 n 2
(
)
(
X
X
X
X i )2 / n
i
i
n 1 i =1
n 1 i =1
i =1
Pgina 24 -175

25-175
Es interesante destacar que el valor de DS de cualquier muestra de la misma poblacin ser el

mismo, independientemente del tamao de dicha muestra, y se considera como el DS de la
distribucin de la poblacin.
3) Se calcula el error standard
ES =
DS
n
Intervalo de confianza: La expresin x ES nos dice dentro de qu lmites fluctan las medias
del 68% de las muestras de tamao n. Este es el intervalo de confianza en el que est contenida la
media de la poblacin o valor verdadero, con un 68% de probabilidad. Como la frmula del ES lo
indica, a medida que crece n, el intervalo se hace mas angosto, es decir crece la confianza que
tenemos en que su valor central sea el promedio poblacional. En el lmite (n ) el ES se hace cero
y el nico punto del intervalo ( x ) es EL PROMEDIO POBLACIONAL ( ).
Pasamos a ilustrar grficamente la diferencia conceptual entre los INTERVALOS DE CONFIANZA

x DS y x ES, ambos calculados con una muestras de tamao n :
El 68,27% de las observaciones

individuales est dentro de este
intervalo
x DS
Si repetimos el muestreo, el
68,27% de los promedios de n
observaciones individuales
estar dentro de este intervalo
x ES
1.12. DISTRIBUCIN NORMAL O DE GAUSS
En la inmensa mayora de los fenmenos fsicos, qumicos y biolgicos que se observan en la

naturaleza, existe una nica distribucin estadstica que los representa: es la distribucin normal o
curva de Gauss y por eso ocupa un papel central en la estadstica. Como se observa en la figura:
p
punto de
inflexin de la
curva
DS
Pgina 25 -175

26-175
Es una distribucin simtrica, con un eje de simetra vertical que pasa por el promedio. Se conoce
como punto de inflexin de una curva y=f(x) al valor de x para el cual cambia el sentido de la
curvatura de f(x) (La cuchara para abajo o concavidad se vuelve cuchara para arriba o
convexidad). La desviacin standard es grficamente la distancia entre el promedio y el punto de
inflexin de la curva de Gauss.
En una distribucin normal (curva de Gauss), acotar el desvo standard a la media , ser trazar dos
verticales , una restando 1 DS a la media, y otra sumando 1 DS a la media. Quedar subtendida
entre ambas verticales un rea que es igual al 68,27 % del rea total .En el grfico ser as:
El rea total bajo la curva representa al nmero total de observaciones de la muestra, o sea el
100 %.
Si acotamos a ambos lados de la media un desvo standard, el rea subtendida entre ambas cotas es
el 68,27 % y esto significa que se obtienen dos valores entre los cuales hay un 68,27 % de los
datos de la muestra . Entonces se puede estimar que hay un 68,27 % de probabilidades de que
aparezca un valor de la poblacin en ese intervalo: un 34,13 % a la derecha de la media, y un 34, 13
% a la izquierda.
Anlogamente, si sumamos y restamos a la media 2 DS , el rea subtendida entre ambas cotas es del
95,4 % del total, o sea un 47,72 % a la derecha y un 47,72 % a la izquierda. Esto significa que
sumando y restando 2 DS a la media obtenemos dos valores entre los que hay un 95,44 % de
probabilidad de que aparezca un valor de la poblacin en ese intervalo, y tan solo 4,56 % de
probabilidad de que aparezca un valor de la poblacin fuera de ese intervalo.
Por ltimo, si sumamos y restamos a la media 3 DS, el rea subtendida por ambas cotas es de 99,74
% del rea total, o sea un 49,87 % a cada lado de la media. Esto significa que sumando y restando 3
DS a la media, obtenemos 2 valores entre los cuales hay un 99,74 % de probabilidad de que aparezca
un valor de la poblacin en ese intervalo, y tan solo un 0,26 % de probabilidad de que algn valor
Pgina 26 -175

27-175
caiga fuera de ese intervalo. Entonces son pocas las probabilidades de que un valor tan alejado de la
media pertenezca a la misma poblacin.
En el APNDICE I, la Tabla II posee los valores precalculados de las reas bajo la curva de Gauss.
En el Captulo 3 trataremos en detalle el uso prctico de la distribucin normal y esta tabla.
Caractersticas de la curva de Gauss
De la misma manera que una recta determina su origen e inclinacin por las constantes b y a de su
ecuacin lineal:
y=a.x+b
la curva de Gauss tiene sus caractersticas dadas por los parmetros , . Recordemos que la
estimacin de la media poblacional ( ) es el promedio de promedios (o el nico promedio si se
calcul uno slo) y la estimacin del desvo standard poblacional ( ) es DS. La ecuacin que
calcula la frecuencia (u ordenada y) de la distribucin normal en funcin de una observacin
individual (o absisa x) es la siguiente
x

12
1
y=
e
2
Por ejemplo, a una distribucin con un DS (o sea ) grande , le corresponder una curva de Gauss
en forma aplastada, mientras que a una distribucin con DS pequeo le corresponder una curva de
Gauss con un pico acentuado:
Pgina 27 -175

28-175
1.13. PRECISION Y EXACTITUD DE UNA SERIE DE MEDIDAS REPETIDAS Y LA

CORRECTA EXPRESIN DE LOS RESULTADOS EXPERIMENTALES
En general, aunque un instrumento de medida est bien calibrado (es decir cuando el sistema
formado por el aparato y el observador que lo opera no cometen errores sistemticos), nunca una
serie de medidas van a dar EXACTAMENTE los mismos valores, ya que todo proceso de medicin
queda afectado por errores aleatorios provocados por una infinidad de variables fuera del control del
observador (pequeas fluctuaciones de temperatura, presin, tiempo, humedad ambiente, etc.)
Se ha tratado en detalle el concepto de sensibilidad y exactitud en las medidas individuales. Como ya
se ha mencionado, la inmensa mayora de las mediciones corresponden a variables distribuidas
normalmente. Entonces, aprovechando los conocimientos adquiridos en el estudio de las muestras
estadsticas, se pueden formular los conceptos de precisin y exactitud correspondientes a una serie
repetida de mediciones y que reflejan la exactitud y precisin del mtodo de medida utilizado.
Al repetir varias veces una misma medida (buscando estimar un nico valor verdadero), se obtiene
un conjunto de valores parecidos. Si se construye un polgono de frecuencias con estos valores. Se
ver que se agrupan simtricamente alrededor de su promedio, siguiendo una distribucin normal.
EXACTITUD DE UN METODO DE MEDIDA:
Es inversamente proporcional al promedio del error absoluto cometido, es decir la diferencia en
valor absoluto entre el PROMEDIO de las mediciones efectuadas y el VALOR VERDADERO (o
terico). Si no se cometieron errores sistemticos, el promedio de las distintas mediciones debera
ser prcticamente igual al valor verdadero para esa magnitud.
PRECISION DE UN METODO DE MEDIDA:
Es inversamente proporcional a la desviacin standard de las mediciones efectuadas; es decir, cuanto
ms dispersos sean los datos alrededor de su media, ms impreciso ser el mtodo de medida.
EXPRESION DE RESULTADOS:
X 3 DS: De repetirse nuevamente la medida, existe un 99,7 % de probabilidad de que est
includa en este intervalo
X 3 ES: Existe un 99,7 % de probabilidad de que el valor verdadero que se intenta conocer est
comprendido en este intervalo. Cuanto ms chico es este intervalo, ms confiable es el resultado de
la medida.
Ejercicio:
Si comparamos dos instrumentos de medida , uno puede ser ms preciso pero menos exacto que otro.
Como ejemplo, tomemos dos termmetros. Uno est descalibrado y siempre marca 3 grados ms que
lo que corresponde (tpico caso de error sistemtico) y su desviacin standard (tpica o habitual) es
de 0.0l C. El segundo est mejor calibrado y marca slo un grado ms (menor error sistemtico)
pero su desviacin standard tpico es de 0.05 C.
Cul es el ms exacto ? (Respuesta = el segundo)

Cul es el mas preciso ? (Respuesta = el primero)
Pgina 28 -175

29-175
1.14. VALORES NORMALES EN MEDICINA
El estado de salud o enfermedad de un individuo es un concepto estadstico. Para comenzar, se

define a un individuo como sano o normal solamente respecto a algn parmetro clnico (variable
aleatoria), antes que el intentar definir la salud del mismo en forma global. O sea, una persona en un
instante dado puede estar sana conforme a un conjunto de mediciones (temperatura corporal,
glucemia, hematocrito, etc.) y enferma respecto a otros (eritrosedimentacin, cantidad de glbulos
rojos, cido rico en sangre, etc.) Si la mayora de los principales parmetros clnicos se encuentran
en la zona de normalidad, al individuo se lo puede considerar sano. La zona de normalidad de un
parmetro clnico es la definida por el promedio poblacional ms (y menos) 1.96 DS, es decir es la
franja de valores dentro de la cual se encuentra el 95% de la humanidad (en estado de salud clnica,
es decir la poblacin que no manifiesta o evidencia patologa alguna)
Cabe sealar que los valores medidos en un individuo y que se pretenden comparar contra los VN
poblacionales, dependen de varios factores:
1) De la tcnica empleada para medirlos, por ejemplo los VN de Glucemia en ayunas medidos
por mtodo colorimtrico estn entre 0.70-1.10 g% en cambio los mismos valores normales
para la Glucemia en ayunas medida por mtodo enzimtico (que es mas exacto y mas preciso
como se podr comprobar) estn entre 0.65-1.00 g%.
2) Del ritmo circadiano que regula la actividad metablico-hormonal de una persona a lo largo
del da, por eso hay que determinar con exactitud la hora y estado de la persona antes de
medir esos parmetros (Para el caso de la glucemia los VN sirven para extracciones
matinales y con 8 Horas de ayuno previo)
3) De la ingesta previa, normalmente los valores se toman en ayunas.
4) De factores iatrognicos (provocados por la medicina) como ser la administracin
concurrente de frmacos que alteran el metabolismo (Para el caso de la glucemia la ingesta
de Metformina, que acta como hipoglucemiante oral)
Si se controlan los factores para evitar errores (sistemticos) como los mencionados, la obtencin de
valores extremos fuera de la zona 95%, permite sospechar una patologa. Esta es la base de
comprobacin estadstica que se usa universalmente en medicina y odontologa clnica para el
diagnstico. Por ejemplo, si la glucemia de una persona en ayunas, medida por mtodo enzimtico
fue de 1,45 g%, tendremos un diagnstico presuntivo de diabetes, ya que la probabilidad que un
individuo sano tenga (por el mero azar) un valor igual o superior al registrado es de p = 1 x 10-8 es
decir esto debera ocurrir una vez entre cada 100.000.000 de personas, lo cual es altamente
improbable y por eso se hace ese diagnstico presuntivo. Si por el contrario, se verifica que la
persona desayun una hora antes de hacerse la extraccin de sangre, se debe descartar el resultado y
repetir el anlisis porque ese valor sera perfectamente normal (o sea todas las personas tendran
valores o resultados ms o menos similares). Existe una rama de la medicina y odontologa clnicas
muy vinculada con la estadstica y que se dedica especficamente a la recoleccin de parmetros de
salud de las poblaciones, tanto las normales como las afectadas por patologas especficas: es la
EPIDEMIOLOGIA. Esta disciplina se ocupa de efectuar muestreos y relevamientos sanitarios en
gran escala y su posterior anlisis estadstico para la extraccin de VN poblacionales y definir con
cierta precisin el estado de salud de determinadas subpoblaciones. En el Captulo 5 se desarrollan
los conocimientos bsicos de la Epidemiologa prctica.
Pgina 29 -175
ESTADISTICA PRCTICA para profesionales de la salud

CAPITULO 2 Generalidades de la estadstica inferencial
30-175
CAPITULO 2: GENERALIDADES DE LA ESTADISTICA

INFERENCIAL
Pgina 30 -175

2.1.
31-175
ESTADSTICA INFERENCIAL
El objetivo de la estadstica inferencial es

permitir la toma de decisiones de riesgo
calculado en un ambiente de incertidumbre.
PORQU TOMA DE DECISIONES? Porque permite decidir (con un grado de

incertidumbre aceptado por el operador) si una determinada hiptesis o pregunta dicotmica,
(es decir de respuesta binaria) es verdadera o falsa.
Por ejemplo; una pregunta puede consistir en querer dilucidar si el frmaco A es ms activo
que el frmaco B para reducir los sntomas de una patologa. Esa pregunta se puede
formular en trminos estadsticos como una hiptesis que diga: el promedio de respuesta
obtenida con el frmaco A es igual al promedio de respuesta obtenido con el frmaco B. La
estadstica inferencial ratificar o rechazar esta hiptesis estadstica y por reflejo
contestar la pregunta original.
PORQU AMBIENTE DE INCERTIDUMBRE? Porque interviene el azar y estamos

tratando con variables contaminadas con elementos que la influencian en forma aleatorias. En
el mbito de la casualidad no hay certeza, en el mbito de la causalidad s. La estadstica
filtra el ruido estadstico para recuperar seales causales, pero siempre habr incertidumbre
en los juicios que se abran en esta clase de sistemas.
PORQUE RIESGO? Porque cuando hay incertidumbre en un sistema, las conclusiones que
se adopten sern pasibles de ser equivocadas. Por ejemplo; sacamos la conclusin (falsa)
que el frmaco A es ms activo que el frmaco B para reducir los sntomas de una
patologa, en realidad tuvimos mala suerte en nuestro ensayo y las diferencias observadas se
debieron exclusivamente al azar. Por supuesto para que este razonamiento sea vlido
debemos descartar primero que no hayan existido errores sistemticos involucrados en esas
determinaciones.
PORQUE RIESGO CALCULADO? Porque no slo nos interesa saber que nos podemos
equivocar al tomar decisiones, adems nos interesa MEDIR ese riesgo. Por eso, la
conclusin tomada como ejemplo debera ser: el frmaco A es ms activo que el frmaco B
para reducir los sntomas de una patologa .y la probabilidad de equivocarnos al tomar esa
decisin es de 1:20 (o sea p=0.05). Esto significa que estamos dispuestos de correr un riesgo
de equivocarnos al tomar esa decisin de una vez por cada veinte ensayos similares al
presente.
Hay varios tipos de preguntas que se intentan responder mediante la estadstica inferencial, pero las
ms frecuentes suelen ser:
1) LAS MUESTRAS SE COMPORTAN COMO ESENCIALMENTE IGUALES (a pesar de
las diferencias aleatorias que se observaron)? Aqu la igualdad puede referirse tanto a
medidas de tendencia central (p.ej.: promedios) como a medidas de dispersin (p.ej:
Pgina 31 -175

32-175
varianzas), tanto para dos como para ms muestras. A esta clase pertenecen pruebas de
inferencia como el test t-Student y el ANOVA (anlisis de varianza) (ver Captulo 3)
2) EXISTE ASOCIACION O VINCULACION ENTRE VARIABLES DE UNA MUESTRA?
Aqu se trata de vincular causalmente dos magnitudes de una muestra, cualitativa y
cuantitativamente, tal vez para efectuar predicciones ulteriores por interpolacin o
extrapolacin. A este grupo de preguntas pertenece el estudio de la relacin funcional que
liga a las variables (p.ej.: buscar la recta o la parbola o en general la funcin que mejor
describe o se ajusta a un conjunto de puntos). A esta clase pertenecen pruebas de inferencia
como el test de contingencia X2 (ji-cuadrado) y el ensayo de correlacin.
3) LA VARIABLE EN CUESTION SIGUE UNA DISTRIBUCIN ESTADSTICA
PARTICULAR (p.ej: la normal)? En este caso se intenta verificar en base a parmetros
descriptivos la funcin de distribucin general de dicha variable. A esta clase pertenecen
pruebas de inferencia como test de asociacin X2 (ji-cuadrado) y el ensayo de normalidad
de Kolmogorov-Smirnov (ver Captulo 4)
4) DEL CONJUNTO DE VARIABLES ESTADISTICAS BAJO ESTUDIO, CUALES SON
LAS QUE SE VINCULAN MUTUAMENTE CON MAYOR INTENSIDAD? En este caso
se busca comparar un conjunto de variables de una muestra para buscar similitudes y separar
diferencias entre ellas. A esta clase pertenecen pruebas de inferencia como bsqueda de
cliques o clustering y anlisis de correlacin mltiple. (Estos son temas avanzados,
consultar la bibliografa sugerida, p.ejemplo el libro de SOKAL)
5) EXISTE REGULARIDAD O PATRON DE COMPORTAMIENTO EN LA SERIE
TEMPORAL DE ESTA VARIABLE? Aqu se intenta detectar si en una serie de datos
secuenciales existe alguna regularidad interna o se trata slo de fluctuaciones azarosas. A
esta clase pertenecen pruebas de inferencia como el test de rachas o el anlisis de
autocorrelacin. (ver Captulo 4 para el primero, y el libro de FISHMAN para el segundo
tema)
2.2.
ENSAYOS O TEST ESTADSTICOS
Son tcnicas matemticas que permiten contestar preguntas de comparacin o de vinculacin sobre
dos o ms muestras. Adems las respuestas vienen valorizadas con el riesgo que se comete al tomar
justamente esa decisin y no otra (medido como probabilidad).
Hay dos grandes categoras de ensayos estadsticos:
Paramtricos
No Paramtricos
Dentro de cada categora se hallan innumerables tipos diversos de ensayos. No existen ensayos
universales que sirvan para cualquier caso que se presente. Se requiere estudiar y ganar
experiencia de uso para aplicar estadstica vlida. Decidir cuando se debe usar una u otra clase
depende del tipo de datos a analizar y requiere de cierto entrenamiento estadstico hallar la clase y
tipo de prueba mas adecuada para un problema en particular. Cuando desee hacer un ensayo de
inferencia, asesrese con docentes o investigadores con experiencia en estadstica. Por otra parte,
existen programas de computacin que le permiten efectuar todos los cmputos sin errores e incluso
graficar sus resultados. Lamentablemente tambin estos programas requieren cierto entrenamiento
Pgina 32 -175

33-175
para su uso. Presentamos un cuadro que sintetiza las principales diferencias entre ensayos
Paramtricos y No Paramtricos:
TEST
PARAMETRICOS
TEST NO
PARAMETRICOS
POTENCIA
RELATIVA (*)
100%
95%-65%
APLICABILIDAD
SOBRE DATOS
CUANTITATIVOS
Slo Escala de Intervalo o
Escala de Proporcin
CUALI/CUANTITATIVOS
Escala Nominal, Ordinal,
Intervalo o de Proporcin
Obs. independientes
Poblaciones normales (z)
Varianzas proporcionales
Efectos aditivos de
causas deterministas
sobre los promedios
Poblaciones de cualquier
clase y datos de cualquier
tipo
t-Student, Anlisis de Varianza

(ANOVA), F-Snedecor,
MANOVA, ANCOVA, etc.
Prueba de rangos, Prueba

de signos, Ji-cuadrado,
Prueba de Walsh, etc.
PREREQUISITOS
EJEMPLOS
(*) La potencia relativa es inversamente proporcional al tamao muestral requerido en cada tipo
de test para poder arribar a conclusiones estadsticas equivalentes.
2.3.
LAS HIPOTESIS ESTADISTICAS
Estadstica Inferencial: Dos es igual a Tres ?
Supongamos que tenemos dos grupos (A y B) de diez pacientes elegidos al azar, al grupo A se le
suministra un dentfrico con Flor y a B un dentfrico sin Flor. El experimento se prolonga durante
dos aos, al cabo de los cuales se mide la cantidad de caries en los veinte pacientes. Supongamos
que los datos medidos fueron:
DATOS REALES
Cantidad de caries en A : 0, 2, 3, 1, 3, 2, 1, 0, 5, 3 cuyo promedio es = 20/10 = 2
Cantidad de caries en B : 1, 2, 4, 5, 4, 3, 6, 2, 1, 2 cuyo promedio es = 30/10 = 3
Observemos la fluctuacin (dispersin) de los datos alrededor del promedio, si esa dispersin no
existiese y los resultados hubiesen sido:
DATOS IMAGINARIOS
Cantidad de caries en A : 2, 2, 2, 2, 2, 2, 2, 2, 2, 2 cuyo promedio es = 20/10 = 2
Cantidad de caries en B : 3, 3, 3, 3, 3, 3, 3, 3, 3, 3 cuyo promedio es = 30/10 = 3
En este caso imaginario, no hubisemos requerido estadstica para decidir que B tiene ms caries que
A (o sea 3 > 2), no hay azar y slo hay efectos causales que provocaron esos resultados. Pero, en el
mundo real de las ciencias naturales o experimentales, la probabilidad de obtener resultados sin
dispersin sobre variables derivadas de sistemas biolgicos es astronmicamente pequea. Lo
Pgina 33 -175

34-175
habitual es encontrar muestras como la primera y es all donde hace falta alguna tcnica que nos
permita decidir si el Fluor (la nica diferencia sistemtica entre los tratamientos de A y B) previene o
no las caries.
Por eso se han desarrollado mtodos que permiten tomar decisiones de riesgo calculado como que el
promedio de caries en A es menor (o al menos distinto) que el promedio en B. Por eso, en nuestro
ejemplo se puede sintetizar con una respuesta (valorizada) a la pregunta DOS ES MENOR (O
DISTINTO) A TRES?
En estadstica, al contrario que en la aritmtica, 2 puede ser igual a 3 si de promedios se trata.
El motivo es que la diferencia entre ambos nmeros se debe exclusivamente a la casualidad, pero en
el fondo se trata de promedios equivalentes de una misma muestra o poblacin. Por eso si un
frmaco preventivo de caries como el Flor da un promedio de respuesta 2 y los controles
(individuos no tratados) da un promedio 3, son posibles dos casos mutuamente excluyentes:
a. H0 (HIPOTESIS NULA)
Los promedios son iguales, las diferencias se deben slo al azar O sea 2=3.
b. H1 (HIPOTESIS ALTERNATIVA)
Los promedios son distintos, existe una causa que provoca la diferencia O sea 2 3 o tal vez
2 < 3 (Ver ensayos de una o dos colas, presentado mas adelante).
2.4.
ERRORES DE TIPO I Y DE TIPO II EN LA TOMA DE DECISIONES
Como se ha dicho, los ensayos estadsticos se disean para responder a una de estas dos alternativas
mutuamente excluyentes:
a. ACEPTAR H0 (HIPOTESIS NULA) (es decir, rechazar H1), equivale a concluir que las
discrepancias observadas entre las muestras en estudio se deben exclusivamente al azar y no
existe una causa sistemtica para esas discrepancias.
b. RECHAZAR H0 (HIPOTESIS NULA) (es decir, aceptar H1), equivale a concluir que las
discrepancias observadas entre las muestras en estudio no se deben exclusivamente al azar y si
existe una causa sistemtica para esas discrepancias.
Pero, cuando se toma una decisin (en un ambiente de riesgo generado por el azar) siempre hay
riesgo de equivocarse. Se llama ERROR DE TIPO I o nivel de significacin (simbolizado como
alfa = ) a la probabilidad de equivocarse cuando se rechaza una H0 siendo que es realmente
verdadera.
Obviamente existe otra forma de equivocarse. Se llama ERROR DE TIPO II (simbolizado como
beta = ) a la probabilidad de equivocarse cuando se acepta una H0 siendo que es realmente falsa. Al
valor complementario de este valor (1-) se lo conoce como POTENCIA DEL ENSAYO de
inferencia, ya que es proporcional a la capacidad de detectar diferencias entre muestras (cuando
existe un motivo real para las mismas). La POTENCIA DEL ENSAYO es (por definicin) la
probabilidad de rechazar una H0 siendo que es realmente falsa, o sea la probabilidad de detectar
diferencias reales entre las muestras. Otro factor determinante para la potencia de los ensayos es el
Pgina 34 -175

35-175
tamao de la muestra empleada. La potencia de una prueba crece al aumentar el tamao de la

muestra empleada. Los errores y son inversamente proporcionales, al aumentar uno disminuye el
otro. O sea no podemos optimizar simultneamente ambos tipos de errores y debemos optar por
reducir uno slo (a expensas del otro). El tema es cul conviene reducir, alfa o beta. En ciencias
naturales (fsica, qumica, biologa, etc.) la respuesta est bien definida.
En general es ms importante reducir el riesgo del error de tipo I que el error de tipo II, porque en
ciencias naturales se adopta el punto de vista CONSERVADOR frente al punto de vista
LIBERAL.
Punto de vista CONSERVADOR: si algo es distinto a lo establecido, tiene que

demostrarlo fehacientemente, caso contrario nos quedamos con lo que est establecido.
En trminos estadsticos, nos preocupa ms rechazar una H0 siendo que es realmente
verdadera (estamos detectando un falso positivo, es decir una diferencia entre muestras
que no existe) y por ende nos preocupa mantener en el mnimo posible.
Punto de vista LIBERAL: si algo es igual a lo establecido, tiene que demostrarlo

fehacientemente, caso contrario nos quedamos con que es distinto. En trminos
estadsticos, nos preocupa ms aceptar una H0 siendo que es realmente falsa (estamos
detectando un falso negativo, es decir una igualdad entre muestras que no existe) y por
ende nos preocupa mantener en el mnimo posible.
Entonces, para la medicina, porqu no se fija = 0 o en algn valor muy pequeo como = 10-30 ?
Ciertamente ese sera lo ideal para la hiptesis conservadora, pero como dijimos, alfa y beta estn
enlazados y si se elige un alfa demasiado pequeo beta crece demasiado (tiende a uno) y el
complemento de beta (o sea la potencia del ensayo) tiende a cero. Que un ensayo de inferencia tenga
potencia cercana a cero significa que ser prcticamente incapaz de revelar diferencias reales entre
muestras, o sea que pierde su utilidad prctica. Por ese motivo, se debe buscar un lmite superior de
alfa que sea suficientemente bajo como para ser conservador pero sin daar la potencia del ensayo.
ESTANDAR DE SEGURIDAD EN CIENCIAS NATURALES: siempre se mantiene a alfa (o sea
el nivel de significacin o error del tipo I) menor o igual a 0.05, nunca mayor a ese valor lmite
superior.
Pgina 35 -175

36-175
Las decisiones de riesgo que permite tomar la estadstica caern en cuatro categoras
LA REALIDAD
ACEPTAR H0
H0 ES
VERDADERA
H0 ES FALSA
CORRECTA
ERROR TIPO II
(=beta)
LA DECISION
(basada en un
CORRECTA
ensayo
ERROR TIPO I (regin de la
inferencial) RECHAZAR H0
potencia del
(=alfa)
ensayo)
2.5.
TEST DE UNA COLA Y DE DOS COLAS
En general, los ensayos de significacin estadsticos buscan diferencias entre parmetros estadsticos
o entre atributos de comparacin de dos o ms muestras. Como ejemplo, los ensayos paramtricos,
es decir los test aplicados a variables que se distribuyen normalmente alrededor de su promedio
(como la propia distribucin normal -Gauss- o la distribucin de t de muestras pequeas), se
pueden formular en dos formas de H1 , como Test de una cola o como Test de dos colas. Estos
nombres provienen de considerar que los datos que se desviaron del promedio pueden estar en una o
en las dos colas de la curva normal:
1-Alfa
1-Alfa
Alfa
Alfa/2
TEST DE UNA COLA (2<3)
Alfa/2
TEST DE DOS COLAS (23)
El nivel de significacin (alfa) (o sea el error de tipo I vinculado a la hiptesis nula) equivale al rea
de una cola de la campana de Gauss o de ambas, segn el caso y representa la regin de rechazo de
la H0. Su complemento (=1-alfa) es la regin de aceptacin de la hiptesis nula.
Supongamos que comparamos ( x DS ) dos muestras:
Entonces podemos formular:
( H1
( H1
: TEST DE UNA COLA)
: TEST DE DOS COLAS)
2 1
y 3 2
El primer promedio (2) es menor que el segundo (3)

El primer promedio (2) es distinto al segundo (3)
Pgina 36 -175

2.6.
37-175
CMO ELEGIR LA H1 CORRECTA
El test de una cola es ms preciso que el de dos colas, y debe ser aplicado siempre que A PRIORI
exista la sospecha de una causa sistemtica que gener esa diferencia. Por ejemplo si medimos el
umbral de dolor de un grupo (una muestra) de pacientes medicados con un analgsico o probable
analgsico respecto del observado en un grupo control (no medicado o medicado con un placebo), es
razonable que el umbral de dolor sea mayor en los medicados que viceversa. En este caso se puede
aplicar el test de una cola. Pero, si antes de comenzar con el ensayo estadstico no hay motivo para
pensar que un dato ser mayor a otro (no hay razn suficiente), se debe emplear siempre el Test de
dos colas.
Vamos a aclarar qu queremos decir con la frase no hay razn suficiente. Si se dispone de
antemano de algn indicio del sentido que debera tener una diferencia entre el grupo de ensayo y el
grupo control, entonces habr razn suficiente para disear un ensayo de una cola (por ejemplo si
probamos un hipotensor, la presin de los tratados debera ser con razn suficiente menor que la de
los pacientes control) Pero, si no hubiese indicio a priori de cual debera ser la (supuesta)
discrepancia entre los grupos bajo estudio, siempre se debe optar por una prueba de dos colas.
Resumiendo todo lo dicho acerca de la significacin y del tamao de las muestras, debern
recordarse estos cinco puntos:
El nivel de significacin () mide el error de tipo I (rechazar H0 siendo verdadera)
El valor beta () mide el error de tipo II (aceptar H0 siendo falsa)
La potencia de una prueba consiste en rechazar acertadamente una H0 siendo falsa (=1- )
La potencia de una prueba est relacionada con su naturaleza y con la H1, las pruebas de
una cola son ms potentes que las pruebas de dos colas.
5. En trminos generales, la potencia de una prueba se incrementa al aumentar el tamao de
las nuestras involucradas.
1.
2.
3.
4.
L muy importante!!
Las hiptesis estadsticas H y H y el nivel de significacin de un ensayo de estadstica
L
inferencial SIEMPRE deben ser fijadas de antemano, es decir antes de efectuar el
0
anlisis propiamente dicho. Bajo ningn concepto se debe cambiar una hiptesis
estadstica o fijar el nivel de significacin una vez conocidos los valores numricos del
ensayo. Las reglas del juego no se modifican sobre la marcha, se imponen antes de
comenzarlo. Caso contrario el anlisis estadstico se convierte de objetivo en subjetivo.
2.7. ACEPTACION Y RECHAZO DE HIPOTESIS Y EL PROGRESO DE LAS

CIENCIAS EXPERIMENTALES
La aceptacin y rechazo de hiptesis traducidas al formato estadstico (recordemos que las hiptesis
generalmente no son estadsticas pero que se formulan luego en formato estadstico para proceder
al anlisis inferencial) siempre se produce a travs de un ensayo estadstico de inferencia
(paramtrico o no paramtrico, segn corresponda). Para decidir que clase y tipo de ensayo conviene
usar, es recomendable el asesoramiento de docentes o cientficos con experiencia en estadstica. Los
ensayos de inferencia estadstica son el mtodo mediante los cuales se ayuda muchas veces a
descubrir nuevos frmacos, se mejoran los materiales de implante dental, se ayuda a prevenir las
caries o se determina que una tcnica quirrgica es mejor que otra. Tambin servir para que el
Pgina 37 -175

38-175
profesional de la salud juzgue con criterio propio si una propaganda de un visitador es engaosa o
no.
Como se indic previamente, la mejor manera de prevenirse para el consumo de estadstica mendaz
es capacitarse por medio de la lectura crtica de trabajos de investigacin serios de su especialidad.
Actualmente, el progreso de la medicina se basa en la utilizacin de tests de inferencia
estadsticos, no existe otra metodologa que la suplante y es un real fundamento del progreso de
toda ciencia experimental. Si no existiese, la medicina sera tema del curanderismo y la
adivinacin, no la ciencia que conocemos. Por eso es fundamental para la formacin del futuro
profesional de la salud aprehender sus fundamentos. No importa tanto la tcnica numrica que
llegado el caso se encuentra en la bibliografa especfica, lo que si importa y mucho son los
conceptos que le permitirn plantear dudas fundamentadas en su prctica profesional y acudir a las
diferentes formas de informacin como el libro, Internet o el especialista llegado el caso.
2.8.
ENSAYOS APAREADOS Y ENSAYOS AGRUPADOS
Cuando se comparan dos grupos y siempre que sea naturalmente posible, se debe trabajar sobre las
diferencias (aparear los datos), y de esa forma el ensayo ser ms eficiente. (Ej: antes y despus de
un tratamiento en cada paciente) Del apareamiento surge que mediante el mismo cada observacin
de un grupo sirve como control para esa misma observacin en el otro grupo hacindolo as mas
eficiente (requiere menos observaciones). Por ejemplo, si medimos la respuesta a un tratamiento
antes de comenzarlo y al finalizarlo sobre un grupo de pacientes, medir las diferencias apareadas
significa eliminar efectos sistemticos no controlados dependientes del genotipo y del ambiente de
desarrollo de cada paciente (obviamente variables que no estn bajo nuestro control) y que
determinan que cada paciente responda al tratamiento en forma mas o menos personal, aunque si el
efecto sistemtico y causal del tratamiento existe, este se ver reflejado en mayor o menor grado en
cada uno de los pacientes y por ende en las diferencias registradas.
Por otra parte si se mide el efecto de dos tratamientos distintos en dos grupos separados de pacientes
seleccionados al azar, no existe motivo suficiente para aparear los pacientes del primer grupo con los
del segundo o sea no se puede ni debe aparear datos en este caso. Por el contrario, debe quedar claro
que se puede dejar de aparear datos apareables y simplemente agruparlos dentro de cada grupo al
azar, aunque por razones de eficiencia obviamente esto no ser recomendable.
Se puede demostrar que si un ensayo de inferencia permite aparear datos (por ejemplo, el test
paramtrico t-Student para medir diferencias de promedios entre dos grupos), la potencia del ensayo
(1-) apareado siempre ser mayor o igual a la potencia del ensayo agrupado. Por ese motivo hay
que aparear siempre que sea factible.
2.9. EL MUESTREO Y EL DISEO DE LAS PRUEBAS A CIEGO, DOBLE CIEGO Y
TRIPLE CIEGO
Una de las condiciones ms importantes para que una prueba de inferencia tenga valor es que las
observaciones individuales sean extradas al azar de su poblacin de origen (poblacin sobre la que
se desean hacer inferencias). Esto se aplica tanto a ensayos paramtricos como a los no paramtricos
y su incumplimiento atenta contra la validez fundamental del ensayo. Debe tenerse en cuenta que su
Pgina 38 -175

39-175
incumplimiento no impedir la generacin de un resultado matemtico, pero este resultado carecer

de validez.
Supongamos que se necesitan seleccionar dos grupos de diez (10) pacientes para efectuar un ensayo
comparativo de dos tratamientos dentro de un grupo de quinientos veintitrs (523) disponibles. El
problema es cmo se seleccionan al azar, lo que es ms fcil enunciar que concretar.
Para comenzar indicaremos un mtodo simple aunque menos riguroso respecto del que se indica ms
adelante. Simplemente vaya a la tabla de nmeros aleatorios (TABLA I del APNDICE ) y apunte el
dedo al azar (en lo posible sin mirar) sobre la misma y anote el dgito que qued apuntando. Repita
tantas veces como sea necesario hasta completar su muestra de nmeros aleatorios.
Ahora vamos a indicar un procedimiento ms riguroso y que tambin usa la tabla de nmeros
aleatorios (Ver TABLA I del APENDICE)
a. Lo primero que tiene que hacer es asignar nmeros a cada individuo (u observacin
individual extrable) de su poblacin. Por ejemplo, si se trata de pacientes argentinos, use los
cinco ltimos (o ms si hace falta) dgitos del DNI de cada uno (o sea un 21.234.905 se
transforma en 34905). Si dos pacientes resultasen con igual nmero, se modifica al segundo
sumando uno a su nmero hasta que sea nico. A este nivel no puede haber duplicados
(Tenemos 523 nmeros asignados). Si se tratase de animales de experimentacin,
simplemente se los debera identificar por marcas y numerar al azar.
b. Ordene secuencialmente (de menor a mayor) su lista de nmeros de la poblacin (de 00000 a
99999), de manera que Ud. terminar con una lista de pacientes numerada del 1 al 523.
c. Obtenga en la forma ms casual que se le ocurra (o pdale a alguien ajeno al tema) cuatro
nmeros del 1 al 10 y antelos (A, B, C y D). Despus vaya a la TABLA I del APENDICE y
seleccione la columna A (Observe que hay 10 columnas con nmeros de 5 cifras). Ahora
seleccione la fila B.C+D y si ese nmero fuese mayor que 50 rstele 50 (Observe que hay 50
filas de nmeros, agrupadas de a cinco). Se acaba de seleccionar el primer nmero de su
muestra que obviamente tiene 5 cifras. Supongamos que A=9, B=7, C=9 y D=2; entonces se
acab de seleccionar la columna 9 y la fila 7.9+2=65-50=15, o sea el nmero 45276.
Olvdese de los dos ltimos dgitos, se acaba de seleccionar el nmero 452. Como ese
nmero es menor que el tamao de la poblacin (523) y como no ha sido elegido antes (por
ser el primero!) se lo acepta y as resulta que el paciente #452 es el primer seleccionado de
los diez buscados.
d. Ahora seleccione el nmero inmediato inferior a ese (06028). Repitiendo el procedimiento de
seleccin resulta que el paciente #060 es el segundo elegido. Si se alcanza el ltimo nmero
de alguna columna, se avanza a la primer fila de la columna siguiente, y si se agota la ltima
columna se va a la primer fila de la primer columna.
e. Repita ocho veces mas, salteando aquellos nmeros que superen 523 y los que hayan sido
elegidos antes. Al concluir se tendr la muestra de 10 pacientes elegidas al azar.
Resulta fcil adaptar este procedimiento a cualquier tamao de poblacin y muestra y an modificar
el sistema cambiando las direcciones de avance, la seleccin de las coordenadas iniciales, los dgitos
significativos a usar dentro del grupo de cinco, etc. Ser vlido cualquier mtodo que conduzca a la
seleccin de muestras en forma tal que a priori cualquier individuo posea la misma probabilidad que
otro de pasar a integrar la muestra.
Un problema potencial que altera dramticamente los resultados aparece cuando un paciente conoce
de antemano con qu ha sido tratado y por efecto psicosomtico reacciona segn la tendencia que l
Pgina 39 -175

40-175
mismo espera. Por ejemplo, si un paciente sabe que se est haciendo un estudio sobre el poder
analgsico de una droga y sabe que l esta ingiriendo esa droga y no un placebo (especie
farmacutica con igual aspecto y caracteres organolpticos que el tratamiento pero sin su principio
activo), entonces es posible que espontneamente sienta menos dolor (an como mecanismo
inconsciente). Este efecto alterar totalmente los resultados y falsea las conclusiones. Otro tema a
considerar pasa cuando el observador que registra los datos de los pacientes conoce de antemano si
los pacientes han sido tratados o son controles con placebos. En ese caso, es imposible que el
observador (que conoce cul es la respuesta deseada) no posea algn tipo de prejuicio sobre lo que
est midiendo, conciente o inconsciente. Como hay que eliminar estos sesgos (en estadstica se llama
as a cualquier tendencia sistemtica que desva el valor de las mediciones) se han diseado mtodos
que quitan esa fuente de problemas. En grado creciente de utilidad, los diseos se clasifican en:
Ensayo CIEGO: El individuo no sabe a qu categora pertenece, es decir si pertenece al

grupo control o al grupo tratamiento y por ende no est prejuiciado a-priori.
Ensayo DOBLE CIEGO: Ni el individuo ni el observador que registra las mediciones saben
a que categora pertenece cada uno y por ende no estn prejuiciados a-priori.
Ensayo TRIPLE CIEGO: Ni el individuo ni el observador ni el estadstico que efecta el

anlisis de inferencia saben a que categora pertenece cada uno y por ende no estn
prejuiciados a-priori.
Pgina 40 -175

41-175
2.10. ARQUITECTURA GENERAL DE LAS PRUEBAS DE INFERENCIA
Las mltiples pruebas de inferencia responden todas a un patrn comn, lo que simplifica
enormemente su estudio sistemtico. Cualquiera sea la clase de prueba de inferencia, ya sea
paramtrica o no-paramtrica, existen reglas generales que permiten racionalizar su lgica y de esa
manera ganar experiencia para capturar la esencia de cualquiera de ellas. En general los ensayos se
efectan por medios informticos lo que simplifica todo el proceso y evita los errores
computacionales.
INGRESO ORDENADO DE LOS

DATOS DEL ENSAYO Y EL NIVEL DE
SIGNIFICACION A USAR
COMPUTO DEL ESTADISTICO DE

ENSAYO
COMPUTO DE LA PROBABILIDAD
ASOCIADA AL ESTADISTICO DE
ENSAYO
ACEPTAR O RECHAZAR H0
Los datos se ingresan segn el

protocolo del ensayo elegido, el
se fija siempre de antemano
Cada ensayo tiene algn

parmetro de salida que
concentra la informacin. Por
ejemplo puede ser x2, t, F, r, R,
H, W, etc.
El valor obtenido del estadstico

de ensayo siempre posee una
probabilidad asociada (p), en
general funcin de los tamaos
muestrales. Esto se computa por
programa o se consulta en
tablas como las del APENDICE.
Si el p obtenido alcanza o
supera al definido, se acepta
Ho, si el p fuese menor que el
, se rechaza H0
Vamos a dar un ejemplo de interpretacin prctica de este cuadro. Supongamos que tenemos diez
pacientes diabticos y a cinco les suministramos u hipoglucemiante, a la hora las medidas de
glucemia fueron (en g/l) 1,32 - 1,22 - 1,05 - 1,53 y 1.16. El resto control arroj los resultados
1,55 - 1,69 - 2,13 - 1,62 y 1,81. Ingresamos los datos en dos columnas paralelas y fijamos la
H0:tratados=control vs. H1:tratados<control (de 1 cola!). Adems fijamos nuestro nivel de
significacin en 0,01. Ahora computamos el estadstico de prueba t-Student (agrupado) (ver
Captulo 3) y nos d el valor t=5,76 con 8 grados de libertad y una probabilidad asociada de
Pgina 41 -175

42-175
0,00032. Como ese valor de probabilidad es menor que el nivel de significacin, se rechaza H0 y se
acepta H1.
2.11. DISEOS
FALTANTES
SIMETRICOS,
ASIMETRICOS
MANEJO
DE
LOS
DATOS
Cuando se quiere comprobar el efecto de dos o mas intervenciones sobre una poblacin, se puede
optar por seleccionar muestras de igual tamao para cada caso o dejar ese nmero librado al azar.
Desde el punto de vista de la potencia de los ensayos de inferencia, la opcin no admite dudas. La
primer variante debe ser siempre la preferida y se la conoce como diseo experimental simtrico. El
motivo de su mayor eficiencia es que al asignar el mismo tamao a cada clase o categora, todas las
opciones reciben a priori el mismo peso estadstico y se optimiza la flexibilidad del ensayo frente a
todas las alternativas. Por ejemplo, si un grupo A posee una respuesta dbil frente a otro grupo B
con una respuesta mucho ms manifiesta y si la influencia del azar es proporcionalmente importante
frente a la influencia causal medida, elegir un tamao muestral ms pequeo para A que el elegido
para B debilitar sensiblemente la potencia del ensayo.
Si se piensa en trminos econmicos, cada observacin individual cuesta dinero adems de otros
recursos escasos como tiempo de trabajo y recursos humanos. Por eso, la mejor manera de distribuir
el presupuesto para el ensayo es asignar recursos equivalentes para cada alternativa considerada.
Esto es, todo experimento debe ser diseado en forma simtrica a menos que exista una buena
razn para no hacerlo.
Sin embargo, a veces no se puede evitar que el diseo termine siendo asimtrico, an a pesar del
investigador. Muchas veces es imposible pensar en simetrizar un diseo a priori, por ejemplo si se
estuviese efectuando un estudio sobre una enfermedad muy poco frecuente, es improbable que se
pueda obtener suficientes recursos como para que el diseo quede simtrico. Otras veces los
pacientes fallecen, se pierden o desaparecen de un ensayo. Hay factores imprevistos, las
observaciones de destruyen o se agotan los recursos para obtenerlos. Entonces aparecen huecos o
datos faltantes en diseos que de otra manera seran absolutamente simtricos. El tema es cmo
completar esos huecos y cundo decidir que es imprescindible hacerlo.
En primer lugar, si se producen huecos en un diseo simtrico lo primero que debe considerarse es
reponer el dato faltante. A veces es posible hacerlo, a veces no. Esta es la mejor opcin, con un
poco de esfuerzo adicional se consigue otro paciente y se repite su tratamiento o se adquiere por la
va habitual una nueva observacin. Si eso no fuese posible, considere la alternativa de seguir
adelante con el diseo asimtrico. Pero, si decide que la simetra debe ser recuperada a toda costa,
existe una tcnica que le permite simular uno o mas (nunca ms del 5% del total) de los datos
faltantes.
El mtodo es simple, el nmero o dato reemplazante debe provenir de una fuente (artificial en este
caso) que tenga la misma estructura que la natural u original. Por eso, si el resto de los datos
colegas, es decir aquellos que acompaan al faltante, posee una cierta estructura detectable, esa
misma estructura debe ser empleada para generar al dato que falta. Por ejemplo, si dentro de un
grupo o tratamiento debiesen existir 15 observaciones pero se perdieron 2, lo que hay que hacer es
investigar la clase de distribucin que cumplen los 13 datos colegas. Supongamos que esos datos
responden a una distribucin normal definida por una media y la varianza N(,2) lo que
corresponde es generar dos nuevos nmeros que respondan a esa misma distribucin.
Pgina 42 -175

43-175
Para generar una secuencia de nmeros aleatorios con distribucin uniforme, basta usar un
programa generador de nmeros seudoaleatorios por computadora o recurrir a la TABLA I del
APENDICE.
Aqu seudoaleatorio es un tecnicismo estadstico que se aplica a la generacin determinista de
secuencias caticas, pero a los fines prcticos, cuando mencionemos esta palabra se deber
entender como equivalente a la palabra aleatorio.
Para generar una secuencia de nmeros distribuidos normalmente con media y varianza 2, se procede de la
siguiente manera:
1. Generar n nmeros al azar (TABLA I ) definidos comoU 1 U 2 U n

2. X j = + 2 2 ln(U j ) cos(2U j +1 )
j = 1,3,5,..., n
X j +1 = + 2 2 ln(U j ) sin(2U j +1 )
Los nmeros de entrada Uj son nmeros aleatorios uniformemente distribudos entre cero y uno. Se puede usar la
TABLA I para obtenerlos, simplemente agregue un punto decimal en donde prefiera. Los nmeros de salida Xj
estarn distribudos N(,2) segn lo requerido.
Otra situacin que suele repetirse y en la cual resulta de inters completar datos faltantes aparece en
cuadros de frecuencia. Por ejemplo, en una matriz numrica (tabla rectangular de valores) donde
cada celda contiene la frecuencia registrada para esa fila y esa columna y cuando lo que se busca
comprobar es que esas frecuencias estn distribudas en forma uniforme, se calculan celdas faltantes
de la misma forma que se procede para calcular frecuencias esperadas en la prueba no paramtrica
de contingencia chi-cuadrado (2) (ver Captulo 4). El mtodo es simple, para cada fila y cada
columna se suman los valores (esto se conoce como sumas marginales). Obviamente la suma de las
sumas dan el total general. Entonces, si falta el dato de frecuencia de una columna cuya suma es m
y la fila cuya suma es n, y adems el total general es k, la frecuencia faltante (usando la hiptesis de
independencia) ser = (m.n)/k.
En otros casos podra ocurrir que hiciese falta obtener nmeros aleatorios distribuidos segn
cualquier otra funcin estadstica. En esos casos se recomienda recurrir al libro que trata en
profundidad este tema (FISHMAN, 1978).
Pgina 43 -175
ESTADISTICA PRCTICA PARA PROFESIONALES DE LA SALUD

CAPITULO 3 Test Paramtricos
Pag 44-175
CAPITULO 3: TEST PARAMETRICOS
Pgina 44 -175

3.1.
Pag 45-175
POBLACIONES NORMALES : LA DISTRIBUCION ZETA
Vamos a comenzar con un anlisis general de una tcnica de transformacin de variables en el formato
de la distribucin normal (Ver Captulo 1) Porqu es importante transformar datos provenientes de
mediciones sobre sistemas biolgicos en datos compatibles con la distribucin normal? Porque esa
distribucin es la ms importante de las ciencias experimentales y porque permite sacar fcilmente
conclusiones acerca del comportamiento general de una muestra que de otra forma no sera posible o
llevara un esfuerzo considerable.
Se conoce como distribucin z a la distribucin normalizada (media cero, desviacin standard 1) de
cualquier variable que cumpla con las hiptesis de la distribucin normal o Gaussiana. Cuando una
muestra de la cual se intuye de antemano que proviene de una poblacin que sigue la distribucin
normal y ya se han calculado su media y la desviacin standard, se normaliza la misma a travs de la
siguiente transformacin de datos que pasan los valores x iniciales a valores z:
z=
x X
DS
z indica la desviacin del valor x respecto de la media , medida en unidades de DS, o sea, indica a
cuntas DS est el valor x del promedio.
Ejemplo: la cantidad de PABA (cido p-amino benzoico) excretada por la orina en una muestra de
1000 hombres cuyas edades estn comprendidas entre 50 y 55 aos fue de 151,0 15,0 g / 24 Hs
( x = 151,0 g / 24 Hs ; DS = 15,0 g / 24 Hs ). Considerando que esa tasa de excrecin se encuentra
distribuida normalmente, cuntos hombres de la muestra dada presentan una tasa de excrecin de
PABA ubicada entre 119,5 g / 24 Hs y 155,5 g / 24 Hs ?
Antes de comenzar valga la acotacin que si aqu no se aplica la transformacin normal (z) arriba
detallada, no sera posible responder a esta pregunta. La nica forma viable de lograr esa respuesta es
suponer que la tasa de excrecin de ese metabolito por orina sigue una distribucin Gaussiana. Una vez
asumida esta hiptesis (que por otra parte resulta verificablemente verdadera) pasamos a resolver este
interrogante.
1) Se calculan los valores de z para cada uno de los extremos del intervalo teniendo en cuenta que la
variable es continua:
Entonces :
z1 = (119,5 151) / 15 = -2,1 y
z2 = (155,5-151)/ 15 = 0,3
lo que indica que el valor 119,5 est a 2,1 DS por debajo del promedio, y el valor 155,5 est a 0,3 DS
por encima del promedio.
2 ) Luego se buscan las probabilidades respectivas para z1 y para z2 en la tabla correspondiente. Para
obtenerlos, acudimos al APENDICE - TABLA II: DISTRIBUCION NORMAL (z) donde se encuentra
la probabilidad de que un valor z dado est entre cero y un lmite a tabulado. Grficamente:
Pgina 45 -175

Pag 46-175
Para z1 = -2,1
la probabilidad tabulada de z entre 0 y +2,1 que es 0,4821, pero la curva normal es simtrica,
por eso el rea entre 0 y +2,1 es igual al rea entre -2,1 y 0. Se concluye que el 48,21 % de los
individuos de la poblacin excretan PABA por orina entre 119,5 y 151,0 g / 24 Hs ).
Para z2 = 0,3
La probabilidad tabulada es 0,1179 (11,79%)

Se concluye entonces que el 11,79% de los individuos de la poblacin tienen excrecin urinaria de
PABA entre 151,0 y 155,5 g / 24 Hs )
3 ) El nmero de hombres de la muestra que tienen excrecin de PABA entre 119,5 y 155,5 g / 24 Hs ,
se calcula sumando las dos probabilidades anteriores y multiplicando la probabilidad hallada por el
tamao de las muestra :
n = [p( -2,1 z 0) + p( 0 z 0,3) ] x 1000 = (0,4821 +0,1179) x 1000 = 600 hombres.
Pruebas de significacin basadas en z
Con frecuencia en medicina se plantea la siguiente pregunta: cundo un valor dado representa
solamente una variacin normal con respecto al promedio y cundo ese valor se considera
patolgico?
Entre los valores considerados normales hay un valor promedio y el resto de los valores se distribuyen
alrededor del promedio segn un valor de DS. Un valor alejado del promedio, es necesariamente
patolgico o puede ser un valor normal con poca probabilidad de ocurrencia? Si bien no puede darse
una respuesta absoluta, la estadstica permite calcular cul es la probabilidad de que un valor pertenezca
a la poblacin de los valores normales; si esa probabilidad es muy baja se asumir que el valor es
patolgico.
Como ya hemos indicado (en el mbito biolgico), se han fijado convencionalmente los siguientes
niveles de significacin :
probabilidad 0,05 (5 % de probabilidad de que la diferencia del promedio de un

grupo bajo estudio con respecto al promedio de otro grupo bajo estudio est dentro del
rango normal y se haya debido al azar) NIVEL NO SIGNIFICATIVO (N.S.), o sea,
Pgina 46 -175

Pag 47-175
LA DIFERENCIA NO ES SISTEMTICA, Y POR LO TANTO NO EXISTE

ESTADSTICAMENTE HABLANDO.
probabilidad < 0,05 (5 % de probabilidad de que la desviacin con respecto al
promedio est dentro del rango normal y se haya debido al azar) NIVEL
SIGNIFICATIVO (*)
probabilidad < 0,01 (1 % de probabilidad de que la desviacin est dentro del rango
normal y se haya debido al azar) NIVEL MUY SIGNIFICATIVO - (**)
probabilidad < 0,001 (0,1 % de probabilidad de que la desviacin est dentro del
rango normal y se haya debido al azar) NIVEL ALTAMENTE SIGNIFICATIVO (***)
Para saber donde estn los lmites de significacin de z, consultamos la tabla y vemos que:
a) ENSAYO DE DOS COLAS
z = 1,96
z = 2,58
z = 3,29
(p tabulada de 0.4750 x 2 = 0,95 = 95%, o sea entre las 2 colas suman 5%)
(p tabulada de 0.4951 x 2 = 0,99 = 99%, o sea entre las 2 colas suman 1%)
(p extrada de otra tabla mas extensa = 99,9%, o sea entre las 2 colas suman 0,1%)
Interpretacin para el ensayo de dos colas:
H0: la desviacin (z) observada es igual a cero
H1: la desviacin (z) observada es distinta a cero
Si un z experimental se encuentra dentro del intervalo [-1,96, +1,96] el desvo registrado
no es significativo y se acepta H0. Si el valor de z est dentro del intervalo [-2,58, -1,96)
o dentro del intervalo [+2,58, +1,96) el desvo registrado es significativo y se rechaza H0
al nivel 5%. Si el valor de z est dentro del intervalo [-3,29, -2,58) o dentro del intervalo
[+3,29, +2,58) el desvo registrado es muy significativo y se rechaza H0 al nivel 1%. Si el
valor de z est dentro del intervalo (-, -3,29) o dentro del intervalo (+, +3,29) el
desvo registrado es altamente significativo y se rechaza H0 al nivel 0,1%.
b) ENSAYO DE UNA COLA
z = 1,65
z = 2,33
z = 3.08
(p tabulada de 0.4501 = 45%, o sea 1 cola es de 5%)

(p tabulada de 0.4901 = 49%, o sea 1 cola es de 1%)
(p tabulada de 0.4990 = 49,9%, o sea 1 cola es de 0,1%)
b1) Interpretacin para el ensayo de una cola para el caso z positivo:
H1: la desviacin (z) observada es MAYOR a cero
Pgina 47 -175

Pag 48-175
Si un z experimental se encuentra dentro del intervalo (0, +1,65] el desvo registrado no

es significativo y se acepta H0. Si el valor de z est dentro del intervalo (+1,65, +2,33] el
desvo registrado es significativo y se rechaza H0 al nivel 5%. Si el valor de z est dentro
del intervalo (+2,33, +3,08] el desvo registrado es muy significativo y se rechaza H0 al
nivel 1%. Si el valor de z est dentro del intervalo (+3,08, +) el desvo registrado es
altamente significativo y se rechaza H0 al nivel 0,1%.
b2) Interpretacin para el ensayo de una cola para el caso z negativo:
H1: la desviacin (z) observada es MENOR a cero
Si un z experimental se encuentra dentro del intervalo (0, -1,65] el desvo registrado no
es significativo y se acepta H0. Si el valor de z est dentro del intervalo (-1,65, -2,33] el
desvo registrado es significativo y se rechaza H0 al nivel 5%. Si el valor de z est dentro
del intervalo (-2,33, -3,08] el desvo registrado es muy significativo y se rechaza H0 al
nivel 1%. Si el valor de z est dentro del intervalo (-3,08, -) el desvo registrado es
altamente significativo y se rechaza H0 al nivel 0,1%.
Vamos a ejercitar estos conocimientos con dos ejemplos de aplicacin. El primero est referido a los
valores normales que en medicina sirven para clasificar a los pacientes en sanos o enfermos respecto
de distintas variables estadsticas o indicadores del estado de salud.
Valores normales en medicina
Por convencin, se consideran normales a los valores de cualquier indicador que presenta el 95%
de la poblacin (humana) carente de toda sintomatologa patolgica evidente. Estos valores se
distribuyen (normalmente) dentro de un rango conocido como intervalo de confianza 95% y deben
ser medidos en condiciones bien estandarizadas por un protocolo universalmente aceptado
(por ejemplo, para glucemia glucosa circulante en sangre - se toma una muestra de sangre venosa
en un tubo conteniendo un agente glucosttico como flor durante las primeras horas de la maana y
en condiciones de ayuno de 8 horas)
Aceptando esa convencin y volviendo al ejemplo de la excrecin urinaria de PABA de los 1000
pacientes, cules son los valores normales de este indicador? Obviamente, si miramos los valores
lmites de z con dos colas, el intervalo de confianza 95% se establece si z est dentro del intervalo [1,96, +1,96]. Slo nos resta traducir esos lmites en trminos de excrecin:
Lmite Inferior 95% = x 1,96 DS = 151,0 1,96 . 15,0 = 121,6 g / 24 Hs (ensayo de 2 colas)
Lmite Superior 95% = x + 1,96 DS = 151,0 + 1,96 . 15,0 = 180,4 g / 24 Hs (ensayo de 2 colas)
O sea el intervalo de confianza 95% y rango de la normalidad es [121,6 a 180,4] g / 24 Hs . Por lo
tanto si una persona posee una tasa de excrecin de PABA de 117,0 g / 24 Hs se lo considera
ANORMAL (patolgico, al nivel 5% de dos colas) y si tuviese una excrecin de 194,0 g / 24 Hs
dem. Obsrvese que (por ahora) decimos que es ANORMAL y no aclaramos HIPOEXCRETOR o
HIPEREXCRETOR respectivamente, ya que slo hemos efectuado un ensayo de dos colas. Sin
Pgina 48 -175

Pag 49-175
embargo, si nosotros tuvisemos la sospecha previa que se trata de un paciente HIPOEXCRETOR o

HIPEREXCRETOR, entonces podramos buscar los intervalos de confianza de una cola, sabiendo que
los valores de z lmites son ahora -1,65 y +1,65:
Lmite Inferior 95% = x 1,65 DS = 151,0 1,65 . 15,0 = 126,3 g / 24 Hs (ensayo de 1cola)
Lmite Superior 95% = x + 1,65 DS = 151,0 + 1,65 . 15,0 = 175,8 g / 24 Hs (ensayo de 1 cola)
Ahora s podemos llamar al paciente de 117,0 g / 24 Hs HIPOEXCRETOR (es menor a 126,3) y al de
194,0 g / 24 Hs HIPEREXCRETOR (es mayor a 175,8). Esto parece ser una complicacin adicional
al tratar de definir patologas, porque aparte de definir un intervalo de confianza 95% de dos colas,
aparentemente habra que definir adems el intervalo de confianza 95% de una cola. Pero eso no es as,
ya que siempre que un ensayo de 2 colas registre una diferencia significativa a un dado nivel,
automticamente tambin ser significativa esa diferencia al mismo nivel para el ensayo de 1 cola.
Resumiendo, si un paciente registra un valor menor al intervalo de confianza 95% de normalidad de un
parmetro (por ejemplo Glucemia) ser automticamente Hipoglucmico al nivel 5% (en realidad lo es
al nivel 2,5%) y si lo supera al intervalo, ser Hiperglucmico (o Diabtico) al nivel 5%. En realidad,
vale la siguiente regla general de significacin:
si un ensayo de 2 colas es
significativo (rechazo de H0) al nivel
1%
su interpretacin como ensayo de 1

cola ser significativa (rechazo de
H0) al nivel 0,5%
si un ensayo de 1 cola es
significativo (rechazo de H0) al nivel
1%
su interpretacin como ensayo de 2

colas ser significativa (rechazo de
H0) al nivel 2%
Obviamente en estos cuadros se puede cambiar el valor 1% del cuadro de la izquierda por cualquier
otro (5%) pero se deber ajustar convenientemente el valor del cuadro de la derecha.
3.2. COMPARACIN DE DOS GRUPOS NORMALES: TEST t-STUDENT
Cuando se trata de comparar el promedio de dos muestras provenientes de poblaciones distribuidas

normalmente (recordemos que esa es una condicin necesaria para poder aplicar ensayos de tipo
paramtrico) disponemos de un ensayo muy eficaz conocido como el test t-Student. Este ensayo est
basado en una distribucin estadstica de muestras de pequeo tamao y se acerca asintoticamente a la
distribucin normal a medida que el nmero de observaciones comparadas tiende a infinito. A los fines
prcticos si dos muestras independientes a comparar tienen ms de 30 observaciones individuales en
conjunto o si las dos muestras fuesen dependientes y se efectuasen ms de 30 comparaciones entre
ambas se las puede considerar distribuidas normalmente.
La distribucin t-Student utiliza para el indicador t que se calcula:
t=
x1 x2
ES
Pgina 49 -175

Pag 50-175
t brinda la desviacin del valor promedio x1 con respecto al valor promedio x2 , medida en unidades
de ES (error standard). Los valores tpicos de esta distribucin estn tabulados, en el APENDICE
TABLA III se presenta un extracto de esta tabla. En esta tabla de t-Student se encuentran las
probabilidades que tiene el valor dado de pertenecer a la distribucin t, segn el valor de t
calculado, y los grados de libertad. Los grados de libertad, trmino vinculado a los valores que se
pueden elegir libremente una vez fijadas ciertas restricciones sobre los parmetros, toman valores
vinculados a los tamaos de las muestras, como ser = n-1 o =n1+n2-2. Entonces se buscan en la
primera columna esos grados de libertad y en el cuerpo de la tabla, se busca el valor t (que fuera
calculado previamente) y para ese grado de libertad. Las probabilidades de que ese valor x pertenezca a
la poblacin se encontrarn en la parte superior, horizontalmente y encabezando la columna de t o
interpolando.
Bsicamente existen dos variantes para la prueba de inferencia t-Student, el TEST AGRUPADO y el
TEST APAREADO. Estas variantes se refieren al tema de apareamiento de datos que ya ha sido
discutido en un punto previo del captulo anterior. Slo nos limitaremos a recordar dos hechos: el test
apareado que trabaja sobre las diferencias entre dos grupos, es ms potente que el agrupado pero slo se
puede efectuar si hay justificacin para proceder a ese apareamiento. Vamos a ver ejemplos de ambas
variantes.
a) TEST t-STUDENT AGRUPADO
Tenemos dos muestras A y B cuyos promedios se desean comparar. En este caso (no hay
razones para aparear), los tamaos de dos muestras A y B (que llamaremos nA y nB) pueden
incluso llegar a ser diferentes. Lo primero que se hace es calcular el parmetro de dispersin que
es el error standard de la diferencia:
1) Para asegurar una mejor estimacin del significado de la diferencia entre las medias, se
calcula un ES combinado a partir de los DS (desvo standard) de ambas muestras:
DS comb =
( x
X A )2 + ( x B X B )2
( n A 1 ). DS A 2 + ( n B 1 ). DS B 2
=
( n A + nB 2 )
n A + nB 2
2) Se calcula el error standard de la diferencia
ESdif = DS .
nA + nB
nA . nB
3) Se calcula el estadstico o indicador t:

t=
XA XB
XA XB
=
ES dif
DS comb
n A .n B
n A + nB
Pgina 50 -175

Pag 51-175
Grados de libertad: son (n-1) para cada muestra, pues estn dados por el nmero de diferencias
independientes (x-X) utilizadas para determinar el DS. Si se consideran las 2 muestras, los
grados de libertad sern:
= nA + nB - 2
Uso de la tabla de Student:
Se busca en la tabla el nmero de grados de libertad en la primera columna.

Se busca en la fila correspondiente a los grados de libertad, el valor ms prximo al valor de
tcalculado por la frmula.
Se encontrar la probabilidad (correspondiente a las dos colas de la distribucin t-Student)
encabezando la columna correspondiente.
Se interpreta estadsticamente la probabilidad hallada con respecto al nivel de significacin fijado de
antemano de 0,05, 0,01 o bien, ms estricto, de 0,001, para decidir aceptar o rechazar la hiptesis
nula.
a) TEST t-STUDENT APAREADO
En medicina es frecuente considerar un mismo grupo de individuos que es a la vez sujeto de la
accin que se est estudiando y control. Es el tpico caso antes y despus. Como ambas
determinaciones son realizadas sobre el mismo individuo, se calcula la diferencia (d) entre los
pares de valores de antes y despus, para cada uno de los integrantes de la muestra:
d1 = x1 antes - x1 despus
.....................................
.....................................
dn = xn antes - xn despus
Se calcula la media de la diferencias:
d=
d
n
Se calcula el parmetro de dispersin que es el error standard de las diferencias:

1) Se calcula el DS de las diferencias
DS =
( d d )2
n1
2) Se calcula el error Standard
Pgina 51 -175

ES =
Pag 52-175
DS
n
3) Se calcula el indicador t como sigue:
t=
d
ES
Clculo de los grados de libertad: teniendo en cuenta que trabajamos con una sola muestra, los
grados de libertad son:
=n-1
Para interpretar el resultado, consultamos como antes la tabla t-Student. En la fila
correspondiente al nmero de grados de libertad, buscamos en la tabla el valor ms prximo al
t calculado, y leemos la probabilidad que le corresponde. Luego interpretamos
estadsticamente este valor de probabilidad comparado con el nivel exigido de antemano de
0,05, 0,01 o 0,001 para concluir si se cumple la hiptesis de nulidad H0 (diferencia nula) o si el
tratamiento ha sido efectivo.
3.3. PRUEBA DE ASOCIACIN Y CORRELACIN LINEAL ENTRE VARIABLES
CUANTITATIVAS
Nos enfrentamos en investigaciones cientficas con el problema de medir el grado de relacin existente
entre dos variables de una misma poblacin. Esto se define como una clase de anlisis de asociacin
cuantitativo entre las variables. Este ANLISIS DE ASOCIACIN recibe el nombre de ANALISIS
DE CORRELACIN cuando se desconoce la relacin funcional entre las mismas y como ANALISIS
DE REGRESIN si ya se conoce la relacin funcional (recta, parbola, polinomio, exponencial, etc.)
entre las variables. Generalmente se comienza con el Anlisis de Correlacin y una vez demostrada se
pasa al Anlisis de Regresin con un modelo lineal (recta) o no lineal (otra)
Por ejemplo, queremos investigar si existe una relacin entre el nivel de colesterol y la frecuencia de
crisis cardiovasculares de un grupo de pacientes. Si esta relacin existe y puede expresarse
matemticamente mediante la ecuacin de una recta, se dir: la correlacin es lineal. Cabe aclarar
que es el nico tipo de correlacin que estudiaremos en este trabajo.
Grfico:
En principio, para visualizar la relacin entre los dos grupos de valores, se le asigna cada grupo un eje
de un par de ejes coordenados. A cada par de datos, formado por un dato de cada grupo que se
correspondan entre s, le asignamos un punto en el diagrama.
y
G
E
*
C
*
*
*
A
F
*
*
D
*
B
x
Se obtiene as un conjunto de puntos del plano, que pueden estar alineados o no. Aunque todos los
puntos no queden sobre una misma recta, supongamos que observamos por su ubicacin una tendencia
Pgina 52 -175

Pag 53-175
lineal. Nos preguntamos: existir una recta que corresponda a la correlacin lineal entre ambas
variables? De existir esta recta, pasara por todos los puntos si stos no hubiesen sufrido desviaciones
por azar.
Para determinar si existe correlacin lineal entre los dos grupos de datos de la muestra calculamos el as
llamado coeficiente de correlacin del producto-momento de Pearson ( r ) con la frmula:
1
( x x )( y y )
r= n
DS x DS y
El numerador es la covarianza de (x, y) donde n es el nmero de pares de puntos, y el denominador

el producto de los desvos standard de x y de y tomados en forma aislada. Interpretamos el valor de r
para determinar en qu nivel se correlacionan las dos variables de la muestra, de la siguiente forma:
Consultamos la TABLA XVII del APENDICE que para los grados de libertad involucrados nos da los
lmites inferiores de significacin de r, si nuestro valor alcanza o supera algn lmite tabulado se
rechaza H0 de independencia (H0: r = 0 ) y aceptamos H1: r 0 (dos colas).
Si r toma valores positivos, la recta tiene pendiente positiva, y se dice que la correlacin es directa; si r
toma valores negativos, la recta tiene pendiente negativa y la correlacin se llama inversa.
El coeficiente r es un estimador del coeficiente de correlacin poblacional (). Si queremos averiguar
ahora si la correlacin entre ambas variables es estadsticamente significativa verificamos la hiptesis
nula H0: (r = 0), siendo la alternativa H1: (r 0). Como se puede apreciar, hemos planteado un ensayo
de dos colas. Para ello, o bien consultamos la TABLA XVII o calculamos el siguiente estadstico t
descripto en el apartado previo:
t=r
n2
1 r 2
Se busca en la tabla de distribucin de t-Student (APENDICE-TABLA III) para (=n-2) grados de
libertad, qu probabilidad hay de que esa correlacin fuera hallada por azar.
Prueba de nivel
Determinados los niveles de significacin de 0,05, 0,01 y 0,001 (prueba de dos colas), segn el
criterio del profesional como exigencia impuesta al problema, resulta:
- si la probabilidad es ms alta que el nivel impuesto, se concluye que la correlacin no es
significativa, o sea, la asociacin fue por azar.
- si en cambio, la probabilidad hallada fuera menor que el nivel marcado, la correlacin es
significativa, es decir, hay un grado de asociacin lineal entre las dos variables estudiadas.
REGRESIN LINEAL
Si la correlacin lineal entre ambas variables fue aceptada, nos veremos en el problema de hallar la
ecuacin de la recta que las vincula (pendiente y ordenada al origen). La solucin grfica aproximada
se obtiene trazando la recta que mejor se ajuste a la distribucin de los puntos experimentales. Los
clculos de los parmetros a y b de la recta son:
Pgina 53 -175

a=
n. ( x. y ) x. y
n. x ( x)
2
b=
Pag 54-175
y a.x
n
Conocidos los parmetros, la ecuacin de la recta es:

y=a.x+b
3.4. CORRELACIN LINEAL MLTIPLE Y CORRELACIN NO LINEAL
Muchas veces surgen situaciones en las cuales se desea verificar la regresin lineal entre un conjunto
de variables independientes (x1, x2, x3, , xn) y una variable dependiente (y). Por ejemplo si se
sospecha que el nivel de colesterol (x1), la presin arterial (x2) y la temperatura corporal (x3) definen
linealmente el grado de obstruccin venosa (y), se podra plantear el siguiente modelo de correlacin
mltiple:
y = a 0 + a1 x1 + a 2 x 2 + a 3 x 3
donde a0 es el trmino independiente y a1, a2 y a3 son los coeficientes lineales, todos a determinarse si
se dan como dato un conjunto de grupos de valores (x1, x2, x3, y) . Otras veces, surge la necesidad de
buscar los coeficientes polinmicos que mejor se ajustan a un conjunto de puntos experimentales (x,
y). Por ejemplo, si tuvisemos algn fundamento para pensar que la inflamacin de un rgano (y)
depende de una ecuacin de tercer grado (polinomio cbico) con respecto al nmero de leucocitos
circulantes (x), podramos plantear el siguiente modelo de correlacin no lineal:
y = a 0 + a1 x + a 2 x 2 + a 3 x 3
donde ahora a0, a1, a2 y a3 son respectivamente el trmino independiente, el trmino lineal, el trmino
cuadrtico y el trmino cbico a determinar si se da como dato un conjunto de pares de valores (x, y).
Si observamos las ecuaciones de los dos modelos planteados, surgen similitudes que nos hacen pensar
en que ambos modelos se resuelven por la misma va computacional. En efecto, apelamos a un
procedimiento muy empleado en estadstica que es el cambio de variables. Si a la variable lineal, en el
segundo caso, la llamamos x x1, al cuadrado x2 x2 y al cubo x3 x3 vemos que precalculando
el cuadrado y el cubo de cada x experimental, obtenemos el mismo caso del primer modelo.
Correlacin lineal mltiple y regresin no lineal son problemas isomorfos y poseen una misma
solucin.
El mtodo de resolucin general se conoce como mtodo de mnimos cuadrados (del cual la regresin
lineal es slo el caso particular para polinomios de grado uno), ya que busca minimizar los cuadrados
de las distancias entre los puntos experimentales y los de la funcin que se calcula. Como caso
particular vamos a resolver el modelo arriba planteado, aunque es fcil generalizarlo a cualquier grado
de polinomio o cantidad de variables independientes.
1) Se comienza con el primer modelo (el de regresin lineal mltiple) y si hiciese falta se hace el cambio de variables para
llegar a l. Vamos a considerar m=3 el nmero de variables independientes y n el nmero de repeticiones o puntos
utilizados. Como primer paso se debe calcular la matriz (cuadro rectangular de valores) de covarianzas:
Pgina 54 -175

SS 11
SS 21
SS
31
SS 12
SS 22
SS 32
Pag 55-175
SS 13
xi x j ; SS = x 2 ( xi ) 2
SS 23 ; donde SS ij = x i x j
i
ii
n
n
SS 33
observar que la matriz es simtrica (respecto de la diagonal principal), o sea p.ej: SS31=SS13 y los elementos de la diagonal
principal, p. ej: SS22 son las varianzas de cada variable.
2) Se calcula el vector independiente (columna de valores) de trminos independientes:
SS 1 y
xi y
SS 2 y ; donde SS iy = x i y
n
SS
3y
3) Se obtiene el vector solucin de los tres coeficientes (a1 a2 a3) por inversin matricial (una operacin numrica
efectuada sobre matrices, normalmente realizada por medio de un programa de computacin) y producto de la matriz
inversa con el vector independiente (tambin efectuado por computadora)
a1 SS 11

a 2 = SS 21
a SS
3 31
SS 12
SS 22
SS 32
SS 13
SS 23
SS 33
SS 1 y
SS 2 y
SS
3y
4) Habiendo resuelto los valores de (a1 a2 a3) obtenemos el valor del trmino independiente
a 0 = y m bi x i ; donde y =
y
n
y xi =
5) Se calcula la varianza residual del sistema
Vy =
SS r
; donde SS r = SS yy m a i SS iy
; SS yy = y 2
( y ) 2
n
; ( g . de l.) = n m 1
6) Se calculan las varianzas asociadas a cada coeficiente ai
V ai = c iiV y ; donde c ii es el i simo elemento diagonal de la matriz inversa calculada

7) Computar la significacin (frente a cero, test de dos colas) de cada coeficiente ai por medio del test t-Student
t=
ai
Vbi
; con ( g. de l.) = n m 1
y si alguno de estos coeficientes resultase N.S. (no significativo al nivel p=0,05) se lo debe eliminar del modelo. Por eso,
suponiendo que a1, a2 son significativamente diferentes a cero pero a3 no lo fuese, el sistema quedara reducido a
y = a 0 + a1 x1 + a 2 x 2
o segn el caso a
y = a 0 + a1 x + a 2 x 2
En caso de requerir la inversin matricial (y el producto matricial de esa matriz por un vector) puede emplear un
programa matemtico especfico o una planilla de clculos como Excel, Lotus, etc. Si no supiese operar con esos
programas, simplemente consulte a quien pueda asistirlo.
3.5. LA DISTRIBUCIN BINOMIAL Y LA DISTRIBUCIN DE POISSON

A pesar que la distribucin normal es en general la ms utilizada en las ciencias experimentales, hay
otras distribuciones de frecuencia estadstica que tambin deben ser conocidas ya que su aplicacin es
Pgina 55 -175

Pag 56-175
mandatoria en muchos casos. Comencemos describiendo la distribucin binomial. Supongamos que

estamos estudiando un fenmeno dicotmico, es decir donde sus resultados pueden ocurrir slo de dos
formas mutuamente excluyentes.
Por ejemplo, supongamos que en una poblacin, la proporcin terica de enfermos de Mononucleosis
Infecciosa (MI) es de 0,25%, es decir 25 de cada 10.000 individuos elegidos al azar. En trmino de
probabilidades, podemos decir que la probabilidad que un individuo extrado al azar de esa poblacin
padezca MI es p=0,0025. Es inmediato deducir que la probabilidad que ese mismo individuo no tenga
MI es q=0,9975, o sea se se cumple que
p+q=1
Este es un tpico ejemplo de dicotoma. Si pensamos podremos hallar cientos o miles de ejemplos
equivalentes, y a estos sistemas se le aplica la distribucin binomial. Su nombre deriva del desarrollo
de las potencias del binomio.
Es decir, considerando las sucesivas potencias del binomio (cualesquiera sean los valores p y q de probabilidad)
sern:
( p + q) = 1
( p + q ) 2 = p 2 + 2 pq + q 2 = 1
( p + q ) 3 = p 3 + 3 p 2 q + 3 pq 2 + q 3 = 1
n
n
n
( p + q ) n = p n q 0 + p n 1 q 1 + p n 2 q 2 +
0
1
2
n
n
n
+ p n n q n = p n i q i = 1
i =0 i
n
En la ltima expresin aparecen los coeficientes binomiales que dependen de la funcin factorial, a saber:
n
n!
=
; donde n! = 1.2.3.....(n 1).n y por definicin 0! = 1
i i! (n i )!
Como en cada potencia del binomio la suma de todos sus trminos sigue dando uno, es lgico pensar
que cada uno de esos trminos representa un valor de probabilidad y su conjunto (es decir esa
expansin del binomio) una distribucin estadstica de frecuencias. Esto es as y a esa distribucin se la
conoce como binomial. Veremos que esa distribucin (al igual que la normal) es simtrica y su forma
tiende a la clsica campana de Gauss a medida que n. Vamos a interpretar lo que significa cada
trmino en una de esas expansiones. Por motivos de simplicidad, elegimos la expansin cbica
(p + q)3 = p3 + 3p2q + 3pq2 + q3

Esto se interpreta as:
p, q = probabilidades individuales (y complementarias) de cualquier dicotoma, en particular e caso de
la MI (p=enfermo, q=sano) y 3 (el exponente)= tamao de la muestra extrada al azar de la poblacin
(o sea 3 personas):
Pgina 56 -175

Pag 57-175
[ p3 ]=probabilidad de ocurrencia de tres enfermos en el grupo de tres

[3p2q]=probabilidad de de ocurrencia de dos enfermos y un sano en el grupo de tres
[3pq2]= probabilidad de de ocurrencia de un enfermo y dos sanos en el grupo de tres
[ q3 ]=probabilidad de ocurrencia de tres sanos en el grupo de tres
Es fcil comprobar que estos cuatro casos cubren todas las posibilidades existentes al elegir tres
individuos de esa poblacin y por lo tanto la suma de sus probabilidades da uno. Ahora podremos
generalizar el tema y contestar preguntas como:
Cul es la probabilidad de en una muestra de 215 personas elegidas al azar 2 estn enfermas de MI?
Notar la relevancia de la aplicacin de este tipo de anlisis en reas como la epidemiologa. En
particular notar su relevancia por ejemplo para determinar la aparicin de enfermedades asociadas
a periodos definidos del ao o epidemias localizadas como el SARS o pandemias como el HIV. A
partir de este tipo de evaluaciones es que los gobiernos deben tomar medidas precautorias
decidiendo la generacin de campaas de prevencin para asistir a las poblaciones sujetas al riesgo.
Aplicando los conceptos discutidos, vemos que:
215 2 213 214.215 2 213

p q =
p (2,215) =
. p q = 23005 (0.0025) 2 (0.9975) 23 0.14
213
1
.
2
y cul es la probabilidad de en una muestra de 2150 personas elegidas al azar 2 estn enfermas de
MI?
2150 2 2148 2149.2150 2 2148
p q
p (2,2150) =
=
.p q
= 23005 (0.0025) 2 (0.9975) 2148 0.067
1.2
2148
Obsrvese que esta ltima probabilidad nos sorprende por su bajo valor, el motivo es que en una
poblacin de ese tamao sera raro encontrar tan pocos (slo dos) enfermos de MI. Otro tipo de
preguntas referidas a la distribucin binomial requieren el cmputo de la distribucin binomial
acumulada. Estas probabilidades estn registradas en la TABLA VII del APENDICE. Por ejemplo:
Cul es la probabilidad de en una muestra de 2150 personas elegidas al azar al menos 2 estn
enfermas de MI?
Podemos deducir que para contestar esta pregunta deberamos calcular la probabilidad de aparicin de
2, 3, 4, .., 2150 enfermos en esa muestra y sumarlas porque todos esos casos son mutuamente
excluyentes (recordemos la ley de la suma de probabilidades que ya ha sido vista). O sea:
2150
2150 i 2150 i
p q
p ( 2,2150) =
0,97
i = 2 2150 i
Este tipo de cuentas puede ser engorrosa de resolver y normalmente requiere la consulta a la TABLA
VII del APENDICE o de una computadora con un programa estadstico adecuado como las planillas de
clculo fciles de acceder como Excel o Lotus. Sin embargo, si se piensa un poco, muchas veces se
Pgina 57 -175

Pag 58-175
pueden economizar los cmputos. Por ejemplo con esta ltima pregunta, la respuesta es ms fcil de
computar si se formula el caso complementario.
La probabilidad de hallar dos o ms enfermos de MI en 2150 personas es igual a uno menos la
probabilidad de hallar 0 o 1 enfermos.
Evidentemente esta versin requiere (manualmente) solo 2 cmputos, es decir:
2150 2150 2150 2149
q
pq
p ( 2,2150) = 1

0,97
2150
2149
aunque con el programa se obtiene el resultado en fraccin de segundos. La distribucin binomial
tiende a la distribucin normal como caso lmite cuando p0 (o sea q1) y n.
Ntese a esta altura la importancia de una correcta formulacin de la pregunta ya que ello no solo
contribuye a la obtencin de la respuesta adecuada sino que nos permite aun simplificar la
propuesta matemtica de abordaje.
Otra distribucin estadstica interesante es la distribucin de Poisson, que se conoce como la

distribucin estadstica de los eventos raros y que posee bastante aplicacin en las ciencias
naturales. A diferencia de lo que ocurre con la distribucin normal y la binomial, esta es asimtrica,
con la caracterstica adicional que su media y su varianza (calculada como en la distribucin normal)
coinciden en un mismo valor. El nombre de evento raro se refiere a que la probabilidad de
ocurrencia de casos favorables suele ser relativamente baja. Por ejemplo, si se hace una estadstica
del nmero de goles en partidos de football profesional, se vera que la probabilidad de goles crece
desde cero por partido hasta un mximo (digamos 3 por partido) y luego decrece mucho ms
lentamente a medida que ese nmero tiende a infinito. Por ejemplo, la probabilidad de existencia de
200 goles (o ms) en un partido ya es a todo efecto igual a cero. Este es un tpico ejemplo de esta
distribucin. En medicina esta distribucin aparece en el nmero de clulas por mm3 que se miden en
un contador hematolgico, el nmero de colonias bacterianas por placa de cultivo en medio slido, el
nmero de pacientes que concurren por da a un consultorio, nmero de bitos hospitalarios por da,
cantidad de cirugas efectuadas por semana, la tasa de mortalidad por accidentes, nmero de
infecciones por rea geogrfica en epidemias, etc.
La probabilidad de aparicin de 0, 1, 2, 3, casos favorables en la distribucin de Poisson es
respectivamente
e z , ze z ,
z 2 z z 3 z
e , e ,...
2!
3!
donde z es el promedio registrado (igual a su varianza, o sea el DS es su raz cuadrada). Este es un

hecho bastante inusual e interesante, para obtener toda la distribucin basta calcular un promedio.
Por ejemplo, vamos a ejercitar la distribucin de Poisson con una estadstica efectuada acerca del
nmero de decesos quirrgicos por ao en intervenciones de transplante cardaco que se han registrado
en un pool de diez hospitales de alta complejidad, desde el ao 1981 al 2000 inclusive ( o sea, se han
censado 200 aos de actividad).
Pgina 58 -175

decesos
quirrgicos
0
1
2
3
4
5
6
Pag 59-175
nmero de aos en los

cuales ocurrieron ese
nmero de decesos
109
65
22
3
1
0
0
En total tenemos 122 decesos, o sea el promedio (z) de muertes por hospital y por ao es 0,61. En este
caso, el valor de e-z 0,543 y el valor computado (terico) de 0, 1, 2, 3, 4, 5 y 6 bitos es en trminos
de probabilidades 0,543, 0,331, 0,101, 0,021, 0,003 , 0,0004 y 0,00004. Traducido en decesos
(por 200 aos de actividad) los valores computados (tericos) son 109, 66, 20, 4, 0,6, 0,08 y 0,0008.
Podemos comparar estos datos con los realmente registrados y vemos que la coincidencia es muy
buena. Mas adelante se ver un mtodo no paramtrico (prueba x2-Chi cuadrado de bondad de ajuste)
que permitir verificar objetivamente la H0: ajuste bueno versus H1: ajuste malo con un test de dos
colas.
Tambin para esta distribucin puede ser de inters conocer la probabilidad de la distribucin
acumulada. Nuevamente acceder a programas como Lotus o Excel resuelve ese problema con una
simple funcin. Por ejemplo
Cul es la probabilidad que haya 3 o ms decesos quirrgicos por ao en los servicios de transplante
cardaco?
p ( 3, z = 0.61) =
i =3
z i z
e 0,024
i!
Este cmputo se efecta en forma simple e inmediata usando esas planillas de clculo.
3.6. ANOVA: FUNDAMENTOS DEL FRACCIONAMIENTO DE LA VARIANZA
ANOVA es una sigla universalmente adoptada y que significa anlisis de varianza. Se refiere a una
familia de tcnicas estadsticas paramtricas destinada a la comparacin simultnea de dos o ms
promedios muestrales, extrayendo toda la informacin estadstica disponible de esas muestras siempre
que se cumplan un mnimo de condiciones que vamos a detallar.
Los ANOVA no son un ensayo estadstico ms. Estamos frente a la metodologa estadstica ms
sofisticada disponible en el arsenal de la estadstica inferencial paramtrica. Representan una familia
muy potente de deteccin de diferencias muestrales, un muy eficiente filtro estadstico del ruido
aleatorio y que permite recuperar y amplificar seales causales dbiles pero reales. Con casi 80
aos desde su creacin por el padre de la estadstica moderna R. A. Fisher, ha sido sucesivamente
perfeccionada por generaciones de estadsticos.
Pgina 59 -175

Pag 60-175
Las condiciones mnimas exigidas por el ANOVA para que se puedan comparar (por ensayos de una y
dos colas) a un conjunto de muestras experimentales son las siguientes:
1) Las muestras provienen de poblaciones normalmente distribuidas. Existen ensayos
especficos que responden a esta cuestin con precisin (prueba Kolmogorov-Smirnov, test
Lilliefors y prueba W de Shapiro-Wilks amn del Chi-cuadrado de bondad de ajuste)
2) Las muestras poseen homogeneidad de varianza residual debida al error (aleatorio). Existe
un test paramtrico (test de Bartlett) que permite controlar esta condicin en caso de dudas.
3) Los efectos causales son aditivos, o sea que si hay causas que desplazan a los promedios de
las muestras, estos se suman y restan algebraicamente (esta condicin se cumple siempre
que no exista el fenmeno de interaccin que generalmente el propio ANOVA se encarga
de controlar)
En general ninguna de estas condiciones (salvo la primera) es demasiado restrictiva ya que la casi
totalidad de los fenmenos normalmente distribuidos en ciencias naturales cumplen el papel de
buenas y permiten la aplicacin del ANOVA. Por otra parte, cuando aparece alguna anomala que
atenta contra la validez del ANOVA, aparecen otras al unsono.
Porqu el ANOVA es tan eficiente en la comparacin de varias muestras simultneas? Queda claro
que para dos muestras existe una sola comparacin posible y esta la efecta un test t-Student con toda
eficiencia. Pero si tuvisemos tres muestras hay tres comparaciones internas posibles, por eso o se
efecta un ANOVA que las hace todas en un solo ensayo o se hacen 3 test t-Student. La situacin se
complica si comparamos ms muestras simultneas, por ejemplo diez muestras comparadas todas
contra todas:
10
aqu se deberan efectuar = 45 test t-Student o un nico ANOVA
2
La eleccin es clara. Y la situacin se complica cada vez ms a medida que crece el nmero de
muestras (y el nmero combinatorio) y esa es la razn principal de la eficiencia de un ANOVA. Otra
razn se ver ms adelante y consiste en que permite detectar y separar la accin de varios factores o
causas independientes (y aditivas) sobre una misma muestra lo que no permite el test t-Student.
Finalmente el ANOVA permite detectar desviaciones de la aditividad (interacciones) entre los factores
en estudio, nada de esto se detecta con el t-Student. Resumiendo, el test t-Student se reserva
exclusivamente a la comparacin de dos grupos y nunca se replica para comparar un conjunto mayor de
muestras, sencillamente se emplea un ANOVA.
El lenguaje ANOVA
Vamos a ilustrar ahora el lenguaje particular del ANOVA (anlisis de varianza). Primero repasemos el
concepto de varianza, una de las medidas de dispersin de los datos alrededor de su promedio.
s
(x x)
=
n 1
1
( x 2 ( x ) 2 / n)
n 1
Esta es la frmula del estimador de la varianza poblacional (2) para muestras pequeas (n<30),
sencillamente llamada varianza muestral. Si observamos la frmula desarrollada de la derecha vemos
que la varianza se comienza obteniendo de la diferencia entre la suma de cuadrados y la suma al
cuadrado dividida por el tamao muestral. Finalmente la varianza muestral ser esa diferencia dividida
Pgina 60 -175

Pag 61-175
al tamao muestral menos uno, lo que coincide con los grados de libertad de ese parmetro de
dispersin. En el lenguaje ANOVA, estos trminos reciben otros nombres:
SC = x 2 ( x) 2 / n
G.de L. = n 1
MC = SC / G.de L.
A la varianza se la llama MEDIA CUADRADA (MC o MS siguiendo la notacin sajona), a la suma de

los cuadrados de x menos la suma de x elevada al cuadrado y dividida por n se la llama SUMA DE
CUADRADOS CORREGIDA o como la llamaremos de aqu en adelante SUMA DE CUADRADOS
(SC o SS siguiendo la notacin sajona) y por ltimo al denominador GRADOS DE LIBERTAD. O sea,
una MEDIA CUADRADA se obtiene dividiendo una SC por los grados de libertad. Este lenguaje es
til para poder interpretar los cuadros ANOVA. Se llaman cuadros ANOVA a los resmenes sintticos
de los resultados de este ensayo de inferencia.
Tratamiento algebraico del fraccionamiento de la varianza
Para llegar a entender ms acabadamente la lgica del ANOVA se requiere profundizar en
ciertos aspectos algebraicos vinculados al fraccionamiento de la varianza. Aquel lector que no se
sienta demasiado cmodo con la formulacin matemtica puede saltear este apartado aunque
resultara provechoso realizar el esfuerzo de entenderlo.
Hecha la advertencia, vamos a efectuar una aproximacin ms emprica que rigurosa al tema. Ante
todo, como se discutir ms adelante, ANOVA es el fraccionamiento de variabilidad total y grados de
libertad totales en partes linealmente aditivas (o sea que sumadas dan el total). Supongamos que
comenzamos con una nica observacin de una variable x (=a). Obviamente, la media de esa muestra
tan elemental ser a, su varianza cero y los g. de l. tambin nulos.
Data : (a ) ; n = 1 ; x = a ; s 2 = 0;
g .de l. = n 1 = 0
Esto nos sugiere que si dispusisemos de una muestra de cualquier tamao (n) en la cual todos los
valores fuesen idnticos, la dispersin sera nula y no habra materia fraccionable, es decir la varianza
total no sera distribuible (y los g. de l.) en trminos aditivos menores (obviamente una varianza nunca
ser negativa). Supongamos que tenemos ahora dos valores distintos de x
Data : (a1 a 2 );
g .de l. = 1;
(a1 + a 2 )
;
2
(a1 + a 2 ) 2 / 2 = (a1 a 2 ) 2 / 2
x=
SC = x 2 ( x) 2 / n = a1 + a 2
2
Por lo expuesto, la suma de cuadrados con un solo grado de libertad corresponde a una nica
comparacin entre a1 y a2.
Pgina 61 -175

Pag 62-175
La siguiente situacin en grado de complejidad creciente consiste en tres valores diferentes de x
Data : (a1 a 2 a 3 );
g.de l. = 2;
x=
SC = x 2 ( x) 2 / n = a1 + a 2 + a 3
2
(a1 + a 2 + a 3 )
;
3
(a1 + a 2 + a 3 ) 2 / 3 =
2 2
2
2
(a1 + a 2 + a 3 a1 a 2 a1 a 3 a 2 a 3 )
3
Ahora esta suma de cuadrados est basada en 2 grados de libertad o comparaciones. Como se ha visto, la
comparacin entre dos valores, digamos 1 y 2 es (a1a2)2/2, por lo tanto podemos deducir el valor de la
comparacin restante como (a1+a2-2a3)2/6, dado que la suma de ambos trminos reconstituye la SC. Si en vez de
elegir 1 y 2 para la comparacin original se elige cualquier otra de las tres posibles, las comparaciones restantes
son
SC1 = (a1 a 2 ) 2 / 2
SC 2 = (a1 + a 2 2a 3 ) 2 / 6
SC1 = (a1 a 3 ) 2 / 2
SC 2 = (a1 2a 2 + a 3 ) 2 / 6
SC1 = (a 2 a 3 ) 2 / 2
SC 2 = (2a1 + a 2 + a 3 ) 2 / 6
Slo nos resta interpretar que es lo que efecta en cada caso la segunda comparacin. Se puede deducir que se
trata de una comparacin entre el valor no considerado por la primera y el promedio de los dos primeros valores
comparados. Resulta interesante saber que no son estas tres las nicas formas de particionar la SC, se pueden
inventar otras menos obvias y menos tiles. Lo interesante es que vamos entendiendo paulatina e intuitivamente lo
que es el anlisis de varianza, un fraccionamiento de SC en tantas comparaciones como lo permitan los grados de
libertad involucrados. Queda claro que las sumas de cuadrados son aditivas al igual que los grados de libertad (o
comparaciones) particionados.
Ahora analizaremos el caso de cuatro valores diferentes para x. No es difcil verificar que as como existen tres
comparaciones posibles con dos grados de libertad, con tres grados de libertad hay doce comparaciones posibles de
la clase vista hasta ahora:
SC1 = (a1 a 2 ) 2 / 2
SC 2 = (a1 + a 2 2a 3 ) 2 / 6 ;
SC 3 = (a1 + a 2 + a 3 3a 4 ) / 12
SC 2 = (a1 + a 2 2a 4 ) / 6 ;
SC 3 = (a1 + a 2 3a 3 + a 4 ) / 12
SC1 = (a1 a 3 ) / 2
SC 2 = (a1 2a 2 + a 3 ) / 6 ;
SC 3 = (a1 + a 2 + a 3 3a 4 ) / 12
SC1 = (a1 a 3 ) 2 / 2
SC 2 = (a1 + a 3 2a 4 ) 2 / 6 ;
SC 3 = ( a1 3a 2 + a 3 + a 4 ) / 12
SC 2 = ( a1 2a 2 + a 3 ) / 6 ;
SC 3 = ( a1 + a 2 3a 3 + a 4 ) / 12
SC1 = (a1 a 4 ) / 2
SC 2 = ( a1 2a 3 + a 4 ) / 6 ;
SC 3 = ( a1 3a 2 + a 3 + a 4 ) / 12
SC1 = (a 2 a 3 ) 2 / 2
SC 2 = ( 2a1 + a 2 + a 3 ) 2 / 6 ;
SC 3 = ( a1 + a 2 + a 3 3a 4 ) / 12
SC 2 = ( a 2 + a 3 2a 4 ) / 6 ;
SC 3 = (3a1 + a 2 + a 3 + a 4 ) / 12
SC1 = (a 2 a 4 ) / 2
SC 2 = (2a1 + a 2 + a 4 ) / 6 ;
SC 3 = (a1 + a 2 3a 3 + a 4 ) / 12
SC1 = (a 2 a 4 ) 2 / 2
SC 2 = (a 2 2a 3 + a 4 ) 2 / 6 ;
SC 3 = (3a1 + a 2 + a 3 + a 4 ) / 12
SC 2 = (2a1 + a 3 + a 4 ) / 6 ;
SC 3 = (a1 3a 2 + a 3 + a 4 ) / 12
SC 2 = (2a 2 + a 3 + a 4 ) / 6 ;
SC 3 = (3a1 + a 2 + a 3 + a 4 ) / 12
SC1 = (a1 a 2 ) / 2
2
SC1 = (a1 a 4 ) / 2
2
SC1 = (a 2 a 3 ) / 2
2
SC1 = (a 3 a 4 ) / 2
2
SC1 = (a 3 a 4 ) / 2
2
Aqu la lgica indica que en cada comparacin del tipo 1 se confrontan dos valores, en la del tipo 2 se
confrontan un tercer valor con el promedio de los dos primeros y en la del tipo 3 se confronta el valor
restante contra el promedio de los tres primeros que se han usado. Lo interesante es que esta no es la
Pgina 62 -175

Pag 63-175
nica forma de particionar la SC, se pueden hacer otras comparaciones, como ser usar las dos primeras
para comparar dos pares diferentes y en la restante el promedio de las dos primeras contra el promedio
de las dos segundas, a saber:
SC1 = (a1 a 2 ) 2 / 2
; SC 2 = (a 3 a 4 ) 2 / 2
SC 3 = (a1 + a 2 a 3 a 4 ) 2 / 4
SC1 = (a1 a 3 ) 2 / 2
; SC 2 = (a 2 a 4 ) 2 / 2
SC 3 = (a1 + a 3 a 2 a 4 ) 2 / 4
SC1 = (a1 a 4 ) 2 / 2
; SC 2 = (a 2 a 3 ) 2 / 2
SC 3 = (a1 + a 4 a 2 a 3 ) 2 / 4
Hay una forma adicional de particionar con tres grados de libertad y es usando todos los valores en cada
comparacin
SC1 = (a1 + a 2 a 3 a 4 ) / 4
SC 2 = (a1 a 2 + a 3 a 4 ) / 4 ; SC 3 = (a1 a 2 a 3 + a 4 ) / 4
A pesar de no ser la mas intuitiva, esta forma de particin es una de las ms usadas por el ANOVA.
Adems se puede demostrar que cada una de estas particiones sumadas da la SC total.
Vamos a extraer conclusiones generales acerca de todo lo visto. Primero, la variabilidad total
representada por la SC total puede ser fragmentada o particionada en un conjunto de contrastes
o comparaciones entre los valores de la muestra. Segundo, el nmero de comparaciones es como
mnimo igual a los grados de libertad existentes. Tercero, las comparaciones son ortogonales (o
independientes) entre s. Cuarto, se pueden armar comparaciones de distinto tipo, lo que
permite por ejemplo contrastar los valores de un subconjunto de la muestra contra otro
subconjunto de la misma muestra. En conjunto, estos cuatro atributos son el fundamento del
anlisis de varianza. El ANOVA ser diseado de tal forma que los contrastes que se armen
permitan verificar la significacin o no (frente al azar) de cualquier factor causal (y una regla
simple que permita armar esos subgrupos internos de valores en la muestra).
En qu consiste un ANOVA?
Esencialmente consiste en fraccionar (analizar= disgregar o repartir en fragmentos linealmente
aditivos) la suma general de cuadrados (SC total del ensayo) en una suma de SC parciales atribubles
a los distintos factores en estudio y verificar si esas SC parciales son estadsticamente significativas.
En caso de serlo, los factores que las causaron existen realmente (aceptar H1) y esas fluctuaciones no
se debieron al azar (rechazar H0) Junto con la fragmentacin de la SC total, se reparten
proporcionalmente los grados de libertad.
La idea es que si en un grupo inicialmente homogneo se gesta un cambio en los valores de un
subgrupo, la varianza del conjunto aumenta. Por ejemplo, supongamos que tenemos un grupo de 20
pacientes con un cierto valor de colesterolemia normalmente distribuido. Obviamente, ese grupo ser
unimodal con una moda (= promedio) cercana al valor medio poblacional de ese parmetro y una
dispersin (varianza) cercana a los valores poblacionales. Ahora supongamos que elegimos al azar la
mitad de pacientes y les suministramos un frmaco que baja el tenor de colesterol en sangre. Despus
de un tiempo prudencial repetimos las medias de colesterol a los 20 pacientes (ahora se trata de 10
pacientes tratados y 10 pacientes control) y obtenemos nuevamente la media y la varianza del conjunto.
Si el frmaco actu, el promedio del conjunto debe haber disminuido (en realidad baj en los 10
tratados y en el resto no se modific, pero como conjunto hubo un descenso) y la varianza del conjunto
aument. Es ms, la distribucin del conjunto pas de unimodal a bimodal. Estrictamente hablando,
Pgina 63 -175

Pag 64-175
como los grados de libertad (20-1=19) del conjunto no variaron, al aumentar la varianza (MC) lo que
aument es la suma de cuadrados corregida (SC). Entonces podremos fraccionar (o analizar) la suma de
cuadrados (SC Total) del conjunto de veinte pacientes en dos componentes aditivos:
SC total = SC factor + SC error experimental
Donde la SC Factor es la dispersin debida al grupo tratado y SC error experimental la dispersin del
grupo control (o del conjunto antes del tratamiento) y que recibe ese nombre particular en el lenguaje
ANOVA. Cada vez que en ANOVA se mencione error experimental se estar haciendo referencia al
efecto puro del azar. Si se dividen esas sumas de cuadrados por los respectivos grados de libertad,
obtenemos las varianzas (MC) del factor y del azar o error experimental
MC total = SC Total / 19
MC factor = SC Factor / 1
MC error = ( SC Total- SC Factor)/(19-1)= SC error experimental / 18
Observemos que en total hay 19 grados de libertad (=20-1). Para el factor hay un solo grado de libertad,
dado que su presencia divide al conjunto de pacientes en dos clases, los tratados y los controles (=2-1).
Para el error experimental, tanto la SC como los grados de libertad se llevan el resto disponible del total
inicial, o sea se obtienen por diferencia.
Notemos estos hechos importantes:
El ANOVA fracciona la variabilidad total (SC total) y los grados de libertad totales en tantas
partes como factores haya bajo estudio, dejando como residuo de esa fragmentacin una
variabilidad residual (SC error experimental). Dividiendo esas SC por los g. de l. se obtienen
las varianzas (MC) respectivas.
Las SC y los g. de l. son siempre aditivos ( las MC no lo son, no tiene sentido sumarlas!).
Cuanto mayor sea la varianza debida a algn factor (MC factor), menor ser la varianza
residual (MC error experimental) por lo cual el cociente de varianzas (MC factor / MC error
experimental) crece ( ) si el efecto del factor es significativo y disminuye ( 0) si el efecto
no fuese significativo.
El ltimo punto enunciado forma la base de las pruebas de inferencia que se efectan en un ANOVA.
El cociente de medias cuadradas (varianzas) se conoce como el estadstico de ensayo (o indicador) F
de Snedecor (la F en honor de R.A. Fisher). Se han tabulado los valores crticos de probabilidad de F
para los cuales una MC factor se vuelve significativamente mayor a la MC error experimental. Esto
lgicamente sirve para aceptar o rechazar en un test de una cola a la H0: MC factor = MC error
experimental.
Uso de las tablas de la distribucin F-Snedecor

En el APENDICE TABLA IV y TABLA V se presentan las tablas de los valores crticos de F para los
niveles de significacin del 5% y 1% respectivamente. Nuevamente hacemos hincapi que se pueden
obtener valores para cualquier otra condicin si se recurre a las funciones estadsticas incorporadas en
Pgina 64 -175

Pag 65-175
una planilla de clculo tipo Excel o Lotus. Sin embargo, estas tablas permitirn al lector buscar la
significacin de cualquier cociente de medias cuadradas (o varianzas) que aparezcan en los ANOVA en
los dos niveles de significacin mas frecuentes.
Si se observan esas tablas, se ve que poseen doble entrada en funcin de los grados de libertad del
numerador y denominador del cociente F. En la interseccin de la fila con la columna que corresponda
se hallar el valor critico de F que si fuese alcanzado o superado por el F obtenido, resultar en el
rechazo de la H0 de igualdad de las medias cuadradas (varianzas) al nivel (5% o 1%) que corresponda a
la tabla empleada.
Ejemplo de uso de las Tablas F-Snedecor
Supongamos que en un ANOVA se contrasta una MC tratamiento = 545.5 (g. de l.=3) contra una MC
error experimental = 100.9 (g. de l.=20). El valor F obtenido = 545.5/100.9 = 5.41. Consultando en la
TABLA IV (nivel 5%) el valor crtico de F(3,20)= 3.10 y en la TABLA V (nivel 5%) el valor crtico de
F(3,20)=4.94. Dado que 5.41 supera a ambas, podemos rechazar la H0 de igualdad de ambas MC y
concluir que el tratamiento manifiesta un efecto muy significativo frente a los controles al nivel de
significacin p=0.01. Esto es lo mismo que concluir que los datos de tratamiento provienen de una
poblacin con distinta media poblacional () que los datos controles.
El cuadro ANOVA
Finalmente estamos en condiciones de presentar la estructura general del cuadro ANOVA. Segn
hemos dicho, en este cuadro se resumen los principales datos, resultados y conclusiones de este ensayo.
Veamos un ejemplo genrico.
CUADRO ANOVA
FUENTE DE VARIACION
Factor N 1 en estudio
Error experimental
Total
SC
445.0
21.0
1229.3
1695.3
g. de l.
3
2
115
120
MC
148.3
10.5
10.7
-.-
F
13.9
0.98
-.-.-
SIGNIFICACION
** (p<0.01) (rechazar H0)
No significativo (aceptar H0)
-.-.-
Se puede verificar la aditividad de la suma de cuadrados y de los grados de libertad. Cada factor se
contrasta independientemente contra la MC error experimental. Los ensayos F-Snedecor y su
interpretacin son muy simples de entender, el Factor N 1 resulta muy significativo porque se superan
holgadamente los lmites F(3,60,p=0.01)=4.13 y F(3,120,p=0.01)=3.95. Queda claro que el valor crtico
que se necesita F(3,115,p=0.01) se halla en el intervalo (4.13 , 3.95), pero el valor obtenido 13.9 supera
holgadamente ese valor.
Modelos tericos en ANOVA

Para el ANOVA, existe una MC general que estima a la varianza de la poblacin (2). A esa varianza
basal, cada efecto causal (significativo) la modifica (por alterar el promedio), ya sea en ascenso o en
disminucin. Se llama Modelo I en ANOVA a la interpretacin terica que el efecto causal en estudio
modifica en forma fija esa varianza y Modelo II a la interpretacin que la modifica en forma aleatoria
(normalmente distribuida).
Pgina 65 -175

Pag 66-175
Supongamos que en el cuadro ANOVA superior suponemos que el Factor N 1 en estudio responde a
un modelo terico I de ANOVA y el Factor N 2 al modelo II. Entonces, las medias cuadradas
correspondientes al ensayo son estimadores de:
FUENTE DE VARIACION
MC
148.3
10.5
Error experimental
10.7
Estimador
de:
2 + 3 k2 Modelo I : k2 es el componente aditivo
fijo a la varianza poblacional, se
multiplica por el nmero de niveles del
otro factor (nmero de datos fusionados
para ese factor)
2 + 4 22 Modelo II : 22 es el componente
aditivo fijo a la varianza poblacional, se
multiplica por el nmero de niveles del
otro factor (nmero de datos fusionados
para ese factor)
2
Varianza poblacional terica
Ahora queda claro que para el primer factor el estadstico de Snedecor mide F= (2 + 3 k2)/ 2. A partir
de su significacin podemos extraer el valor estimado de k2. De igual manera se procede con la segunda
media cuadrada en el modelo II. Estos dos modelos son los bsicos y los ms importantes en ANOVA,
aunque hoy da existen hasta cinco modelos tericos diferentes.
3.7. ANOVA DE UNA VA

Ahora que tenemos los conocimientos bsicos del ANOVA podemos estudiar las variantes ms
importantes de esta familia de ensayos. Por ejemplo, en el ANOVA de una va es una suerte de
generalizacin del test t-Student agrupado al caso de ms de dos muestras, aunque puede ser aplicado
tambin con slo dos muestras. Lo que sigue vale para diseos simtricos como para los asimtricos.
Ejemplo ANOVA de una va (diseo asimtrico): Supongamos que se prueban 8 frmacos (1,2,3,,8)
con supuesta actividad hipocalcemiante inico oral (ingeridos reducen el nivel de calcio inico en
sangre) sobre ocho grupos de pacientes elegidos al azar. Se trata de un ensayo triple ciego en el cual
uno de esos frmacos es un placebo (inactivo) que servir como control de la actividad farmacolgica.
Los resultados de calcemia inica (en mEq/l) post-tratamiento fueron los siguientes:
TRATAMIENTO
GRUPO 1
GRUPO 2
GRUPO 3
GRUPO 4
GRUPO 5
GRUPO 6
GRUPO 7
GRUPO 8
SUMA
2.0
3.5
3.3
3.2
2.6
3.1
2.6
2.5
2.8
2.8
3.6
3.3
2.6
2.9
2.2
2.4
3.3
3.2
2.6
3.2
2.9
3.1
2.2
3.0
3.2
3.5
3.1
2.9
2.0
2.5
2.5
1.5
CALCEMIA
4.4 3.6 1.9
2.3 2.4 2.0
3.2 3.3 2.9
3.3 2.5 2.6
2.0 2.1
1.2 1.2
3.3 2.8 1.1

1.6
3.4 3.2 3.2
2.8
SUMA ni promedios
28.4 10
2.8
21.3
8
2.7
31.8 10
3.2
23.8
8
3.0
14.2
6
2.4
11.6
4
2.9
11.9
6
2.0
9.4
4
2.4
152.4 56 SC=439.40
Pgina 66 -175

Pag 67-175
El objetivo perseguido es someter estos datos a un ANOVA y detectar diferencias significativas entre
los tres grupos al nivel 5%. Una vez concluido el anlisis estadstico se dar a conocer cual de los ocho
es el grupo control.
Calculamos:
C(correccin)=Suma(x)2/n = (152.4)2/56=414.75
SCTotal = Suma2(x)-C=2.02+2.82++1.52-C=439.40-414.75=24.65
SCTratamientos = Suma (SUMAS2/n)i-C=(28.4)2/10+(21.3)2/8++(9.4)2/4-C=422.23-414.75=7.48
SC Error experimental = SC Total SC Tratamientos = 24.65-7.48=17.17
g.de l. Totales= 56-1=55
g.de l. Tratamientos=8-1=7
g. de l. Error Experimental = g.de l. Totales - g.de l. Tratamientos=55-7=48
y volcamos al cuadro ANOVA completando los cmputos de F y consultando la tabla 5%::
CUADRO ANOVA
FUENTE DE VARIACION
Tratamientos
Error experimental
Total
SC
7.48
17.17
24.65
g. de l.
7
48
55
MC
1.07
0.36
-.-
F
2.97
-.-.-
SIGNIFICACION
* (p<0.05) (rechazar H0)
-.-.-
O sea que hay una diferencia significativa al nivel 5% entre esos frmacos. Solo resta conocer entre qu
tratamientos se verifica esa diferencia. Esta clase de anlisis se conoce como post-hoc y est destinado
a buscar los responsables de la diferencia registrada. Un ensayo tpico de esta categora es el test de
Tukey o la prueba de secuencia de Keuls. Para efectuar la primera armamos un cuadro que ordena los 8
promedios de mayor a menor y calcula sus diferencias sucesivas
ANALISIS POST-HOC
CUADRO DE DIFERENCIAS DE PROMEDIOS GRUPALES
GRUPO
N
3
4
6
1
2
5
8
7
p
(prom)
3.2
3.0
2.9
2.8
2.7
2.4
2.4
2.0
p-2.0
p-2.4
p-2.7
p-2.8
p-2.9
p-3.0
1.2
1.0
0.9
0.8
0.7
0.4
0.4
0.8
0.6
0.5
0.4
0.3
0.5
0.3
0.2
0.1
0.4
0.2
0.1
0.3
0.1
0.2
Ahora calculamos el valor DSM (Diferencia de Significacin Mnima) que nos marca el nivel mnimo
de significacin del cuadro de diferencias, aquellas que lo superen son significativas, caso contrario
esas diferencias se deben al azar. Para ello necesitamos estimar el error standard. Conocemos la
varianza global debida al azar MC error experimental = 0.36. Entonces DS=(0.36)0.5=0.6 y ES=
0.6/(48)0.50.09 (valores estimados).
Pgina 67 -175

Pag 68-175
DSM t0.05, =48 (ES) 1.41= 2.02 x (0.09) x 1.41 = 0.26 0.3
Con lo cual todas las diferencias iguales o superiores a 0.3 son significativas, el resto no lo es.
Observando la tabla vemos que el anlisis post-hoc arroja:
1. El promedio del grupo 7 es significativamente menor al del todo el resto
2. Los promedios de los grupos 5 y 8 son significativamente menores al de los grupos 2, 1, 6,
4 y 3 y no difieren entre s.
3. El promedio del grupo 2 es significativamente menor al de los grupos 4 y 3.
4. El promedio del grupo 1 es significativamente menor al del grupo 3.
5. El promedio del grupo 6 es significativamente menor al del grupo 3.
6. Ninguna otra comparacin es significativa
Conclusiones finales
Como ltimo paso de este ensayo triple ciego se nos informa que el grupo control era el nmero 3,
por lo cual deducimos que todos los hipocalcemiantes probados fueron efectivos, con excepcin
del usado en el grupo 4 cuyos resultados no difieren de los valores del control. Evidentemente el
que tuvo resultados ms marcados fue el hipocalcemiante del grupo 7.
Por ltimo una advertencia, el mtodo de Tukey aqu empleado es aproximado cuando el nmero de
grupos comparados es mayor a dos, para aquellos que requieran una prueba post-hoc ms precisa se
recomienda prueba de secuencia de Keuls (ver SNEDECOR, 1964) o recurrir a un programa estadstico
adecuado como el Statistica v.6.0 de StatSoft. Sin embargo, vale advertir que el empleo de esta
clase de herramienta de alta potencia requiere un cierto entrenamiento previo, tanto estadstico en
general como en el empleo de las mltiples opciones que ofrece este software y otros equivalentes. De
todas maneras el uso cauto de la tcnica manual aqu descripta servir en la mayora de los anlisis que
se efecten, basta incrementar el margen de seguridad usando DSM un 50% mayor al calculado, lo que
disminuye el error de Tipo I y incrementa el error de Tipo II, bajando la potencia del ensayo.
3.8. ANOVA DE DOS VAS

Este tipo de ensayo busca hallar diferencias significativas entre las filas y entre las columnas de una
matriz de datos (o tabla numrica rectangular). Esta analoga geomtrica permitir reconocer muchos
campos de aplicacin del ANOVA de dos vas.
Ejemplo ANOVA de 2 vas: Se administran tres medicamentos a un grupo de cuatro pacientes. En el

siguiente cuadro se registran las respuestas farmacolgicas medidas junto a los totales marginales.
FARMACO FARMACO FARMACO
PACIENTE
suma
N1
N2
N3
23
44
34
101
PEREZ
27
40
45
112
GOMEZ
DIAZ
32
38
39
109
GIMENEZ
26
37
31
94
108
159
149
416
suma
El investigador desea saber si los tres frmacos actan en forma similar y si los pacientes responden
de la misma manera a los medicamentos.
Pgina 68 -175

Pag 69-175
Calculamos:
C=(23+44++31)2/ 12= 4162/12=14421
SC Total = 232+442++312-C=3440
SC Farmacos = (1082+1592+1492)/4-C=366
SC Pacientes=(1012+1122+1092+942)/3-C=66
SC Error experimental= SS Total (SS Tratamientos + SS Pacientes)=3008
g.de l. Totales= 12-1=11
g.de l. Farmacos=3-1=2
g.de l Pacientes=4-1=3
g. de l. Error Experimental = g.de l. Totales (g.de l. Farmacos+ g.de l. Pacientes) =11-5=6
CUADRO ANOVA
FUENTE DE VARIACION
Frmacos
Pacientes
Error experimental
Total
SC
366
66
3008
3440
g. de l.
2
3
6
11
MC
183
22
501
-.-
F
0.36
0.04
-.-.-
SIGNIFICACION
N.S. (aceptar H0)
N.S. (aceptar H0)
-.-.-
En este caso, no se detectan diferencias significativas ni entre los frmacos ni entre los pacientes. En
caso de haberse detectado alguna diferencia, hubisemos aplicado el anlisis post-hoc como en el
ANOVA de una va.
3.9. ANOVA FACTORIAL
Este es uno de los ensayos ms sofisticados de la familia ANOVA ya que es capaz de extraer toda la
informacin extrable de una muestra sometida a varios tratamientos independientes (ortogonales). Esta
clase de ANOVA posee como condicin ineludible que el diseo sea simtrico. Lgicamente, si por
alguna causa se hubiese perdido esa simetra, se debern completar los datos faltantes segn lo
detallado en el apartado correspondiente .
En forma sinttica, el ANOVA factorial se caracteriza por:
Probar un conjunto (ilimitado) de factores (P.Ej.: tratamientos, agentes causales, variables

independientes que modifican la media poblacional), todos ortogonales (independientes) entre
s.
Cada factor est presente en un nmero (ilimitado) de niveles, al menos dos.
A cada combinacin de factores le corresponde al menos un valor de una variable dependiente.
Esa variable es cuantitativa, continua y normalmente distribuida (para el ANOVA clsico, hay
variantes no paramtricas que no requieren esta restriccin)
Puede haber rplicas de la variable dependiente, en ese caso las rplicas se tratan como un
factor (aleatorio) adicional y su nmero de niveles ser el tamao de esa muestra replicada.
El diseo es totalmente simtrico
Hay dos clases de ANOVA factorial:

Pgina 69 -175

Pag 70-175
COMPLETO: Todas las combinaciones de factores y niveles estn presentes y representadas

por al menos un valor de la variable dependiente. Este es el diseo ms simtrico y eficaz del
ANOVA factorial
INCOMPLETO y/o BALANCEADO: Slo estn presentes algunas de las combinaciones

posibles. Este diseo se prefiere si el nmero de factores y/o niveles fuese tan grande que
dificulta su inclusin completa. A veces las dificultades o el costo en la obtencin de datos de
un espectro muy amplio de posibilidades obliga a recurrir a este diseo. El diseo recibe el
nombre de BALANCEADO si los factores/niveles que s se han incorporado al ensayo
provienen de una seleccin aleatoria de todos los casos potencialmente posibles.
Un resultado interesante del ANOVA factorial es que se obtiene una cuantificacin precisa de las
interacciones entre factores. Esas interacciones pueden ser de primer orden si intervienen dos factores,
segundo orden si intervienen tres, etc. Cada interaccin representa una desviacin de la aditividad del
ensayo y por ende son efectos generalmente no deseados. Su presencia anula la eventual significacin
(rechazo de H0 de inexistencia o inefectividad) que pudiesen tener los efectos principales. Sin embargo,
a veces el investigador persigue precisamente demostrar la existencia de esas interacciones. Una
interaccin entre dos factores se interpreta de la siguiente manera: supongamos que un factor A tiende a
aumentar la media poblacional y un factor B no la modifica. Entonces una interaccin significativa A x
B implica que A aumenta el promedio en algunos niveles de B y lo mantiene constante o disminuye en
otros niveles de B. Esto es claramente un efecto paradjico que merece ser investigado y que muchas
veces se constituye en una conclusin ms interesante para el observador que un simple resultado lineal
y aditivo segn lo esperado.
El lector no debe memorizar procedimientos complejos como el que se expone a continuacin. En una lectura
general del presente Captulo puede pasar por alto los detalles computacionales del siguiente ejemplo, slo
debe intentar entender la lgica general del ANOVA.
Pgina 70 -175

Pag 71-175
Ejemplo ANOVA FACTORIAL COMPLETO 2x3x4: Un investigador desea probar la accin de dos
frmacos (Levotonina y Metoformazina) (en distintas dosis) sobre una patologa especfica, tanto en
hombres como en mujeres. Para cada factor y nivel, elige dos pacientes al azar (repeticiones) y
registra los resultados de una variable vinculada a esa patologa. El diseo del ANOVA factorial
completo y los resultados obtenidos son:
Tratamientos o Factores
L mg / da
(Levotonina)
M mg / da
(Metoformazina)
0
25
50
0
25
50
0
10
25
50
0
15
25
50
Sexo
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
Masc
Fem
TOTAL
Repeticiones
(variable dependiente
medida)
Paciente
Paciente 1
2
111
97
152
145
109
99
127
122
85
121
167
124
130
100
155
153
103
121
124
134
112
96
176
127
122
113
138
108
134
141
140
121
134
119
146
139
119
103
80
129
136
116
142
139
146
103
162
127
3150
2897
Total
208
297
208
249
206
291
230
308
224
258
208
303
235
246
275
261
253
285
222
209
252
281
249
289
6047
Primero calculamos sobre la tabla principal:

C=(6047)2/48=761796
SC Total= 1112+972++1622+1272 - C=20409
SC Tratamientos= (2082+2972++2892)/2 C=12756
SC Repeticiones= (31502+28972)/24 C=1334
SC Error= 20409-(12756+1334)=6319
Pgina 71 -175

Pag 72-175
Ahora calculamos sobre la primer tabla resumen A:

M
(Metoformazina)
0
25
50
Total
0
505
457
497
1459
L (Levotonina)
5
10
538
481
482
536
511
538
1531
1555
15
431
533
538
1502
Total
1955
2008
2084
6047
Cada dato es la suma de 4 valores originales

SC Total A = (5052++5382)/4 C=3496
SC L, Levotonina= (14592++15022)/12 C=427
SC M, Metoformazina=(19552++20842)/16 C=526
SC LM (interaccin)=3496-(427+526)=2543
Ahora calculamos sobre la segunda tabla resumen B:

M
(Metoformazina)
0
25
50
Total
S (Sexo)
Masc
895
959
916
2770
Fem
1060
1049
1168
3277
Total
1955
2008
2084
6047

SC Total B = (8952++11682)/8 C=6702
SC S, Sexo= (27702+32772)/24 C=5355
SC MS (interaccin)=6702-(5355+526)=821
Finalmente calculamos sobre la tercera tabla resumen C:
S
(Sexo)
Masc
Fem
Total
0
622
837
1459
L (Levotonina)
5
10
662
763
869
792
1531
1555
15
723
779
1502
Total
2770
3277
6047

SC Total C = (6222++7792)/8 C=8181
SC LS (interaccin)=8181-(427+5355)=2399
SC LMS (interaccin)=12756-(427+526+5355+2543+821+2399)=685

Pgina 72 -175

Pag 73-175
CUADRO ANOVA
FUENTE DE VARIACION
Repeticiones (entre Pacientes)
L (Levotonina)
M (Metoformazina)
S (Sexo)
LM (interaccin)
LS (interaccin)
MS (interaccin)
LMS (interaccin)
Error experimental
SC
1334
427
526
5355
2543
2399
821
685
6319
g. de l.
1
3
2
1
6
3
2
6
23
MC
1334
142
263
5355
424
800
410
114
275
F
4.85
0.51
0.86
19.47
1.54
2.91
1.49
0.41
-.-
SIGNIFICACION
* (p<0.05) (rechazar H0)
N.S. (aceptar H0)
N.S. (aceptar H0)
** (p<0.01) (rechazar H0)
N.S. (aceptar H0)
N.S. (aceptar H0)
N.S. (aceptar H0)
N.S. (aceptar H0)
-.-
(los g. de l. de las interacciones se obtienen multiplicando los g. de l. de los factores involucrados)
Las conclusiones son: Hay una diferencia entre los pacientes 1 y 2, es como si el ordenamiento tuviese
algn significado que el experimentador deber evaluar. No existen diferencias significativas entre las
interacciones, lo que brinda validez a las comparaciones de los efectos principales. Respecto a los
mismos, no hay diferencias entre las dosis suministradas de Levotonina. Lo mismo ocurre con la
Metoformazina, pero como una de esas dosis era 0 y serva de control podremos afirmar que a la luz del
presente ensayo ambas drogas carecieron de efecto farmacolgico significativo. El nico factor
significativo result ser el sexo. Inspeccionando las tablas resume podremos afirmar que la respuesta es
muy significativamente menor en los hombres que en las mujeres.
3.10. ANCOVA: EL ANLISIS DE COVARIANZA

Hemos visto los tipos principales de ensayos de la familia ANOVA. Ahora trataremos un caso especial
de ANOVA aplicado a la correlacin lineal conocido como anlisis de covarianza o ANCOVA. En
realidad se trata de una ampliacin a los mtodos de regresin lineal ya vistos. La medicin del
ambiente es la variable independiente X y el resultado de la medicin la variable dependiente Y.
Supongamos que hay dos tratamientos que supuestamente afectan a la relacin (X, Y). El objetivo ser
entonces comparar el efecto de los dos tratamientos sobre Y. En otras palabras, dadas dos regresiones
lineales debidas a dos tratamientos, el objetivo del ANCOVA es determinar si las regresiones de
ambas son iguales o no. Las regresiones pueden diferir por su pendiente, por su ordenada al origen o
por su correlacin, el ANCOVA las verifica todas.
Ejemplo ANCOVA: Se estudi el efecto de dos tratamientos de quimioterapia (Vinblastina y

Hidroxiurea) en pacientes oncolgicos y en ambos casos se midi la correlacin entre dosis (mg/Kg
peso) y la densidad del tumor a los 10 das del tratamiento. En la siguiente tabla estn los resultados:
V
X (dosis)
(Vinblastina) Y (respuesta)
H
X (dosis)
(Hidroxiurea) Y (respuesta)
29
22
15
30
20
22
9
32
14
20
1
26
21
24
6
25
6
12
19
37
Si se grafican los datos se observa que las regresiones no estn lejos de ser paralelas (igual pendiente)
pero con distinta ordenada al origen. Luego pasamos al cuadro de covarianza para efectuar las
verificaciones cuantitativas.
Pgina 73 -175

Pag 74-175
38
36
34
VINBLASTINA
HIDROXIUREA
32
DENSITOMETRIA
30
28
26
24
22
20
18
16
14
12
0
10
15
20
25
30
DOSIS (mg/Kg Peso)
CUADRO ANCOVA
b=
xy
Fuente de
variacin
Recta V
Recta H
Dentro
b
coeficientes
de regresin
coeficiente
de regresin
comn
(x Suma de
Rectas V y
H)
Medias
ajustadas
Total
(pool V y H)
4
4
294
204
xy
134
117
88
94
SC =
y ( xy) 2 / x 2
MC
26.93
26.90
53.83
8.98
8.97
8.97
1.66
1.66
55.49
7.93
x Diferencia 1
372.56
372.56
428.05
x2
(pendiente o
coeficiente de
regresin)
0.456
3
0.574
3
x Suma 6
x Diferencia 1
498
658
251
51
182
432
0.504
Pgina 74 -175

HOMOGENEIDAD DE
VARIANZA
(las dos muestras provienen de
poblaciones normales con 2
comunes)
IGUALDAD DE INCLINACION
(pendiente)
IGUALDAD DE ELEVACION
(ordenadas al origen)
Pag 75-175
Para la diferencia de 2
F(3,3) = 8.98/8.97 1 N.S.
(aceptar H0 de igualdad)
Para la diferencia de b (coeficientes de regresin)
F(1,6) = 1.66/8.97 <1 N.S.
(aceptar H0 de igualdad)
Para la diferencia de medias ajustadas
F(1,7) = 352.56/7,93 = 47.0 ** (p<0.01)
(rechazar H0 de igualdad)
Aqu observamos que los cmputos son algo ms engorrosos que en el ANOVA, pero siguiendo
cuidadosamente este modelo el lector podr efectuar sus ANCOVA con toda facilidad.
3.11. ENSAYO DE RECTAS PARALELAS: PRUEBA DE DOCIMASIA BIOLGICA

Una de las aplicaciones ms importantes de la estadstica inferencial en la medicina pertenece al campo
de la farmacologa experimental. El problema fundamental es valorar la potencia biolgica de alguna
partida de un preparado o contrastar la potencia de una droga contra los patrones internacionales. Esta
clase de estudio se resuelve por medio de un ANOVA particularmente diseado para contrastar
diferencias. Como hiptesis se supone que la droga desconocida y el patrn de calibracin poseen el
mismo principio activo por lo cual es de suponer que el desconocido es una suerte de concentrado o
diluido del patrn de calibracin. Esto implica que las relaciones dosis-respuesta de ambos sean en
principio paralelas (de igual pendiente) pero diferente ordenada al origen. Es decir la potencia
intrnseca es la misma, vara la dosis efectiva suministrada.
En el punto anterior vimos como un ANCOVA puede decidir si dos regresiones son paralelas y si
difieren en su ordenada al origen. Ahora vamos a ver un caso similar pero orientado a calcular la
potencia relativa del desconocido frente al patrn de calibracin y validar todo con un ANOVA. La
clase de ensayo que vamos a emplear se conoce como test de rectas paralelas (vamos a descontar por
hiptesis que s los son, caso contrario efectuamos un ANCOVA previo). Vale la pena acotar que este
tema de la docimasia biolgica tiene muchsimas variantes y para el que necesite profundizar este
captulo se le recomienda enfticamente el libro de (FINNEY, 1964), ntegramente dedicado a estos
temas. Vamos a resolver un caso prctico que ilustra lo principal del ensayo de rectas paralelas y del
clculo de potencia biolgica.
Ejemplo ENSAYO DE RECTAS PARALELAS (de 4 puntos): un farmaclogo responsable de un

laboratorio de especialidades medicinales acaba de sintetizar una nueva partida de penicilina que
desea valorar frente a su patrn internacional. Los ensayos se efectan a travs de antibiogramas,
midiendo el dimetro del halo de inhibicin de colonias (en dcimas de mm) en un cultivo en placa de
Petri. El investigador siembra 8 placas control y 8 desconocidos. 4 controles tienen un disco con 200
UI/ml del antibitico, los otro 4 controles un disco con 50UI (dilucin 1:4), 4 desconocidos un disco
con la solucin desconocida 1:1 y los 4 desconocidos restantes un disco con esa solucin diluida 1:4
(la dilucin D=4 es igual a la dilucin de potencia del patrn). Los resultados y el anlisis son los
siguientes:
Pgina 75 -175

Pag 76-175
ENSAYO DE RECTAS PARALELAS

(dimetros en dcimas de mm de inhibicin por penicilina)
STANDARD
(UI por ml)
50
200
92
108
95
111
93
108
90
107
370
434
Placa N
(al azar)
I
II
III
IV
Total
TEST
(Dilucin)
0.25
1
68
90
74
91
72
91
75
88
289
360
Lp=
-S1-S2
+T1+T2
-42
-41
-38
-34
-155
L1=
-S1+S2
-T1+T2
38
33
34
30
135
L1=
+S1-S2
-T1+T2
6
1
4
-4
7
Calculamos:
R (potencia relativa del desconocido) = (Zs/Zt) antilog (Lp.logD/L1)
=(200/1) antilog( -155. log 4 / 135)=200 x 0.2036= 40.7
O sea que la mejor estimacin (promedio) para la potencia del desconocido es de 40.7 UI/ml. Ahora
pasamos al cmputo del intervalo de confianza 95% (o lmites fiduciarios 95%) de esta estimacin.
Primero calculamos la varianza poblacional usando las tres ltimas columnas:
SC Lp =( (-42)2+(-41)2+(-38)2+(-34)2)/3= 38.75
SC L1 =( 382+332+342+302)/3= 32.75
SC L1 =( 62+12+42+(-4)2)/3= 56.75
s2=(38.75+32.75+56.75)/(3+3+3)=3.562
Luego calculamos valores auxiliares usando t-Student (p=0.05, con 9 g. de l.) = 2.26 (ver TABLA III)
N t2 s2 = 16 x (2.26)2 x 3.562 = 291.6
y por ltimo el intervalo de confianza 95% de la potencia relativa
log D L L Nt 2 s 2 ( L 2 + L 2 Nt 2 s 2 )
ZS
p 1
p
10
1
R L , RU =
anti log
2
2
2
ZT
L1 Nt s
} = 30.3, 52.0
por lo tanto la potencia biolgica del desconocido es de 40.7 y su intervalo de confianza 95% es
(30.3 , 52.0). Esto completa la primer parte del ensayo. Ahora pasamos a la validacin:
Calculamos:
SC Preparaciones= Lp2 /N = (-155)2/16=1501.56
SC Regresin= L12 /N = 1352/16=1139.06
SC Paralelismo= L12 /N = 72/16=3.06
SC Entre dosis= SC Preparaciones+ SC Regresin+ SC Paralelismo
SC Total= x 2 ( x) 2 / n (para los 16 datos) = 2700.44 (g. de l.=15)
MC Error =3.562 (fue calculada previamente)
SC Error = MC Error x (g.de l.=9)=32.06
SC Entre placas= SC Total (SC Entre dosis+SC Error) = 8.23
Pgina 76 -175

Pag 77-175
CUADRO ANOVA
FUENTE DE VARIACION
SC
g. de
MC
l.
1
1501,56
SIGNIFICACION
422
** (p<0.01)
(rechazar H0)
** (p<0.01)
(rechazar H0)
N.S.
(aceptar H0)
Preparaciones
1501.56
Regresin
1139.06
1139.06
320
3.07
3.07
<1
2.643.69
881.23
247
Entre placas
24.69
8.23
2.31
Error experimental (SC s2)
32.06
3.56
2700.44
15
Paralelismo
Entre dosis
TOTAL
x Suma
x Suma
** (p<0.01)
(rechazar H0)
N.S.
(aceptar H0)
Ahora podremos interpretar este ensayo. Primero, no es conveniente que ninguna de las tres primeras
MC sean significativas, aqu parecen indicar un problema de linealidad de respuesta (lo que
lgicamente no se prueba explcitamente en un ensayo de 4 puntos, ya que por dos puntos siempre pasa
una recta ptima). Por suerte no hay falla de paralelismo y esa es la condicin fundamental de validez
de esta clase de ensayo. Es lgico que entre dosis haya habido diferencias, reflejo de lo ocurrido con los
dos primeros contrastes. A su vez, no hay diferencias entre las rplicas (es decir las placas repetidas al
azar) lo cual es conveniente y esperado. Esta es toda la informacin extrable de esta clase de prueba de
docimasia biolgica.
3.12. GRFICOS DE CONTROL DE CALIDAD (6)

Uno de los problemas principales en la medicin de variables biolgicas lo constituye la necesidad de
controlar la calidad estadstica de las mediciones. Este punto es crtico en un laboratorio de anlisis
clnicos que informa resultados a cientos de pacientes diarios y requiere conocer con que precisin y
exactitud est produciendo esos resultados.
Para resolver este problema (y similares que aparecen en cualquier proceso industrial de fabricacin) se
desarrollaron tcnicas de control de calidad estadstico (SQC en ingls) de las cuales una de de las ms
simples se conoce como tablas seis sigma (6) en alusin al control de bandas de DS y que sirve para
controlar la precisin de salida. Recordemos que la precisin de una serie de medidas es inversamente
proporcional a la dispersin de esos datos, lo que en variables normalmente distribuidas se mide a
travs del desvo Standard (DS) como estimador de l valor poblacional sigma (). Quede claro que, en
principio, esta tcnica controla precisin pero no la exactitud o sesgo que puede tener el promedio
respecto a su valor verdadero. La exactitud se controla en los laboratorios por medio del control de
calidad externo (muestras valoradas de ttulo secreto que remite un ente central a un conjunto de
laboratorios) o por la calibracin (o medicin de patrones de valor conocido) de todas sus tcnicas.
Pero, de aqu en ms, supondremos que la exactitud est relativamente garantizada por esos controles y
por ende, las desviaciones que se registren podrn ser interpretadas como fallas de exactitud y de
precisin del sistema de medicin.
Pgina 77 -175

Pag 78-175
Para controlar al sistema de medicin se requiere repetir las mediciones y vamos a presentar los
fundamentos del mtodo de control seis sigma. Supongamos que un laboratorio desea controlar el
funcionamiento de un aparato autoanalizador qumico (bien calibrado en cuanto a exactitud) que entre
otras mediciones calcula glucemia (glucosa sangunea). Supongamos que, despus de efectuar 1000
mediciones sobre pacientes clnicamente sanos (se descartan a los diabticos) se obtuvieron los
siguientes datos descriptivos:
promedio ()
DS ()
n
82 mg%
7 mg%
1000
En este caso, el tamao muestral justifica considerar a los valores de los parmetros como los
poblacionales. Sobre estos datos podramos efectuar verificaciones empleando la variable normalizada
z (TABLA II del APENDICE). Por ejemplo, el intervalo de confianza 2 (82 14 mg%) contiene al
95,5% de los datos y el intervalo de confianza 3 (82 21 mg%) contiene al 99,7% de los datos. En
control de calidad a los intervalos 2 y 3 se los conoce como bandas 4 y 6 porque cada intervalo
ocupa 2 y 3 desvos en cada direccin. Con esa definicin, definimos los siguientes lmites del cuadro
de control de calidad:
LIMITES DE CONTROL 6
Lmite de accin superior
+3
Lmite de advertencia superior
+2
Lmite de advertencia inferior
-2
Lmite de accin inferior
-3
103 mg%
96 mg%
68 mg%
61 mg%
Debe quedar claro que si descontamos que la exactitud del mtodo es aceptable, cualquier valor de
glucemia fuera del rango 68-96 mg% es sospechosamente anormal (al nivel p=0.045 de dos colas) y
cualquier valor de glucemia fuera del rango 61-103 mg% definitivamente anormal (al nivel 0=0.003 de
dos colas). Esta es la base del Cuadro de Control de Calidad seis sigma. Slo nos resta crear esa tabla y
emplearla, graficando un punto por cada valor muestral. En la siguiente figura aparece el Cuadro:
CUADRO DE CONTROL DE CALIDAD 6
GLUCEMIA (mg%)
103
96
82
68
61
LIMITE DE ACCION
LIMITE DE ADVERTENCIA
N DE ENSAYO
LIMITE DE ACCION
Pgina 78 -175

Pag 79-175
Ahora se grafican sucesivamente los valores de glucemia de pacientes de la misma poblacin, es decir
se descartan los que clnicamente posean antecedentes o sntomas patolgicos. Por supuesto que no se
descartan datos de pacientes que sean patolgicos pero sin antecedentes. El criterio de aceptacin pasa
por descartar pacientes con diagnstico cierto de diabetes (en este caso no hay patologa especfica de
hipoglucemia) y simplemente aceptar todo el resto. O sea, si usamos pacientes para controlar al sistema
de medida, nos tenemos que asegurar que pertenezcan a una poblacin homognea y normal. Para cada
medida, existen criterios adecuados para este fin. Por ejemplo, para la glucemia sabemos que hay dos
clases de hiperglicmicos: Diabetes Tipo I (o juvenil) y Diabetes Tipo II (del adulto). La Diabetes Tipo
I se manifiesta desde temprana edad, la Tipo II rara vez antes de los 50 aos. Por lo tanto, si se
seleccionan datos de personas clnicamente sanas entre 15 y 30 aos de edad, obtenemos exactamente
lo que buscamos, una poblacin homognea que nos servir en nuestro control.
Ahora vamos a la interpretacin del Cuadro de Control. Si los datos oscilan en las bandas internas
(entre los lmites de advertencia) podemos estar tranquilos que el equipo est trabajando bajo control
(exactitud y precisin medias de salida normales). Cuando un dato supera el lmite de advertencia, y la
frecuencia de esas desviaciones sea razonable (no superior al 20% de los datos, en promedio el 5% de
los datos) no nos debe preocupar a menos que alcance o supere el lmite de accin. An superado este
lmite, si el sobrepaso es espordico (<5%) podr ser ignorado. Lo principal a controlar son dos
aspectos:
1. Cambios de exactitud: esta clase de sesgo o tendencia se detecta al analizar si hay cambios
persistentes en los promedios obtenidos. Esto indica una descalibracin del sistema de medida.
2. Cambios de precisin: se observan fluctuaciones (en ambos sentidos) superiores a las
habituales, indicando un malfuncionamiento (inestabilidad) del sistema de medida.
Por ejemplo, vemos los siguientes patrones de comportamiento y su correspondiente interpretacin:
GLUCEMIA (mg%)
103
96
LIMITE DE ACCION
82
68
61
LIMITE DE ACCION
CUADRO DE CONTROL NORMAL (Proceso bajo control)
Pgina 79 -175

GLUCEMIA (mg%)
103
96
Pag 80-175
LIMITE DE ACCION
82
68
61
LIMITE DE ACCION
PERTURBACION: CUADRO DE CONTROL SESGADO (Probable descalibracin)
GLUCEMIA (mg%)
103
96
LIMITE DE ACCION
82
68
61
LIMITE DE ACCION
PERTURBACION: CUADRO DE CONTROL INESTABLE (Probable falla)

De esta forma, el reconocimiento de patrones auxilia en el control de calidad de un sistema de
medicin. En la mayora de los equipos autoanalizadores computarizados, estas funciones ya se
encuentran incorporadas en forma automtica y el propio equipo registra y advierte al operador sobre
las perturbaciones que puede estar sufriendo.
Pgina 80 -175

Pag 81-175
3.13. MUESTREO SECUENCIAL

Una interesante aplicacin de la investigacin operativa aplicada a la optimizacin de la informacin
adquirida la representa el muestreo secuencial. En principio se trata de un sistema que permite tomar
decisiones acerca de alternativas dicotmicas (bueno/malo, sano/enfermo, etc.) mediante la inspeccin
sucesiva. Vamos a analizar primero el caso del muestreo de inspeccin en el control de calidad
industrial. Supongamos que el Departamento Produccin de un Laboratorio Farmacutico elabora
ampollas de Ampicilina y el Departamento de Control de Calidad desea revisar los lotes elaborados
para aprobarlos (si no detecta un nmero insatisfactorio de fallas en l)
Aqu tenemos un clsico modelo de intereses contrapuestos, Produccin desea que se apruebe el lote
(as justifica su trabajo y razn de ser) y Control de Calidad exactamente lo opuesto por idntico
motivo. Cmo se resuelve este dilema de la forma ms eficiente y econmica? A travs del esquema de
muestreo. Existen varios esquemas de muestreo clsico, simple y doble. En la bibliografa se puede
hallar amplia informacin al respecto (MORONEY, 1968). Aqu nos limitaremos a describir el sistema
ms eficiente conocido: el muestreo secuencial.
La idea bsica es la siguiente: Control de Calidad inspecciona ampolla tras ampolla producida y las
clasifica en dos categoras: VB o DEFECTUOSO. Supongamos que se fabricaron 1500 ampollas,
ese es el lote a inspeccionar y calificar. Si el nmero acumulado de DEFECTUOSOS supera un cierto
lmite, se rechaza a todo el lote de ampollas. Si el nmero de defectuosos alcanza otro lmite (esta vez
inferior), se acepta a todo el lote.
(d=s n + h2)
EN ESTA LINEA O POR DEBAJO DE ELLA, ACEPTACION
(d=s n - h1)
10
20
30
40
50
EN ESTA LINEA O POR SOBRE ELLA, RECHAZO
Numero total de
defectuosos encontrados
El siguiente esquema ilustra el proceso de muestreo secuencial:
h1
h2
10
20
30
40
50
60
70
80
90
100
110
Tamao acumulativo de la
muestra (=n)
Podemos describir este cuadro de la siguiente manera: posee dos lneas, la superior es llamada la lnea
de rechazo, la inferior de aceptacin. El muestreo comienza desde Y (N defectuosos hallados)=0 y X
(N de piezas inspeccionadas, o sea tamao acumulativo de la muestra o n)=0. Se inspecciona la primer
ampolla. Supongamos que se califica VB, entonces graficamos el primer punto del cuadro en la
Pgina 81 -175

Pag 82-175
coordenada (X, Y) = (1, 0). Supongamos que el segundo objeto inspeccionado se rechaza, entonces el
segundo punto se ubicar en (X, Y) = (2, 1). Se contina as hasta alcanzar una de las rectas lmites.
Supongamos que despus de 65 inspecciones y slo 3 rechazos se alcanza la recta inferior en (X, Y) =
(65, 3). Entonces se suspende el proceso de inspeccin y se acepta a todo el lote de 1500 ampollas. Por
el contrario, si con (X, Y) = (43, 32) se hubiese alcanzado el lmite de rechazo, se rechaza a todo el lote.
Por supuesto, los nmero aqu usados slo sirven como ejemplo didctico. Dems est por decir que la
seleccin de muestras a inspeccionar dentro de todo el lote debe ser lo ms aleatoria posible, de manera
que la probabilidad de pasar a integrar el control sea a priori igual para todos los objetos.
Observemos los parmetros que definen el Cuadro de Inspeccin, se trata de dos lneas paralelas, cuyas
ordenadas al origen son respectivamente h2 y h1 y cuya pendiente es s. Como en toda funcin lineal,
estos dos parmetros alcanzan para definir estas rectas. La frmula de las rectas para las lneas de
rechazo y aceptacin estn indicadas a la derecha de cada una. Lo que se necesita ahora es un criterio
para definir esos parmetros de la mejor manera posible.
En el mtodo de muestreo secuencial se hall que bastaban cuatro valores o parmetros para definir un
plan de muestreo como el descripto, a saber
La calidad aceptable, expresada como mxima fraccin
de defectuosos permitida (BUENA CALIDAD)
La probabilidad de rechazar un lote de calidad aceptable
(Riesgo del Productor)
La calidad inaceptable, expresada como mnima
fraccin de defectuosos tolerada (MALA CALIDAD)
La probabilidad de aceptar un lote de calidad
inaceptable (Riesgo del consumidor)
p1
p2
En base a la definicin de lotes buenos y malos, junto a los errores de Tipo I y II enunciados,
obtenemos los parmetros del plan secuencial de muestreo:
g 1 = log(
h1 =
p2
)
p1
1 p1
)
g 2 = log(
1 p2
b
g1 + g 2
h2 =
a
g1 + g 2
1
a = log(
)
s=
1
b = log(
)
g2
g1 + g 2
O sea, calculando tres valores auxiliares (en la primer lnea) obtenemos los tres parmetros que nos
permiten obtener el plan secuencial buscado y que va a cumplir con lo requerido.
Vamos a poner un ejemplo concreto.

Supongamos que se tolera una fraccin de defectuosos del 1% (p1=0.01) y se acepta un riesgo de
rechazo de lotes de esa o mejor calidad del 10% ( = 0.10). Supongamos adems que se considera
inaceptable una fraccin de defectuosos del 5% (p2=0.05) y que el riesgo de aceptar un lote as o peor
sea tambin del 10% ( = 0.10).
Pgina 82 -175

Pag 83-175
Resulta ser:
g1=0.699
g2=0.017
a=b=0.954
entonces :
h1=h2= 1.32
s=0.024
NUMERO ACUMULADO DE DEFECTUOSOS
En el grfico siguiente presentamos el cuadro de inspeccin resultante:

4
LIMITE DE ACEPTACION DEL LOTE

LIMITE DE RECHAZO DEL LOTE
CAMINO DE LA INSPECCION
aqu se alcanza la decisin
-1
20
40
60
80
100
TAMAO ACUMULATIVO DE MUESTRA (n)
Supongamos que se inspeccion el lote y al llegar a 15 inspeccionados aparece el segundo defectuoso,

como se cruza la lnea, se rechaza el lote.
Otra pregunta que se puede formular el investigador del Departamento de Control de Calidad es saber
cmo opera en general este sistema, es decir cules sern las probabilidades de aceptacin de lotes
de calidades diferentes. La respuesta la brinda la Curva Operativa del esquema y que se computa en
base a cinco puntos caractersticos:
FRACCION DE DEFECTUOSOS DEL LOTE
0
p1
s
p2
1
PROBABILIDAD DE ACEPTACION
1
1-
h2 / (h1 + h2)
Pgina 83 -175

Pag 84-175
Si graficamos con los datos de nuestro ejemplo, obtenemos la siguiente Caracterstica Operativa:
PORCENTAJE DE LOTES QUE SERA

ACEPTADO POR LA MUESTRA
100
80
CARACTERISTICA OPERATIVA
DEL PLAN DE INSPECCION
60
40
20
0
0
10
PORCENTAJE DE DEFECTUOSOS
EN LOS LOTES ENTREGADOS
Adems al investigador le interesa conocer la CMS (Calidad Media de Salida) y la Curva de Nmeros
Muestrales Medios (NMM) (Cantidad media de inspeccin antes de llegar a una decisin), la que se
obtiene a partir de los siguientes datos:
FRACCION DE
DEFECTUOSOS DEL
LOTE
FRACCION
REMANENTE POSTINSPECCION
DE DEFECTUOSOS
(CMS)
NUMEROS
MUESTRALES
MEDIOS (NMM)
p1
p2
p1(1-)
sh2 / (h1+h2)
p2
h1/s
(h1-(h1+h2)) / (s-p1)
h1h2 / (s(1-s))
(h2-(h1+h2)) / (p2-s)
h2/(1-s)
As obtenemos los grficos buscados:
Pgina 84 -175
CMS COMO % DEFECTUOSOS REMANENTES

DESPUES DE LA INSPECCION

Pag 85-175
1,2
1,0
0,8
CALIDAD MEDIA DE SALIDA (CMS)
0,6
0,4
0,2
0,0
0
10
CANTIDAD MEDIA INSPECCIONADA ANTES

DE LLEGAR A UNA DECISION
Obsrvese que la CMS tiene como mximo al valor 1.19% de salida para s=2.38 % de entrada, o sea
que es imposible que salgan lotes con peor calidad. Respecto al nmero medio a inspeccionar antes de
llegar a una decisin ser:
80
NUMEROS MUESTRALES MEDIOS

ESPERADOS POR EL PLAN
70
60
50
40
30
20
10
0
0
10
Pgina 85 -175

Pag 86-175
Se puede observar que en base a los cuatro parmetros iniciales, se obtuvo toda la informacin. Otra
aplicacin interesante del mismo concepto lo ofrece el anlisis secuencial para diferencia de pares. Se
comienza en el casillero (0, 0) de un cuadriculado (X, Y). En este caso, la idea es comparar el efecto de
dos frmacos (A, B) tomando dos pacientes y dndole al azar uno a cada uno. Luego se comparan los
resultados y se decide cul de los dos tuvo mejor. Si fuese A se avanza un casillero a la derecha ( X =
+1), si fuese B un casillero para arriba ( Y = +1). Si hubiese empate, no se avanza. Luego se contina
hasta llegar a un lmite prefijado. Hay tres lmites: Superior (B es mejor), Central (Empate) e Inferior
(A es mejor). La ubicacin de esos lmites depende del nivel de significacin que se desee fijar. Como
se trata de tomar decisiones dicotmicas, el mismo sistema puede servir para decidir estas dos opciones
(o ninguna en caso de lmite de empate) respecto a un nico sistema.
Ejemplo: Calificacin de alumnos en un examen oral por anlisis secuencial de pares
25
Si queremos tomar una decisin ms objetiva acerca de la calificacin de un alumno en un examen oral,
le formulamos una serie de preguntas en un cuadro de anlisis secuencial. Desde (0, 0), cada vez que
contesta BIEN avanzamos un casillero hacia arriba, si contesta MAL un casillero a la derecha
(podemos permutar las direcciones) y si no podemos decidir acerca de la respuesta formulamos otra
pregunta. Cuando se alcancen los lmites, el alumno saldr APROBADO (sale arriba), SIN
DECIDIR o que pase con otro docente (sale por el centro) y DESAPROBADO (sale a la derecha).
A continuacin presentamos un Cuadro de Anlisis Secuencial de Pares adaptado de la bibliografa
(DOCUMENTA GEIGY, 1965, Folia Mdica Geigy N 3)
H0: Y = X
0.05
10
15
20
H1: Y > X
0.05
H1: X > Y
0.05
0
10
15
20
25
Pgina 86 -175

CAPITULO 4 Test No Paramtricos
Pag 87-175
CAPITULO 4: TEST NO PARAMETRICOS
Pgina 87 -175

4.1.
Pag 88-175
GENERALIDADES ACERCA DE LOS ENSAYOS NO PARAMTRICOS
Entramos ahora en un mundo diferente de las pruebas de inferencia estadstica. Un mundo que
ofrece pruebas rpidas, simples, menos restrictivas en sus requerimientos y un poco menos potentes.
Por supuesto que estamos hablando en trminos generales, una prueba no paramtrica correctamente
aplicada ser ms potente que una paramtrica en la cual no se han tomado todos los recaudos del
caso. En ingls diramos que la estadstica no-paramtrica ofrece las soluciones QUICK & DIRTY
al investigador, es decir las sucias y rpidas en alusin a ser soluciones muchas veces usadas
como de aproximacin inicial para ganar informacin acerca del comportamiento global del sistema,
o soluciones de screening (paneo).
Pero muchas veces, el mtodo no paramtrico resuelve problemas que son inabordables por otra va.
La cuestin es simple de entender si releemos las diferencias entre ambas categoras de ensayo.
TEST
PARAMETRICOS
TEST NO
PARAMETRICOS
POTENCIA
RELATIVA
100%
95%-65%
APLICABILIDAD
SOBRE DATOS
CUANTITATIVOS
Slo Escala de Intervalo o
Escala de Proporcion
PREREQUISITOS
CUALI/CUANTITATIVOS
Escala Nominal, Ordinal,
Intervalo o de
Proporcin
Poblaciones de cualquier
clase y datos de
cualquier tipo
EJEMPLOS
Obs. independientes
Poblaciones normales (z)
Varianzas proporcionales
Efectos aditivos de
causas deterministas
sobre los promedios
t-Student, Anlisis de Varianza

(ANOVA), F-Snedecor,
MANOVA, ANCOVA, etc.
Prueba de rangos, Prueba

de signos, Ji-cuadrado,
Prueba de Walsh, etc.
La aplicabilidad es universal, datos de cualquier especie y distribuciones de prcticamente cualquier

tipo. En el desarrollo de los mtodos estadsticos modernos, las primeras tcnicas de inferencia que
aparecieron fueron las paramtricas y que hacan muchas suposiciones acerca de las poblaciones y
datos bajo estudio. El problema es que tales tcnicas conducen a conclusiones muchas veces
condicionales en funcin del cumplimiento de esas premisas. Ms recientemente se ha visto aparecer
el desarrollo de un gran nmero de tcnicas no paramtricas que iban planteando paulatinamente
menos condiciones restrictivas y ampliando con ello el horizonte de la estadstica aplicada. Mientras
las pruebas paramtricas fijan su atencin sobre el comportamiento de las medias y las varianzas,
muchas veces las pruebas no paramtricas se concentran en medianas y rangos. Es decir, se desplaza
el centro de gravedad de lo cuantitativo y Gaussiano a lo semicuantitativo y a veces cualitativo de los
datos.
Pgina 88 -175

Pag 89-175
Vamos a presentar los modelos y ensayos ms importantes de esta categora con la esperanza que el
lector pueda apreciar su utilidad y llegue a emplearlos en su propio entorno.
4.2.
TABLAS DE CONTINGENCIA: LA DISTRIBUCIN 2 (JI-CUADRADO)
La primera distribucin estadstica no paramtrica y tal vez la ms importante es la conocida como

2 (ji-cuadrado o chi-square en ingls). Frecuentemente el investigador est interesado en el
nmero de sujetos, objetos o respuestas que se clasifican en diferentes categoras en una tabla
general de clasificacin. La prueba ji-cuadrado es adecuada para analizar datos de esta clase. La
tcnica bsica es la de medir bondad de ajuste, es decir justipreciar si las frecuencias observadas en
cada celda de la tabla de clasificacin difieren significativamente de las frecuencias esperadas para
esa celda en base a alguna suposicin o hiptesis terica.
Supongamos por ejemplo que al terminar a un tratamiento mdico sobre 60 pacientes de una dada
patologa (con un grupo control de otros 60 pacientes tratado con placebo), se efecta un censo final
y se obtiene el siguiente cuadro de clasificacin de frecuencias observadas (a este tipo de cuadro se
lo llama cuadro o tabla de contingencia 2x2):
TABLA DE CONTINGENCIA 2x2

PACIENTES
CURADOS
PACIENTES NO
CURADOS
A=35
B=25
C=12
D=48
PACIENTES
TRATADOS
PACIENTES NO
TRATADOS
Aqu nos interesa saber si el tratamiento ha sido efectivo frente al grupo no tratado (controles con
placebo) y para verificarlo planteamos la H0: independencia Tratamiento vs. Resultados, o sea que
tratados y no tratados responden igual lo que equivale a que las filas y las columnas son
independientes. Si esa H0 fuese cierta, deberamos esperar proporciones iguales de curados y no
curados en ambos casos, o sea que las frecuencias esperadas de cada celda deberan ser 30 en los
cuatro casos.
La pregunta es, cmo medimos las discrepancias entre las frecuencias observadas en la tabla
superior y las esperadas segn la H0 de independencia? Para responder a esta cuestin se desarroll
un test no paramtrico (ji-cuadrado) y una distribucin correspondiente que se presenta en la
TABLA VI del APENDICE. Se computa un indicador o estadstico de prueba conocido como 2 (jicuadrado):
k
2 =
i =1
(Oi E i ) 2
Ei
en el cual Oi y Ei representan las frecuencias observadas y esperadas en la celda i-sima, esto se

repite para todas las k celdas. Podemos observar que el valor 2 nunca puede ser negativo por
elevarse todas las diferencias al cuadrado. Por ejemplo, en nuestro caso el valor de 2 ser:
Pgina 89 -175

Pag 90-175
(35 30) 2 (25 30) 2 (12 30) 2 (48 30) 2

=
+
+
+
= 23.27
30
30
30
30
2
En la prctica, el ji-cuadrado de la tabla de contingencia 2x2 (con una correccin de continuidad de

Yates incorporada) se calcula por esta frmula mas simple:
N (| AD BC | N / 2) 2
C1 C 2 F1 F 2
; g .de l. = 1
donde N es el total general, C1 y C2 son los totales de columnas y F1 y F2 los totales de filas. A
este valor siempre se le asocian grados de libertad calculados como el nmero de filas menos uno de
la tabla de contingencia multiplicado por el nmero de columnas menos uno de la misma tabla y que
en nuestro caso por ser una tabla 2x2 resulta:
( g. de l.) = ( F 1)(C 1) = 1
Ahora consultamos la TABLA VI del APENDICE y vemos que para 1 grado de libertad el valor
lmite de ji-cuadrado para un nivel de significacin =0.001 es de 10.83. Nuestro 2 supera ese valor
por lo cual rechazamos la H0 al nivel p=0.001 y concluimos que el tratamiento ha sido eficaz en la
curacin de los pacientes. Este cmputo se generaliza rpidamente para tablas de contingencia de
cualquier dimensin, lo nico que se deber ajustar el es nmero de grados de libertad.
Vamos a describir cmo se calculan las frecuencias esperadas en una tabla de contingencia 2x3 de
acuerdo a la H0 de independencia. Si las dimensiones de la tabla fuesen mayores, se repite este
procedimiento.
FRECUENCIAS OBSERVADAS (Oi)
TABLA 2x3
FILA 1
FILA 2
SUMA
COLUMNA COLUMNA COLUMNA

1
2
3
a
b
c
d
e
f
C1=a+d
C2=b+e
C3=c+f
SUMA
F1=a+b+c
F2=d+e+f
T=a+b+c+d+e+f
FRECUENCIAS ESPERADAS (Ei) DE ACUERDO A H0 INDEPENDENCIA
TABLA 2x3
FILA 1
FILA 2
SUMA
COLUMNA COLUMNA COLUMNA

1
2
3
(F1C1)/T
(F1C2)/T
(F1C3)/T
(F2C1)/T
(F2C2)/T
(F2C3)/T
C1
C2
C3
SUMA
F1
F2
T
Por ejemplo, si F1=32, C1=17 y T=54, entonces la frecuencia esperada para la celda a sera 10.1
Observar que las sumas marginales no varan, lo que sirve para controlar los cmputos. Finalmente
se obtienen los g. de l. = (F-1)(C-1)=(2-1)(3-1)=2
Pgina 90 -175

Pag 91-175
Prueba de bondad de ajuste
La H0 de independencia no es la nica que puede ser verificada por el test ji-cuadrado. Si

tuviesemos por ejemplo un histograma de frecuencias de clase en una distribucin cualquiera (por
ejemplo, altura de pacientes sexo masculino)
140149
FRECUENCIA 13
ALTURA (cm)
150159
23
160169
44
170179
65
180189
38
190199
21
200209
9
Podramos probar la H0: Distribucin Normal N(,) en base a la estadstica descriptiva previa.
Entonces podremos calcular las frecuencias esperadas en cada celda del histograma (usando la
distribucin z TABLA II del APENDICE). Una vez calculadas las frecuencias de celda
correspondientes a la distribucin normal, calculamos el valor 2 de la misma manera que lo
efectuado con una tabla de contingencia (en este caso de una fila y 7 columnas). Para tablas como
sta que poseen una sola fila, los grados de libertad se calculan como el nmero de celdas menos
uno (g. de l. = k-1 = 7-1 = 6). Si ese 2 supera al valor lmite de 12.59 (g.de l.=6, p=0.05),
rechazamos la H0 de normalidad al nivel p=0.05. Caso contrario concluimos que las alturas se
distribuyen normalmente.
Por supuesto que este mismo mtodo de medida de bondad de ajuste se puede aplicar a cualquier
distribucin esperada: Poisson, Uniforme (es decir sin moda) o la que quisiramos considerar. Se
trata en sntesis de un ensayo muy poderoso. La prueba 2 es una de las mas empleadas en ciencias
experimentales y la volveremos a ver en numerosas aplicaciones.
Limitacin de frecuencias esperadas pequeas
Cuando k=2 (o sea g. de l.=1) cada frecuencia esperada deber ser de al menos 5. Cuando los
g. de l. > 1, es decir cuando k>2, la prueba 2 no debe usarse si ms del 20% de las frecuencias
esperadas es menor que 5 o si cualquier frecuencia esperada fuese menor a 1.
Para evitar esta limitacin se recomienda agrupar aquellas celdas (sumando las frecuencias
observadas) cuyas frecuencias esperadas fuesen pequeas hasta eliminar las condiciones que atenten
contra la restriccin de frecuencias pequeas.
4.3. PRUEBA DE McNEMAR PARA LA SIGNIFICACIN DE CAMBIOS
Esta prueba es particularmente apropiada para los diseos de antes y despus, es decir donde cada
persona, objeto unidad de medida es su propio control. Por lo tanto se puede usar para medir la
eficacia de un tratamiento (en una tabla de contingencia), como lo veremos en este ejemplo donde
las frecuencias se expresan algebraicamente:
PRUEBA DE SIGNIFICACION DE LOS
CAMBIOS REGISTRADOS
POSITIVO
ANTES
NEGATIVO
DESPUES
NEGATIVO
A
C
POSITIVO
B
D
Para esta prueba, slo nos interesa el valor A+D que es el nmero de individuos que cambiaron. Se
calcula un ji-cuadrado de McNemar con la siguiente frmula:
Pgina 91 -175

2 =
Pag 92-175
(| A D | 1) 2
; ( g. de l.) = 1
(A + D
Esta frmula incluye una correccin por continuidad de Yates al ji-cuadrado clsico. Obsrvese que
a la diferencia de A y D en valor absoluto le restamos uno antes de elevar al cuadrado. Veamos un
ejemplo numrico:
EFECTO DE UN FARMACO
APLICADO A UNA
POBLACION DE PACIENTES
DURANTE UN MES
ENFERMOS AL DIA 0
SANOS AL DIA 0
2 =
SANOS A
LOS 30
DIAS
ENFERMOS A
LOS 30 DIAS
14
3
4
4
(| A D | 1) 2 (| 14 4 | 1) 2 81
=
= = 4.5
(A + D
14 + 4
18
Consultando la TABLA VI vemos que para g. de l. = 1 ese valor supera el primer lmite pero no al
segundo. Como es este caso se requiere un test de una cola y la tabla contiene los valores de
probabilidad de dos colas, en vez de interpretar que el ji-cuadrado es significativo al nivel p=0.05
concluimos que se rechaza H0 y acepta H1, los cambios registrados en este caso son significativos
al nivel p=0.025, el tratamiento es eficaz en su accin de cambio de estado enfermo a sano.
Mayores precisiones sobre esta y dems pruebas no paramtricas pueden consultarse en la
bibliografa (SIEGEL, 1990).
4.4. PRUEBA DE LOS SIGNOS
Supongamos que se quieren comparar N pares (en cualquier orden) de dos series (A y B) de
resultados que ni siquiera necesitan ser cuantitativos, simplemente necesita existir una cierta
relacin de orden (mayor, igual o menor) en cada comparacin. Si la comparacin del par i-simo
resultase en que Ai > Bi se le asigna el signo (+). Si la comparacin fuese opuesta, se le asigna al
par el signo (-). En caso de empate, se desecha el par. En este caso, la prueba de los signos medir
la significacin de las diferencias globales entre ambas series y para determinarlo usa la distribucin
binomial.
Vamos a ilustrar el cmputo con un ejemplo. Un investigador prueba dos antibiticos Alfamicina y
Betamicina sobre 20 placas de cultivo de antibiograma (10 por cada antibitico) y asigna un valor
de escala (de 0=ausente a 5=maximo) al halo de inhibicin de colonias a cada placa. Los resultados
y los signos de comparacin son:
Pgina 92 -175

N PAR
ALFA
COMPARADO
1
0
2
2
3
3
4
4
5
3
6
4
7
1
8
5
9
4
10
3
Pag 93-175
BETA
SIGNO
2
1
2
4
2
2
3
2
3
1
+
+
0
+
+
+
+
+
De los 10 pares comparados, uno da empate y se descarta por lo cual N=9. Ahora elegimos como
valor x a la menor de las frecuencias de cualquier signo. Como hay 7 (+) y 2 (-) asignamos x=2.
Ahora consultamos la TABLA VII del APENDICE y en la fila 9 columna 2 leemos que la
probabilidad (H0: p=q=) de obtener un x igual o menor al registrado es de 0.090. Como esa
probabilidad es >0.05, aceptamos H0 de igualdad de efecto entre ambos antibiticos. Sin
embargo, el p obtenido se acerca lo suficiente a 0.05 que uno debera seguir ensayando con
muestras mayores para volver a decidir. Este es el procedimiento habitual recomendado cuando los
resultados son limtrofes.
Puede observarse que esta prueba se efectu comparando valores de escala y esto indica la utilidad
de esta clase de ensayos. Adems apreciamos que la tabla maneja valores de N hasta 25. Para valores
de N>25, usar
z=
( x 0.5) 0.5 N
0.5 N
que est distribuida normalmente con promedio cero y varianza uno N(0,1) (Usar el signo + si
x<0.5N, y en caso opuesto. La significacin de z se consulta como siempre en la TABLA II del
APENDICE.
4.5. PRUEBA DE LOS RANGOS DE WILCOXON
Si aparte de comparar las dos series como se hizo en la prueba de los signos se aporta un dato
cuantitativo acerca del valor de cada diferencia, se dispone de una prueba ms eficiente, la prueba
de los rangos sealados y pares igualados de Wilcoxon.
Vamos a seguirlo con un ejemplo. Supongamos que en un ejemplo similar al de los antibiticos
usados en la prueba de los signos, el investigador no se limita a comparar los valores de escala sino
que calcula para cada par de placas comparadas la diferencia de los dimetros de los halos de
inhibicin. Los resultados podran ser:
Pgina 93 -175

Pag 94-175
Rango de
Dimetro del halo de
Rango
de
d
i
N PAR
signo
inhibicin
Diferencia
COMPARADO
menos
(en 0.1mm)
(asignar valores de 1 a N, a
di
frecuente
las diferencias, de menor a
(el
mayor, con signo)
ALFA
BETA
menos!)
1
82
63
19
7
2
69
42
27
8
3
73
74
-1
-1
+1
4
43
37
6
4
5
58
51
7
5
6
56
43
13
6
7
76
80
-4
-3
+3
N=8
65
82
3
2
Valor de suma de rangos T
4
Nota: si hubiese empate de rangos, se les asigna a cada uno de ellos el promedio de los rangos que
les hubiese correspondido. O sea, supongamos que los pares 4, 5, 6 hubiesen dado igual diferencia
(di=6), entonces se les habra asignado a cada uno el rango 5 (=promedio de 4,5 y 6).
Consultando la TABLA VIII del APENDICE, vemos que para N=8 el valor T=4 alcanza (en
general se controla que alcance o rebase) el valor tabulado de p=0.05 para una prueba de dos colas,
por lo cual se rechaza H0 de igualdad entre ambos antibiticos al nivel p=0.05.
Cuando N es mayor que 25 no se puede usar la TABLA VIII. En ese caso, el valor de suma de
rangos T est distribuido normalmente N(, ) pudiendo computarse:
N ( N + 1)
4
N ( N + 1)(2 N + 1)
24
Por lo tanto
z=
N ( N + 1)
4
N ( N (+1)(2 N + 1)
24
T
est distribuida normalmente con media 0 y Desvo Standard 1. Para ver lo excelente que es esta
aproximacin y practicar este cmputo, lo aplicaremos al caso de los dos antibiticos:
z=
N ( N + 1)
(8)(9)
4
4
4
=
= 1.96
N ( N (+1)(2 N + 1)
(8)(9)(17)
24
24
T
Pgina 94 -175

Pag 95-175
La TABLA II nos informa que un valor tan extremo de z posee un p= 1 - 2(0.4744)=0.05 para una
prueba de dos colas, el mismo valor arrojado por medio de la tabla T de Wilcoxon.
4.6. PRUEBA U DE MANN-WHITNEY
Si se comparan dos grupos independientes y se ha logrado al menos una medida ordinal, se puede
emplear la prueba U de Mann-Whitney. Es una de las pruebas no paramtricas ms poderosas y la
alternativa ms til ftrente al test t-Student si no estn dadas las condiciones para la misma.
Supongamos que un investigador desea comparar los puntajes asignados al estado de salud
bucodental por un odontlogo a dos grupos de pacientes, uno de 3 pacientes y otro de 4 pacientes.
Definimos como n1 al nmero de casos del grupo ms pequeo (=3) y n2 al nmero de casos del
grupo mayor (=4). Los puntajes asignados varan de 0: estado psimo a 15: estado ptimo, y los
resultados obtenidos fueron:
PUNTAJES ASIGNADOS
(ordenados de menor a mayor)
9
11
15
6
8
10
13
PACIENTES A
PACIENTES B
Ahora generamos una lista ordenada de menor a mayor con todos los datos anotando el grupo al que
pertenece
6
B
8
B
9
A
10
B
11
A
13
B
15
A
Ahora se obtiene el indicador o estadstico de prueba U: es la suma del nmero de A que preceden a
cada B de esa lista. Al primer B no lo precede ninguna A (0), al segundo B tampoco (0), al tercero
lo precede un A (1) y al cuarto (y ltimo) B lo preceden 2 A (2). Por lo tanto
U=0+0+1+2=3
La distribucin de U respecto a la H0 de igualdad es conocida y est tabulada en las TABLAS IX y
X del APENDICE, segn el tamao de la muestra mayor (n2). En nuestro caso n1=3, n2=4 y U=3.
En la TABLA IX vemos que la p(U3) p=0.200 razn por la cual se acepta H0 de igualdad de
puntajes. Los valores de p de la TABLA IX son de una cola, para usarlos en ensayos de dos colas
hay que duplicar esos valores.
Supongamos que hubisemos contado la suma de precedencias de B a valores A. La suma hubiese
dado U=2+3+4=9 valor que excede a la TABLA IX. Ese valor se vuelve a normalizar con la
transformacin
U = n1n2 - U=12 - 9 = 3
Para muestras grandes con valores de n2 > 20, se reemplaza la consulta de tablas por la siguiente
transformacin:
Pgina 95 -175

z=
Pag 96-175
n1 n 2
2
(n1 )(n 2 )(n1 + n 2 + 1)
12
que lleva el estadstico U a una distribucin normal N(0,1). La prueba U puede a veces ser ms
potente que su par paramtrico la prueba t-Student, lo que representa un logro muy importante para
este ensayo no paramtrico.
4.7. PRUEBA DE UNA Y DOS MUESTRAS DE KOLMOGOROV-SMIRNOV
La prueba de dos muestras puede confirmar que esas dos muestras independientes han sido
extradas de la misma poblacin o por el contrario que difieren significativamente. La prueba est
basada en la distribucin de frecuencias acumuladas de las dos muestras.
Supongamos que el investigador ha relevado el numero de pacientes curados a lo largo de 55 meses
de tratamiento (cuando se curaron todos) con dos frmacos A y B. Cada grupo tena 10 pacientes. El
investigador registr los meses que requiri cada paciente en remitir sus sntomas y luego construy
esta tabla comparativa de frecuencias acumuladas de casos registrados en cada categora:
TRATAM A
TRATAM B
discrepancia
FRECUENCIA ACUMULADA DE CASOS REGISTRADOS CON REMISION A

LOS MESES INDICADOS EN CADA CELDA
24-27
28-31
32-35
36-39
40-43
44-47
48-51
52-55
1/10
2/10
5/10
7/10
10/10
10/10
10/10
10/10
0/10
0/10
0/10
0/10
3/10
5/10
8/10
10/10
1/10
2/10
5/10
7/10
7/10
5/10
2/10
0/10
La mxima discrepancia es D = 7/10, su numerador se define como KD=7. La TABLA XI del

APENDICE muestra que para N=10 el valor de KD=7 es significativo al nivel p=0.01 en un ensayo
de una cola. Concluimos que el tratamiento A cura a los pacientes significativamente ms
rpido que el tratamiento B al nivel p=0.01.
La prueba de una muestra es esencialmente una prueba de bondad de ajuste entre una distribucin
y otra terica (puede ser la normal, Poisson, etc.) que se fija por hiptesis nula (el objetivo es
similar a la prueba de ji-cuadrado de bondad de ajuste). Los cmputos son iguales a la prueba de
dos muestras, salvo que se en la primer fila van las frecuencias observadas y en la segunda las
frecuencias esperadas por hiptesis. Lo que vara es la consulta en la parte final de la TABLA XI
dedicada a muestras nicas.
Cuando las muestras son grandes (N > 40), se debe usar la siguiente transformacin que es
independiente de la igualdad o no de los tamaos muestrales:
2 = 4D 2 H ;
donde H =
n1 n 2
; con g . de l. = 2
n1 + n 2
Pgina 96 -175

Pag 97-175
generando un valor ji-cuadrado que medir la significacin de la mxima discrepancia (D) en las
frecuencias acumuladas. Tambin podemos consultar la parte final de la TABLA XI que tiene
tabulados los valores de la mxima discrepancia permitida para varios niveles de significacin.
4.8. PRUEBA DE LAS RACHAS DE WALD-WOLFOWITZ
Esta prueba es aplicable cuando deseamos probar una hiptesis de nulidad que supone dos muestras
extradas de la misma poblacin frente a a una hiptesis alternativa que plantea la diferencia de
ambas.
Tambin puede ser aplicada a una nica muestra en la cual se quiera verificar si las rachas
generadas a a lo largo del tiempo de algn suceso dicotmico (o binario) como + y -, verdadero y
falso, sano y enfermo, etc. estn distribuidas al azar o si se encuentran agrupadas por alguna causa.
Esta prueba tiene como base que la variable medida sea al menos de escala ordinal y su distribucin
continua. Como ejemplo, un docente quiere controlar si dos grupos o comisiones de alumnos han
respondido de igual forma cierto examen. Supongamos que elige al azar 12 exmenes al azar de
cada comisin (calificados de 00-100) y los resultados obtenidos (en cualquier orden) son:
COMISION
A
COMISION
B
86
69
72
65
100
65
92
45
94
91
41
50
55
40
22
58
16
07
09
16
26
36
20
15
Ahora ordenamos todos los datos de menor a mayor registrando la clase de pertenencia
07
B
50
A
09
B
55
B
15
B
58
B
16
B
65
A
16
B
65
A
20
B
69
A
22
B
72
A
26
B
86
A
36
B
91
A
40
B
92
A
41
A
94
A
45
A
100
A
Observar que esta sucesin ordenada tiene 4 rachas de longitud 10, 3, 2 y 9 (suma = 24). O sea
definimos r=4. Consultamos en la TABLA XII del APENDICE y vemos en la primer tabla (de
valores menores a) que para n1=12 y n2=12 un r lmite de 7 es significativo al nivel p=0.05 (ensayo
de dos colas). Como el r obtenido es menor que ese lmite se concluye que la calificacin de ambas
comisiones difiere significativamente al nivel p=0.05.
Cuando las muestras son grandes (n>20) no puede usarse la TABLA XII, pero se puede usar una
transformacin normal:
| r (
z=
2n1 n 2
+ 1) | 0.5
n1 + n 2
2n1 n 2 (2n1 n 2 n1 n 2 )
(n1 + n 2 ) 2 (n1 + n 2 1)
En este caso, se obtiene un z (corregido por continuidad) distribuido normalmente N(0,1) que se
prueba (una o dos colas) como se ha indicado previamente. Por ejemplo, si en un ensayo con n1=8 y
n2=21 se detectaron 8 rachas, resulta z = 2.92, para z 2.92, H0 tiene una p=0.0018. Como este
Pgina 97 -175

Pag 98-175
valor es menor a =0.01, se decide rechazar H0 de igualdad de comportamiento, las muestras

provienen de poblaciones diferentes.
Vamos a ver un ejemplo aplicado a las rachas de una nica muestra. Supongamos que en un
consultorio mdico se quiere ver si el sexo de los pacientes que concurren est distribudo al azar o
si existe algn orden interno. Supongamos que los ltimos 30 varones y las ltimas 20 mujeres que
concurrieron lo hicieron en este orden (aqu ya los agrupamos en rachas):
M F M F MMM FF M F M F M F MMMM F M F M F
MM FFF M F M F M F MM F MM F MMMM F M F MM
Este orden determina que r=35 (comprubelo!). Para verificar si este nmero es significativo,
calculamos p con la frmula para n grandes y obtenemos:
z (r=35, n1=20, n2=30) =2.98
para z 2.98, H0 tiene una p=0.0028. Como este valor es menor a =0.01, se decide rechazar H0 de
igualdad de comportamiento, las muestras provienen de poblaciones diferentes, es decir la
distribucin de llegada de los hombres difiere de la distribucin de llegada de mujeres.
Desempates de valores de distintos grupos
Los empates dentro de un mismo grupo no representan problema para esta prueba. Un problema
potencial con esta prueba aparece si hay empates entre valores de distintos grupos. En ese caso las
rachas se pueden descomponer de forma mltiple. Supongamos una serie empatada de 3 valores AA-B, pero este podra generar rachas adicionales si se la ordena A-B-A o B-A-A. La solucin es
tantear todas las combinaciones posibles de desempate y ver si coinciden las conclusiones. Si no
coincidiesen las decisiones entonces se tendr un problema difcil. Si no queda otra alternativa
disponible y se est obligado a decidir, el investigador podr promediar las p obtenidas de los
ensayos y basarse en ese promedio para decidir acerca de H0. Sin embargo, si el nmero de empates
fuese grande, se hace inviable la aplicacin de esta prueba.
4.9. PRUEBA DE MOSES DE LAS REACCIONES EXTREMAS
Bajo ciertas circunstancias, es posible esperar respuestas diametralmente opuestas en dos grupos,
por ejemplo un grupo control y un grupo experimental. Supongamos que a un grupo de nN=9
pacientes neurticos y a otro grupo de nC=9 pacientes sanos se los somete a un corto pero intenso
ejercicio aerbico y al finalizar se les pide que califiquen subjetivamente su estado de cansancio en
una escala de 0 (min.) a 25 (mx.). Se espera que los neurticos reaccionen subestimando o
sobrestimando su grado de cansancio frente a los normales de comportamiento mas equilibrado, o
sea que incrementen la variabilidad de sus respuestas. Antes de comenzar el anlisis el
experimentador elige un nmero entero h (pequeo) de descarte de rangos extremos del control, si
no hay otro motivo se elige h=1. Los resultados fueron los siguientes:
NEUROTICOS
CONTROL
25
12
5
16
14
6
19
13
0
13
17
3
15
10
8
10
Si ordenamos por rango estos valores conservando el grupo de pertenencia:

Pgina 98 -175
8
11

Pag 99-175
10
10
11
12
13
13
14
15
16
17
19
25
De la sucesin de rangos NCN se descartan los h valores (en nuestro caso = 1) extremos de los
controles, o sea aqu se eliminan las 2 casillas grisadas que ocupaban la posicin 2 y 15. El rango
extremo residual de los controles lo forman las casillas recuadradas y su distancia es sh=12-4+1=9.
El mnimo valor que puede tener esa distancia es (nC-2h)=9-2=7. Computamos ahora el valor g que
es el exceso de sh sobre el valor mnimo, o sea g=sh- nC-2h=9-7=2.
Ahora se determina la probabilidad de ocurrencia conforme a H0 de igualdad de sh 9, cuando
nN=9, nC=9 y g=2
i + n C 2h 2 n N + 2h + 1 i
nN i
i
i =0
p ( s h n C 2h + g ) =
nC + n N
nC
5 12 6 11 7 10
+ +
0 9 1 8 2 7
=
0.077
18

9
Como este valor es superior a =0.05, se acepta H0 de igualdad de criterio para ambos grupos,
aunque los neurticos estn cerca de diferenciarse significativamente por sus reacciones extremas.
En caso de empates de rangos de valores entre grupos se procede como se indic en el apartado
anterior.
4.10. PRUEBA DE WALSH

Si el investigador est en condiciones de suponer que los puntajes en diferencia observados entre
dos muestras relacionadas se tomaron de una poblacin simtrica, puede usar una prueba muy
potente desarrollada por Walsh. Se destaca que no se supone que las diferencias di provengan de
poblaciones normales (como en el test de t-Student apareado). La prueba de Walsh requiere la
medicin de por lo menos una escala de intervalo para los datos.
Supongamos que un docente compara el nmero de respuestas incorrectas a un cuestionario de 5
preguntas dadas por un grupo de 15 alumnos, antes y despus de recibir una clase de instruccin
sobre el tema. La idea es medir la eficacia de esa instruccin. Las respuestas incorrectas de los 15
alumnos antes y despus fueron:
ANTES
5
4
3
5
2
4
2 2
4
4 3 1
5
3 1
DESPUES
2
2
0
3
3
2
3 1
1
3 4 2
2
4 0
diferencia
3
2
3
2
-1
2
-1 1
3
1 -1 -1
3
-1 1
diferencias ordendas
por valor creciente d12 d9 d13 d10 d1 d11 d2 d6 d14 d7 d3 d4 d15 d5 d8
(di)
Pgina 99 -175

Pag 100-175
En la TABLA XIII del APENDICE estn tabuladas las condiciones de significacin de esta prueba.
Consultamos las casillas correspondientes a N=15 para una prueba de una cola ya que suponemos
que la enseanza reduce el nmero de incorrecciones (y nunca debera aumentarlo!) o sea en
nuestro caso la media de la diferencia debe ser positiva. Tenemos entonces que
H 0 : 1 = 0 ; H 1 : 1 > 0 (una cola)
En la tabla vemos que para una cola y p=0.047 la condicin es:
min[1 / 2( d 1 + d 12 ) ; 1 / 2( d 2 + d 11 )] > 0
min o mnimo significa que hay que elegir el menor valor de los dos considerados para comparar si
es mayor a cero. En nuestro caso resulta min[ (-1+3), (-1+2)]= (1)=0.5>0. Por lo tanto se
cumple la condicin y podemos concluir que la instruccin ha mejorado significativamente el
nmero de errores al nivel 0.05.
4.11. PRUEBA Q DE COCHRAN
La prueba de McNemar para dos muestras relacionadas puede extenderse para k muestras
vinculadas. Esta generalizacin que concreta la prueba Q de Cochran permite decidir si tres o mas
conjuntos apareados de frecuencias difieren significativamente entre s.
Supongamos que el investigador est interesado en saber si un entrevistador amistoso puede
influenciar las respuestas de los pacientes a un cuestionario. Para ello se efectan tres tipos de
entrevistas (1=muy amistosas 2=simplemente cortes 3=seco y cortante) . En das separados se
consulta (tres veces, una por da) a 18 pacientes por su grado de satisfaccin por la atencin
recibida. En cada caso se usa una pregunta diferente pero con igual interpretacin. Los resultados
son los siguientes donde 1=Satisfactorio, 0=No satisfactorio:
PACIENTE
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
Entrevista Entrevista Entrevista

1
2
3
0
0
0
1
1
0
0
1
0
0
0
0
1
0
0
1
1
0
1
1
0
0
1
0
1
0
0
0
0
0
1
1
1
1
1
1
1
1
0
1
1
0
1
1
0
1
1
1
1
1
0
1
1
0
G1=13
G2=13
G3=3
Li
L i2
0
2
1
0
1
2
2
1
1
0
3
3
2
2
2
3
2
2
Li =29
0
4
1
0
1
4
4
1
1
0
9
9
4
4
4
9
4
4
L2i =63
Pgina 100 -175

Pag 101-175
En nuestro cuadro, llamamos Li a las sumas por paciente y Gi a las sumas por muestra. Ahora
computamos el indicador o estadstico de prueba Q de Cochran como sigue, considerando que en
este caso k= 3 (el nmero de muestras) y N=18 (tamao de la muestra de valores apareados):
k
Q=
(k 1)[k G 2j ( G j ) 2 ]
j =1
j =1
i =1
i =1
k Li L2i
y usamos Q como un 2 (ji-cuadrado) con = k-1 grados de libertad. En nuestro caso, obtenemos
Q=16.7 con 2 grados de libertad. Consultando la TABLA VI vemos que supera al valor lmite 13.82
con p=0.001, con lo cual concluimos rechazando H0 de igualdad y aceptando H1 de diferencia
significativa entre los sistemas de entrevista al nivel p=0.001.
4.12. ANOVA DE DOS VAS POR RANGOS DE FRIEDMAN
Cuando los datos de k muestras igualadas (de igual tamao) estn por lo menos en una escala
ordinal, el ANOVA de Friedman es til para probar la hiptesis de nulidad de que las k muestras
provienen de una misma poblacin. Es interesante comparar la utilidad del test de Friedman con el
ANOVA paramtrico de dos vas, aqu no hacen falta datos normalmente distribuidos y de categora
escala de proporcin (proporcionalidad absoluta), bastan datos de cualquier distribucin conocida o
desconocida que pertenezcan a escalas ordinales (relacin mayor/menor).
Supongamos que el investigador est interesado en conocer si tres grupos de ratas cepas distintas
responden igual frente a la irradiacin con cuatro equipos de rayos X a igual intensidad de
radiacin.. En cada cepa y tratamiento irradiamos 4 ratas y le asignamos un store de dao
(0=ausente 1=leve 2=moderado 3=intenso) despus del tratamiento. En cada cepa y tratamiento
sumamos los scores de las cuatro ratas y obtenemos el siguiente cuadro:
RATAS
CEPA ALFA
CEPA BETA
CEPA GAMMA
TRATAMIENTOS POR IRRADIACION (suma de scores)

RX EQUIPO 1
RX EQUIPO 2
RX EQUIPO 3
RX EQUIPO 4
9
4
1
7
6
5
2
8
9
1
2
6
El primer paso en esta prueba es asignar una clasificacin por rango de 1 a 4 en cada fila, asignando
1 al dato menor y 4 al dato mayor:
RATAS
CEPA ALFA
CEPA BETA
CEPA GAMMA
Suma de rangos
por columna (Rj)
TRATAMIENTOS POR IRRADIACION (rangos)

RX EQUIPO 1
RX EQUIPO 2
RX EQUIPO 3
RX EQUIPO 4
4
2
1
3
3
2
1
4
4
1
2
3
11
10
Pgina 101 -175

Pag 102-175
Cuando el nmero de filas o de columnas o de ambos no es demasiado pequeo (N=2, k=2 y 4 en

total), se puede calcular un indicador o estadstico de prueba R2 de Friedman:
R2 =
k
12
R 2j 3N (k + 1)
Nk (k + 1) j =1
donde N = nmero de filas, k = nmero de columnas y Rj = la suma de rangos de la columna j. Este

valor se distribuye como un un 2 (ji-cuadrado) con = k-1 grados de libertad. En nuestro ejemplo,
resulta R2 = 7.4. Este valor, consultado en la TABLA VI con 2 grados de libertad, supera al valor
lmite de p=0.05 pero no al valor lmite de 0.01. Por lo tanto, se rechaza la H0 de igualdad de
comportamiento de las tres cepas de ratas frente a los cuatro aparatos de Rx al nivel p=0.05.
En la bibliografa (SIEGEL, 1990) se presentan tablas de valores exactos de lmites de significacin
para muestras pequeas aunque rara vez har falta consultarlas.
4.13. ANOVA DE UNA VA POR RANGOS DE KRUSKAL-WALLIS
Esta es una prueba extraordinariamente til para decidir si k muestras independientes provienen de
poblaciones diferentes. La metodologa es bastante similar al ANOVA de Friedman. Veamos un
ejemplo:
Un investigador administra tres tratamientos a un conjunto de pacientes. Al cabo de un tiempo
efecta una evaluacin de acuerdo a una escala de score (0-200). Quiere saber si hay diferencia
entre los tres tratamientos. Los datos obtenidos de scores registrados fueron:
GRUPO
GRUPO
FENOTIAZINA BENZODIAZEPAM
96
82
128
124
83
132
61
135
101
109
GRUPO
HALOPIDOL
115
149
166
147
Estos datos se pasan a valores relativos de rangos del 1 a 14 en toda la tabla:

GRUPO
GRUPO
FENOTIAZINA BENZODIAZEPAM
4
2
9
8
3
10
1
11
5
6
R2=37
R1=22
GRUPO
HALOPIDOL
7
13
14
12
R3=46
Ahora calculamos el indicador o estadstico de prueba H de Kruskal-Wallis:
Pgina 102 -175

Pag 103-175
k R2
12
j
H=
3( N + 1)
N ( N + 1) j =1 n j
En el cual k = nmero de grupos (aqu 3), nj = nmero de datos en el grupo j, N es la suma de todos
los nj (en nuestro caso 14) y como antes Rj la suma de rangos por grupo. Como era de esperar, este
H se distribuye como un un 2 (ji-cuadrado) con = k-1 grados de libertad para tamaos muestrales
suficientemente grandes. En nuestro caso H = 6.4 con 2 g. de l., nuevamente consultamos la
TABLA VI y vemos que ese valor supera al lmite 0.05 pero no al lmite 0.01. Por lo tanto
concluimos que los tres grupos provienen de poblaciones diferentes, rechazando la Ho de
igualdad al nivel p=0.05.
Para valores muestrales pequeos y hasta 3 grupos (con tamaos n1, n2 y n3) en la TABLA XIV del
APENDICE se presentan los valores lmites de H para los niveles de significacin indicados.
Observaciones empatadas
Cuando en esta prueba aparecen valores iguales, se les asigna a los mismos el promedio de los
rangos que les hubiesen correspondido, como ya se ha hecho en otros ensayos. Ya que el valor de H
es influido en cierto grado por los empates, se corrige el H calculado:
H corregido =
1
N2 N
donde T = t t (t es el nmero de observaciones empatadas en algn valor)
y T = suma de todos los T obtenidos de los empates.
2
Sin embargo, esta correccin no es muy significativa, por ejemplo si hubiese a lo sumo un 25% de
empates, el efecto de la correccin no supera al 10% de la probabilidad asociada al H.
4.14. COEFICIENTE DE CONTINGENCIA C
Este valor es una medida del grado de asociacin o relacin entre dos conjuntos de atributos. Es
especialmente til cuando solamente tenemos informacin clasificatoria (escala nominal) acerca de
uno o de ambos conjuntos de atributos. Esto es, puede usarse cuando la informacin acerca de los
atributos consiste en una serie no ordenada de frecuencias.
Para calcular este coeficiente ni siquiera se necesita ordenar las categoras de ninguna manera
particular. El coeficiente toma el mismo valor si se reordenan filas y columnas de los conjuntos
considerados.
En general, los datos se presentan en un cuadro rectangular (o cuadrado) de valores en los cuales se
quiere ver qu asociacin hay entre las Filas con las Columnas. Como ejemplo, el investigador
quiere conocer que grado de asociacin hay entre grupo socio-econmico de pacientes y su
concurrencia a cuatro bocas de atencin (consultorios) diferentes. Los resultados en nmero de
pacientes por grupo y consultorio fueron:
Pgina 103 -175

Pag 104-175
GRUPO
CONCURRENCIA A CONSULTORIOS
SOCIOHOSPITAL HOSPITAL HOSPITAL HOSPITAL
ECONOMICO
I
II
III
IV
A1
23
40
16
2
A2-B-C
11
75
107
14
D-F
1
31
60
10
TOTAL
35
146
183
26
TOTAL
81
207
102
N=390
Se comienza calculando el valor 2 (ji-cuadrado) con = k-1 grados de libertad (ji-cuadrado) de esta
tabla de contingencia de 3x4 bajo la H0 de independencia (ver distribucin ji-cuadrado), con = (R1)(C-1)= 2.3 = 6 grados de libertad, lo que en nuestro caso da 2 = 69.2, valor que supera
holgadamente al lmite tabulado de p=0.001, por lo cual se rechaza la H0 de independencia (filas x
columnas) al nivel p=0.001, o sea la concurrencia a las distintas bocas de atencin est
significativamente determinada por el grupo socio-econmico al cual pertenece cada paciente.
Ahora computamos el coeficiente de contingencia (C):
C=
2
69.2
=
= 0.39
2
390 + 69.2
N+
Obviamente este coeficiente debe variar entre cero y uno como el coeficiente de correlacin lineal.
Sin embargo, esta suposicin es terica, puede llegar a cero si no hay correlacin pero no puede (en
la prctica) llegar a uno en correlacin ideal (el ji-cuadrado debera ser ). Otra limitacin de C es
que requiere el cmputo previo del ji-cuadrado, o sea slo se puede calcular C si menos del 20%
de las celdas tiene frecuencias esperadas menores a cinco y ninguna menor a uno. Por ltimo,
no es directamente comparable con otras medidas de correlacin como el clsico r de Pearson (la
clsica correlacin momento-producto), rS de Spearman o el r de Kendall. A pesar de esas
limitaciones este valor es extremadamente til debido a su aplicabilidad casi universal.
4.15. COEFICIENTE DE CORRELACION DE RANGOS DE SPEARMAN (rS)
Esta es histricamente la primer medida de asociacin desarrollada. Aqu reservamos la notacin de

SPIEGEL (1990) rS, aunque antiguamente se lo conoca como () rho. Esta medida tambin requiere
que ambas variables sean medibles por lo menos en una escala ordinal.
Supongamos que el investigador desea medir el grado de asociacin entre el grado de optimismo
(medido por un test sicolgico con un score de 0-120) de pacientes afectados por una enfermedad
crnica y su respuesta favorable a un tratamiento a los 120 das (medido por otro score 0-100
derivado de sus datos clnicos y de laboratorio). Los datos obtenidos fueron:
PACIENTE
N
1
2
3
4
5
6
SCORES
OPTIMISMO CURACION
82
42
98
46
87
39
40
37
116
65
113
88
Pgina 104 -175

7
8
9
10
11
12
111
83
85
126
106
117
Pag 105-175
86
56
62
92
54
81
Clasificando cada columna por rangos (1 a 12) , calculando las diferencias de rango, sus cuadrados y
la suma de esos cuadrados:
PACIENTE
N
1
2
3
4
5
6
7
8
9
10
11
12
SCORES
OPTIMISMO CURACION
2
3
6
4
5
2
1
1
10
8
9
11
8
10
3
6
4
7
12
12
7
5
11
9
di
di2
-1
2
3
0
2
-2
-2
-3
-3
0
2
2
SUMA
1
4
9
0
4
4
4
9
9
0
4
4
52
Ahora calculamos el coeficiente de correlacin de rangos de Spearman:

N
rS = 1
6 d i2
i =1
2
N N
= 1
6(52)
= 0.82
12 2 12
Para verificar la significacin de este coeficiente frente a la H0 de independencia, consultamos la

TABLA XV del APENDICE y observamos para N=12 que este valor supera el valor crtico
tabulado para p=0.01 (prueba de una cola), por lo cual concluimos rechazando la H0 al nivel
p=0.01y aceptando que el grado de optimismo del paciente influye favorablemente en su
evolucin..
Para muestras grandes se puede emplear la siguiente transformacin:
t = rS
N 2
1 rS2
parmetro que est distribuido como t-Student con = N 2 grados de libertad. Por lo tanto,
consultando la TABLA III del APENDICE se puede verificar en un test de una cola la significacin
del coeficiente de Spearman.
Pgina 105 -175

Pag 106-175
4.16. COEFICIENTE DE CORRELACION DE RANGOS DE KENDALL ()
El coeficiente de correlacin de rangos de Kendall ( tau), es una medida de asociacin de la

misma clase que la de Spearman. Slo requiere medidas ordinales a las variables bajo inspeccin.
Supongamos que dos odontlogos asignaron un rango (del 1:peor al 4:mejor) respecto al estado de
salud bucodental de cuatro pacientes. El investigador desea verificar el grado de concordancia entre
ambos juicios, con una H0 de igualdad de criterios entre los odontlogos. Los resultados fueron:
PACIENTE
JUICIO DEL
ODONTOLOGO X
JUICIO DEL
ODONTOLOGO Y
a. Primero reordenamos los pacientes de la muestra en orden natural segn el Odontlogo X

PACIENTE
JUICIO DEL
ODONTOLOGO X
JUICIO DEL
ODONTOLOGO Y
Ahora que los valores de X estn ordenados, computamos un valor S de ordenamientos

apareados en Y (S comienza en 0 y se le van sumando +1 o -1 segn el caso)
b. A partir del 2 (primer valor de Y) controlamos el nmero de pares bien ordenados
(ascendientes como 2-4 o 2-3) y el nmero de pares mal ordenados (inversiones como 2-1).
Vemos que: 2-4 es bueno, 2-3 es bueno, 2-1 es malo. Sumamos un +1 por los dos buenos y un -1
por el malo. S = 0 +1+1-1=+1.
c. A partir de 4 (segundo valor de Y) repetimos el proceso anterior. S tena el valor +1 y se
modifica S = +1-1-1= -1 porque hubo dos malos o inversiones (4-3, 4-1)
d. A partir de 3 (tercer valor de Y) repetimos y obtenemos S= -1-1=-2 (hubo otro malo 3-1). Este es
el ltimo valor comparable con otros en Y, por ello el valor final de S = -2.
Entonces, tomando N como el nmero de entes comparados, computamos el coeficiente de
correlacin de rangos tau de Kendall:
S
=
2 N ( N 1)
(2)
= 0.33
2 ( 4)(3)
Ahora consultamos la TABLA XVI para controlar si el valor = 0.33 (en valor absoluto) supera a
los lmites tabulados. Vemos que para = N-1 = 3 grados de libertad no hay tabulacin disponible,
por lo cual deducimos que no podemos rechazar la H0 de igualdad de criterio al nivel p=0.05.
Por supuesto, si con 8 g. de l. hubisemos obtenido un tau=0.705, rechazaramos la H0 de igualdad
de criterio al nivel p=0.05 (pero no al nivel p=0.01).
Pgina 106 -175

Pag 107-175
Respecto a las repeticiones, se asignan los rangos promedio de los que les hubiese correspondido a
los involucrados y se aplica una frmula corregida al valor de tau:
S
1
N ( N 1) T X
donde T X ,Y =
N ( N 1) TY
t (t 1) para todos los grupos de t empates en X o en Y respectivamente
Si el nmero de grados de libertad fuese grande se puede emplear la aproximacin

z=
2(2 N + 5)
9 N ( N 1)
distribuida normalmente con N(0,1).
4.17. COEFICIENTE DE CORRELACION PARCIAL DE RANGO DE KENDALL (rxy.z)

Cuando se encuentra una correlacin entre dos variables, existe la posibilidad que esta correlacin
sea debida a la vinculacin oculta entre cada una de las variables asociadas con una tercera. Por
ejemplo, se puede verificar que el nmero de dientes de un nio vara con su estatura, pero en
realidad ambas variables dependen de la edad. Este tipo de interrogante se contesta a travs de
estudio de correlaciones parciales. En la correlacin parcial, se eliminan los efectos de la tercera
variable (Z) sobre las dos variables en estudio (X, Y). En otras palabras se computa la correlacin
entre dos variables manteniendo constante a la tercera.
Supongamos que obtenemos tres rangos de evaluacin comparada (por medio de tres variables
clnicas) sobre cuatro pacientes, a los que reordenamos para que queden los rangos de Z en orden
natural:
PACIENTE
VARIABLE Z
VARIABLE X
VARIABLE Y
a
1
3
2
b
2
1
1
c
3
2
3
d
4
4
4
Al considerar las evaluaciones por pares efectuadas por cada variable, podemos clasificarlas en + (si
el rango mas bajo precede a uno mas alto) o en caso contrario. Resulta:
PAR
VARIABLE Z
VARIABLE X
VARIABLE Y
a,b
+
-
a,c
+
+
a,d
+
+
+
b,c
+
+
+
b,d
+
+
+
c,d
+
+
+
Ahora se puede construir un cuadro de contingencia 2x2 en el cual se incluyan las concordancias y
discrepancias de X e Y con Z:
Pgina 107 -175

Pag 108-175
Pares de Y
concordantes
con Z
Pares de Y
discrepantes
con Z
TOTAL
A=4
B=0
C=1
D=1
Pares de X
concordantes con Z
Pares de X
discrepantes con Z
TOTAL
Entonces calculamos el coeficiente de correlacin parcial de rango de Kendall:

rxy. z =
AD BC
( A + B )(C + D)( A + C )( B + D)
lo que en nuestro caso da rXY.Z = 0.63. Desafortunadamente an no se conoce la distribucin exacta

de este parmetro y por ende no podremos medir la significacin de este coeficiente.
4.18. COEFICIENTE DE CONCORDANCIA DE KENDALL (W)

Esta es una generalizacin de la comparacin de dos (ver apartado previo) a k juicios u
ordenamientos de rangos. Supongamos que un grupo de 3 jueces (investigadores) han calificado a 6
postulantes a una beca travs de un orden de mrito relativo. Nos interesa saber si el juicio de los tres
investigadores es concordante (H0) o no (H1). Los resultados fueron los siguientes:
INVESTIGADOR
QUE JUZG
X
Y
Z
Rj (suma de rangos)
a
1
1
6
8
b
6
5
3
14
POSTULANTE A LA BECA
c
d
e
3
2
5
6
4
2
2
5
4
11
11
11
f
4
3
1
8
Ahora calculamos (s) como la suma de cuadrados (SC) de los valores Rj:
s = R 2j ( R j ) 2 / N
donde N es el nmero de entes comparados (=6), en este caso resulta s=25.5 y con ese valor
calculamos el coeficiente de concordancia:
W=
1
12
s
k (N 3 N )
2
en nuestro caso k=3 (el nmero de juicios) y W=0.16. Para determinar la significacin de ese grado
de concordancia consultamos la TABLA XVIII del APENDICE y vemos que para k=3 y N=6 el
valor crtico al 5% de s est en 103.9. Como el valor obtenido es menor (25.5), se rechaza H0 de
Pgina 108 -175

Pag 109-175
concordancia de criterios entre los tres investigadores al nivel p=0.05, o sea los jueces no han
tenido criterios concordantes.
En esta prueba un valor significativamente alto de s (y de W) indica concordancia de criterios. Hay

que tener cuidado que esto no prueba que el juicio concordante sea el correcto, pueden estar todos
equivocados con el mismo criterio uniforme. Pero si confiamos en el buen criterio de los jueces, una
concordancia significativa presta aval a la conclusin general.
Cuando N sea mayor a 7, se puede usar la aproximacin
2 =
1
12
s
; = N 1 g.de l.
kN ( N + 1)
y consultar la tabla ji-cuadrado tal como ya se ha indicado en otros apartados. Cuando ocurren
empates se corrige el W de manera similar a lo efectuado en el caso del coeficiente de correlacin
de rangos de Spearman (rS) :
s
W=
1 k 2 (N 3 N ) k
12
T
(t
; donde T =
t)
12
y t = nmero de empates por grupo de valores iguales

Con este valioso ensayo se puede verificar la asociacin entre cualquier nmero de clasificaciones
por rango.
Pgina 109 -175

CAPITULO 5 Nociones de epidemiologa
Pag 110-175
CAPITULO 5: NOCIONES DE EPIDEMIOLOGIA
Pgina 110 -175

5.1.
Pag 111-175
DEFINICION DE LA EPIDEMIOLOGIA
La epidemiologa es, en la acepcin ms antigua, el "estudio de las epidemias" es decir, de las

"enfermedades que afectan transitoriamente a muchas personas en un sitio determinado". Su
significado deriva del griego Epi (sobre) Demos (Pueblo) Logos (ciencia). Una definicin
tcnica es la que propone que la epidemiologa es "el estudio de la distribucin y determinantes de
enfermedades en poblaciones humanas". Ambas definiciones, se corresponden con el significado
que la disciplina ha tenido en dos momentos histricos muy distintos.
Es as como la primera definicin corresponde a la conceptualizacin surgida en los albores de la
epidemiologa, cuando sta centr su inters en el estudio de procesos infecciosos transmisibles
(pestes) que afectaban grandes grupos humanos. Estas enfermedades, llamadas epidemias,
resultaban en un gran nmero de muertes frente a las cuales, la medicina de aquella poca no tena
nada efectivo que ofrecer . La literatura cientfica reconoce en el Ingls John Snow al padre de la
epidemiologa. Snow, utilizando magistralmente el mtodo cientfico, aport importantes avances al
conocimiento de la epidemia de clera que, en aquella poca, afectaba a la ciudad de Londres. Las
acertadas conclusiones de Snow acerca de la etiologa, forma de transmisin y control de la
enfermedad se anticiparon a los progresos que en este sentido hicieran la microbiologa, la
infectologa y la clnica . La segunda definicin constituye una ms actualizada y en ese sentido de
mayor amplitud y especificidad. Es posible afirmar que la evolucin cientfica, tecnolgica y el
cambio en el nivel de vida de las poblaciones, modificaron el tipo de enfermedades que afectaban
en mayor nmero y ms gravemente a la poblacin. Esta modificacin puso de relieve
enfermedades no infecciosas cuya elevada frecuencia de aparicin no era consecuencia de los
mecanismos clsicos de transmisin conocidos para las enfermedades infecciosas transmisibles.
Estas enfermedades son conocidas hoy como enfermedades crnicas no transmisibles (ECNT. Non
Commmunicable Diseases en (NCD en Ingls) y tambin son materia importante de estudio en la
epidemiologa moderna. De acuerdo con lo expuesto, hoy en da se acepta la siguiente definicin de
epidemiologa como la ms simplificada y completa:
Epidemiologa es la disciplina que estudia la enfermedad en poblaciones humanas

A partir de ella se mencionan sus principios implcitos: La epidemiologa es una disciplina mdica o
de las ciencias de la salud. El sujeto de estudio de la epidemiologa es un grupo de individuos
(colectivo) que comparten alguna(s) caracterstica(s) que los rene. La enfermedad y su estudio
toman en esta definicin la connotacin ms amplia. Salud y enfermedad son uno y en ese sentido
deben ser entendidos. El concepto o nocin de enfermedad no existe en ausencia del de salud y
viceversa. Sin embargo, esta afirmacin, simple en apariencia, encuentra serias limitaciones al
momento de materializar conceptos. La medicina tradicional ha operado considerando a la salud
como la ausencia de enfermedad y en esa consideracin ha perdido la identidad de la salud. Esto
tiene profundas races filosficas que no analizaremos en este captulo. Baste decir que la
enfermedad ha sido un fenmeno vital de fcil identificacin y de aparente fcil delimitacin. En
cambio, la salud tiene lmites ms imprecisos y significados ms errticos. La epidemiologa
concibe el fenmeno salud y enfermedad como un proceso dinmico. El individuo pasa de un estado
a otro, repetidamente, a lo largo de su vida y en este continuo, identificar los lmites de uno u otro se
transforma en un problema de orden tcnico. La epidemiologa se aboca como desafo cientfico, a
estudiar el proceso salud-enfermedad en su ms amplia conceptualizacin.
Pgina 111 -175

Pag 112-175
5.2. GENERALIDADES ACERCA DE LA EPIDEMIOLOGA

La epidemiologa es una rama de la bioestadstica mdica aplicada especialmente a describir el
estado de salud de la poblacin humana y encargada de efectuar los catastros de patologas que
permitan almacenar censos histricos, monitorear el estado de salud mundial del presente,
clasificado por estratos y por regiones geogrficas y lo que es mas importante brindar seales
tempranas en la aparicin de brotes epidmicos o riesgos agudos y crnicos de toda clase que
puedan atentar contra la salud de las personas.
Podemos decir que hoy da la epidemiologa es universal, no es el problema de un pas o de un
continente. La globalizacin y la revolucin de los medios de transporte que hoy da unen en
contacto potencialmente riesgoso a las regiones mas distantes, hacen que un brote de una especie de
neumona fatal como el SARS (Sdrome respiratorio agudo y severo) acaecida en un lugar tan
distante como una provincia de China, obligue a tomar medidas defensivas en Sudamrica. Hoy da,
la OMS (Organizacin Mundial de la Salud) pilotea y normaliza la actividad epidemiolgica
mundial. A travs de programas de computacin como el EPI-INFO, releva continuamente y en
escala mundial, el estado de salud de las personas.
La OMS comienza por la base, con su nomenclador universal de patologas, el CIE (Cdigo
Internacional de Enfermedades) de 4 dgitos y que es peridicamente actualizado y mejorado (ver
http://www.who.int/whosis/icd10/). Este Nomenclador permite que un enfermo de clera en Taiwan
sea reportado y computado igual que un enfermo del mismo mal en Uganda. No hay ambigedades,
la epidemiologa es unvoca y universal, exactamente lo que se necesita.
Las publicaciones anuales de censos y estadsticas sanitarias de la OMS permiten detectar cuales
son las regiones del planeta ms expuestas para sus habitantes para afectar su viabilidad, por
ejemplo para fallecer por inanicin, por mortalidad infantil, por paludismo, por obesidad, por SIDA,
por cncer de tero o por tabaquismo. Todo se registra y todo se evala, se discrimina por edad, por
sexo y si fuese posible por status socioeconmico. Las predicciones de longevidad por regin del
planeta son otras de las valiosas y muy importantes estadsticas resultantes de la epidemiologa. Hoy
da las compaas de seguros de riesgo personal, o los gobiernos interesados en fijar las edades
mnimas de retiro o jubilacin, se basan exactamente en estos resultados epidemiolgicos.
La epidemiologa es esencialmente ESTADISTICA DESCRIPTIVA, pero lo hace a travs de
parmetros propios, generalmente ndices o indicadores de estado sanitario. Sin embargo, otra parte
de la epidemiologa se dedica a ESTADISTICA INFERENCIAL como ser la prediccin de series
temporales o el clculo de curvas de supervivencia. Las aplicaciones ms importantes de la
epidemiologa son la vigilancia epidemiolgica y el empleo de la epidemiologa en la planificacin
sanitaria.
En este captulo haremos hincapi sobre los conceptos bsicos de la epidemiologa y sobre los
principales mtodos estadsticos por ella aplicados.
5.3. DEFINICION Y OBJETIVO DE LA SALUD PUBLICA

"La enfermedad es el experimento de la naturaleza. Slo vemos sus resultados, ignorando las
condiciones en que se realiz el experimento". (Klemperer)
Pgina 112 -175

Pag 113-175
La definicin ms conocida de salud pblica, seala que es sta una rama de la medicina cuyo
inters fundamental es la preocupacin por los fenmenos de salud en una perspectiva colectiva,
vale decir, de aquellas situaciones que, por diferentes circunstancias, pueden adoptar patrones
masivos en su desarrollo.
En 1920, Winslow defini la salud pblica en los siguientes trminos: "la salud pblica es la ciencia
y el arte de prevenir las enfermedades, prolongar la vida y fomentar la salud y la eficiencia fsica
mediante esfuerzos organizados de la comunidad para sanear el medio ambiente, controlar las
infecciones de la comunidad y educar al individuo en cuanto a los principios de la higiene personal;
organizar servicios mdicos y de enfermera para el diagnstico precoz y el tratamiento preventivo
de las enfermedades, as como desarrollar la maquinaria social que le asegure a cada individuo de la
comunidad un nivel de vida adecuado para el mantenimiento de la salud". Posteriormente, Winslow
cambi el trmino "salud fsica" por el de "salud fsica y mental".
La definicin de salud propuesta por la Organizacin Mundial de la Salud (OMS: 1946), que seala
que "salud no es solamente la ausencia de enfermedad, sino el estado de completo bienestar
fsico, mental y social del individuo", determina que una buena parte del quehacer de la salud
pblica se expanda hacia reas nuevas y emergentes en las sociedades contemporneas.
Significa, en buenas cuentas, la manifestacin explcita de que la medicina debe preocuparse tanto
de enfermos como sanos. Siguiendo a Milton Terris, quien propone en 1990 una adaptacin
contempornea a la definicin de Winslow, la salud pblica queda definida como:
"La ciencia y el arte de prevenir las dolencias y las discapacidades, prolongar la vida y fomentar la
salud y la eficiencia fsica y mental, mediante esfuerzos organizados de la comunidad para sanear el
medio ambiente, controlar las enfermedades infecciosas y no infecciosas, as como las lesiones;
educar al individuo en los principios de la higiene personal, organizar los servicios para el
diagnstico y tratamiento de las enfermedades y para la rehabilitacin, as como desarrollar la
maquinaria social que le asegura a cada miembro de la comunidad un nivel de vida adecuado para el
mantenimiento de la salud".
La salud pblica as considerada se constituye a partir del reconocimiento de la existencia de
procesos y problemas colectivos de enfermedad. Esto implicaba que organizaciones, grupos o
instituciones deban hacerse cargo de los mismos, pues stos no podan ser resueltos en el nivel de
los individuos. Como especialidad no clnica de la medicina, esta disciplina enfoca el tema de la
salud en un contexto colectivo, buscando mediante la aplicacin de diversos enfoques de
intervencin, influir positivamente para evitar a ocurrencia de enfermedad. Por el carcter "no
clnico" de la salud pblica, pudiera pensarse que la accin mdica es susceptible de ser
fragmentada en un ambiente individual, de orden clnico, y otro de carcter colectivo, con menos
protagonismo tcnico, representado por la salud pblica. Sin embargo, hoy es universalmente
aceptado que la salud de los individuos transcurre en un eje vital continuo, en el que se producen
momentos de interaccin individual entre ste y su medio as como complejas relaciones colectivas
sustentadas por una intrincada malla de interacciones sociales que los individuos desarrollan en sus
comunidades. Luego, es lgico percibir al individuo como integrante de un colectivo, sin que por
ello pierda su carcter de persona individual. Por tanto desde la perspectiva del cuidado de la salud
de los individuos, conviene enfatizar que slo existe un tipo de medicina, en la que est presente el
quehacer de disciplinas con alcances diversos y complementarios, que se despliegan de acuerdo a la
naturaleza y desarrollo de los acontecimientos de salud.
Sin embargo el trmino "salud pblica" est, a juicio de otros autores, cargado de significados
ambiguos e imprecisiones diversas. En su historia han sido prominentes cinco connotaciones.
Pgina 113 -175

Pag 114-175
La primera equipara el adjetivo "pblica" con la accin gubernamental, esto es, con el sector
pblico o estatal. Un segundo significado es an ms amplio al incluir no tan slo la participacin
del estado sino la de la comunidad organizada. El tercer uso identifica a la salud pblica con los
llamados "servicios no personales de salud", es decir, aquellos que se aplican al medio ambiente
(por ejemplo, el saneamiento ambiental) o a la colectividad (por ejemplo la educacin masiva en
salud) y que por lo tanto no son apropiables por un slo individuo en forma especfica, como podra
ser una consulta mdica o la aplicacin de un procedimiento diagnstico. El cuarto uso es una
ampliacin del tercero en tanto se le aaden una serie de servicios personales de naturaleza
preventiva dirigidos a grupos vulnerables (por ejemplo, los programas de atencin maternoinfantiles). Por ltimo, a menudo se utiliza la expresin "problema de salud pblica", sobre todo en
el lenguaje no tcnico, para referirse a padecimientos de alta frecuencia o peligrosidad en la
poblacin. Tambin existen asociaciones entre estos diferentes significados. Por ejemplo, en
algunos pases industrializados ha habido una tendencia a que el sector privado de salud preste la
mayor parte de los servicios teraputicos personales, mientras que el sector pblico o estatal ha
asumido la responsabilidad por los servicios preventivos y no personales, tan necesarios para la
comunidad. Ello ha reforzado la idea de la salud pblica como un subsistema separado de servicios
proporcionados por el estado y paralelos a la corriente principal de la medicina curativa de alta
tecnologa. Recientemente ha surgido un punto de vista ms integral sobre el concepto de salud
pblica. Este sostiene que el adjetivo "pblica" no denota un conjunto de servicios en particular, ni
una forma de propiedad, ni un tipo de problemas, sino; Un nivel especfico de anlisis, a saber un
nivel poblacional. A diferencia de la medicina clnica, la cual opera en un nivel individual, y de la
investigacin biomdica, que analiza el nivel subindividual, la esencia de la salud pblica consiste
en que adopta una perspectiva basada en grupos humanos o poblaciones. Esta perspectiva
poblacional inspira sus dos aplicaciones, como campo del conocimiento y como mbito para la
accin.
La salud pblica requiere para su adecuado desarrollo de la colaboracin activa de un conjunto de
disciplinas, sin las cuales, la explicacin e intervencin sobre los problemas de salud sera
materialmente imposible, adems de incompleta. Desde sus inicios como materia de estudio y
durante el transcurso de este siglo, la salud pblica se ha visto como una ciencia social a la que
concurren un conjunto de disciplinas. Es el aporte conjunto de stas el que finalmente determina un
nivel de comprensin ms integral de los procesos de Salud-enfermedad. Como eje central de estos
aportes se encuentran las disciplinas mdico biolgicas y particularmente la epidemiologa, que
tiene un rol central para la comprensin de una gran parte de los fenmenos de Salud. Entre stas
disciplinas pueden sealarse algunas ligadas directamente al mbito biomdico, a las que se han
sumado necesariamente otras provenientes de otras reas del conocimiento, particularmente las del
campo de las ciencias sociales, postergadas inexplicablemente por largo tiempo.
Un obstculo importante para lograr la integracin de estas diferentes disciplinas ha sido la
tendencia a identificar cada nivel de anlisis con alguna de estas disciplinas. Por ejemplo, existe la
confusin de que las ciencias bsicas son slo aplicables a los niveles individuales y subindividual,
mientras que el poblacional es patrimonio absoluto de las ciencias sociales. Todas las poblaciones
humanas se organizan en sociedades, de ah que las Ciencias Sociales sean indispensables para una
cabal comprensin de la salud de las poblaciones, es decir, de la salud pblica. En este mbito, las
Ciencias Sociales han ejercido notable influencia en el estudio de algunos determinantes psicosociales de salud que comenzaron siendo explorados en forma muy reduccionista en el ambiente
epidemiolgico. A modo de ejemplo, en estos ltimos aos la contribucin de estas disciplinas en el
estudio de determinantes socioeconmicos y desigualdades en salud han abierto un mundo nuevo en
la comprensin de interacciones entre factores biolgicos y sociales. Sin embargo, tambin existe
una dimensin biolgica de las poblaciones humanas, expresada en sus caractersticas genticas, la
Pgina 114 -175

Pag 115-175
inmunidad grupal y la interaccin de la poblacin humana con otras poblaciones, como por ejemplo
la interaccin microbiolgica (dimensin que da origen a la seroepidemiologa, bioepidemiologa y
a la epidemiologa gentica).
La salud pblica del futuro

En el plano recin dibujado se sita la actual Salud Pblica, acuando y consolidando los logros del
pasado y proyectando su quehacer en propuestas para el futuro. La salud pblica tiene la gran
responsabilidad social de promover el desarrollo pleno y sano de los individuos y las comunidades
en las que ellos se insertan (promocin de la salud). La actual realidad desafa a la salud pblica
para que sta seale los rumbos a seguir en la sociedad en materia de atencin y cuidado de la salud
en un escenario de extraordinaria complejidad. En nuestras comunidades hoy se suceden situaciones
muy heterogneas, en las que coexisten enfermedades infecciosas con otras crnicas, debiendo
adaptarse los sistemas de salud para poder abarcar el control de ellas. Los problemas de salud del
medio ambiente ofrecen otro campo de inters y desafo para esta disciplina. El estudio y manejo de
la salud ambiental constituye una especialidad de la Salud Pblica. Finalmente, la introduccin del
componente social en el anlisis de la situacin de salud y de las condiciones de vida de la
poblacin requiere de una salud pblica verstil y creativa para poder enfrentar estos y otros
desafos futuros.
5.4. EL METODO DE LA EPIDEMIOLOGIA

La epidemiologa cuenta con un mtodo especfico para lograr sus propsitos, constituido por el
denominado mtodo epidemiolgico, el que corresponde a una secuencia circular de etapas. Con
fines didcticos podemos interrumpir este crculo para sealar cada una de ellas:
En un primer momento la epidemiologa observa rigurosamente la realidad sin intentar

modificarla (Nivel descriptivo)
En una segunda etapa, se elaboran hiptesis explicatorias sobre la base de los paradigmas
imperantes (nivel analtico)
En un siguiente paso la epidemiologa intenta verificar la validez de su(s) hiptesis(s)

sometindola a la verificacin de acuerdo con la estrategia escogida para el caso particular
(Utilizando diferentes diseos de investigacin)
Luego prosigue la etapa de conclusin, de acuerdo a los resultados obtenidos, aceptndose o

rechazndose la(s) hiptesis original.
Con la nueva evidencia la epidemiologa elabora nuevas hiptesis que seguirn el mismo
anlisis descrito, alimentando el conocimiento y abriendo un nuevo ciclo de investigacin.
La secuencia descrita es indistinguible de aquella utilizada por el mtodo cientfico y en este sentido
es posible afirmar que el mtodo epidemiolgico es una aplicacin particular del mtodo cientfico.
La particularidad del mtodo epidemiolgico est representada por el carcter propio de su
estrategia y del cuerpo de conocimientos que produce.
5.5. ESTRATEGIA EPIDEMIOLGICA

La estrategia epidemiologa constituye la operacionalizacin del mtodo epidemiolgico. Esto se
logra reconstituyendo la realidad, mediante la formulacin de modelos tericos que ayudan a
entender la ocurrencia natural de los fenmenos. Estos diferentes modelos son conocidos como
Pgina 115 -175

Pag 116-175
diseos de investigacin epidemiolgica los que se corresponden con las etapas descritas para el
mtodo epidemiolgico. Es as como la observacin de los fenmenos naturales es rigurosa y
sistemticamente registrada, consolidada y resumida mediante tcnicas incluidas en el gran captulo
de la epidemiologa descriptiva. Para ello utiliza procedimientos propios y otros derivados de
disciplinas relacionadas como la bioestadstica, la clnica, las ciencias sociales y la informtica.
La observacin de los fenmenos y la consecuente formulacin de hiptesis descansan en el juicio
crtico y creativo del investigador y se apoyan en los llamados estudios de prevalencia y de
incidencia. La verificacin de la(s) hiptesis ocupan la atencin de la epidemiologa analtica la que
cuenta con los diseos de casos y controles, de cohorte y experimentales. Cada uno de ellos genera
evidencia objetivable por indicadores de naturaleza matemtica validados por procedimientos
estadsticos de complejidad variable. El conjunto indito de estos modelos o diseos y la
produccin de conocimientos que ha originado su aplicacin, han dado identidad y estatura
cientfica a la epidemiologa.
5.6. CONDICIONES BSICAS EN LA DEFINICIN, REGISTRO Y MEDICIN DE

VARIABLES
Al registrar los valores de una variable, existen al menos dos caractersticas que la variable definida
debe poseer. En primer trmino, una variable debe ser exhaustiva, vale decir, debe considerar todas
las posibles alternativas u opciones de respuesta. Si al aplicar un cuestionario e indagar acerca de las
caractersticas del nivel socioeconmico como ser tipo de empleo, previamente categorizado, de no
incluirse todas las posibles opciones se corre el riesgo de una errnea clasificacin u omisin del
dato.
Simultneamente los atributos de una variable deben ser mutuamente excluyentes, lo que significa
que un sujeto no debiera identificarse con mas de una categora al ser encuestado. En el caso de
indagar, por ejemplo, acerca de la situacin laboral ofreciendo las siguientes opciones:
Empleado
Desempleado
Buscando empleo
Una persona empleada que desea aumentar su ingreso con un segundo empleo, podra estar en
condiciones de responder a ms de una opcin en las categoras propuestas arriba.
Unidades de anlisis
La unidad de anlisis corresponde a la entidad mayor o representativa de lo que va a ser objeto
especfico de estudio en una medicin y se refiere al qu o quin es objeto de inters en una
investigacin. Por ejemplo: Debe estar claramente definida en un protocolo de investigacin y el
investigador debe obtener la informacin a partir de la unidad que haya sido definida como tal, aun
cuando, para acceder a ella, haya debido recorrer pasos intermedios. Las unidades de anlisis pueden
corresponder a las siguientes categoras o entidades:
Personas
Grupos humanos
Pgina 116 -175

Pag 117-175
Poblaciones completas
Unidades geogrficas determinadas
Eventos o interacciones sociales (enfermedades, accidentes, casos de infecciones

intrahospitalarias, etc)
Entidades intangibles, susceptibles de medir (exmenes, das camas)
El tipo de anlisis al que se someter la informacin es determinante para elegir la unidad de

anlisis. Por ejemplo, si el objetivo es dar cuenta de la satisfaccin del usuario de un servicio
mdico, la unidad de anlisis natural es el paciente atendido, o la persona que se atiende en ese
servicio mdico.
La unidad de muestreo corresponde a la entidad bsica mediante la cual se acceder a la unidad de
anlisis. En algunos casos, ambas se corresponden. Por ejemplo, si se desea estimar la prevalencia de
dao auditivo en relacin con niveles de ruido ambiental en una muestra de trabajadores de una
fbrica, la unidad de muestreo puede corresponder a la entidad "sujeto", si se dispone de un registro
detallado de cada sujeto. La unidad de anlisis es por cierto el trabajador de la fbrica.
Si en el mismo ejemplo se conoce de secciones de la fbrica con distinto nivel de exposicin al
ruido, podra obtenerse una muestra de cada seccin (estratos). En este caso, la unidad de muestreo
corresponde a la "seccin", de donde se obtendr a los sujetos a estudiar de acuerdo a algn
procedimiento aleatorio de seleccin. La unidad de anlisis es tambin en este caso, el trabajador.
En el caso de encuestas de morbilidad, una tendencia clsica es trabajar con hogares como unidad de
muestreo e individuos de dichos hogares, como unidad de anlisis.
Correspondencia entre unidades de anlisis y de muestreo

Unidades de muestreo y de anlisis deben corresponderse entre s. En un enfoque "clnico", por
ejemplo, si se desea estudiar el comportamiento de las infecciones hospitalarias de un
establecimiento, la unidad de anlisis podra corresponder al evento "infeccin hospitalaria" o a
"paciente con infeccin intrahospitalaria". Es evidente que la cifra en ambos casos puede ser
diferente: un "paciente" con infeccin intrahospitalaria puede tener ms de un "evento" de infeccin
intrahospitalaria.
Cmo llegar a identificar estas unidades de anlisis?

Si es necesario realizar un muestreo de la poblacin en estudio, la pregunta es Cmo llegar a
identificar a las unidades de anlisis propuestas? En este caso es posible obtener un listado detallado
de los pacientes del hospital en un momento determinado. Un muestreo aleatorio simple o
estratificado segn servicio clnico permitir identificar tanto a pacientes afectados como eventos de
infeccin intrahospitalaria. Si el estudio tiene carcter nacional, es decir, representar el
comportamiento global de la infeccin intrahospitalaria a partir de una muestra de establecimientos,
la unidad de muestreo podr ser el establecimiento.
Los estudios ecolgicos constituyen un caso particular de investigacin en los cuales la unidad de
anlisis est constituida por agregados poblaciones, generalmente comunidades completas, ubicadas
espacialmente en un lugar definido. Tambin el meta-anlisis es una forma particular de
investigacin observacional en la cual la unidad de anlisis puede ser el "estudio" seleccionado o los
sujetos contenidos en dicho estudio.
Pgina 117 -175

Pag 118-175
5.7. LAS MEDICIONES EN EPIDEMIOLOGIA

La observacin y registro de eventos en epidemiologa da origen a un conjunto de medidas que
permiten su descripcin, la identificacin de asociaciones, la constatacin de efectos (riesgo proteccin) as como la estimacin de su magnitud. Un conjunto de diferentes mediciones es
utilizado con esta finalidad.
Medidas de frecuencia de enfermedad:
Prevalencia
Incidencia
Medidas de Riesgo:
Riesgo
Chance u odds
Riesgo: probabilidad inminente de ocurrencia individual de un evento, por ejemplo, un dao. Note
que es un concepto "prospectivo" y condicionado, por ejemplo, a una determinada exposicin.
Factor de Riesgo: condicin, caracterstica o atributo que condiciona una mayor probabilidad de
experimentar un dao o problema de salud
Medidas relacionadas con el efecto:
Riesgo relativo
Riesgo absoluto
Como se ha mencionado en otros captulos, la definicin de "caso" es crucial. Se define como tal
aquel individuo portador de un dao, enfermedad o problema de salud o aquel que sufre el evento.
La definicin epidemiolgica de caso no siempre es equivalente a la definicin clnica (por ejemplo,
en el estudio de un brote epidmico, un caso puede ser definido por la constatacin de un
determinado cuadro clnico, ms el antecedente de un tipo de exposicin determinada o referido a un
periodo de tiempo).
As, un caso "sospechoso" de intoxicacin alimentaria podra corresponder a un cuadro diarreico
agudo determinado, en una persona con antecedente de exposicin a una situacin de riesgo. Es
importante tambin la distincin entre casos y eventos. En algunas circunstancias podremos estar
interesados simultneamente en la determinacin de ambas cosas. Es crucial recordar que ambos,
caso o eventos dan cuenta de la variable dependiente u outcome, lo que exige absoluta claridad en
relacin con lo que se mide y tambin en cmo se mide.
Pgina 118 -175

Pag 119-175
Ejemplos de formas de medicin de variables dependientes

Foco de estudio
Variable dependiente
(outcome)
Casos
Eventos
Estudio de brote epidmico
Evaluacin de sobrevida en ensayo clnico

Reduccin de lpidos sricos en la prevencin de infarto al miocardio
Magnitud de infecciones intrahospitalarias
Recurrencia de trastornos emocionales en familias con distintos tipos de
intervencin
+
+
+
+
+
La epidemiologa necesita evaluar el origen a partir del cual los casos se originan y el tiempo durante
el cual los datos fueron recogidos.
5.8. PRINCIPALES INDICADORES SANITARIOS

Un indicador sanitario es un dato de inters para la epidemiologa. En la medicin de sucesos de
inters sanitarios se utilizan un conjunto reducido de indicadores, los que a su vez se pueden
fragmentar en mltiples subgrupos. En todos los ejemplos numricos que siguen usaremos datos
simulados para la Provincia de Buenos Aires, Argentina. Para representar adecuadamente un suceso
puede ser necesario, y hasta recomendable, la utilizacin combinada de alguna de los siguientes
indicadores:
1. Cifras absolutas: stas dan una idea de la magnitud o volumen real de un suceso. Tienen
utilidad para la asignacin de recursos (por ejemplo, el nmero mensual de partos en un
establecimiento hospitalario da una idea del nmero de camas, personal y recursos fsicos
necesarios para satisfacer esta demanda). Al efectuar comparaciones, el uso de cifras
absolutas tiene limitaciones, puesto que no aluden a la poblacin de la cual se obtienen (as,
40 defunciones anuales en una poblacin de 15.000 habitantes, puede ser proporcionalmente
mayor que 50, ocurridas en una poblacin de 20.000 habitantes). Sin embargo, la
comparacin de cifras absolutas referidas a la misma poblacin en periodos cortos de tiempo
puede ser un buen estimador de riesgo al mantenerse constante el denominador.
2. Tasas: estn compuestas por un numerador que expresa la frecuencia con que ocurre un
suceso (por ejemplo, 973 muertes por cncer de mama en 1999 en la Provincia de Bs. Aires,
Argentina) y un denominador, dado por la poblacin que est expuesta a tal suceso
(7.583.443 mujeres). De sta forma se obtiene un cociente que representa la probabilidad
matemtica de ocurrencia de un suceso en una poblacin y tiempo definido. En el ejemplo, la
tasa obtenida estima el riesgo de cada mujer mayor de 30 aos en la Provincia de Buenos
Aires, Argentina de fallecer de cncer de mama en el curso de 1999. Cuando en el
denominador se trata de poblacin general, para fines del clculo de la poblacin expuesta, se
usa como convencin la existente al 30 de junio en ese lugar durante ese ao (mitad de ao) y
a esa clase de tasa se la define como tasa resumen. Por razones prcticas, el cociente
obtenido se amplifica por algn mltiplo de 10 (ya sea 1.000, 10.000, 100.000). De sta
forma, la tasa de mortalidad por cncer de mama en mujeres en 1999 fue de 12,8 muertes por
105 mujeres (12,8 muertes por cada 100.000 mujeres).
Pgina 119 -175

Pag 120-175
3. Razones: expresan la relacin entre dos sucesos. A diferencia de las tasas el numerador no
est incluido en el denominador y no hacen referencia a una poblacin expuesta. En ste
caso, la interpretacin del cociente no alude a una probabilidad o a un riesgo, como es el caso
de la tasa. Un ejemplo es la razn de masculinidad, que es el cociente entre la poblacin de
sexo masculino y la poblacin de sexo femenino en un lugar y periodo determinado
(amplificado por 100. En la Provincia de Buenos Aires, Argentina, el ao 2000 la razn de
masculinidad fue de 98,1%, es decir, "por cada 100 mujeres haba 98 hombres".
4. Proporciones: Expresan simplemente el peso (frecuencia) relativo que tiene un suceso
respecto a otro que lo incluye (el denominador incluye al numerador). Por ejemplo, Qu
proporcin de las muertes ocurridas en la Provincia de Buenos Aires, Argentina el ao 1999
fue causada por enfermedades cardiovasculares? Esto se calcula construyendo el cociente
entre el nmero de muertes ocurridas por causa cardiovascular (22.730) y el nmero total de
muertes ocurridas ese ao (81.984) amplificado por 100 (27.7% de las muertes de 1999
fueron causadas por enfermedades cardiovasculares). Las proporciones no se interpretan
como una probabilidad ni tampoco otorgan un riesgo puesto que no se calculan con la
poblacin expuesta al riesgo.
5. ndices: Surgen de la comparacin de dos tasas o dos razones. Por ejemplo, el cociente entre
la tasa de mortalidad general en varones respecto de las mujeres en 1999. Este indicador da
una idea de la existencia de mayor o menor riesgo de una condicin dependiendo si su valor
es mayo o menor de 1 (o de 100%). En este caso, se tiene para la Provincia de Buenos Aires:
Defunciones
Poblacin
Tasa x 1000
ndice
Hombres
44.424
7.434.317
5.97
1.20 (120%)
Mujeres
37.560
7.583.443
4.95
A continuacin se describen en un cuadro resumen algunos indicadores y su forma de clculo:
Indicadores de natalidad
Tasa bruta de natalidad
Tasa de Fecundidad General
Definicin / Clculo
N de recin nacidos vivos / Poblacin estimada
a mitad de periodo
N nacimientos/
N mujeres en edad frtil (15-49 aos)
Amplificacin
1.000 habitantes
1.000 mujeres
N nacimientos por grupo de edad/

1.000 mujeres
N mujeres por grupo de edad
Tasa recin nacidos de bajo
Recin nacidos vivos < 2.500 g/
1.000 nacidos vivos
peso
N recin nacidos vivos
Total de defunciones /
Tasa de mortalidad general
1.000 habitantes
Poblacin total a mitad de periodo
Total defunciones por sexo/
1.000 hombres o
Tasa mortalidad segn sexo
Pobl. masculina o femenina mitad de periodo
mujeres
Tasa mortalidad por grupo de
Total defunciones por grupo de edad /
100.000 personas
edad
Poblacin del mismo grupo de edad
Defunciones de menores de un ao/
1.000 recin nacidos
Tasa de mortalidad Infantil
Total de recin nacidos vivos
vivos
Defunciones nios menores de 28 das /
1.000 recin nacidos
Tasa de mortalidad neonatal
vivos
Tasas de mortalidad infantil
Defunciones nios > 28 das > 1 ao/
1.000 recin nacidos
tarda
vivos
Tasa de Fecundidad por edad
Pgina 120 -175

Indicadores de morbilidad
Definicin / Clculo
N enfermos por causa /
Tasa de morbilidad por causa
Poblacin total a mitad de periodo
N enfermos segn edad o sexo/
Tasa de morbilidad especfica
Pobl. total a mitad de periodo segn edad o
por edad, sexo
sexo
N de casos nuevos de enfermedad/
Tasa de incidencia
Poblacin expuesta
N casos (nuevos y antiguos)/
Tasa de prevalencia
Poblacin total expuesta
N casos enfermedad transmisible /
Tasa ataque primaria
Poblacin expuesta
N casos enfermedad transmisible aparecidos
Tasa de ataque secundario
despus de casos 1arios/
Poblacin expuesta
Pag 121-175
Amplificacin
1.000 habitantes
100.000 habitantes
Variable
Variable
100 expuestos
100 contactos
Las poblaciones utilizadas en el clculo de tasas globales y especficas (subgrupos poblacionales)

suelen referirse a aquellas estimadas a mitad del perodo de observacin (por ejemplo, a mitad de
ao calendario). Este acuerdo se establece para poder neutralizar la posible inestabilidad de los
denominadores en cuanto a sucesos demogrficos tales como migraciones, mortalidad y crecimiento
poblacional.
La amplificacin de las tasas utilizando mltiplos de 10 constituye slo un artificio matemtico para
facilitar su comprensin y comparacin. Las tasas, que matemticamente corresponden a
probabilidades, pueden tener valores que oscilan entre el valor cero (nula probabilidad de
ocurrencia) y uno (certeza absoluta de ocurrencia). En ocasiones, sea porque los numeradores son
de pequea magnitud o bien los denominadores son cuantiosos, se obtienen valores reales de tasas
que son difciles de interpretar y comparar.
Por ejemplo, si se desea calcular la tasa de mortalidad especfica por pericarditis aguda en 1991 en
la Provincia de Buenos Aires de la Repblica Argentina y ver la importancia relativa de ella con
respecto al total de muertes cardiovasculares, obtendramos lo siguiente:
Muertes por todas las causas cardiovasculares: 14.628 defunciones

(cdigos 140.0- 208.0 de la Clasificacin Internacional de Enfermedades (CIE), 9 Revisin).
Muertes por pericarditis aguda : 5

(cdigo 420.0 de la misma clasificacin)
Poblacin Pcia. Bs. As. en 1991, ambos sexos: 13.385.817 habitantes.
Resultando los ndices:

Tasa de mortalidad especfica por pericarditis =
5 casos / 13.385.817 personas = 0,000000373
Tasa de mortalidad especfica por enf. cardiovascular =
14.628 defunciones / 13.385.817 personas =0,001093
Pgina 121 -175

Pag 122-175
Numricamente es complejo evidenciar tan bajos rdenes de magnitud, y ms difcil an, intentar
establecer la importancia relativa de la pericarditis aguda como causa de muerte en relacin al total
de muertes cardiovasculares.
En este caso, la amplificacin por un mltiplo de 10, podra superar esta dificultad en la
interpretacin. El orden de magnitud de dicho mltiplo de 10 depender de cuan pequea es la cifra
obtenida. En este caso, por la baja frecuencia de sujetos considerados en el numerador, conviene
amplificar por un mltiplo de 10 del orden de 100.000, con lo cual las tasas obtenidas se transforman
en:
Tasa de mortalidad especfica por pericarditis =
0,037 muertes por 100.000 habitantes .
Tasa de mortalidad especfica por enfermedades. cardiovasculares =
109,3 muertes por 100.000 habitantes
Por convencin, en la amplificacin de tasas brutas, globales o generales se suele utilizar 1.000
como mltiplo amplificador. En estos casos, dado que se trata de tasas resmenes, los numeradores
suelen ser importantes en nmero. Ejemplo, tasa de mortalidad general (TMG) en la Provincia de
Buenos Aires de la Repblica Argentina, 1991:
TMG = 74.682 def. x 10
/13.385.817 personas = 5,58 defunciones por 10
hbts.
La mortalidad infantil y aquellas vinculadas con ella (perinatal, neonatal, infantil tarda) suelen
amplificarse tambin por 1.000 recin nacidos vivos. En aquellos casos en los cuales se trate de
construir tasas especficas por algn atributo, sea sexo, edad, lugar de residencia, tipo de enfermedad
u otro, se suele amplificar por 100.000 la tasa pues los numeradores habitualmente son ser de menor
magnitud que el caso anterior.
Ejemplo: tasa de mortalidad por enfermedades del aparato circulatorio en la Pcia. de Bs. Aires
Argentina, 1999 (TM Cv): .
TM Cv. 1999= 22.730 defunc. x 100.000/15.017.760 personas = 151,3 muertes por 100.000 hbts.
Las tasas destinadas a medir hechos vinculados con el mbito obsttrico, (como mortalidad materna
o mortalidad por aborto), suelen amplificarse por 10.000. Las tasas de letalidad se amplifican por
convencin por 100 (10 ) puesto que el mximo dao que una enfermedad puede producir en
trminos de muerte es en el peor de los casos de 100%.
5.9. INTRODUCCION AL ESTUDIO DE COHORTES

A lo largo de su desarrollo, la epidemiologa se ha preocupado de dos objetivos fundamentales:
Probar causalidad e,
Identificar riesgo.
La preeminencia de cada uno de estos objetivos ha estado determinada por el modelo conceptual de
salud-enfermedad imperante. Es as como la causalidad encuentra su mayor protagonismo en las
relaciones mrbidas, entre agente y husped, formuladas en los modelos de las enfermedades
Pgina 122 -175

Pag 123-175
infecciosas. El nfasis en el riesgo, en cambio, se desarrolla fuertemente con relacin al concepto de

enfermedades crnicas. El logro de los dos objetivos sealados ha obligado a la epidemiologa a
formular diseos de investigacin de distinto grado de complejidad. Entre estos diseos el estudio
experimental es reconocido como el nico capaz de probar causalidad. En cambio una buena
aproximacin al riesgo puede obtenerse con los estudios observacionales de casos y controles y, ms
rigurosamente desde el punto de vista conceptual, con los estudios de cohorte.
Los estudios de cohorte son planteados una vez que se dispone de informacin acerca de eventuales
factores asociados al dao a investigar. Por lo tanto, previamente deben haberse recorrido las etapas
propias del ciclo de investigacin epidemiolgica.
Definicin:
Los estudios de cohorte consisten en el seguimiento de una o ms cohortes (o grupos de individuos
sanos) que presenta diferentes grados de exposicin a un factor de riesgo en quienes se mide la
aparicin de la enfermedad o condicin en estudio.
Estos diseos de investigacin se clasifican, segn los criterios taxonmicos clsicos, como estudios
observacionales analticos y longitudinales prospectivos. La categora de los observacionales
analticos se refiere a la imposibilidad que el investigador tiene de manipular la(s) variable(s)
independiente(s), lo cual los distingue de los estudios experimentales. Por tratarse de estudios cuyos
resultados permiten un anlisis ms sofisticado que el de los estudios descriptivos, son considerados
estudios analticos. Por definicin, deben permitir la verificacin de hiptesis de trabajo. Por el
contrario, los estudios longitudinales prospectivos se basan en un seguimiento en el tiempo de uno o
ms grupos humanos que difieren entre s por la presencia de una o ms variable(s) independiente(s).
Por esta razn se les denominan estudios prospectivos, concepto que incorpora implcitamente el
carcter longitudinal de los mismos. Otros estudios longitudinales son los de casos y controles (ver
8.11.), sin embargo en stos el sentido de la observacin es retrospectivo.
Diseo
Los estudios de cohorte tienen un diseo o formato fundamental. Se trata del seguimiento de
individuos caracterizados por estar libres del dao en estudio al inicio de la observacin. Entre estos
individuos se observa, a medida que pasa el tiempo, la aparicin de casos de enfermedad
(outcome) a lo largo del tiempo segn posean o no un atributo (variable independiente o
exposicin) que se cree asociado al desenlace (outcome) en estudio. Slo en contadas ocasiones la
constitucin de los grupos considera la exposicin como un suceso dicotmico (s/no o expuesto/noexpuesto). Por su estructura y complejidad el investigador aprovecha este diseo para evaluar con
mayor detalle el resultado de una exposicin, lo que supera las limitaciones de exposiciones
dicotmicas del tipo Expuesto/no expuesto.
Lo habitual es que el estudio permita la subdivisin de la cohorte expuesta segn diferentes niveles
de exposicin (ejemplo de exposicin: tabaquismo, el que puede ser categorizado en diferentes
niveles de consumo o tiempo de exposicin; exposicin laboral a elementos txicos, que pueden
categorizarse en magnitud y tiempo de exposicin) Para estos efectos los individuos son agrupados
de tal manera que los grupos tengan el mximo de caractersticas similares entre si y puedan ser
comparables y as difieran, idealmente, slo en la variable independiente en estudio.
Pgina 123 -175

Pag 124-175
Esquema bsico de estudios de cohorte
Lo habitual en un estudio de cohorte es que el investigador sea contemporneo con el inicio del
seguimiento de los grupos, vale decir, asista a la agrupacin de los individuos sanos. En este caso se
acua el trmino de estudio concurrente. Por el contrario, si el investigador no participa en forma
contempornea de la formacin de las cohortes y sta se form en el pasado pero es susceptible de
ser seguida en el tiempo, se habla de un estudio no concurrente (Historical cohort studies)
Los elementos bsicos de un estudio de cohorte pueden resumirse en el siguiente listado:
Formulacin clara de una hiptesis de trabajo a investigar
Identificacin de los grupos a ser estudiados
Definicin de la exposicin y de la forma en que sta ser medida
Definicin y medicin de las posibles variables involucradas
Definicin de la(s) variable(s) dependiente(s) (outcomes), as como de la forma en que

ser(n) medida(s)
Anlisis de datos
Interpretacin de resultados
Estructura adoptada por los estudios de cohortes

Los estudios de cohorte pueden adoptar algunas variaciones en su diseo bsico, dependiendo del
nmero de cohortes involucradas y su origen. Se reconocen en general las siguientes variaciones:
1. Cohorte nica (antes y despus): el ejemplo ms citado para ilustrar esta variante lo
constituye el estudio de incidencia (casos nuevos) de leucemia linftica aguda en la poblacin
Japonesa residente en Hiroshima despus de la explosin nuclear. La frecuencia de casos
nuevos se compar con la existente en el mismo grupo de personas antes de ocurrida la
explosin y posterior exposicin masiva a radiacin. Como se advierte en el ejemplo, la
cohorte nica corresponde a un grupo de individuos que comparten (o compartieron) una
misma condicin (exposicin) en los cuales se mide la presencia de una variable dependiente
predefinida (outcome). En este caso se compara la incidencia (casos nuevos) de la
enfermedad en los mismos individuos antes y despus de ocurrida la exposicin a la variable
independiente.
2. Dos cohortes: corresponde al formato clsico ya descrito en el cual se seleccionan dos
grupos de individuos sanos que slo difieren en que uno presenta el factor de exposicin
(cohorte expuesta) y el otro no lo presenta (cohorte no expuesta).
Pgina 124 -175

Pag 125-175
3. Cohortes mltiples: en este caso se trata de generar mltiples grupos, de individuos sanos,
con diferentes grados de exposicin al factor de riesgo. En este caso se compara la incidencia
de enfermedad de cada grupo en relacin a una cohorte de control, de preferencia la de menor
o con nula exposicin al factor de riesgo. Son tiles en la evaluacin de relaciones de dosisrespuesta.
4. Estudio de casos y controles anidados (nested case & control studies): Los estudios de
cohorte permiten la identificacin de un pool de sujetos enfermos concluido el periodo de
observacin o seguimiento (follow-up). El investigador conoce detalladamente las
caractersticas ms relevantes de este grupo de personas en cuanto a eventuales exposiciones
y otras covariables. Aprovechando este hecho, es posible constituir un esquema de diseo de
casos y controles seleccionando aleatoriamente controles entre el grupo de sujetos no
afectados despus del periodo de seguimiento (Ver el esquema abajo). Tiene especial
aplicacin en aquellas situaciones en que los procedimientos diagnsticos para detectar casos
son de elevado costo, en particular en el estudio de enfermedades ocupacionales.
Este diseo hbrido contribuye al control de sesgos, particularmente los vinculados con
medicin, problema frecuente de los estudios de caso y controles.
Esquema de un estudio de casos y controles anidados (nested case& control studies)
Principales usos de los estudios de cohorte
Ensayar hiptesis de causalidad y de riesgo: los estudios de cohorte son, entre los diseos
observacionales, los que proveen la ms rigurosa informacin en favor de la causalidad y del
riesgo. Como ya se ha mencionado, la certeza absoluta del proceso causal slo es capaz de
proporcionarla el diseo experimental. Tienen la ventaja adicional de seguir el mismo sentido
de la lgica del pensamiento clnico (la exposicin precede al desenlace).
Medir la incidencia de una enfermedad o condicin: uno de los productos de mayor inters en
un estudio de cohorte es la obtencin de tasas de incidencia de la enfermedad o condicin en
estudio. La tasa de incidencia de una enfermedad corresponde al total de casos nuevos de
enfermedad que se presentan en un grupo de individuos en un perodo de tiempo
determinado. Dado que una condicin indispensable en estos diseos es que las cohortes
Pgina 125 -175

Pag 126-175
estn constituidas por individuos sanos, en la prctica un estudio de esta naturaleza permite
medir tres tipos de tasas de incidencia : tasa de incidencia de la enfermedad para la cohorte
expuesta al factor de riesgo, para la cohorte no expuesta y para ambos grupos en conjunto.
Permiten la cuantificacin del riesgo: la relacin entre tasa de incidencia de sujetos expuestos
con relacin a la de los no expuestos da origen al llamado riego relativo que permite
establecer la magnitud de riesgo asociado a la exposicin analizada.
Estudiar la historia natural de la enfermedad: los estudios de cohorte permiten realizar un

seguimiento de individuos sanos con criterios y mtodos diagnsticos estandarizados. De sta
manera es posible reconocer precozmente los elementos caractersticos de una enfermedad,
as como tambin factores asociados a sus etapas ms tempranas.
Explorar el efecto de exposiciones de baja frecuencia poblacional: en el campo de

enfermedades ocupacionales, es posible observar el comportamiento de cohortes de sujetas
sometidos a exposiciones de rara ocurrencia en la poblacin general.
Estudiar mas de una consecuencia para la salud derivado de exposiciones: en un estudio de

cohorte el investigador puede definir mas de un outcome de inters. Por ejemplo, en la
determinacin del efecto de un factor de riesgo se puede emplear medidas de incidencia o de
mortalidad. En estudios prospectivos destinados a evaluar el rol de parmetros
antropomtricos al nacer y asma bronquial, pueden utilizarse diferentes formas (fenotipos)
para evaluar dicho outcome (sibilancias, sibilancias nocturnas, valores espiromtricos o
combinaciones entre stos).
Algunas limitaciones propias de estos diseos
No prueban necesariamente causalidad (recordar que la exposicin no es asignada

aleatoriamente en la(s) cohorte(s) estudiadas).
Pueden requerir de un largo perodo de seguimiento de la(s) cohorte(s). Esto conspira contra
la integridad del estudio pues durante el seguimiento individuos pueden perderse y/o puede
alterarse su condicin de exposicin (el sujeto que no fumaba al inicio del seguimiento,
comenz a hacerlo posteriormente).
Tienen utilidad limitada en el estudio de enfermedades de baja prevalencia o de prolongado

perodo de incubacin pues el seguimiento debe ser ms prolongado.
Son generalmente estudios de mayor complejidad (en cuanto a diseo, costo y anlisis)
comparados con otros estudios analticos.
Pueden ser negativamente afectados por la prdida de sujetos en el seguimiento. Adems de

la reduccin en la potencia del estudio, si la prdida de sujetos afecta heterogneamente a las
cohortes, puede generarse sesgo de seleccin.
Pueden ser afectados por otras exposiciones, eventualmente no consideradas en el diseo que
puedan influir en un mayor o menor riesgo de presentacin del desenlace u outcome.
Volveremos ms adelante a detallar estos aspectos, pero vale la pena destacar de antemano los
conceptos claves en el estudio de las cohortes:
1. Las cohortes pueden tener una estructura cerrada (igual tiempo de seguimiento) o abiertas o
dinmicas (diferente tiempo de seguimiento)
Pgina 126 -175

Pag 127-175
2. Cohortes cerradas permiten el clculo de Incidencia acumulada

3. Cohortes abiertas o dinmicas deben incorporar el concepto de tiempo-persona de exposicin en
su anlisis.
4. Este diseo proporciona una vasta gama de indicadores de frecuencia, de riesgo absoluto y
relativo.
5. Por su estructura los estudios de cohorte son capaces de proveer tasas de incidencia.
5.10. MEDIDAS OBTENIDAS DE LOS ESTUDIOS DE COHORTES (Riesgos

Incidencias)
Un estudio de cohorte permite obtener informacin sobre incidencia y a partir de sta, indicadores de
riesgos absoluto y relativo.
Tipos de cohorte
Se denomina cohorte cerrada a aquella cuyos miembros son reclutados en el mismo periodo de
tiempo y a la cual no ingresan personas durante el periodo de seguimiento. En consecuencia, en esta
modalidad el total de miembros de la cohorte tiene perodos de seguimiento que comienzan al mismo
tiempo.
Cohorte abierta o dinmica es aquella en la cual sus integrantes pueden ingresar a seguimiento en
diferente momento durante el periodo que este dure. Por tanto, los miembros de esta cohorte pueden
tener tiempos de exposicin heterogneos.
Incidencia
El seguimiento de individuos sanos por un perodo determinado de tiempo permite medir el nmero
de casos de una enfermedad que aparecen en dicho perodo. Esta cifra constituye la tasa de
incidencia de la enfermedad en estudio que puede ser medida para la cohorte expuesta (TI exp), la
no expuesta (TI noexp) y para ambas en conjunto (TI).
La incidencia acumulada se calcula considerando todos los sujetos que presentaron el outcome en
estudio independientemente del momento en el cual lo presentaron (cumulative risk). Su clculo
aplica cuando se trate de una cohorte cerrada.
Para el caso particular de un diseo de cohorte en que se permita eliminar o ingresar individuos a las
cohortes despus de haber iniciado el seguimiento (cohortes abiertas) seguimiento), se prefiere el
trmino densidad de incidencia. (incidence rate)
La densidad de incidencia suma todos los tiempos con que efectivamente contribuyeron los
individuos estudiados. El indicador se construye dividiendo el total de enfermos encontrados a lo
largo del estudio por el total del tiempo de seguimiento (tiempo -persona) y amplificando segn
corresponda.
Riesgo
El clculo de incidencia de la enfermedad en expuestos y no expuestos permite evaluar riesgo
asociado a la condicin de exposicin. La relacin matemtica que se establezca entre estas dos
medidas permite el clculo de a lo menos seis expresiones de riesgo:
Riesgo Relativo (en la literatura anglosajona el trmino Risk Ratio corresponde al clculo
utilizando incidencia acumulada)
Pgina 127 -175

Pag 128-175
El trmino Rate Ratio se utiliza cuando se utiliza densidad de incidencia en el clculo
Riesgo Atribuible,
Riesgo Atribuible Porcentual (fraccin etiolgica)
Riesgo Atribuible Poblacional.
Riesgo Atribuible Poblacional Porcentual
Para explicar el sentido de cada una de estas medidas se puede recurrir a la tabla tetracrica, de
doble entrada y que nosotros hemos llamado tabla de contingencia 2x2, en este caso, utilizando
incidencia acumulada como medida de riesgo:
EXPUESTOS
NO EXPUESTOS
ENFERMOS
SANOS
A
C
A+C
B
D
B+D
A+B
C+D
A+B+C+D
Observe que en este diseo el sentido de lectura de esta tabla de 2 x 2 es horizontal (filas), a
diferencia del diseo de casos y controles, que en este caso sera vertical (columnas).
Se debe notar que a diferencia de los estudios de caso y controles, el investigador fija el total de
ambas filas, (A + B) y (C + D) respectivamente)
Celda A: expuestos que desarrollan la enfermedad (outcome positivo)
Celda B: expuestos que no desarrollan la enfermedad (outcome negativo)
Celda C: no expuestos que desarrollan la enfermedad (outcome positivo)
Celda D: no expuestos que no desarrollan la enfermedad (outcome negativo)
- Tasa de incidencia en expuestos: Casos nuevos detectados en el seguimiento en la cohorte de

personas expuestas.
TI Exp = A / (A + B)
- Tasa de incidencia en no expuestos. Corresponde al cociente entre el total de casos detectado en
relacin en la cohorte no expuesta a. factor.
TI No Exp = C / (C + D)
- Riesgo Relativo (Risk Ratio): Es el cociente entre la tasa de incidencia de la enfermedad en
expuestos y la incidencia en no expuestos. Permite conocer la magnitud de riesgo o proteccin
asociada a la exposicin estudiada. Carece de unidades de medida.
RR= (A /(A+B)) / (C /(C+D) )
Pgina 128 -175

Pag 129-175
El Clculo del Intervalo de confianza para el valor del Riesgo Relativo:
- Riesgo Atribuible (RA): Es la diferencia aritmtica entre la incidencia de la enfermedad en

expuestos y la incidencia en no expuestos. Expresa la magnitud de la tasa de incidencia en los
expuestos que es atribuible slo al factor en estudio. Tiene unidades de medidas.
RA = ( A / (A +B) ) - ( C / (C + D) )
- Riesgo Atribuible Porcentual o fraccin etiolgica:(RA%): es el cociente entre el Riesgo
Atribuible y la incidencia de la enfermedad en expuestos, amplificado por 100. Expresa el porcentaje
que representa el Riesgo Atribuible respecto de la incidencia de enfermedad en expuestos.
RA% = (( A / (A+B) ) - (C / (C+D) )) / ( A / (A+B) ) x 100
O bien:
RA% = RA / (A/(A+B))
- Riesgo Atribuible Poblacional (RAP): es la diferencia aritmtica entre la incidencia de la
enfermedad en la poblacin general y la incidencia en la poblacin no expuesta al factor de riesgo.
Expresa el valor terico de incidencia imputable al factor de riesgo en la poblacin.
RAP = ( (A+C) / (A+B+C+D) ) - ( C / (C+D) )
- Riesgo Atribuible Poblacional Porcentual: Es el cociente entre el Riesgo Atribuible Poblacional
(RAP) y la incidencia de la enfermedad en la poblacin total, amplificado por 100.
Expresa el porcentaje que representa el Riesgo Atribuible Poblacional respecto de la incidencia de la
enfermedad en el total de individuos.
RAP%= ( (A+C) / (A+B+C+D) ) - (C /(C+D)) / ((A+C) / (A+B+C+D)) x 100
Ejemplo: Un estudio de cohorte diseado para estudiar en 200 sujetos el riesgo de desarrollo de
cncer del pulmn segn el hbito de fumar de ellos, arroj los siguientes resultados despus del
seguimiento:
EXPOSICIN +
EXPOSICIN -
CNCER
20
5
25
SANOS
80
95
175
100
100
200
Pgina 129 -175

Pag 130-175
De acuerdo a estos valores se obtienen los siguientes resultados:

Riesgo Relativo (Risk Ratio)= (20/100)/(5/100) = 4
Riesgo Atribuible = (20/100) - (5/100) = 15 casos por cada 100 personas
Riesgo Atribuible porcentual (RA%) = ((20/100) - (5/100))/ (20/100) = 0,75 (75%)
Riesgo Atribuible Poblacional (RAP) = (25/200) - (5/100) = 0,075
Riesgo Atribuible Poblacional Porcentual (RAP%) =((25/200) - (5/100))/ (25/200)= 0,60 (60%)
Si se utiliza en el seguimiento de los individuos el concepto de tiempo-persona, se puede calcular
densidad de incidencia para los grupos expuestos y no expuestos respectivamente. La estructura de la
tabla de contingencia adopta una forma diferente a la del caso de incidencia acumulada.
EXPOSICIN +
EXPOSICIN -
CASOS
A
B
TOTAL TIEMPO-PERSONA SEGUIMIENTO
T1
T2
En este caso el clculo de densidad de incidencia corresponde a:

Densidad de incidencia en expuestos = a/ T1
Densidad de incidencia en no expuestos = b/ T2
Rate Ratio = (a/T1) / ( b/T2 )
Otra forma de presentar los resultados de un estudio de cohortes es mediante la utilizacin de la

razn de mortalidad estandarizada (RME). La RME compara el nmero de casos o de muertes por
enfermedad con una poblacin de referencia o estndar y representa la razn entre el nmero de
casos observados respecto del nmero de casos esperados de tener la poblacin estudiada el mismo
riesgo de morbilidad o mortalidad de la poblacin de referencia.
A modo de ejemplo, en el siguiente hipottico ejemplo se tiene la informacin acerca de las tasas de
incidencia, medidas en tiempo-persona de trabajadores expuestos a un determinado agente
ambiental, segn tres categoras de edad:
Casos observados despus de un periodo t de seguimiento en

trabajadores varones, segn grupo de edad
GRUPOS DE EDAD MUERTES OBSERVADAS
30 A 39
40 A 49
50 A 59
TOTAL
6
12
35
53
AOS-PERSONA DE
SEGUIMIENTO
10,000
10,000
10,000
Si se utiliza una poblacin de referencia, por ejemplo, proveniente de la poblacin general, de la cual
se conoce las tasas de incidencia, es posible estimar el nmero esperado de muertes en la poblacin
estudiada.
Pgina 130 -175

Pag 131-175
Casos esperados de enfermedad de acuerdo a tasas de incidencia

de poblacin de referencia, segn grupo de edad
GRUPOS DE
EDAD
30 A 39
40 A 49
50 A 59
TOTAL
MUERTES
AOS-PERSONA DE
OBSERVADAS
SEGUIMIENTO
(B)
(A)
6
10,000
12
10,000
35
10,000
53
TASA MORTALIDAD
POBLACIN
REF ( 10 )
(C)
0,5
1,0
2,5
MUERTES
ESPERADAS
(C X B)/1000
5
10
25
40
Para este ejemplo, la RME corresponder a:

RME = (53 /40)x 100 = 132,5
En este caso, en comparacin con la poblacin de referencia, la poblacin estudiada presenta un
exceso de riesgo de 32,5%, controlado el efecto de la edad en esta comparacin.
5.11. ANALISIS DE CASOS Y CONTROLES (C&C)

La lgica de este diseo consiste en comparar la frecuencia de exposicin a la(s) variable(s)
independiente(s) estudiadas en casos y controles. Esta comparacin, apoyada por la hiptesis de
trabajo, busca encontrar evidencia de una mayor tasa de exposicin entre los sujetos casos en
comparacin con los controles si el factor estudiado se comporta como un "factor de riesgo".
Si la presencia del factor de exposicin reduce el riesgo (factor protector), la frecuencia de
exposicin entre los controles debiera ser mayor que la encontrada entre los casos. El anlisis
depender de la existencia de pareamientos (emparejamientos) o matching en el diseo. En el caso
no pareado, la unidad de anlisis corresponde a cada individuo en ambos grupos y la comparacin de
individuos de uno y otro grupo se efecta libremente. Si hay matching la comparacin de las
unidades de anlisis se establece entre pares de observaciones (un caso, un control), tros si la
relacin entre casos y controles es 1:2 ( un caso, dos controles) y as sucesivamente. El esquema
general de anlisis en una tabla tetracrica o de contingencia 2x2, en un estudio de casos y
controles es el siguiente
Esquema bsico de informacin en un estudio de Casos y Controles (C&C)

VARIABLE
INDEPENDIENTE
PRESENTE
AUSENTE
TOTAL
VARIABLE DEPENDIENTE
PRESENTE
A
C
C1 (A+C)
AUSENTE
B
D
C2 (B+D)
TOTAL
F1 (A+B)
F2 (C+D)
N
Pgina 131 -175

Pag 132-175
En este caso, cada celda corresponde a:

Celda A: Sujetos enfermos con antecedente de exposicin
Celda B: Sujetos sanos con antecedente de exposicin
Celda C: Sujetos enfermos sin antecedente de exposicin
Celda D: Sujetos sanos sin antecedente de exposicin.
Celda C1: Total de casos
Celda C2: Total de controles
Celda F1 : Total de sujetos expuestos
Celda F2 : Total de sujetos no expuestos.
Ntese que el nmero total de sujetos en ambos grupos (Casos y Controles) son fijados a priori por
el investigador (C1 y C2). Un primer anlisis de esta tabla, considerando la hiptesis de trabajo,
permite una rpida evaluacin de la tendencia de los resultados. Si la exposicin estudiada confiere
riesgo, se espera encontrar una concentracin de individuos en la celda a (expuestos y enfermos) y
celda d (no expuestos y sanos). En estas celdas se produce concordancia con la hiptesis de trabajo
(exposicin / dao, no exposicin / no dao).
Caso no pareado: estructura de la tabla tetracrica
En este caso, la comparacin de individuos se realiza libremente, comparando la totalidad de los
casos con la totalidad de los controles. Esto es vlido independientemente del nmero de controles
seleccionados por cada caso. Veamos la estructura de los datos en situaciones hipotticas de estudios
con relacin 1:1 y 1:2 entre casos y controles respectivamente:
Caso no pareado, relacin 1:1 entre casos y controles.

CASOS
CONTROLES
E
N
1
E
N
2
N
N
3
N
N
4
E
E
5
6
E
N
E
N
7
E
N
8
N
E
9
N
E
10
(E = expuesto N = No expuesto)
Exposicin
Positiva
Negativa
Casos
6
4
10
Controles
3
7
10
9
11
20
Pgina 132 -175

Pag 133-175
Caso no pareado, relacin 1:2 entre casos y controles.

CASOS
CONTROLES
E
1-N
11-N
1
E
2-N
12-E
2
N
3-N
13-E
3
N
4-N
14-N
4
E
5-E
15-N
5
E
6-N
16-N
6
E
7-N
17-E
7
E
8-N
18-N
8
N
9-N
19-N
9
N
10-E
20-N
10
EXPOSICIN
POSITIVA
NEGATIVA
CASOS
6
4
10
CONTROLES
5
15
20
11
19
30
Caso no pareado: estructura de la tabla tetracrica

En la situacin de pareamiento o matching, cambia la estructura de la base de datos, las tablas de
distribucin de frecuencias, as como las tablas de contingencia (que slo es de 2 x 2 para el caso de
matching 1 : 1), varan en su estructura general. Se presentan figuras con la apariencia en casos de
matching 1 : 1 y ms de un control por cada caso:
Caso pareado, relacin 1:1 casos-controles

1
2
3
4
5
6
7
8
9
10
CASOS-CONTROLES
E-N (CASO EXPUESTO; CONTROL NO EXPUESTO)
E-N
N-N (CASO Y CONTROL NO EXPUESTOS)
N-N
E-E (CASO Y CONTROL EXPUESTOS)
E-N
E-N
E-N
N-N
N-E
Originando la siguiente tabla tetracrica:

CONTROLES
EXP +
EXP CASOS
EXP +
1
5
6
EXP 1
3
4
2
8
10*
(*): 10 pares de comparaciones, equivalentes a 20 sujetos
Pgina 133 -175

Pag 134-175
Caso pareado, relacin 1:2 entre casos y controles.

CASOS-CONTROLES
E-N-N
1
E-N-E
2
N-N-N
3
N-N-N
4
E-E-E
5
E-N-N
6
E-N-N
7
E-N-N
8
N-N-E
9
N-E-N
10
Distribuyndose de esta manera en la tabla de contingencia
CONTROLES EXPUESTOS
0 INDIV 1 INDIV
2 INDIV
TOTAL
CASOS EXP +
4
1
1
6
EXP 2
2
0
4
6
3
1
10*
(*): 10 tros de observaciones (30 observaciones)
Clculo de la tasa de exposicin

El primer clculo a desarrollar es el de las tasas de exposicin entre los sujetos casos y los controles,
de acuerdo al siguiente planteamiento:
Esquema bsico de informacin en un estudio de casos y controles

VARIABLE
VARIABLE DEPENDIENTE
INDEPENDIENTE
(enfermedad)
(exposicin)
PRESENTE
AUSENTE
TOTAL
PRESENTE
A
B
F1 (A+B)
AUSENTE
C
D
F2 (C+D)
TOTAL
C1 (A+C)
C2 (B+D)
N
Tasa Exposicin en casos = A / C1 x 100 o bien = A/(A+C)
Tasa Exposicin en controles =B / C2 x 100 o bien = B/ (B+D)
La valoracin estadstica de las tasas de exposicin encontradas puede efectuarse mediante la
aplicacin de un test de comparacin de proporciones, la que determinar si la diferencia existente
puede o no se explicada por el azar (H0) o por la presencia de la variable independiente en estudio
(H1).
Establecimiento de asociacin entre las variables en estudio

Luego del paso anterior se procede a establecer la existencia de asociacin utilizando el test de jicuadrado, con su correspondiente correccin de continuidad de Yates, segn fuese explicado en el
captulo previo para las clsicas tablas de contingencia 2x2:
Pgina 134 -175

2 =
N (| AD BC | N / 2) 2
C1 C 2 F1 F 2
Pag 135-175
; g .de l. = 1
Teniendo como punto de corte 5,991 para este valor, con un 95% de confianza. Vale decir, si el valor
de ji-cuadrado calculado excede este valor, se est en condiciones de poder rechazar la hiptesis de
nulidad H0 (falta de asociacin) en favor de H1 (asociacin), con 95% de confianza. Habitualmente
en todo caso, la hiptesis de asociacin suele haber sido comprobada previamente al desarrollo del
protocolo. El paso siguiente es el clculo del odds ratio. El odds ratio tiene la caracterstica de
cuantificar la magnitud de riesgo y a continuacin se lo explica en detalle.
5.12. CALCULO DE LA RAZON DE CHANCES u ODDS RATIO (OR)

En la literatura epidemiolgica esta medida de riesgo es reconocida con las siguientes
denominaciones: odds ratio, razn de disparidad, razn de desigualdades, razn de productos
cruzados, riesgo relativo estimado, desigualdad relativa, razn de momios y otras ms.
Elaboracin de los componentes de esta razn:

La "chance" (odds) de tener la enfermedad (Odds1), segn se est o no expuesto al factor
corresponde a:
Odds1 = A/C1 (enfermos expuestos en relacin con el total de enfermos) / C/C1 (enfermos
no expuestos en relacin con el total de enfermos) = (A/(A+C))/(C/(A+C))
Equivalentemente la "chance" de no tener la enfermedad, segn se est o no expuesto al factor
(Odds2) corresponde a :
Odds2 = B/ C2 (sanos expuestos en relacin con el total de sanos) / D/ C2 (sanos no expuestos

en relacin con el total de sanos)= (B/(B+D))/(D/(B+D))
Por tanto, el valor del Odds Ratio, que corresponde al cociente (razn ) entre estas dos "chances (u
Odds), corresponde a:
simplificando, obtenemos la frmula final del OR (Odds Ratio)

OR =
a.d
b.c
Pgina 135 -175

Pag 136-175
Este indicador de riesgo es llamado tambin "razn de productos cruzados", aludiendo as a la

distribucin que adoptan en la tabla 2 x 2 los trminos del numerador y denominador 4 . El valor
calculado carece de unidades de medidas.
Interpretacin del valor de OR calculado

Estrictamente hablando el odds ratio indica la magnitud de asociacin entre exposicin y
outcome (en otras palabras, el riesgo de haber estado expuesto dada la enfermedad). Esta
interpretacin es compleja y difcil de entender, por lo que se permite su interpretacin considerando
el riesgo asociado o no a la exposicin. Como el odds ratio es un buen estimador del riesgo
relativo (calculado en estudios prospectivos), se utiliza esta propiedad para facilitar la comprensin
del indicador. Si el cuociente calculado determina un valor de 1, esto significa que no hay asociacin
entre las variables analizadas (la exposicin positiva o negativa no hace diferencia respecto al riesgo
de enfermar).
Un valor mayor que 1 indica una mayor frecuencia de exposicin de la variable independiente entre
los enfermos (casos). Por tanto, el factor acta asocindose con un mayor riesgo de enfermar.
Finalmente, si el valor del OR calculado es inferior a 1, esto indica mayor frecuencia de exposicin
entre los sujetos sanos (controles). En este caso, la presencia del factor se asocia reduce el riesgo de
enfermar (actuando como un factor de proteccin). La valoracin estadstica de las asociaciones
encontradas debe realizarse mediante el clculo de los correspondientes intervalos de confianza.
De acuerdo con esto, la interpretacin final del OR queda dada por el siguiente esquema:
VALOR
Odds Ratio
INTERVALO DE CONFIANZA
INFERIOR
SUPERIOR
TIPO DE
ASOCIACIN
MAYOR DE 1
>1
>1
NO EVIDENCIA DE
ASOCIACIN
SIGNIFICATIVA,
RIESGO
MAYOR DE 1
<1
>1
NO SIGNIFICATIVA
MENOR DE 1
< DE 1
< DE 1
SIGNIFICATIVA,
PROTECCIN
MENOR DE 1
< DE 1
> DE 1
NO SIGNIFICATIVA
Para el clculo del intervalo de confianza se recurre a diferentes mtodos. Uno de los ms utilizado
es el Woolf que utiliza la siguiente frmula
IC OR = Exp (Ln OR z. Ln (ES))
donde z =parmetro de distrib. normal y Ln(ES)= RaizCuadrada(1/a+1/b+1/c+1/d) y Exp(x) es ex
Ejemplo: Un grupo de investigadores estudian y difunden el resultado de una investigacin

destinada a valorar el nivel de proteccin conferido por la vacuna antisarampionosa utilizando un
diseo de estudio de casos y controles. Para ello, los autores identifican a 48 nios con el
antecedente de sarampin y 48 controles, en quienes indagan por el antecedente de vacunacin
previa, obteniendo los siguientes resultados:
Pgina 136 -175

Pag 137-175
Asociacin sarampin con antecedente de vacunacin: casos y controles

ENFERMEDAD
EXPOSICIN
TOTAL
(SARAMPIN)
SI
NO
VACUNACIN +
34
46
80
VACUNACIN 14
2
16
TOTAL
48
48
96
En este caso, la "tasa de exposicin a la vacuna" equivale a:
Entre los casos : ( 34/48) * 100 = 71%
Entre los controles : (46/48) * 100 = 96%
El clculo del valor de odds ratio (OR) para este caso en particular est dado por la expresin:
OR=(34x2)/(14x46)=0.10
Respecto al intervalo de confianza para el OR calculado:
.
Ln OR = -2.30
Ln (ES)= RaizCuadrada(1/a+1/b+1/c+1/d)= RaizCuadrada(0.62)=0.789
Intervalo de confianza (IC) calculado al 95%, equivale a:
IC OR = Exp(Ln OR z. Ln (ES))= Exp (Ln OR 1,96 (0,789)) = Exp (-2.30 1,55)
IC OR =
IC OR = 0,021- 0,470
Luego el intervalo en el cual se mueve el valor de OR calculado flucta entre 0,021 y 0,47, ambos
valores inferiores a 1, con un 95% de confianza. Por lo tanto, la asociacin encontrada es de
carcter significativo e indica una disminucin significativa del riesgo de contraer sarampin
en presencia del factor "vacunacin" antisarampionosa.
El test de ji-cuadrado efectuado entre la variable vacunacin y sarampin (en la tabla de
contingencia 2x2 tal como se indic) arroja un valor de p=0.002 (valor de 10,8, con un grado de
libertad), lo que permite rechazar H0 (variables no asociadas) en favor de H1 (las variables estn
asociadas). Esto es coincidente con lo obtenido a travs del OR.
Finalmente, si quisiramos calcular el nivel de proteccin conferido por esta vacuna en la poblacin
estudiada, sta estara dada por la siguiente expresin:
Porcentaje de proteccin = 1 OR
siendo el valor 1 el valor basal asumiendo que la vacuna no ejerce ningn tipo de proteccin. En
nuestro caso, se obtiene un valor de 0,9 equivalente a un 90% de proteccin entre los nios
estudiados en presencia del antecedente de vacunacin. Los lmites del intervalo de confianza
corresponderan a:
Pgina 137 -175

Pag 138-175
Lmite inferior: 1 - 0,47 = 53% de proteccin

Lmite superior: 1 - 0,021 = 97,9% de proteccin
En trminos de notacin, este resultado se expresa en trminos de nivel de proteccin, como 90%
(Intervalo de confianza al 95%: entre: 53% - 97,9%)
Direccionalidad de la asociacin estudiada

Dado que este diseo se inicia a partir de la variable dependiente y explora retrospectivamente en el
tiempo la presencia o ausencia de exposicin en ambos grupos, no es posible conocer entre los casos
la tasa de incidencia de la enfermedad o dao en cuestin. Para conocer el nmero de casos nuevos
de la enfermedad o condicin en estudio en un perodo de tiempo determinado se requiere iniciar un
seguimiento de individuos sanos o libres de la condicin en estudio, observando la aparicin de
eventos a lo largo de un perodo de tiempo preestablecido.
En el diseo de casos y controles, el estudio se inicia a partir de un nmero fijo de sujetos enfermos
o portadores de la condicin a estudiar, ignorndose el momento en el cual apareci la enfermedad.
Por tanto, por definicin, dada la direccionalidad del estudio (retrospectiva), no es posible el clculo
de tasas de incidencia.
Consideracin de variables de confusin

Siendo el objetivo de este diseo establecer la existencia de asociaciones entre variables, es de suma
importancia descartar que las asociaciones evaluadas no estn dadas por variables independientes
que participan indirectamente en la cadena causal pero que en ltimo tiempo, no la explican. Nos
referimos especficamente a aquellas variables que se encuentran vinculadas simultneamente con la
variable dependiente e independiente en estudio. Estas variables de confusin pueden dar origen al
establecimiento de asociaciones espurias, derivadas del efecto de estas variables. Para su control, se
puede recurrir a:
Control a priori de las variables, en la etapa de diseo del estudio (matching)
Anlisis de la exposicin y el outcome de acuerdo a los niveles o estratos que adopte la

variable de confusin (anlisis estratificado),
Ajustando los datos, a posteriori utilizando ajuste directo o indirecto,
Utilizando tcnicas estadsticas multivariadas (anlisis multivariado), tratado en textos

avanzados como REMINGTON (1974) o SOKAL (1981),
En diseos experimentales, asignando aleatoriamente la exposicin entre los sujetos

participantes.
Pgina 138 -175

Pag 139-175
5.13. INDICES HOSPITALARIOS

Para medir la eficiencia en volumen de atencin de los servicios de internacin, existe un conjunto
de ndices desarrollados especficamente con ese fin. A continuacin damos una lista de alguno de
los mismos:
Las causas de internacin se estudian a travs de:
Diagnstico principal al egreso, de acuerdo a la Clasificacin Internacional de Enfermedades (CIE)
novena Revisin (8), y agrupados en los siguientes captulos (por ejemplo): Respiratorio, Digestivo,
Neurolgico, Nefro-urinario, Hemato-oncolgico, Alergias-mesenquimopatas, Accidentes y
Miscelnea (enfermedades metablicas, endocrinolgicas, cardiovasculares, dermatolgicas,
etctera).
Para evaluar produccin y rendimiento de un servicio hospitalario se usan siguientes indicadores:

Nmero de camas totales (CT) en cada ao (perodo habitual de estudio) del organismo dedicadas a
internacin
Nmero de camas disponibles (CD) en cada ao (perodo habitual de estudio)es decir contando slo
las operativas
Egresos totales incluyendo altas, pases a otros servicios y fallecidos.
Das-camas disponibles (DCD) como el nmero de camas disponibles (CD) por los das del perodo
considerado
Das-camas ocupadas (DCO) como el nmero de Das-camas ocupados por pacientes internados
durante los das del perodo considerado
Porcentaje de ocupacin expresado por la relacin entre los das-camas ocupadas y los das-camas
disponibles (DCO/DCD). Se calcula para el total del perodo as como su distribucin anual y
mensual.
Tiempo de estada definido como la duracin de la internacin de los pacientes en el servicio. Se
calcul la media global del perodo y por ao. Normalmente se clasifica en cuatro categoras: < 2
das, de 3 a 7, de 8 a 15 y ms de 15.
Giro cama expresado como la relacin existente entre el nmero de pacientes que egresaron del
servicio y las camas disponibles en el perodo.
Reingresos. Se considera como tal si haba tenido una hospitalizacin previa, independientemente de
la causa y del tiempo transcurrido.
Queda entendido que estos ndices reflejan el volumen de atencin y no la calidad de la misma. La
medicin de la calidad de atencin es sujeta hoy da a un profundo debate en el cual se buscan
definir parmetros que reflejen no slo el mejoramiento de salud del pblico cliente del organismo o
servicio hospitalario sino adems reflejar el grado de satisfaccin que tienen los pacientes sobre la
atencin mdica recibida.
Pgina 139 -175

Pag 140-175
5.14. ANALISIS DE CURVAS DE SUPERVIVENCIA

En epidemiologa descriptiva muchas veces es necesario realizar un control de sobreviva de postoperatorios, lo que suele vincularse a la eficiencia de una tcnica en particular o a la calidad de
atencin en ese servicio y sirve como patrn de comparacin entre distintas bocas de atencin
quirrgicas. Este no es necesariamente el nico uso que se les puede dar a las curvas de
supervivencia, toda vez que sea necesario controlar como evolucionan en el tiempo los individuos o
clientes de un centro de atencin, este es un mtodo adecuado para hacerlo. En esencia se trata de
un mtodo inventarial, basado en el censo peridico de los pacientes (o clientes) del sistema. Hay
que considerar que el tema no es sencillo dado que los pacientes no se operan todos al unsono
como en un diseo experimental, las fechas de operacin estn distribuidas a lo largo de aos de
trabajo del servicio.
El sistema se basa en el mantenimiento de un archivo (de tarjetas o base de datos por computadora)
en el cual se registra (entre otras cosas) la fecha en la cual se reporta (vivo o muerto) ese paciente.
No se descartan las fichas de los pacientes muertos. Cuando llega la oportunidad de efectuar una
estadstica actualizada se procede con los siguientes pasos:
1. Clasificar los fallecidos por ltimo registro de aos completos sobrevividos, as se obtienen los
nmeros de pacientes m0, m1, m2, (pacientes muertos con 0,1,2, aos completos de
sobrevida)
2. Lo mismo se efecta con los pacientes vivos segn el ltimo registro, obteniendo los nmeros
de pacientes v0, v1, v2, (pacientes vivos con 0, 1, 2, aos completos de sobrevida)
3. Se construye la TABLA DE SOBREVIDA siguiente:
(1)
(2)
(3)
(4)
(5)
(6)
(7)
PACIENTES
EXPUESTOS
A
SOBREVIDA
PROBABILIDAD
DE MORIR EN
EL AO
TASA DE
SOBREVIDA
(%)
q0
q1
q2
q3
-.-
p0
p1
p2
p3
-.-
r0
r1
r2
r3
r10
AOS
COMPLETOS
DE
SOBREVIDA
MUERTO
VIVO
TOTAL
VIVOS (AL
COMIENZO
DEL AO)
0
1
2
3
10 O MAS
m0
m1
m2
m3
m10
v0
v1
v2
v3
v10
t0
t1
t2
t3
t10
ULTIMO REGISTRO
Las flechas indican la direccin de completamiento de cada columna en la tabla.
COLUMNAS:
(2) y (3) Salen del control efectuado
(4) t10 = m10 + v10; luego continuar hacia arriba t9=t10+m9+v9, t8=t9+m8+v8,
(5) qi = ti vi/2; para todas las filas salvo la final
(6) pi = mi / vi; para todas las filas salvo la final
(7) r=100 y luego para todas las filas ri = ri-1(1- pi-1)
4. Por ltimo se grafican los datos de la TABLA DE SOBREVIDA (Columna 7 vs. Columna 1)
Pgina 140 -175

APENDICE: TABLAS ESTADISTICAS
Pag 141-175
APNDICE: TABLAS ESTADISTICAS
Pgina 141 -175

Pag 142-175
TABLA I: Numeros Aleatorios

39634
14595
30734
64628
42831
62349
35050
71571
89126
95113
74088
40469
83722
91254
43511
65564
27478
79712
24090
42082
16379
44526
25775
25752
15140
19713
67331
65178
03091
34733
39153
93365
07763
39411
68076
69459
54526
82928
73146
18292
17986
22356
31131
06089
69486
24537
93208
30196
15630
80468
80583
00209
05409
95836
65358
70361
90404
20830
22530
70469
41047
99457
01911
91785
87149
26792
72570
60767
80210
89509
78466
42194
55248
34361
72176
03395
49043
79253
52228
18103
17635
24330
12317
33869
55169
09697
14939
84120
94332
79954
82447
09865
77772
83868
72002
31405
45906
50103
61672
20582
72249
41692
61885
48917
88378
04037
40581
50796
48129
84299
36192
93050
96822
48624
12193
40221
48734
82002
48248
03785
14918
34652
07973
91465
49314
53437
41577
52925
54898
39761
60571
04631
75467
61220
99132
40995
49184
86013
18721
28775
55006
39295
98072
67387
45276
10694
81776
91942
66575
91816
77800
24028
86558
78545
14969
25734
03405
84750
49201
64623
09801
01178
43994
05329
82780
92087
06316
01760
14182
35686
02955
81916
96205
10971
30941
12872
40170
27937
90472
14622
89848
53665
45416
44682
04126
48579
87202
71964
39304
25498
06028
88638
52261
19819
95452
13827
47121
30781
55799
63937
58697
38449
62134
72749
81638
31973
46438
87244
13347
36566
06303
91579
73348
65030
42709
94202
01907
80114
26128
33717
62287
72146
78490
49067
59943
56164
05764
64735
27904
12027
79157
22400
31010
49953
46547
98375
94490
66975
74674
61303
24558
49833
28652
94617
46699
99241
09258
36166
13317
76243
46574
11873
13862
08312
11071
79670
57196
72778
27886
44430
10342
32209
09949
82321
94664
89543
67663
23096
28666
91294
75030
07990
01791
72998
35163
23428
12288
19472
22514
05494
29541
59245
14634
51054
32882
32501
83638
31690
22940
23904
89422
23642
36602
31842
41340
87474
61715
62943
54245
61185
82509
07426
57696
08074
20128
11842
67341
25592
89810
53721
86963
80314
91221
48521
01518
50307
58910
95386
90740
40699
07510
93948
15857
02687
20849
32545
85738
84645
83117
04710
90717
69444
89659
74920
38989
46856
09370
80535
25954
91322
86079
58194
93233
99629
56057
13769
28207
82798
78978
58573
00190
23798
85306
99719
95970
27157
55425
57995
36036
81452
83208
32454
68222
74274
48873
79446
34611
39055
53901
00784
92987
39605
43890
34643
58347
61357
39981
36956
06157
40269
38752
74691
84861
89500
11880
55424
40836
63624
57514
43395
94518
30812
04961
93977
28249
45205
38563
55439
42403
38743
56651
71499
66660
35483
09262
91460
80220
78443
84563
25041
92462
35750
47545
79956
57862
98566
67337
70736
88618
19203
72062
47556
65419
54619
86103
18556
55272
77489
24853
02800
55052
55249
70831
59783
23198
47614
79100
73237
47537
70639
80044
34014
14970
88822
43757
60015
17037
23129
47227
52064
15502
63006
22617
60684
94628
36243
20667
26922
98736
93492
56944
29630
23633
22731
72197
74196
18387
98168
72376
34526
11016
82927
32839
49551
10422
47992
92682
42724
04266
55226
83321
50480
31717
06183
87063
36844
74759
35929
84547
14437
95655
19689
30727
37418
57439
37905
27553
38385
80532
33802
Pgina 142 -175

Pag 143-175
TABLA II: Distribucion Normal (z)
P(0 z a)
a
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
0.00
0.0000
0.0398
0.0793
0.1179
0.1554
0.1915
0.2257
0.2580
0.2881
0.3159
0.3413
0.3643
0.3849
0.4032
0.4192
0.4332
0.4452
0.4554
0.4641
0.4713
0.4772
0.4821
0.4861
0.4893
0.4918
0.4938
0.4953
0.4965
0.4974
0.4981
0.4987
0.01
0.0040
0.0438
0.0832
0.1217
0.1591
0.1950
0.2291
0.2611
0.2910
0.3186
0.3438
0.3665
0.3869
0.4049
0.4207
0.4345
0.4463
0.4564
0.4649
0.4719
0.4778
0.4826
0.4864
0.4896
0.4920
0.4940
0.4955
0.4966
0.4975
0.4982
0.4987
0.02
0.0080
0.0478
0.0871
0.1255
0.1628
0.1985
0.2324
0.2642
0.2939
0.3212
0.3461
0.3686
0.3888
0.4066
0.4222
0.4357
0.4474
0.4573
0.4656
0.4726
0.4783
0.4830
0.4868
0.4898
0.4922
0.4941
0.4956
0.4967
0.4976
0.4982
0.4987
0.03
0.0120
0.0517
0.0910
0.1293
0.1664
0.2019
0.2357
0.2673
0.2967
0.3238
0.3485
0.3708
0.3907
0.4082
0.4236
0.4370
0.4484
0.4582
0.4664
0.4732
0.4788
0.4834
0.4871
0.4901
0.4925
0.4943
0.4957
0.4968
0.4977
0.4983
0.4988
0.04
0.0160
0.0557
0.0948
0.1331
0.1700
0.2054
0.2389
0.2704
0.2995
0.3264
0.3508
0.3729
0.3925
0.4099
0.4251
0.4382
0.4495
0.4591
0.4671
0.4738
0.4793
0.4838
0.4875
0.4904
0.4927
0.4945
0.4959
0.4969
0.4977
0.4984
0.4988
0.05
0.0199
0.0596
0.0987
0.1368
0.1736
0.2088
0.2422
0.2734
0.3023
0.3289
0.3531
0.3749
0.3944
0.4115
0.4265
0.4394
0.4505
0.4599
0.4678
0.4744
0.4798
0.4842
0.4878
0.4906
0.4929
0.4946
0.4960
0.4970
0.4978
0.4984
0.4989
0.06
0.0239
0.0636
0.1026
0.1406
0.1772
0.2123
0.2454
0.2764
0.3051
0.3315
0.3554
0.3770
0.3962
0.4131
0.4279
0.4406
0.4515
0.4608
0.4686
0.4750
0.4803
0.4846
0.4881
0.4909
0.4931
0.4948
0.4961
0.4971
0.4979
0.4985
0.4989
0.07
0.0279
0.0675
0.1064
0.1443
0.1808
0.2157
0.2486
0.2794
0.3078
0.3340
0.3577
0.3790
0.3980
0.4147
0.4292
0.4418
0.4525
0.4616
0.4693
0.4756
0.4808
0.4850
0.4884
0.4911
0.4932
0.4949
0.4962
0.4972
0.4979
0.4985
0.4989
0.08
0.0319
0.0714
0.1103
0.1480
0.1844
0.2190
0.2517
0.2823
0.3106
0.3365
0.3599
0.3810
0.3997
0.4162
0.4306
0.4429
0.4535
0.4625
0.4699
0.4761
0.4812
0.4854
0.4887
0.4913
0.4934
0.4951
0.4963
0.4973
0.4980
0.4986
0.4990
0.09
0.0359
0.0753
0.1141
0.1517
0.1879
0.2224
0.2549
0.2852
0.3133
0.3389
0.3621
0.3830
0.4015
0.4177
0.4319
0.4441
0.4545
0.4633
0.4706
0.4767
0.4817
0.4857
0.4890
0.4916
0.4936
0.4952
0.4964
0.4974
0.4981
0.4986
0.4990
Pgina 143 -175

Pag 144-175
TABLA III: Distribucion t-Student (test de dos colas)

Grados de
Libertad ()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
60
120
Probabilidad conforme a H0 que el |t| calculado > lmite tabulado

0.10
6.31
2.92
2.35
2.13
2.02
1.94
1.89
1.86
1.83
1.81
1.80
1.78
1.77
1.76
1.75
1.75
1.74
1.73
1.73
1.72
1.72
1.72
1.71
1.71
1.71
1.71
1.70
1.70
1.70
1.70
1.67
1.66
1.65
0.05
12.71
4.30
3.18
2.78
2.57
2.45
2.37
2.31
2.26
2.23
2.20
2.18
2.16
2.14
2.13
2.12
2.11
2.10
2.09
2.09
2.08
2.07
2.07
2.06
2.06
2.06
2.05
2.05
2.05
2.04
2.00
1.98
1.96
0.01
63.66
9.93
5.84
4.60
4.03
3.71
3.50
3.36
3.25
3.17
3.11
3.06
3.01
2.98
2.95
2.92
2.90
2.88
2.86
2.85
2.83
2.82
2.82
2.80
2.79
2.78
2.77
2.76
2.76
2.75
2.66
2.62
2.58
0.001
636.62
31.60
12.92
8.61
6.87
5.96
5.41
5.04
4.78
4.59
4.44
4.32
4.22
4.14
4.07
4.02
3.97
3.92
3.88
3.85
3.82
3.79
3.77
3.75
3.73
3.71
3.69
3.67
3.66
3.65
3.46
3.37
3.29
Pgina 144 -175

Pag 145-175
TABLA IV: Distribucin F-Snedecor (p=0.05)

2 = Grados de libertad en el denominador
1 = Grados de libertad en el numerador

1
10
12
15
20
24
30
40
60
120
2
1
2
3
4
5
161,4
18,51
10,13
7,71
6,61
199,5
19,00
9,55
6,94
5,79
215,7
19,16
9,28
6,59
5,41
224,6
19,25
9,12
6,39
5,19
230,2
19,30
9,01
6,26
5,05
234,0
19,33
8,94
6,16
4,95
236,8
19,35
8,89
6,09
4,88
238,9
19,37
8,85
6,04
4,82
240,5
19,38
8,81
6,00
4,77
241,9
19,40
8,79
5,96
4,74
243,9
19,41
8,74
5,91
4,68
245,9
19,43
8,70
5,86
4,62
248,0
19,45
8,66
5,80
4,56
249,1
19,45
8,64
5,77
4,53
250,1
19,46
8,62
5,75
4,50
251,1
19,47
8,59
5,72
4,46
252,2
19,48
8,57
5,69
4,43
253,3
19,49
8,55
5,66
4,40
254,3
19,50
8,53
5,63
4,37
6
7
8
9
10
5,99
5,59
5,32
5,12
4,96
5,14
4,74
4,46
4,26
4,10
4,76
4,35
4,07
3,86
3,71
4,53
4,12
3,84
3,63
3,48
4,39
3,97
3,69
3,48
3,33
4,28
3,87
3,58
3,37
3,22
4,21
3,79
3,50
3,29
3,14
4,15
3,73
3,44
3,23
3,07
4,10
3,68
3,39
3,18
3,02
4,06
3,64
3,35
3,14
2,98
4,00
3,57
3,28
3,07
2,91
3,94
3,51
3,22
3,01
2,85
3,87
3,44
3,15
2,94
2,77
3,84
3,41
3,12
2,90
2,74
3,81
3,38
3,08
2,86
2,70
3,77
3,34
3,04
2,83
2,66
3,74
3,30
3,01
2,79
2,62
3,70
3,27
2,97
2,75
2,58
3,67
3,23
2,93
2,71
2,54
11
12
13
14
15
4,84
4,75
4,67
4,60
4,54
3,98
3,89
3,81
3,74
3,68
3,59
3,49
3,41
3,34
3,29
3,36
3,26
3,18
3,11
3,06
3,20
3,11
3,03
2,96
2,90
3,09
3,00
2,92
2,85
2,79
3,01
2,91
2,83
2,76
2,71
2,95
2,85
2,77
2,70
2,64
2,90
2,80
2,71
2,65
2,59
2,85
2,75
2,67
2,60
2,54
2,79
2,69
2,60
2,53
2,48
2,72
2,62
2,53
2,46
2,40
2,65
2,54
2,46
2,39
2,33
2,61
2,51
2,42
2,35
2,29
2,57
2,47
2,38
2,31
2,25
2,53
2,43
2,34
2,27
2,20
2,49
2,38
2,30
2,22
2,16
2,45
2,34
2,25
2,18
2,11
2,41
2,30
2,21
2,13
2,07
16
17
18
19
20
4,49
4,45
4,41
4,38
4,35
3,63
3,59
3,55
3,52
3,49
3,24
3,20
3,16
3,13
3,10
3,01
2,96
2,93
2,90
2,87
2,85
2,81
2,77
2,74
2,71
2,74
2,70
2,66
2,63
2,60
2,66
2,61
2,58
2,54
2,51
2,59
2,55
2,51
2,48
2,45
2,54
2,49
2,46
2,42
2,39
2,49
2,45
2,41
2,38
2,35
2,42
2,38
2,34
2,31
2,28
2,35
2,31
2,27
2,23
2,20
2,28
2,23
2,19
2,16
2,12
2,24
2,19
2,15
2,11
2,08
2,19
2,15
2,11
2,07
2,04
2,15
2,10
2,06
2,03
1,99
2,11
2,06
2,02
1,98
1,95
2,06
2,01
1,97
1,93
1,90
2,01
1,96
1,92
1,88
1,84
21
22
23
24
25
4,32
4,30
4,28
4,26
4,24
3,47
3,44
3,42
3,40
3,39
3,07
3,05
3,03
3,01
2,99
2,84
2,82
2,80
2,78
2,76
2,68
2,66
2,64
2,62
2,60
2,57
2,55
2,53
2,51
2,49
2,49
2,46
2,44
2,42
2,40
2,42
2,40
2,37
2,36
2,34
2,37
2,34
2,32
2,30
2,28
2,32
2,30
2,27
2,25
2,24
2,25
2,23
2,20
2,18
2,16
2,18
2,15
2,13
2,11
2,09
2,10
2,07
2,05
2,03
2,01
2,05
2,03
2,01
1,98
1,96
2,01
1,98
1,96
1,94
1,92
1,96
1,94
1,91
1,89
1,87
1,92
1,89
1,86
1,84
1,82
1,87
1,84
1,81
1,79
1,77
1,81
1,78
1,76
1,73
1,71
26
27
28
29
30
4,23
4,21
4,20
4,18
4,17
3,37
3,35
3,34
3,33
3,32
2,98
2,96
2,95
2,93
2,92
2,74
2,73
2,71
2,70
2,69
2,59
2,57
2,56
2,55
2,53
2,47
2,46
2,45
2,43
2,42
2,39
2,37
2,36
2,35
2,33
2,32
2,31
2,29
2,28
2,27
2,27
2,25
2,24
2,22
2,21
2,22
2,20
2,19
2,18
2,16
2,15
2,13
2,12
2,10
2,09
2,07
2,06
2,04
2,03
2,01
1,99
1,97
1,96
1,94
1,93
1,95
1,93
1,91
1,90
1,89
1,90
1,88
1,87
1,85
1,84
1,85
1,84
1,82
1,81
1,79
1,80
1,79
1,77
1,75
1,74
1,75
1,73
1,71
1,70
1,68
1,69
1,67
1,65
1,64
1,62
40
60
120
4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,00 1,92 1,84 1,79 1,74 1,69 1,64 1,58
4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,92 1,84 1,75 1,70 1,65 1,59 1,53 1,47
3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,83 1,75 1,66 1,61 1,55 1,50 1,43 1,35
1,51
1,39
1,26
3,84 3,00 2,61
1,03
2,4
2,21 2,10 2,01 1,94 1,88 1,83 1,75 1,67 1,57 1,52 1,46 1,40 1,32 1,22
Tabla extrada y adaptada de Bioestadstica aplicada a Bioqumica y Farmacia, de J.C. Azzimonti Renzo
Pgina 145 -175

Pag 146-175
TABLA V: Distribucin F-Snedecor (p=0.01)

1 = Grados de libertad en el numerador
1
2 = Grados de libertad en el denominador
10
12
15
20
24
30
40
60
120
5404
99,16
29,46
16,69
12,06
5624
99,25
28,71
15,98
11,39
5764
99,30
28,24
15,52
10,97
5859
99,33
27,91
15,21
10,67
5928
99,36
27,67
14,98
10,46
5981
99,38
27,49
14,80
10,29
6022
99,39
27,34
14,66
10,16
6056
99,40
27,23
14,55
10,05
6107
99,42
27,05
14,37
9,89
6157
99,43
26,87
14,20
9,72
6209
99,45
26,69
14,02
9,55
6234
99,46
26,60
13,93
9,47
6260
99,47
26,50
13,84
9,38
6286
99,48
26,41
13,75
9,29
6313
99,48
26,32
13,65
9,20
6340
99,49
26,22
13,56
9,11
6366
99,50
26,13
13,46
9,02
10,92
9,55
8,65
8,02
7,56
9,78
8,45
7,59
6,99
6,55
9,15
7,85
7,01
6,42
5,99
8,75
7,46
6,63
6,06
5,64
8,47
7,19
6,37
5,80
5,39
8,26
6,99
6,18
5,61
5,20
8,10
6,84
6,03
5,47
5,06
7,98
6,72
5,91
5,35
4,94
7,87
6,62
5,81
5,26
4,85
7,72
6,47
5,67
5,11
4,71
7,56
6,31
5,52
4,96
4,56
7,40
6,16
5,36
4,81
4,41
7,31
6,07
5,28
4,73
4,33
7,23
5,99
5,20
4,65
4,25
7,14
5,91
5,12
4,57
4,17
7,06
5,82
5,03
4,48
4,08
6,97
5,74
4,95
4,40
4,00
6,88
5,65
4,86
4,31
3,91
9,65
9,33
9,07
8,86
8,68
7,21
6,93
6,70
6,51
6,36
6,22
5,95
5,74
5,56
5,42
5,67
5,41
5,21
5,04
4,89
5,32
5,06
4,86
4,69
4,56
5,07
4,82
4,62
4,46
4,32
4,89
4,64
4,44
4,28
4,14
4,74
4,50
4,30
4,14
4,00
4,63
4,39
4,19
4,03
3,89
4,54
4,30
4,10
3,94
3,80
4,40
4,16
3,96
3,80
3,67
4,25
4,01
3,82
3,66
3,52
4,10
3,86
3,66
3,51
3,37
4,02
3,78
3,59
3,43
3,29
3,94
3,70
3,51
3,35
3,21
3,86
3,62
3,43
3,27
3,13
3,78
3,54
3,34
3,18
3,05
3,69
3,45
3,25
3,09
2,96
3,60
3,36
3,17
3,01
2,87
16
17
18
19
20
8,53
8,40
8,29
8,18
8,10
6,23
6,11
6,01
5,93
5,85
5,29
5,19
5,09
5,01
4,94
4,77
4,67
4,58
4,50
4,43
4,44
4,34
4,25
4,17
4,10
4,20
4,10
4,01
3,94
3,87
4,03
3,93
3,84
3,77
3,70
3,89
3,79
3,71
3,63
3,56
3,78
3,68
3,60
3,52
3,46
3,69
3,59
3,51
3,43
3,37
3,55
3,46
3,37
3,30
3,23
3,41
3,31
3,23
3,15
3,09
3,26
3,16
3,08
3,00
2,94
3,18
3,08
3,00
2,92
2,86
3,10
3,00
2,92
2,84
2,78
3,02
2,92
2,84
2,76
2,69
2,93
2,83
2,75
2,67
2,61
2,84
2,75
2,66
2,58
2,52
2,75
2,65
2,57
2,49
2,42
21
22
23
24
25
8,02
7,95
7,88
7,82
7,77
5,78
5,72
5,66
5,61
5,57
4,87
4,82
4,76
4,72
4,68
4,37
4,31
4,26
4,22
4,18
4,04
3,99
3,94
3,90
3,85
3,81
3,76
3,71
3,67
3,63
3,64
3,59
3,54
3,50
3,46
3,51
3,45
3,41
3,36
3,32
3,40
3,35
3,30
3,26
3,22
3,31
3,26
3,21
3,17
3,13
3,17
3,12
3,07
3,03
2,99
3,03
2,98
2,93
2,89
2,85
2,88
2,83
2,78
2,74
2,70
2,80
2,75
2,70
2,66
2,62
2,72
2,67
2,62
2,58
2,54
2,64
2,58
2,54
2,49
2,45
2,55
2,50
2,45
2,40
2,36
2,46
2,40
2,35
2,31
2,27
2,36
2,31
2,26
2,21
2,17
26
27
28
29
30
7,72
7,68
7,64
7,60
7,56
5,53
5,49
5,45
5,42
5,39
4,64
4,60
4,57
4,54
4,51
4,14
4,11
4,07
4,04
4,02
3,82
3,78
3,75
3,73
3,70
3,59
3,56
3,53
3,50
3,47
3,42
3,39
3,36
3,33
3,30
3,29
3,26
3,23
3,20
3,17
3,18
3,15
3,12
3,09
3,07
3,09
3,06
3,03
3,00
2,98
2,96
2,93
2,90
2,87
2,84
2,81
2,78
2,75
2,73
2,70
2,66
2,63
2,60
2,57
2,55
2,58
2,55
2,52
2,49
2,47
2,50
2,47
2,44
2,41
2,39
2,42
2,38
2,35
2,33
2,30
2,33
2,29
2,26
2,23
2,21
2,23
2,20
2,17
2,14
2,11
2,13
2,10
2,07
2,04
2,01
40
60
120
7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,66 2,52 2,37 2,29 2,20 2,11 2,02 1,92
7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,50 2,35 2,20 2,12 2,03 1,94 1,84 1,73
6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,34 2,19 2,03 1,95 1,86 1,76 1,66 1,53
1,81
1,60
1,38
6,64 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,19 2,04 1,88 1,79 1,70 1,59 1,48 1,33
1,05
2
1
2
3
4
5
4052
98,50
34,12
21,20
16,26
4999
99,00
30,82
18,00
13,27
6
7
8
9
10
13,75
12,25
11,26
10,56
10,04
11
12
13
14
15
Pgina 146 -175

Pag 147-175
TABLA VI: Distribucin 2-ji cuadrado (dos colas)
probabilidad conforme a H0 que 2 calculado > lmite tabulado

g.de l.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
p= 0.05 p = 0.01 p = 0.001

3.84
5.99
7.82
9.49
11.07
12.59
14.07
15.51
16.92
18.31
19.68
21.03
22.36
23.69
25.00
26.30
27.59
28.87
30.14
31.41
32.67
33.92
35.17
36.42
37.65
38.89
40.11
41.34
42.56
43.77
6.64
9.21
11.35
13.28
15.09
16.81
18.48
20.09
21.67
23.21
24.73
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
38.93
40.29
41.64
42.98
44.31
45.64
46.96
48.28
49.59
50.89
10.83
13.82
16.27
18.47
20.52
22.46
24.32
26.13
27.88
29.59
31.26
32.91
34.53
36.12
37.70
39.25
40.79
42.31
43.82
45.32
46.80
48.27
49.73
51.18
52.62
54.05
55.48
56.89
58.30
59.70
Pgina 147 -175

Pag 148-175
(cont.)
g.de l.
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
p= 0.05 p = 0.01 p = 0.001

44.99
46.19
47.40
48.60
49.80
51.00
52.19
53.38
54.57
55.76
56.94
58.12
59.30
60.48
61.66
62.83
64.00
65.17
66.34
67.51
68.67
69.83
70.99
72.15
73.31
74.47
75.62
76.78
77.93
79.08
80.23
81.38
82.53
83.68
84.82
52.19
53.49
54.78
56.06
57.34
58.62
59.89
61.16
62.43
63.69
64.95
66.21
67.46
68.71
69.96
71.20
72.44
73.68
74.92
76.15
77.39
78.62
79.84
81.07
82.29
83.52
84.73
85.95
87.17
88.38
89.59
90.80
92.01
93.22
94.42
61.10
62.49
63.87
65.25
66.62
67.99
69.35
70.71
72.06
73.41
74.75
76.09
77.42
78.75
80.08
81.40
82.72
84.03
85.35
86.66
87.97
89.27
90.57
91.88
93.17
94.47
95.75
97.03
98.34
99.62
100.88
102.15
103.46
104.72
105.97
Pgina 148 -175

Pag 149-175
(cont.)
g.de l.
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
p= 0.05 p = 0.01 p = 0.001

85.97
87.11
88.25
89.39
90.53
91.67
92.81
93.95
95.08
96.22
97.35
98.49
99.62
100.75
101.88
103.01
104.14
105.27
106.40
107.52
108.65
109.77
110.90
112.02
113.15
114.27
115.39
116.51
117.63
118.75
119.87
120.99
122.11
123.23
124.34
95.63
96.83
98.03
99.23
100.42
101.62
102.82
104.01
105.20
106.39
107.58
108.77
109.96
111.15
112.33
113.51
114.70
115.88
117.06
118.24
119.41
120.59
121.77
122.94
124.12
125.29
126.46
127.63
128.80
129.97
131.14
132.31
133.47
134.64
135.81
107.26
108.54
109.79
111.06
112.31
113.56
114.84
116.08
117.35
118.60
119.85
121.11
122.36
123.60
124.84
126.09
127.33
128.57
129.80
131.04
132.28
133.51
134.74
135.96
137.19
138.45
139.66
140.90
142.12
143.32
144.55
145.78
146.99
148.21
149.48
Pgina 149 -175

Pag 150-175
TABLA VII: Probabilidad Binomial Acumulada (para H0: p =q = 0,5)

Muestras pequeas ( n < 26) (prueba de una cola)
x
n
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
31 188 500 812 969

16 109 344 656 891 984
8 62 227 500 773 938 992
4 35 145 363 637 855 965
2 20 90 254 500 746 910
1 11 55 172 377 623 828
6
33 113 274 500 726
3
19 73 194 387 613
2
11 46 133 291 500
1
6
29 90 212 395
4
18 59 151 304
2
11 38 105 227
1
6
25 72 166
1
4
15 48 119
2
10 32 84
1
6
21 58
1
4
13 39
2
8
26
1
5
17
1
3
11
2
7
10
11
12
13
14
15
996
980
945
887
806
709
605
500
402
315
240
180
132
95
67
47
32
22
998
989
967
927
867
788
696
598
500
407
324
252
192
143
105
76
54
999
994
981
954
910
849
773
685
593
500
412
332
262
202
154
115
997
989
971
941
895
834
760
676
588
500
416
339
271
212
998
994
982
962
928
881
820
748
668
584
500
419
345
999
996
989
975
952
916
868
808
738
661
581
500
998
994
985
968
942
905
857
798
729
655
999
996
990
970
961
933
895
846
788
999
998
994
987
974
953
924
885
NOTA: Los valores de probabilidad se obtienen dividiendo por 1000 los de cada celda.
Ejemplo: Si n = 23 y x = 7 la probabilidad binomial acumulada p(x7|N=23) es 47/1000 = 0,047
Para valores de N>25, usar z =
( x 0.5) 0.5 N
0.5 N
; distribuida normalmente N(0,1) (Usar signo + si x<0.5N)
Pgina 150 -175

Pag 151-175
TABLA VIII: Prueba de rangos sealados de Wilcoxon
Niveles de significacin
de una cola
0,025
0,01
0,005
Niveles de significacin
de dos colas
N
0,05
0,02
0,01
10
11
11
12
14
10
13
17
13
10
14
21
16
13
15
25
20
16
16
30
24
20
17
35
28
23
18
40
33
28
19
46
38
32
20
52
43
38
21
59
49
43
22
66
56
49
23
73
62
55
24
81
69
61
25
89
77
68
Pgina 151 -175

Pag 152-175
TABLA IX: Prueba U de Mann-Whitney (rango n2 3-8)
(ensayo de una cola)
n2 = 3
U
0
1
2
3
4
5
1
0,25
0,5
0,75
n1
2
0,1
0,2
0,4
0,6
n2 = 4
3
0,05
0,1
0,2
0,35
0,5
0,65
U
0
1
2
3
4
5
6
7
8
1
0,2
0,4
0,6
n1
2
0,067
0,133
0,267
0,4
0,6
n2 = 5
U
0
1
2
3
4
5
6
7
8
9
10
11
12
13
n1
1
2
3
4
5
0,167 0,047 0,018 0,008 0,004
0,333 0,095 0,036 0,016 0,008
0,5
0,19 0,071 0,032 0,016
0,667 0,286 0,125 0,055 0,028
0,429 0,196 0,095 0,048
0,571 0,286 0,143 0,075
0,393 0,206 0,111
0,5 0,278 0,155
0,607 0,365 0,21
0,452 0,274
0,548 0,345
0,421
0,5
0,579
3
0,028
0,057
0,114
0,2
0,314
0,429
0,571
4
0,014
0,029
0,057
0,1
0,171
0,243
0,343
0,443
0,557
n2 = 6
U
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
1
0,143
0,286
0,428
0,571
2
0,036
0,071
0,143
0,214
0,321
0,429
0,571
n1
3
0,012
0,024
0,048
0,083
0,131
0,19
0,274
0,357
0,452
0,548
4
0,005
0,01
0,019
0,033
0,057
0,086
0,129
0,176
0,238
0,305
0,381
0,457
0,545
5
0,002
0,004
0,009
0,015
0,026
0,041
0,063
0,089
0,123
0,165
0,214
0,268
0,331
0,396
0,465
0,535
Pgina 152 -175
6
0,001
0,002
0,004
0,008
0,013
0,021
0,032
0,047
0,066
0,09
0,12
0,155
0,197
0,242
0,294
0,35
0,409
0,469
0,531

U
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
1
0,125
0,25
0,375
0,5
0,625
2
0,028
0,56
0,111
0,067
0,25
0,333
0,444
0,556
3
0,008
0,017
0,033
0,058
0,092
0,133
0,192
0,258
0,333
0,417
0,5
0,583
n1
4
0,003
0,006
0,012
0,021
0,036
0,055
0,082
0,115
0,158
0,206
0,264
0,324
0,394
0,464
0,538
5
0,001
0,003
0,005
0,009
0,015
0,024
0,037
0,053
0,074
0,201
0,134
0,172
0,216
0,265
0,319
0,378
0,438
0,5
0,562
6
0,001
0,001
0,002
0,004
0,007
0,011
0,17
0,026
0,037
0,051
0,069
0,09
0,117
0,147
0,183
0,223
0,267
0,314
0,365
0,418
0,473
0,527
7
0
0,001
0,001
0,002
0,003
0,006
0,009
0,013
0,019
0,027
0,036
0,049
0,064
0,082
0,104
0,13
0,159
0,191
0,228
0,267
0,31
0,355
0,402
0,451
0,5
0,549
Pag 153-175
n2 =7
Pgina 153 -175

Pag 154-175
n2 = 8
n1
U 1
2
3
4
5
6
7
8
t Normal
0
0 3,308 0,001
0 0,11 0,022 0,006 0,002 0,001 0
0 3,203 0,001
1 0,022 0,044 0,012 0,004 0,002 0,001 0
2 0,333 0,089 0,024 0,008 0,003 0,001 0,001 0 3,098 0,001
3 0,444 0,133 0,042 0,014 0,005 0,002 0,001 0 2,993 0,001
4 0,556 0,2 0,067 0,024 0,009 0,004 0,002 0 2,888 0,002
0,267 0,097 0,036 0,015 0,006 0,003 0 2,783 0,003
5
0,356 0,139 0,055 0,023 0,01 0,005 0 2,678 0,004
6
0,444 0,188 0,077 0,033 0,015 0,007 0 2,573 0,005
7
0,556 0,248 0,107 0,047 0,021 0,01 0,01 2,468 0,007
8
0,315 0,141 0,064 0,03 0,014 0,01 2,363 0,009
9
0,387 0,184 0,085 0,041 0,02 0,01 2,258 0,012
10
0,461 0,23 0,111 0,054 0,027 0,01 2,153 0,016
11
0,539 0,285 0,142 0,071 0,036 0,02 2,048 0,02
12
0,341 0,177 0,091 0,047 0,03 1,943 0,026
13
0,404 0,217 0,114 0,06 0,03 1,838 0,033
14
0,467 0,262 0,141 0,076 0,04 1,733 0,041
15
0,533 0,311 0,172 0,095 0,05 1,628 0,052
16
17
0,362 0,207 0,116 0,07 1,523 0,064
0,416 0,245 0,14 0,08 1,418 0,068
18
0,472 0,286 0,168 0,1 1,313 0,094
19
0,528 0,331 0,198 0,12 1,208 0,113
20
0,377 0,232 0,14 1,102 0,135
21
22
0,426 0,268 0,16 0,998 0,159
0,475 0,306 0,19 0,893 0,185
23
0,525 0,347 0,22 0,788 0,215
24
0,389 0,25 0,683 0,247
25
0,433 0,29 0,578 0,282
26
27
0,478 0,32 0,473 0,318
0,522 0,36 0,668 0,356
28
0,4 0,263 0,396
29
0,44 0,158 0,437
30
0,48 0,052 0,481
31
0,52
32
Pgina 154 -175

Pag 155-175
TABLA X: Prueba U de Mann-Whitney (rango n2 9-20)
(ensayo de una y dos colas)
Valores crticos de U para una cola : = 0,025 y para dos colas: = 0,05
n1
10
11
12
13
14
15
16
17
18
19
20
0
2
4
7
10
12
15
17
20
23
26
28
31
34
37
39
42
45
48
0
3
5
8
11
14
17
20
23
26
29
33
36
39
42
45
48
52
55
0
3
6
9
13
16
19
23
26
30
33
37
40
44
47
51
55
58
62
1
4
7
11
14
18
22
26
29
33
37
41
45
49
53
57
61
65
69
1
4
8
12
16
20
24
28
33
37
41
45
50
54
59
63
67
72
76
1
5
9
13
17
22
26
31
36
40
45
50
55
59
64
67
74
78
83
1
5
10
14
19
24
29
34
39
44
49
54
59
64
70
75
80
85
90
1
6
11
15
21
26
31
37
42
47
53
59
64
70
75
81
86
92
98
2
6
11
17
22
28
34
39
45
51
57
63
67
75
81
87
93
99
105
2
7
12
18
24
30
36
42
48
55
61
67
74
80
86
93
99
106
112
2
7
13
19
25
32
38
45
52
58
65
72
78
85
92
99
106
113
119
2
8
13
20
27
34
41
48
55
62
69
76
83
90
98
105
112
119
127
n2
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Pgina 155 -175

Pag 156-175
Valores crticos de U para una cola : = 0,05 y para dos colas: = 0,10
n1
10
11
12
13
14
15
16
17
18
19
20
1
3
6
9
12
15
18
21
24
27
30
33
36
39
42
45
48
51
54
1
4
7
11
14
17
20
24
27
31
34
37
41
44
48
51
55
58
62
1
5
8
12
16
19
23
27
31
34
38
42
46
50
54
57
61
65
69
2
5
9
13
17
21
26
30
34
38
42
47
51
55
60
64
68
72
77
2
6
10
15
19
24
28
33
37
42
47
51
56
61
65
70
75
80
84
2
7
11
15
21
26
31
36
41
46
51
56
61
66
71
77
82
87
92
3
7
12
18
23
28
33
39
44
50
55
61
66
72
77
83
88
94
100
3
8
14
19
25
30
36
42
48
54
60
65
71
77
83
89
95
101
107
3
9
15
20
26
33
39
45
51
57
64
70
77
83
89
96
102
109
115
4
9
16
22
28
35
41
48
55
61
68
75
82
88
95
102
109
116
123
4
10
17
23
30
37
44
51
58
65
72
80
87
94
101
109
116
123
130
4
11
18
25
32
39
47
54
62
69
77
84
92
100
107
115
123
130
138
n2
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Pgina 156 -175

Pag 157-175
TABLA XI: Prueba de dos muestras de Kolmogorov-Smirnov

Valores crticos para K
N
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
Una Cola
= 0.05 = 0.01
3
4
4
5
5
5
6
6
6
6
7
7
7
7
8
8
8
8
8
9
9
9
9
9
9
10
10
10
11
11
5
6
6
6
7
7
8
8
8
8
9
9
9
10
10
10
10
11
11
11
11
11
12
12
12
12
13
14
Dos Colas
= 0.05 = 0.01
4
5
5
6
6
6
7
7
7
7
8
8
8
8
9
9
9
9
9
10
10
10
10
10
11
11
11
12
13
5
6
6
7
7
8
8
8
9
9
9
10
10
10
10
11
11
11
11
12
12
12
12
13
13
13
14
14
Pgina 157 -175

Pag 158-175
Prueba de dos muestras de Kolmogorov-Smirnov (cont.)

Para muestras grandes (n > 40)
Valores de D > D mx
para rechazar Ho
0,10
1.22 H
0,05
1,36 H
0,025
1,48 H
0,01
1,63 H
0,005
1,73 H
0,001
1,95 H
Donde el factor es: H2 = (1 + 2) / (1 2)

Las muestras pueden ser iguales o distintas
Pgina 158 -175

Pag 159-175
Tabla de valores crticos de D (mxima discrepancia de frecuencias acumuladas) para una

prueba de una muestra de KOLMOGOROV-SMIRNOV
(prueba de dos colas)
Tamao
de la
muestra
(N)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
Ms de
35
Nivel de significacin
para D
0.05
0.01
0.975
0.842
0.708
0.624
0.565
0.521
0.486
0.457
0.432
0.410
0.391
0.375
0.361
0.349
0.338
0.328
0.318
0.309
0.301
0.294
0.27
0.24
0.23
0.995
0.929
0.828
0.733
0.669
0.618
0.577
0.543
0.514
0.490
0.468
0.450
0.433
0.418
0.404
0.392
0.381
0.371
0.363
0.356
0.32
0.29
0.27
1.36 / N
1.63 / N
Pgina 159 -175

Pag 160-175
TABLA XII: Prueba de rachas de Wald-Wolfowitz

Prueba de rachas para una muestra: = 0,05 (dos colas)
Tabla para Ho de menor o igual (todo r lmite tabulado es significativo 5%)
n2
n1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
2
2
2
3
3
3
3
3
3
3
3
4
4
4
4
4
2
2
3
3
3
3
3
4
4
4
4
4
4
4
5
5
5
2
2
3
3
3
3
4
4
4
4
5
5
5
5
5
5
6
6
2
2
3
3
3
4
4
5
5
5
5
5
6
6
6
6
6
6
2
3
3
3
4
4
5
5
5
6
6
6
6
6
7
7
7
7
2
3
3
4
4
5
5
5
6
6
6
7
7
7
7
8
8
8
10 11 12 13 14 15 16 17 18
2
3
3
4
5
5
5
6
6
7
7
7
7
8
8
8
8
9
2
3
4
4
5
5
6
6
7
7
7
8
8
8
9
9
9
9
2
2
3
4
4
5
6
6
7
7
7
8
8
8
9
9
9
10
10
2
2
3
4
5
5
6
6
7
7
8
8
9
9
9
10
10
10
10
2
2
3
4
5
5
6
7
7
8
8
9
9
9
10
10
10
11
11
2
3
3
4
5
6
6
7
7
8
8
9
9
10
10
11
11
11
12
2
3
4
4
5
6
6
7
8
8
9
9
10
10
11
11
11
12
12
2
3
4
4
5
6
7
7
8
9
9
10
10
11
11
11
12
12
13
2
3
4
5
5
6
7
8
8
9
9
10
10
11
11
12
12
13
13
19
20
2
3
4
5
6
6
7
8
8
9
10
10
11
11
12
12
13
13
13
2
3
4
5
6
6
7
8
9
9
10
10
11
12
12
13
13
13
14
Pgina 160 -175

Pag 161-175
Tabla para Ho de mayor o igual (todo r lmite tabulado es significativo 5%)

n2
n1
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
9
9
9
10
10
11
11
9
10
11
12
12
13
13
13
13
10
11
12
13
14
15
16
17
18
19
20
11
12
13
13
14
14
14
14
15
15
15
11
12
13
14
14
15
15
16
16
16
16
17
17
17
17
17
13
14
14
15
16
16
16
17
17
18
18
18
18
18
18
13
14
15
16
16
17
17
18
18
18
19
19
19
20
20
13
14
15
16
17
17
18
19
19
19
20
20
20
21
21
13
14
16
16
17
18
19
19
20
20
21
21
21
22
22
15
16
17
18
19
19
20
20
21
21
22
22
23
23
15
16
17
18
19
20
20
21
22
22
23
23
23
24
15
16
18
18
19
20
21
22
22
23
23
24
24
25
17
18
19
20
21
21
22
23
23
24
25
25
25
17
18
19
20
21
22
23
23
24
25
25
26
26
17
18
19
20
21
22
23
24
25
25
26
26
27
17
18
20
21
22
23
23
24
25
26
26
27
27
17
18
20
21
22
23
24
25
25
26
27
27
28
Pgina 161 -175

Pag 162-175
TABLA XIII: Prueba de Walsh

Pruebas
N
4
5
6
10
11
12
13
14
15
Nivel de
significacin de las
Dos colas: acptese 1 0 si ambas
pruebas
1 cola
2 colas
Una cola: acptese 1 < 0 si
Una cola: acptese 1 > 0 si
0.062
0.125
d4<0
d1>0
0.062
0.125
(d4+d5)<0
(d1+d2)>0
0.031
0.062
d6<0
d1>0
min[d2, (d1+d3)]>0
max[d5, (d4+d6)]<0
0.094
0.047
(d1+d2)>0
(d5+d6)<0
0.062
0.031
d1>0
d6<0
0.031
0.016
min[d3, (d1+d4)]>0
max[d5, (d4+d7)]<0
0.109
0.055
min[d2, (d1+d3)]>0
max[d6, (d5+d7)]<0
0.047
0.023
(d1+d2)>0
(d6+d7)<0
0.031
0.016
d1>0
d7<0
0.016
0.008
0.043
0.086
max[d5, (d4+d8)]<0
min[d3, (d1+d5)]>0
0.027
0.055
max[d6, (d5+d8)]<0
min[d3, (d1+d4)]>0
0.012
0.023
max[d7, (d6+d8)]<0
min[d2, (d1+d3)]>0
0.008
0.016
(d7+d8)<0
(d1+d2)>0
0.004
0.008
d8<0
d1>0
min[d4, (d1+d6)]>0
max[d6, (d4+d9)]<0
0.102
0.051
min[d3, (d1+d6)]>0
max[d7, (d5+d9)]<0
0.043
0.022
min[d2, (d1+d5)]>0
max[d8, (d6+d9)]<0
0.020
0.010
min[d2, (d1+d3)]>0
max[d8, (d7+d9)]<0
0.012
0.006
(d1+d2)>0
(d8+d9)<0
0.008
0.004
min[d5, (d1+d7)]>0
max[d6, (d4+d10)]<0
0.111
0.056
min[d4, (d1+d6)]>0
max[d7, (d5+d10)]<0
0.051
0,025
min[d3, (d1+d5)]>0
max[d8, (d6+d10)]<0
0.021
0.011
min[d2, (d1+d5)]>0
max[d9, (d6+d10)]<0
0.010
0.005
0.048
0.097
max[d7, (d4+d11)]<0
min[d5, (d1+d8)]>0
0.028
0.056
max[d7, (d5+d11)]<0
min[d5, (d1+d7)]>0
0.011
0.021
max[(d6+d11), (d8+d9)]<0
min[(d1+d6), (d3+d4)]>0
0.005
0.011
max[d9, (d7+d11)]<0
min[d3, (d1+d5)]>0
0.047
0.094
max[(d4+d12), (d6+d11)]<0
min[(d1+d9), (d2+d8)]>0
0.024
0.048
max[d8, (d5+d12)]<0
min[d5, (d1+d8)]>0
0.010
0.020
max[d9, (d6+d12)]<0
min[d4, (d1+d7)]>0
0.005
0.011
max[(d7+d12), (d9+d10)]<0
min[(d1+d6), (d8+d4)]>0
0.047
0.094
max[(d4+d13), (d6+d12)]<0
min[(d1+d10), (d2+d9)]>0
0.023
0.048
max[(d5+d13), (d6+d12)]<0
min[(d1+d9), (d2+d8)]>0
0.010
0.020
max[(d6+d12), (d9+d10)]<0
min[(d1+d8), (d4+d5)]>0
0.005
0.010
max[d10, (d7+d13)]<0
min[d4, (d1+d7)]>0
min[(d1+d11), (d2+d10)]>0
max[(d4+d14), (d5+d13)]<0
0.094
0.047
min[(d1+d10), (d2+d9)]>0
max[(d6+d11), (d6+d13)]<0
0.048
0.023
min[d5, (d1+d9)]>0
max[d10, (d5+d14)]<0
0.020
0.010
min[(d1+d8), (d4+d5)]>0
max[(d7+d14), (d10+d11)]<0
0.010
0.005
0.047
0.094
max[(d4+d15), (d6+d14)]<0
min[(d1+d12), (d2+d11)]>0
0.023
0.048
max[(d6+d15), (d6+d14)]<0
min[(d1+d11), (d2+d10)]>0
0.010
0.020
max[(d8+d15), (d10+d11)]<0
min[(d1+d10), (d5+d6)]>0
0.005
0.010
max[d11, (d7+d15)]<0
min[d5, (d1+d9)]>0
Pgina 162 -175

Pag 163-175
Tabla extrada de Walsh, J.E. (1949)
TABLA XIV: Prueba de Kruskal-Wallis (para muestras pequeas)

Tamao de
muestras
n
Tamao de
muestras
n2
n3
2,700
0,500
3,600
0,200
4,571
3,714
0,067
0,200
3,200
0,300
4,286
3,857
0,100
0,133
5,357
4,714
4,500
4,464
0,290
0,480
0,067
0,105
5,143
4,571
4,000
0,043
0,100
0,129
6,250
5,361
5,139
4,556
4,250
0,011
0,032
0,061
0,100
0,121
7,200
6,489
5,689
5,600
5,067
4,622
0,004
0,011
0,029
0,050
0,086
0,100
n2
n3
5,250
5,000
4,450
4,200
4,050
0,036
0,048
0,071
0,095
0,119
6,533
6,133
5,160
5,040
4,373
4,293
0,008
0,013
0,034
0,056
0,090
0,122
6,400
4,960
4,871
4,018
3,840
0,012
0,048
0,052
0,095
0,123
6,910
6,822
5,251
5,106
4,651
4,495
0,009
0,010
0,049
0,052
0,091
0,101
7,079
6,982
5,649
5,515
4,533
4,412
0,009
0,011
0,049
0,051
0,097
0,109
Pgina 163 -175

Tamao de
muestras
Tamao de
muestras
3,571
0,200
4,821
4,500
4,018
0,057
0,076
0,114
6,000
5,333
5,125
4,458
4,167
0,014
0,033
0,052
0,100
0,105
5,833
5,208
5,000
4,056
3,889
0,021
0,050
0,057
0,093
0,129
6,444
6,300
5,444
5,400
4,511
4,444
0,008
0,011
0,046
0,051
0,098
0,102
6,745
6,709
5,791
5,727
4,709
4,700
0,010
0,013
0,046
0,050
0,092
0,101
6,667
6,167
0,010
0,022
Pag 164-175
6,955
6,840
4,986
4,860
3,987
3,960
0,008
0,011
0,044
0,056
0,098
0,102
7,205
7,118
5,273
5,268
4,541
4,518
0,009
0,010
0,049
0,050
0,098
0,101
7,445
7,395
5,656
5,631
4,549
4,523
0,010
0,011
0,049
0,050
0,099
0,103
7,760
7,744
5,657
5,617
4,619
4,553
0,009
0,011
0,049
0,050
0,100
0,102
7,309
6,836
5,127
4,909
4,109
4,036
0,009
0,011
0,046
0,053
0,086
0,105
Pgina 164 -175

Tamao de
muestras
Pag 165-175
Tamao de
muestras
4,967
4,867
4,167
4,067
0,048
0,054
0,082
0,102
7,036
6,873
5,455
5,236
4,555
4,445
0,006
0,011
0,046
0,052
0,098
0,103
7,144
7,136
5,599
5,576
4,545
4,477
0,010
0,011
0,049
0,051
0,099
0,102
7,654
7,539
5,692
5,654
4,654
4,500
0,008
0,011
0,049
0,054
0,097
0,104
3,857
0,143
7,339
7,269
5,339
5,246
4,623
4,508
0,010
0,010
0,047
0,051
0,097
0,100
7,578
7,543
5,706
5,626
4,545
4,536
0,010
0,010
0,046
0,051
0,100
0,102
7,823
7,791
5,666
5,643
4,523
4,520
0,010
0,010
0,049
0,050
0,990
0,101
8,000
7,980
5,780
5,660
4,560
4,500
0,090
0,100
0,049
0,051
0,100
0,102
Pgina 165 -175

Pag 166-175
TABLA XV: Valores crticos del coeficiente de correlacin de Spearman

(prueba de una cola)
N
4
5
6
7
8
9
10
12
14
16
18
20
22
24
26
28
30
nivel de significacin
(una cola)
0.05
0.01
1.000
.900
1.000
.829
.943
.714
.893
.643
.833
.600
.783
.564
.746
.506
.712
.456
.645
.425
.601
.399
.564
.377
.834
.359
.508
.343
.485
.329
.465
.317
.448
.306
.432
Tabla extrada y adaptada de Estadstica No Paramtrica, de S. Siegel
Pgina 166 -175

Pag 167-175
TABLA XVI: Tabla de valores crticos del coeficiente de correlacin (tau) de Kendall
(prueba de una cola para || )
0,1
0,05
0,01
4
5
1,000
0,800
1,000
6
7
8
9
10
0,733
0,619
0,571
0,500
0,467
0,867
0,714
0,643
0,556
0,511
1,000
0,905
0,786
0,722
0,644
11
12
13
14
15
0,418
0,394
0,359
0,363
0,333
0,491
0,455
0,436
0,407
0,390
0,600
0,576
0,564
0,516
0,505
16
17
18
19
20
0,317
0,309
0,294
0,287
0,274
0,383
0,368
0,346
0,333
0,326
0,483
0,471
0,451
0,439
0,421
21
22
23
24
25
0,267
0,264
0,257
0,246
0,240
0,314
0,307
0,296
0,290
0,287
0,410
0,394
0,391
0,377
0,367
26
27
28
29
30
0,237
0,231
0,228
0,222
0,218
0,280
0,271
0,265
0,261
0,255
0,360
0,356
0,344
0,340
0,333
31
32
33
34
35
0,213
0,210
0,205
0,201
0,197
0,252
0,246
0,242
0,237
0,234
0,325
0,323
0,314
0,312
0,304
36
37
38
39
40
0,194
0,192
0,189
0,188
0,185
0,232
0,228
0,223
0,220
0,218
0,302
0,297
0,292
0,287
0,285
=1
Pgina 167 -175

Pag 168-175
TABLA XVII: Valores crticos para el coeficiente de correlacin (r) de Pearson

(correlacin de 2 variables: frmula del producto-momento)
=N2
1
0,05 0,997
0,01 1,000
=N2
24 0,05 0,388
0,01 0,496
0,05 0,950
0,01 0,990
25
0,05 0,381
0,01 0,487
0,05 0,778
0,01 0,959
26
0,05 0,374
0,01 0,478
0,05 0,811
0,01 0,917
27
0,05 0,367
0,01 0,470
0,05 0,754
0,01 0,874
28
0,05 0,361
0,01 0,463
0,05 0,707
0,01 0,834
29
0,05 0,355
0,01 0,456
0,05 0,666
0,01 0,798
30
0,05 0,349
0,01 0,449
0,05 0,632
0,01 0,765
35
0,05 0,325
0,01 0,418
0,05 0,602
0,01 0,735
40
0,05 0,304
0,01 0,393
10
0,05 0,576
0,01 0,708
45
0,05 0,288
0,01 0,372
11
0,05 0,553
0,01 0,684
50
0,05 0,273
0,01 0,354
12
0,05 0,532
0,01 0,661
60
0,05 0,250
0,01 0,325
13
0,05 0,514
0,01 0,641
70
0,05 0,232
0,01 0,302
14
0,05 0,497
0,01 0,623
80
0,05 0,217
0,01 0,283
15
0,05 0,482
0,01 0,606
90
0,05 0,205
0,01 0,267
Pgina 168 -175

=N2
16 0,05 0,468
0,01 0,590
Pag 169-175
=N2
100 0,05 0,195
0,01 0,254
17
0,05 0,456
0,01 0,575
125
0,05 0,174
0,01 0,228
18
0,05 0,444
0,01 0,561
150
0,05 0,159
0,01 0,208
19
0,05 0,433
0,01 0,549
200
0,05 0,138
0,01 0,181
20
0,05 0,423
0,01 0,537
300
0,05 0,113
0,01 0,148
21
0,05 0,413
0,01 0,526
400
0,05 0,098
0,01 0,128
22
0,05 0,404
0,01 0,515
500
0,05 0,088
0,01 0,115
23
0,05 0,396
0,01 0,505
1.000 0,05 0,062

0,01 0,081
Pgina 169 -175

Pag 170-175
TABLA XVIII: Valores crticos de s en el coeficiente de concordancia de Kendall

N
k
3
3
4
5
6
8
10
15
20
3
4
5
6
8
10
15
20
48.1
60.0
89.8
119.7
66.8
85.1
131.0
177.0
4
5
6
7
Valores al nivel de significacin 0.05
64.4
103.9
157.3
49.5
88.4
143.3
217.0
62.6
112.3
182.4
276.2
75.7
136.1
221.4
335.2
101.7
183.7
299.0
453.1
127.8
231.2
376.7
571.0
192.9
349.8
570.5
864.9
258.0
468.5
764.4
1158.7
Valores al nivel de significacin 0.01
75.6
122.8
185.6
61.4
109.3
176.2
265.0
80.5
142.8
229.4
343.8
99.5
176.1
282.4
422.6
137.4
242.7
388.3
579.9
175.3
309.1
494.0
737.0
269.8
475.2
758.2
1129.5
364.2
641.2
1022.2
1521.9
Valores adicionales
para N=3
k
s
9
12
14
16
18
54.0
71.9
83.8
95.8
107.7
9
12
14
16
18
75.9
103.5
121.9
140.2
158.6
Tabla extrada y adaptada de Estadstica No Paramtrica, de S. Siegel
Pgina 170 -175

INDICE ALFABETICO
A
alfa 34
ANALISIS DE CASOS Y CONTROLES 131
ANLISIS DE COVARIANZA 73
anlisis de varianza 59
anlisis secuencial de pares 86
ANCOVA 73
ANOVA 59
ANOVA DE DOS VAS 69
ANOVA DE DOS VAS POR RANGOS 101
ANOVA de Friedman 101
ANOVA DE UNA VA 66
ANOVA DE UNA VA POR RANGOS 102
ANOVA FACTORIAL 70
asociacin entre las variables en estudio 134
ASOCIACIN Y CORRELACIN LINEAL 52
azar 11
B
Binomial Acumulada 150
C
Calidad Media de Salida 84
Cantidad media de inspeccin 84
casos y controles 131
Ch
chance 135
C
CIEGO, DOBLE CIEGO Y TRIPLE CIEGO 38
Cifras significativas 14
cociente de medias cuadradas 64
COEFICIENTE DE CONCORDANCIA 108
COEFICIENTE DE CONTINGENCIA C 103
coeficiente de correlacin 53
COEFICIENTE DE CORRELACION DE RANGOS 106
COEFICIENTE DE CORRELACION PARCIAL DE
RANGO 107
Cohorte abierta 127
cohorte cerrada 127
COHORTES 122
concordancia 170
Control de Calidad 81
CONTROL DE CALIDAD 77
CORRELACIN LINEAL MLTIPLE 54
CORRELACIN NO LINEAL 54
covarianza 53
CRITERIO ESTADISTICO 10
cuadro ANOVA 65
CUADRO DE CONTROL DE CALIDAD 6 78
Pag 171-175
curva de Gauss Ver Distribucin Normal

CURVAS DE SUPERVIVENCIA 140
D
desenlace 123
Desviacin standard 22
Desviacin Standard 5
determinismo 11
Diagnstico principal 139
Das-camas disponibles 139
Das-camas ocupadas 139
diferencias entre ensayos Paramtricos y No Paramtricos 33
DISEOS SIMETRICOS 42
DISTRIBUCIN 2 (JI-CUADRADO) 89
DISTRIBUCIN BINOMIAL 56
DISTRIBUCIN DE POISSON 56
Distribucion Normal 143
distribucin normal 25
DISTRIBUCION ZETA 45
distribuciones estadsticas 21
DOCIMASIA BIOLGICA 75
E
Egresos totales 139
ENSAYO DE RECTAS PARALELAS 75
ENSAYOS 32
ENSAYOS AGRUPADOS 38
ENSAYOS APAREADOS 38
ENSAYOS NO PARAMTRICOS 88
EPIDEMIOLOGIA 111
Error Absoluto 15
Error Relativo 15
Error standard 22
Error Standard 5
errores 14
ERRORES DE TIPO I Y DE TIPO II 34
estadstica 2, 4, 10
ESTADSTICA INFERENCIAL 31
estrategia epidemiologa 115
estudios de cohorte 123
EXACTITUD 28
F
factor causal 63
Factor de Riesgo 118
FRACCION DE DEFECTUOSOS DEL LOTE 83
frecuencia relativa 12
frecuencias esperadas 91
F-Snedecor 65, 145
G
Giro cama 139
GRADOS DE LIBERTAD 61
GRFICOS DE CONTROL DE CALIDAD 77
Pgina 171 -175

INDICE ALFABETICO
Pag 172-175
HIPOTESIS ALTERNATIVA 34
HIPOTESIS ESTADISTICAS 33
HIPOTESIS NULA 34
histograma de barras 19
Observacin individual 16
odds Ver Chance
ODDS RATIO Ver Razn de Chances
OR Ver Razn de Chances
ortogonales 63
outcomes Ver desenlace
I
Incidencia 127
Indicadores de morbilidad 121
Indicadores de natalidad 120
INDICADORES SANITARIOS 119
ndices 120
INDICES HOSPITALARIOS 139
interacciones Ver ANOVA factorial
Intervalo de confianza 25
J
ji cuadrado 147
ji-cuadrado 89
K
Kendall 167, 170
KENDALL 108
KENDALL () 106
Kolmogorov-Smirnov 157
KOLMOGOROV-SMIRNOV 96
Kruskal-Wallis 163
KRUSKAL-WALLIS 102
P
PARMETROS ESTADSTICOS 22
pareamientos 131
Pearson 168
plan secuencial de muestreo 82
Poblacin 16
POBLACIONES NORMALES 45
polgono de frecuencias 19
Porcentaje de ocupacin 139
POTENCIA DEL ENSAYO 34
potencia relativa 75
PRECISION 28
probabilidad 11
producto-momento 168
Proporciones 120
Prueba de bondad de ajuste 91
PRUEBA DE LAS RACHAS 97
PRUEBA DE LOS RANGOS 93
PRUEBA DE LOS SIGNOS 92
PRUEBA DE McNEMAR 91
PRUEBA DE MOSES 98
PRUEBA DE WALSH 99
PRUEBA Q DE COCHRAN 100
PRUEBA U DE MANN-WHITNEY 95
Q
Q de Cochran 100
LIMITES DE CONTROL 6 78
M
matriz 55
Media aritmtica 22
MEDIA CUADRADA 61
Mediana 22
MEDICIONES EN EPIDEMIOLOGIA 118
METODO DE LA EPIDEMIOLOGIA 115
Moda 22
Modelos tericos en ANOVA 66
Muestra 16
MUESTREO 38
MUESTREO SECUENCIAL 81
N
Nmero de camas disponibles 139
Nmero de camas totales 139
Numeros Aleatorios 142
R
r 53
rachas 98
Rango 22
RAZON DE CHANCES 135
razn de mortalidad estandarizada 130
razn de productos cruzados Ver Razn de Chances
Razones 120
REACCIONES EXTREMAS 98
RECHAZO DE HIPOTESIS 37
REGRESIN LINEAL 53
Reingresos. 139
Riesgo 118
Riesgo absoluto 118
Riesgo Atribuible 128, 129
Riesgo Atribuible Poblacional 128
Riesgo Atribuible Porcentual 128
RIESGO CALCULADO 31
Riesgo relativo 118
Riesgo Relativo 127, 128
Risk Ratio Ver Riesgo Relativo
Pgina 172 -175

INDICE ALFABETICO
RME Ver Razn de mortalidad estandarizada
U de Mann-Whitney 152
unidad de anlisis 116
unidad de muestreo 117
sensibilidad del instrumento de medida 15

sobrevida 140
Spearman 166
sucesos mutuamente excluyentes 13
sucesos mutuamente independientes 13
SUMA DE CUADRADOS 61
T
tabla de contingencia 2x2 89
tabla tetracrica Ver tabla de contingencia 2x2
TABLAS DE CONTINGENCIA 89
tasa de exposicin 134
tasa de incidencia 127
Tasa de morbilidad 121
Tasa de mortalidad especfica 122
Tasa de prevalencia 121
tasa resumen 119
Tasas 119
tau 167
tau de Kendall 106
TEST DE UNA COLA Y DE DOS COLAS 36
TEST t-STUDENT 49
t-Student 144
Pag 173-175
V
Valores normales 48
VALORES NORMALES 29
variables aleatorias 14
Varianza 5, 22
vector 55
W
Wald-Wolfowitz 160
WALD-WOLFOWITZ 97
Walsh 162
WILCOXON 93
Z
ZETA 45
Pgina 173 -175

BIBLIOGRAFIA
Pag 174-175
BIBLIOGRAFIA
LIBROS INTRODUCTORIOS DE FACIL LECTURA Y COMPRENSION
Para estudiantes, graduados e investigadores del rea de las ciencias de la salud ,

el mejor texto introductorio de estadstica disponible:
1. NORMAN G.R. & STREINER D.L., Bioestadstica, Harcourt-Mosby, 1ra Ed., (1996)
2. MORONEY, M. J., Hechos y estadsticas, EUDEBA, 2da Ed., (1968)

3. LISON, L., Estadstica aplicada a la biologa experimental, EUDEBA, (1976)
4. MACCHI, R. L.,Introduccin a la estadstica en ciencias de la salud, Ed. Panamericana,
(2001)
5. JENICEK, M. y CLROUX, R., Epidemiologa, Ed. Cientficas y Tcnicas SA, (1993)
6. JUEZ MARTEL, P. y DEZ VEGAS, F. J., Probabilidad y estadstica en medicina, Ed. Daz de
Santos, Madrid, (1996)
7. IRALA, J., FERNNDEZ-CREHUET, R. Apuntes de Epidemiologa general: conceptos
tericos y ejercicios prcticos. Pamplona: Newbook Ediciones, (1996)
LIBROS
DE
NIVEL
INTERMEDIO
QUE
REQUIEREN
CIERTA
EXPERIENCIA
ESTADISTICA PREVIA
1. SNEDECOR, G. W., Mtodos estadsticos, Ed. Continental (Mxico), 5 Ed, (1964)
2. SIEGEL, S., Estadstica no paramtrica, Ed. Trillas (Venezuela), 3ra Ed., (1990)
3. MATHER, K., Statistical Analysis in biology, Chapman & May, 5th Ed., (1972)
4. SOKAL, R. R. y ROHLF, F. J., Biometry, WH Freeman & Co, 2 Ed., (1981)
5. LEWIS, A. E., Bioestadstica, Ed. CECSA, (1969)
6. CONOVER, W. J., Practical Nonparametric Statistics, 3rd Ed., J. Wiley & Sons, (1999)
7. REMINGTON, R. y SCHORK, M., Estadstica Biomtrica y Sanitaria, Prentice Hall, (1974)
LIBROS AVANZADOS PARA CONSULTA O PERFECCIONAMIENTO
1. CRMER, H., Teora de probabilidad y aplicaciones, Ed. Aguilar, (1966)
Pgina 174 -175

BIBLIOGRAFIA
Pag 175-175
2. PUGACHEV V .S., Introduccin a la teora de probabilidades, MIR (Mosc), (1973)

3. HOLLANDER, M. y WOLFE, D., Nonparametric Statistical Methods, J. Wiley & Sons, (1973)
4. FINNEY, D. J., Statistical method in biological assay, Griffin & Co,2nd Ed., (1964)
5. FEINSTEIN , A. R., Principles of Medical Statistics, Chapman & Hall/CRC, (2002)
6. PAPOULLIS, A., Probability & Statistics, Prentice Hall, (1990)
7. FISHMAN, G. S., Conceptos y mtodos en la simulacin digital de eventos discretos, Ed.
Limusa, Mxico, (1978)
8. PARZEN, E., Procesos estocsticos, Ed. Paraninfo (Madrid), 1ra Ed., (1972)
9. RIFFEMBURG, R. H.; Statistics in Medicine, Academic Press, (1999)
10. STEEL, R. G. D. y TORRIE, J. H., Bioestadstica: Principios y Procedimientos, McGraw-Hill,
(1985)
11. ARMITAGE, P. y BERRY, G., Statistical Methods in Medical Research, Blackwell Science,
Pub., Oxford (London), (1987)
12. DOCUMENTA GEIGY (Seccin Estadstica-TABLAS ESTADISTICAS), VI Edicin, Basilea
(SUIZA), (1965)
LIBROS DE FACIL LECTURA PARA APRENDER LA BASE MATEMTICA QUE
REQUIERE LA ESTADISTICA
1. BOUTELOUP, J., Clculo de matrices, Cuadernos EUDEBA, (1966)
Una fcil introduccin al lgebra lineal que no presume ningn conocimiento previo
2. KEMENY, J. G, MIRKIL, H.,SNELL, J, L.,THOMPSON, G. L. Estructuras matemticas finitas,
Manuales EUDEBA, (1967)
Excelente y muy ameno libro de introduccin al lgebra lineal, el anlisis combinatorio,

la lgica y el clculo de probabilidades y que tampoco presume ningn conocimiento
previo por parte del lector ms all de las cuatro operaciones aritmticas. Es la mejor
opcin para complementar la cultura matemtica. Altamente recomendable.
Pgina 175 -175

Manualestadísticaprácticav 1020

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Manualestadísticaprácticav 1020

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD DE BUENOS AIRES

MANUAL DE ESTADSTICA PRCTICA

Edicin v.1.02 (Marzo 2008)

MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)

COMO LEER ESTE MANUAL

Por lo tanto, recomendamos especialmente a los alumnos de pregrado y posgrado de las

MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)

TABLA DE SIMBOLOS Y ABREVIATURAS FRECUENTES

Sumatoria (suma) de las n observaciones individuales xi (donde 1 i n)

ES Error Standard muestral (= s / n )

F Estadstico de ensayo de la prueba F-Snedecor (Fisher)

, Error de Tipo I (nivel de significacin), Error del Tipo II

MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)

3.9. ANOVA FACTORIAL ..........................................................................................69

TABLA XII: Prueba de rachas de Wald-Wolfowitz ......................................................160

MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)

MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

CAPITULO 1: ESTADISTICA DESCRIPTIVA

MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)

MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

1.1. ESTADSTICA BUENA Y ESTADISTICA MALA

La estadstica no tiene valoracin tica asociada. No es buena ni es mala, simplemente depende de

El profesional debe tener un mnimo conceptual de conocimientos de estadstica descriptiva e

En este captulo comenzaremos tratando algunos conceptos y fundamentos bsicos de la estadstica

MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

1.2. DETERMINISMO Y AZAR

El determinismo o CAUSALIDAD es el modelo conceptual que define que a todo efecto le

Cuando sobre un sistema actan causas desconocidas (CASUALIDAD) (generalmente mltiples) y

Definicin emprica de probabilidad:

MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)

MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

Ejemplo: qu probabilidad tiene un estudiante que ingresa a la facultad de Odontologa de finalizar

La probabilidad que ocurran simultneamente dos o ms sucesos mutuamente independientes

MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)

MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

Si elegimos un punto al azar en A, p(B|A) es la probabilidad

La probabilidad condicional de dos sucesos mutuamente independientes es igual a su

esta es la generalizacin de las leyes de la suma y del

MUESTREOS CON O SIN REPOSICIN

MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

a) Cual es la probabilidad de sacar dos bolillas negras? (Respuesta: p= (3/5)(2/4)=3/10 )

CUALITATIVAS: sexo, nacionalidad, etc.

SEMICUANTITATIVAS : (escalas) tipo grande, mediano, chico, etc.

CUANTITATIVAS: (numricas). Se pueden considerar dos casos:

DISCRETAS : (N enteros) nmero de piezas dentales, de caries, etc.

MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

ALEATORIOS (siempre presentes). Los errores sistemticos se controlan calibrando (midiendo la

VT = 1,7234 m (altura de una persona, el ltimo dgito en negritas - es aproximado)

MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)

MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

Estas son las definiciones bsicas y ms importantes de la estadstica.

MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

1.9. REPRESENTACIN ANALTICA Y GRFICA DE DATOS ESTADSTICOS

MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)

MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

MANUAL DE ESTADSTICA PRACTICA J.P.Hecht- Biofsica - FOUBA Ed. v.1.02 (2008)

MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

= limite inferior + h/2

A partir de la tabla de frecuencias agrupadas se grafica el histograma ordinario que consiste en

-Calculamos el nmero de intervalos de clase:

-Calculamos el tamao de los intervalos de clase: h = w/k = 0,42/8 = 0,0525 h =0,05

MANUAL DE ESTADISTICA PRCTICA para profesionales de la salud

-Graficamos el histograma ordinario, el polgono de frecuencias (panel izquierdo) y el polgono de